Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv10 và YOLOv7#

Sự tiến bộ nhanh chóng của thị giác máy tính trong vài năm qua đã tạo ra các kiến trúc ngày càng hiệu quả cho các ứng dụng thời gian thực. Việc so sánh YOLOv10YOLOv7 làm nổi bật một giai đoạn chuyển đổi quan trọng trong quá trình phát triển này. Trong khi YOLOv7 giới thiệu các chiến lược huấn luyện và mở rộng kiến trúc hiệu quả cao, thì YOLOv10 đã cách mạng hóa quá trình triển khai bằng cách loại bỏ sự phụ thuộc lâu nay vào Non-Maximum Suppression (NMS).

Cả hai mô hình đều vượt qua các ranh giới của phát hiện đối tượng vào thời điểm ra mắt, tuy nhiên hệ sinh thái Ultralytics hiện đại và sự ra đời của các mô hình thế hệ mới như YOLO26 cung cấp các quy trình làm việc vượt trội hơn nhiều cho các kỹ sư AI ngày nay.

Link to this sectionThông tin và Nguồn gốc Mô hình#

Việc hiểu rõ nguồn gốc của các mô hình này cung cấp bối cảnh giá trị liên quan đến các lựa chọn thiết kế kiến trúc và nghiên cứu học thuật đằng sau chúng.

Link to this sectionChi tiết về YOLOv10#

Tìm hiểu thêm về YOLOv10

Link to this sectionChi tiết về YOLOv7#

Tìm hiểu thêm về YOLOv7

Link to this sectionCải tiến kiến trúc#

Link to this sectionPhương pháp tiếp cận của YOLOv7#

Ra mắt năm 2022, YOLOv7 tập trung mạnh mẽ vào việc tối ưu hóa các đường dẫn gradient. Nó giới thiệu mạng Extended Efficient Layer Aggregation Network (E-ELAN), cho phép mô hình học các đặc trưng đa dạng hơn mà không phá vỡ đường dẫn gradient gốc. Hơn nữa, các tác giả đã triển khai phương pháp "trainable bag-of-freebies", sử dụng các kỹ thuật tái tham số hóa trong quá trình huấn luyện có thể được hợp nhất trong giai đoạn suy luận để duy trì tốc độ thực thi nhanh. Mặc dù có những tối ưu hóa ấn tượng này, YOLOv7 vẫn phụ thuộc nhiều vào NMS cho hậu xử lý, tạo ra độ trễ biến đổi trong quá trình phân tích cảnh dày đặc.

Link to this sectionBước đột phá của YOLOv10#

YOLOv10 giải quyết trực tiếp nút thắt NMS. Bằng cách giới thiệu các phép gán kép nhất quán trong quá trình huấn luyện, đội ngũ từ Đại học Thanh Hoa đã cho phép phát hiện end-to-end không cần NMS. Cách tiếp cận hai đầu này sử dụng một nhánh với các phép gán one-to-many cho các tín hiệu giám sát phong phú trong khi huấn luyện, và một nhánh khác với các phép gán one-to-one cho suy luận không cần NMS. Sự thay đổi kiến trúc này đảm bảo độ trễ suy luận cực thấp và nhất quán, phù hợp cho phân tích video tốc độ cao. Hơn nữa, YOLOv10 sử dụng thiết kế mô hình hướng tới hiệu quả-độ chính xác tổng thể, loại bỏ sự dư thừa tính toán tìm thấy ở các thế hệ trước.

Tác động của hậu xử lý

Việc loại bỏ hậu xử lý NMS không chỉ tăng tốc độ suy luận mà còn đơn giản hóa đáng kể việc triển khai trên phần cứng AI biên, chẳng hạn như các bộ tăng tốc AI và NPU, nơi các thao tác NMS tùy chỉnh nổi tiếng là khó biên dịch.

Link to this sectionSo sánh hiệu năng#

Khi so sánh các chỉ số thô trên tập dữ liệu MS COCO, khoảng cách thế hệ trở nên rõ ràng. YOLOv10 đạt được sự đánh đổi thuận lợi hơn nhiều giữa các tham số, yêu cầu tính toán và độ chính xác.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Như đã thấy ở trên, YOLOv10x mang lại mAP vượt trội là 54,4% so với 53,1% của YOLOv7x, trong khi sử dụng ít hơn khoảng 20% tham số. Hơn nữa, các mô hình YOLOv10 nhẹ (Nano và Small) cung cấp tốc độ triển khai TensorRT đặc biệt, khiến chúng trở nên rất hấp dẫn cho việc triển khai trên thiết bị di động.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Mặc dù việc nghiên cứu các bài báo kiến trúc rất sâu sắc, sự phát triển thị giác máy tính hiện đại dựa trên các framework mạnh mẽ và được bảo trì tốt. Việc lựa chọn một mô hình được hỗ trợ bởi Ultralytics mang lại lợi thế to lớn cho các nhà phát triển muốn chuyển đổi nhanh chóng từ nguyên mẫu sang sản xuất.

Link to this sectionPhát triển tinh gọn#

Cả YOLOv10 và YOLOv7 đều có thể được truy cập thông qua gói Python Ultralytics tiêu chuẩn. Điều này mang lại Tính dễ sử dụng vượt trội, thay thế hàng ngàn dòng mã boilerplate bằng một API đơn giản và trực quan. Hơn nữa, các mô hình Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc Transformer nặng nề, cho phép sử dụng kích thước batch lớn hơn trên phần cứng tiêu dùng.

Link to this sectionSự linh hoạt vô song#

Trong khi các kho lưu trữ cũ thường chỉ tập trung nghiêm ngặt vào phát hiện bbox, framework Ultralytics tích hợp hỗ trợ liền mạch cho rất nhiều tác vụ. Cho dù bạn đang thực hiện Instance Segmentation, Pose Estimation hay phát hiện Oriented Bounding Box (OBB), quy trình làm việc vẫn giữ nguyên.

Link to this sectionVí dụ mã: Quy trình huấn luyện nhất quán#

Đoạn mã sau đây minh họa quy trình huấn luyện liền mạch, tự động xử lý data augmentation và lập lịch tốc độ học:

from ultralytics import YOLO

# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")

# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Export to ONNX format for rapid deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv10 và YOLOv7 phụ thuộc vào yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 là một lựa chọn mạnh mẽ cho:

  • Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
  • Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
  • Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn YOLOv7#

YOLOv7 được khuyến nghị cho:

  • Academic Benchmarking: Tái tạo các kết quả state-of-the-art của kỷ nguyên 2022 hoặc nghiên cứu các hiệu ứng của kỹ thuật E-ELAN và trainable bag-of-freebies.
  • Nghiên cứu về Reparameterization: Khám phá các convolution được lập kế hoạch tái tham số hóa và các chiến lược compound model scaling.
  • Các pipeline tùy chỉnh hiện có: Các dự án với các pipeline tùy chỉnh nặng nề được xây dựng dựa trên kiến trúc cụ thể của YOLOv7 mà không thể dễ dàng tái cấu trúc.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionTiêu chuẩn mới: Giới thiệu YOLO26#

Trong khi YOLOv10 là một bước tiến vượt bậc vào năm 2024, bối cảnh thị giác máy tính thay đổi cực kỳ nhanh chóng. Đối với tất cả các dự án phát triển mới, chúng tôi đặc biệt khuyến nghị mô hình thế hệ mới nhất: Ultralytics YOLO26. Ra mắt vào tháng 1 năm 2026, đây là đỉnh cao tuyệt đối của AI thị giác thời gian thực, thay thế hoàn toàn cả YOLOv7 và YOLOv10.

Tìm hiểu thêm về YOLO26

YOLO26 mang đến những cải tiến chưa từng có được thiết kế đặc biệt cho các môi trường triển khai hiện đại:

  • Thiết kế End-to-End không cần NMS: Xây dựng trên nền tảng của YOLOv10, YOLO26 loại bỏ hoàn toàn hậu xử lý NMS để có các pipeline triển khai đơn giản hơn và suy luận tốc độ cao nhất quán.
  • Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho điện toán biên và các thiết bị thiếu GPU chuyên dụng, mang lại khả năng tiết kiệm chi phí phần cứng rất lớn.
  • Loại bỏ DFL: Distribution Focal Loss đã bị loại bỏ hoàn toàn, giúp đơn giản hóa logic xuất và cải thiện đáng kể khả năng tương thích với các thiết bị biên công suất thấp và vi điều khiển.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang các cải tiến huấn luyện Large Language Model (LLM) trực tiếp vào thị giác máy tính, tạo ra động lực huấn luyện cực kỳ ổn định và hội tụ nhanh hơn.
  • ProgLoss + STAL: Các hàm loss nâng cao này mang lại những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, một lĩnh vực vốn là thách thức quan trọng đối với máy bay không người lái, robot và giám sát thành phố thông minh.
  • Cải tiến theo tác vụ: YOLO26 không chỉ là một trình phát hiện. Nó bao gồm loss phân đoạn ngữ nghĩa chuyên dụng, Residual Log-Likelihood Estimation (RLE) cho theo dõi tư thế siêu chính xác và các thuật toán loss góc chuyên biệt để loại bỏ các vấn đề ranh giới OBB.
Quản lý tập dữ liệu và Huấn luyện

Để có trải nghiệm tốt nhất trong việc quản lý tập dữ liệu, huấn luyện YOLO26 và triển khai mô hình lên đám mây, hãy khám phá Ultralytics Platform. Nền tảng này cung cấp giao diện no-code bổ sung hoàn hảo cho Python SDK.

Link to this sectionCác trường hợp sử dụng thực tế#

Việc lựa chọn kiến trúc phù hợp phụ thuộc phần lớn vào phần cứng và các ràng buộc ứng dụng của bạn.

Link to this sectionKhi nào nên sử dụng YOLOv7#

YOLOv7 vẫn là một lựa chọn đáng tin cậy để duy trì các pipeline cũ vốn đã được tích hợp sâu với cấu trúc tensor cụ thể của nó hoặc khi cần tái lập các tiêu chuẩn học thuật từ năm 2022 và 2023. Nó hoạt động rất tốt trên các GPU máy chủ cao cấp.

Link to this sectionKhi nào nên sử dụng YOLOv10#

YOLOv10 tỏa sáng trong các kịch bản đòi hỏi độ trễ nghiêm ngặt, không thay đổi. Vì không có NMS, nó rất tuyệt vời cho việc đếm đám đông mật độ cao hoặc phát hiện lỗi sản xuất nơi số lượng đối tượng dao động mạnh nhưng thời gian xử lý mỗi khung hình phải giữ nguyên.

Link to this sectionKhi nào nên sử dụng YOLO26#

YOLO26 là lựa chọn dứt khoát cho bất kỳ dự án mới nào. Từ việc triển khai các hệ thống báo động an ninh phức tạp trên Raspberry Pi cơ bản đến việc chạy các phân tích video dựa trên đám mây khổng lồ, tốc độ CPU vượt trội và khả năng phát hiện đối tượng nhỏ tiên tiến của nó khiến nó vượt xa các thế hệ cũ.

Đối với các nhà phát triển muốn khám phá các kiến trúc hiện đại thay thế, chúng tôi cũng cung cấp hỗ trợ mở rộng cho các trình phát hiện dựa trên Transformer như RT-DETR và các tiêu chuẩn thế hệ trước như Ultralytics YOLO11.

Những người đóng góp

Bình luận