Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 so với YOLOv10#

Bối cảnh thị giác máy tính ngày càng trở nên phức tạp, khiến việc lựa chọn một model tối ưu trở thành quyết định then chốt đối với các lập trình viên và kỹ sư machine learning. Khi đánh giá sự phát triển của phát hiện đối tượng và các model Ultralytics YOLO, điều quan trọng là phải hiểu rõ sự đánh đổi giữa các hướng tiếp cận kiến trúc khác nhau. Hướng dẫn này cung cấp một bản so sánh kỹ thuật toàn diện giữa YOLOv6-3.0 và YOLOv10, hai model mang lại những ưu điểm riêng biệt cho các triển khai công nghiệp và tại biên (edge).

Link to this sectionTìm hiểu về YOLOv6-3.0: Được xây dựng cho hiệu suất công nghiệp#

Được phát triển nhằm tối đa hóa hiệu suất (throughput) trong các ứng dụng công nghiệp phía máy chủ, YOLOv6-3.0 ưu tiên suy luận nhanh trên các bộ tăng tốc phần cứng, đặc biệt là GPU. Bằng cách sử dụng một backbone được tối ưu hóa, model này hướng tới sự cân bằng giữa xử lý video tốc độ cao và độ chính xác cạnh tranh.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, và cộng sự.
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6

Link to this sectionĐiểm nổi bật về kiến trúc#

Cốt lõi của YOLOv6-3.0 nằm ở thiết kế thân thiện với phần cứng. Nó tích hợp mô-đun Bi-directional Concatenation (BiC) trong kiến trúc neck để tăng cường khả năng hợp nhất đặc trưng đa quy mô. Ngoài ra, mạng này tận dụng chiến lược Anchor-Aided Training (AAT) kết hợp một cách thông minh sự ổn định của các bộ phát hiện dựa trên anchor trong quá trình huấn luyện với tốc độ suy luận của mô hình không sử dụng anchor.

Được vận hành bởi backbone EfficientRep, model này thể hiện xuất sắc trong các tác vụ tự động hóa sản xuất cường độ cao, nơi xử lý theo lô trên phần cứng NVIDIA mạnh mẽ (như GPU T4 hoặc A100) là tiêu chuẩn. Mặc dù hoạt động hiệu quả trong các cụm máy chủ, nhưng sự phụ thuộc vào các tối ưu hóa phần cứng cụ thể có thể khiến nó kém hiệu quả hơn trên các CPU tại biên công suất thấp.

Tìm hiểu thêm về YOLOv6

Link to this sectionTìm hiểu về YOLOv10: Người tiên phong loại bỏ NMS#

Được giới thiệu hơn một năm sau đó, YOLOv10 đã thay đổi mô hình bằng cách giải quyết một trong những nút thắt cổ chai dai dẳng nhất trong các quy trình phát hiện truyền thống: xử lý hậu kỳ non-maximum suppression (NMS).

Tác giả: Ao Wang, Hui Chen, Lihao Liu, và cộng sự.
Tổ chức: Đại học Thanh Hoa
Ngày: 2024-05-23
Arxiv: 2405.14458
GitHub: THU-MIG/yolov10

Link to this sectionĐiểm nổi bật về kiến trúc#

Đóng góp chính của YOLOv10 cho lĩnh vực này là thiết kế end-to-end không cần NMS. Bằng cách sử dụng nhất quán dual assignments trong quá trình huấn luyện, mạng này buộc phải đưa ra chính xác một bounding box chất lượng cao cho mỗi đối tượng, loại bỏ nhu cầu về các thao tác NMS dựa trên heuristic trong quá trình suy luận. Cải tiến này làm giảm đáng kể độ trễ suy luận end-to-end và đơn giản hóa đáng kể logic triển khai trên các thiết bị tại biên như các bộ xử lý thần kinh (NPU).

Hơn nữa, model này tự hào với thiết kế hướng tới sự cân bằng toàn diện giữa hiệu quả và độ chính xác. Thông qua việc tối ưu hóa toàn diện các layer khác nhau, YOLOv10 cắt giảm đáng kể sự dư thừa về tính toán. Điều này làm cho nó rất phù hợp cho các môi trường bị hạn chế về tài nguyên, bao gồm xe tự hành và robot tại biên.

Tìm hiểu thêm về YOLOv10

Link to this sectionSo sánh hiệu năng chi tiết#

Khi benchmark các model này, hiệu suất thường được đo lường dựa trên độ chính xác, tốc độ và hiệu quả tham số. Bảng dưới đây minh họa cách các quy mô khác nhau của các kiến trúc này hoạt động.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this sectionPhân tích#

YOLOv10 liên tục đạt được mean average precision (mAP) vượt trội trên các hạng mục kích thước tương đương so với YOLOv6-3.0. Ví dụ, YOLOv10n đạt 39,5% mAP chỉ với 2,3 triệu tham số, trong khi YOLOv6-3.0n đạt 37,5% với số lượng tham số nhiều hơn gấp đôi. Tuy nhiên, YOLOv6-3.0n đạt được độ trễ suy luận TensorRT thuần túy nhanh hơn một chút trên GPU T4 (1,17ms), cho thấy sự tối ưu hóa sâu sắc của nó cho phần cứng xử lý song song.

Các cân nhắc khi triển khai

Mặc dù các chỉ số độ trễ thô trên GPU có thể hơi nghiêng về phía YOLOv6 trong các micro-benchmark, tính chất không cần NMS của YOLOv10 thường mang lại tốc độ pipeline end-to-end thực tế nhanh hơn, đặc biệt là trên phần cứng tại biên nơi xử lý hậu kỳ có thể gây nghẽn CPU.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv6 và YOLOv10 phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 là sự lựa chọn mạnh mẽ cho:

  • Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 được khuyến nghị cho:

  • Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
  • Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
  • Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Tại sao YOLO26 là sự lựa chọn ưu việt#

Mặc dù YOLOv6-3.0 và YOLOv10 cung cấp các kiến trúc cơ bản vững chắc, các môi trường sản xuất hiện đại đòi hỏi các model kết hợp độ chính xác đỉnh cao với khả năng sử dụng tối ưu. Đây là nơi khung model Ultralytics YOLO26 vượt trội hoàn toàn so với các bản phát hành học thuật độc lập.

Được phát hành vào tháng 1 năm 2026, YOLO26 kết hợp những cải tiến tốt nhất từ các năm trước và gói gọn chúng trong một hệ sinh thái được duy trì tỉ mỉ.

Link to this sectionNhững đổi mới chính của YOLO26#

  • Thiết kế end-to-end không cần NMS: Dựa trên khái niệm được tiên phong trong YOLOv10, YOLO26 loại bỏ nguyên bản xử lý hậu kỳ NMS, dẫn đến thời gian suy luận mượt mà và dễ dự đoán hơn, vốn dễ dàng đưa vào sản xuất hơn nhiều.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các tối ưu hóa của các mô hình ngôn ngữ lớn như Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn đáng kể.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Đối với các thiết bị tại biên, YOLO26 có các đơn giản hóa kiến trúc cụ thể, làm cho nó vượt trội đáng kể khi triển khai trên các chip IoT và CPU tiêu dùng.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa việc xuất head, cải thiện đáng kể khả năng tương thích với các công cụ triển khai công suất thấp như OpenVINO hoặc NCNN.
  • ProgLoss + STAL: Các công thức loss tiên tiến giúp tăng đáng kể độ chính xác trong nhận dạng đối tượng nhỏ, điều này rất quan trọng đối với các hoạt động drone UAV và theo dõi đối tượng ở xa.

Hơn nữa, không giống như các kho lưu trữ đơn tác vụ, hệ sinh thái Ultralytics xử lý một loạt các tác vụ thị giác khổng lồ ngay lập tức, bao gồm phát hiện bounding box, instance segmentation, phân loại ảnhước tính tư thế.

Link to this sectionHiệu quả huấn luyện và tối ưu hóa bộ nhớ#

Một ưu điểm quan trọng của các model Ultralytics YOLO so với các kiến trúc dựa trên Transformer như RT-DETR là mức tiêu thụ bộ nhớ CUDA cực thấp trong quá trình huấn luyện. Một lập trình viên có thể thoải mái tinh chỉnh YOLO26 trên GPU cấp tiêu dùng hoặc thông qua các tài nguyên đám mây miễn phí, góp phần đáng kể vào việc dân chủ hóa phát triển AI.

Link to this sectionVí dụ mã: Bắt đầu với YOLO26#

Sự dễ sử dụng được cung cấp bởi Ultralytics Python API cho phép bạn tải, huấn luyện và kiểm tra các model chỉ với vài dòng code.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Evaluate model performance on validation data
metrics = model.val()

# Run real-time NMS-free inference on a target image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for cross-platform deployment
model.export(format="onnx")

Tìm hiểu thêm về YOLO26

Link to this sectionKết luận và các tùy chọn thay thế#

Khi chọn giữa YOLOv6-3.0 và YOLOv10, quyết định phụ thuộc vào môi trường triển khai. YOLOv6-3.0 vẫn khả thi cho các backend máy chủ có hiệu suất cao, nhiều GPU và tập trung vào xử lý video theo lô. YOLOv10 cung cấp một kiến trúc thông minh hơn, không cần NMS, phù hợp hơn cho sự cân bằng giữa độ chính xác và tích hợp tại biên phức tạp.

Tuy nhiên, đối với các lập trình viên đang tìm kiếm hiệu suất không thỏa hiệp, được hỗ trợ bởi tài liệu toàn diện, ghi nhật ký đám mây thông qua Ultralytics Platform và tính linh hoạt đa tác vụ, YOLO26 là đề xuất cuối cùng.

Đối với các yêu cầu về cơ sở hạ tầng cũ, các nhóm cũng có thể xem xét thế hệ trước Ultralytics YOLO11, hoặc khám phá YOLO-World cho các khả năng phát hiện từ vựng mở độc đáo.

Những người đóng góp

Bình luận