Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 so với DAMO-YOLO: Cuộc đối đầu kỹ thuật trong nhận diện đối tượng thời gian thực#

Bối cảnh thị giác máy tính đang không ngừng phát triển, với các kiến trúc mới vượt qua giới hạn của những gì có thể thực hiện được trong nhận diện đối tượng thời gian thực. Hai ứng cử viên đáng chú ý trong lĩnh vực này là YOLOv6-3.0 và DAMO-YOLO. Cả hai model đều giới thiệu những cải tiến kiến trúc độc đáo được thiết kế nhằm tối đa hóa hiệu suất trên phần cứng công nghiệp. Hướng dẫn này cung cấp một bản so sánh kỹ thuật toàn diện giữa hai model này, khám phá kiến trúc, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng, đồng thời giới thiệu những lợi thế thế hệ mới của các model Ultralytics như YOLO26.

Link to this sectionHồ sơ Model#

Link to this sectionYOLOv6-3.0: Thông lượng cấp công nghiệp#

Được phát triển bởi Bộ phận AI Thị giác tại Meituan, YOLOv6-3.0 được thiết kế đặc biệt cho các ứng dụng công nghiệp có thông lượng cao. Nó tập trung mạnh vào việc tối đa hóa hiệu suất trên các bộ tăng tốc phần cứng như GPU NVIDIA.

YOLOv6-3.0 giới thiệu module Bi-directional Concatenation (BiC) để cải thiện quá trình kết hợp đặc trưng và sử dụng chiến lược Anchor-Aided Training (AAT). Chiến lược này kết hợp các lợi ích của cả detector dựa trên anchor và detector không dùng anchor trong quá trình huấn luyện, trong khi vẫn giữ cho suy luận hoàn toàn không dùng anchor. Backbone EfficientRep của nó giúp model trở nên thân thiện với phần cứng khi xử lý batch trên GPU, lý tưởng cho việc xử lý lượng lớn dữ liệu video understanding.

Tìm hiểu thêm về YOLOv6

Link to this sectionDAMO-YOLO: Nhanh và chính xác thông qua NAS#

Được tạo ra bởi Alibaba Group, DAMO-YOLO tận dụng Neural Architecture Search (NAS) để tự động khám phá các cấu trúc backbone hiệu quả nhất cho suy luận thời gian thực.

  • Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, và cộng sự.
  • Tổ chức: Alibaba Group
  • Ngày: 2022-11-23
  • Arxiv: 2211.15444v2
  • GitHub: tinyvision/DAMO-YOLO

DAMO-YOLO nổi bật với RepGFPN (Reparameterized Generalized Feature Pyramid Network) dùng cho việc kết hợp đặc trưng đa quy mô hiệu quả và thiết kế ZeroHead giúp giảm đáng kể chi phí tính toán trong đầu dò (detection head). Nó cũng kết hợp gán nhãn AlignedOTA và các kỹ thuật chưng cất tri thức (knowledge distillation) mạnh mẽ để tăng độ chính xác mà không làm tăng số lượng tham số của model.

Tìm hiểu thêm về DAMO-YOLO

Chi phí chưng cất tri thức

Mặc dù DAMO-YOLO đạt được độ chính xác tuyệt vời, sự phụ thuộc nặng nề vào chưng cất tri thức trong quá trình huấn luyện đòi hỏi một model "giáo viên" lớn hơn nhiều. Điều này làm tăng đáng kể bộ nhớ CUDA cần thiết trong giai đoạn huấn luyện so với các kiến trúc đơn giản hơn.

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các model nhận diện đối tượng, sự cân bằng giữa mean average precision (mAP) và tốc độ suy luận là rất quan trọng. Dưới đây là so sánh chi tiết giữa YOLOv6-3.0 và DAMO-YOLO trên các quy mô model khác nhau.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv6-3.0 thể hiện tốc độ vượt trội trên các GPU NVIDIA khi sử dụng các tối ưu hóa TensorRT, đặc biệt là ở các biến thể nano và small. Tuy nhiên, các backbone được tối ưu hóa bằng NAS của DAMO-YOLO thường đòi hỏi ít FLOP hơn ở quy mô medium và large, dẫn đến những lợi thế nhỏ về độ trễ cho các triển khai quy mô lớn hơn.

Link to this sectionLợi thế của Ultralytics: Sự ra đời của YOLO26#

Mặc dù YOLOv6-3.0 và DAMO-YOLO là những công cụ mạnh mẽ, các nhà phát triển thường phải đối mặt với các thách thức về pipeline triển khai phức tạp, yêu cầu bộ nhớ cao trong quá trình huấn luyện và các kiến trúc đơn tác vụ cứng nhắc. Hệ sinh thái Ultralytics mang đến trải nghiệm nhà phát triển tinh gọn hơn đáng kể.

Với sự ra mắt của YOLO26, Ultralytics đã định nghĩa lại AI thị giác hiện đại. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đẩy xa giới hạn về hiệu suất và tính linh hoạt.

Link to this sectionNhững cải tiến chính trong YOLO26#

  • Thiết kế End-to-End không dùng NMS: Dựa trên các khái niệm tiên phong trong YOLOv10, YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression (NMS). Điều này giúp giảm đáng kể biến động độ trễ và đơn giản hóa việc triển khai trên các thiết bị biên thông qua CoreML hoặc TFLite.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa quy trình xuất model và nâng cao đáng kể khả năng tương thích với các vi điều khiển công suất thấp và phần cứng biên.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Đối với các ứng dụng thiếu phần cứng GPU chuyên dụng, các tối ưu hóa CPU của YOLO26 mang lại tốc độ vượt trội, vượt qua các model phụ thuộc nhiều vào GPU như YOLOv6.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM như Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa MuSGD (kết hợp giữa SGD và Muon) để đảm bảo việc huấn luyện ổn định và hội tụ nhanh chóng.
  • ProgLoss + STAL: Các hàm loss tiên tiến cải thiện đáng kể khả năng nhận diện các đối tượng nhỏ, khiến YOLO26 trở nên hoàn hảo cho các hoạt động drone và theo dõi mục tiêu từ xa.
  • Tính linh hoạt đa tác vụ: Không giống như DAMO-YOLO, vốn chỉ là một detector, YOLO26 cung cấp hỗ trợ sẵn có cho Instance Segmentation, Pose Estimation (thông qua Residual Log-Likelihood Estimation) và Oriented Bounding Boxes (OBB) trong một API thống nhất duy nhất.

Tìm hiểu thêm về YOLO26

Huấn luyện tiết kiệm bộ nhớ

Không giống như các kiến trúc transformer phức tạp như RT-DETR hoặc các pipeline nặng về chưng cất tri thức của DAMO-YOLO, các model của Ultralytics nổi tiếng với dấu chân VRAM thấp. Bạn có thể dễ dàng huấn luyện model YOLO26 trên phần cứng tiêu dùng.

Link to this sectionQuy trình làm việc với Python tinh gọn#

Việc huấn luyện và triển khai các model hiện đại không nên đòi hỏi hàng trăm dòng mã boilerplate. Gói Python của Ultralytics đơn giản hóa vòng đời machine learning.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng lý tưởng#

Việc lựa chọn kiến trúc phù hợp hoàn toàn phụ thuộc vào các ràng buộc triển khai của bạn:

Link to this sectionKhi nào nên dùng YOLOv6-3.0#

  • Phân tích video batch cao: Tuyệt vời cho việc xử lý các luồng video dày đặc trên các máy chủ GPU doanh nghiệp, nơi TensorRT có thể được tận dụng tối đa.
  • Tự động hóa công nghiệp: Các dây chuyền sản xuất tốc độ cao thực hiện phát hiện lỗi kiểm soát chất lượng.

Link to this sectionKhi nào nên dùng DAMO-YOLO#

  • Silicon tùy chỉnh: Nghiên cứu ánh xạ Neural Architecture Search cho phần cứng NPU chuyên dụng, độc quyền.
  • Nghiên cứu học thuật: Đánh giá các kỹ thuật chưng cất tri thức mới lạ cho các mạng thời gian thực.

Link to this sectionKhi nào nên dùng Ultralytics YOLO26#

  • Triển khai trên thiết bị biên và di động: Thiết kế không dùng NMS, loại bỏ DFL và tốc độ CPU tăng 43% khiến nó trở thành nhà vô địch không thể tranh cãi cho các tích hợp iOS, Android và Raspberry Pi.
  • Từ tạo mẫu nhanh đến sản xuất: Sự tích hợp liền mạch với Ultralytics Platform cho phép các đội nhóm đi từ khâu gắn nhãn tập dữ liệu đến triển khai đám mây toàn cầu chỉ trong vài ngày, thay vì vài tháng.
  • Pipeline thị giác phức tạp: Khi một dự án yêu cầu phát hiện bounding box song song với các điểm mấu chốt tư thế người và mặt nạ phân đoạn chính xác cùng một lúc.

Link to this sectionKết luận#

Cả YOLOv6-3.0 và DAMO-YOLO đều đóng góp đáng kể vào khoa học nhận diện đối tượng thời gian thực. YOLOv6 đã tinh chỉnh việc tối đa hóa GPU, trong khi DAMO-YOLO thể hiện sức mạnh của việc tìm kiếm kiến trúc tự động.

Tuy nhiên, đối với các nhà phát triển tìm kiếm sự kết hợp tối thượng giữa độ chính xác, tốc độ suy luận và khả năng duy trì hệ sinh thái, gia đình Ultralytics YOLO vẫn là lựa chọn hàng đầu. Với những tối ưu hóa mang tính đột phá được giới thiệu trong YOLO26, rào cản gia nhập để tạo ra các ứng dụng thị giác máy tính cấp doanh nghiệp chưa bao giờ thấp hơn thế.

Để khám phá thêm, bạn có thể quan tâm đến việc so sánh các model này với các kiến trúc khác trong tài liệu của chúng tôi, chẳng hạn như YOLO11 hoặc các phương pháp tiếp cận dựa trên transformer như RT-DETR.

Người đóng góp

Bình luận