YOLOv6 -3.0 so với DAMO- YOLO Cuộc đối đầu kỹ thuật trong phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đang không ngừng phát triển, với các kiến trúc mới liên tục mở rộng giới hạn của những gì có thể thực hiện được trong phát hiện đối tượng thời gian thực. Hai ứng cử viên đáng chú ý trong lĩnh vực này là YOLOv6 -3.0 và DAMO- YOLO Cả hai mô hình đều giới thiệu những cải tiến kiến trúc độc đáo được thiết kế để tối đa hóa hiệu suất trên phần cứng công nghiệp. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình này, khám phá kiến trúc, phương pháp đào tạo và các trường hợp sử dụng lý tưởng của chúng, đồng thời giới thiệu những lợi thế thế hệ tiếp theo của... Ultralytics Các mẫu như YOLO26.

Hồ sơ mô hình

YOLOv6 -3.0: Thông lượng cấp công nghiệp

Được phát triển bởi Bộ phận AI Thị giác tại Meituan, YOLOv6-3.0 được thiết kế đặc biệt cho các ứng dụng công nghiệp có thông lượng cao. Nó tập trung mạnh vào việc tối đa hóa hiệu suất trên các bộ tăng tốc phần cứng như GPU NVIDIA.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, et al.
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv:2301.05586
GitHub:meituan/YOLOv6
Tài liệu:Tài liệu Ultralytics YOLOv6

YOLOv6 -3.0 giới thiệu mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện việc kết hợp đặc trưng và sử dụng chiến lược Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT). Chiến lược này kết hợp những lợi ích của bộ dò dựa trên neo và không dựa trên neo trong quá trình huấn luyện, đồng thời giữ cho quá trình suy luận hoàn toàn không dựa trên neo. Kiến trúc EfficientRep của nó giúp nó thân thiện hơn với phần cứng. GPU Xử lý theo lô, lý tưởng để xử lý lượng lớn dữ liệu phân tích video .

Tìm hiểu thêm về YOLOv6

DAMO-YOLO: Nhanh và chính xác thông qua NAS

Được tạo bởi Tập đoàn Alibaba, DAMO-YOLO tận dụng Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để tự động khám phá các cấu trúc xương sống hiệu quả nhất cho suy luận thời gian thực.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

DAMO-YOLO nổi bật với RepGFPN (Reparameterized Generalized Feature Pyramid Network) để hợp nhất đặc trưng (feature fusion) đa tỷ lệ hiệu quả và thiết kế ZeroHead của nó, giúp giảm đáng kể chi phí tính toán trong đầu detect. Nó cũng tích hợp gán nhãn AlignedOTA và các kỹ thuật chưng cất tri thức (knowledge distillation) mạnh mẽ để tăng độ chính xác mà không làm tăng số lượng tham số của mô hình.

Tìm hiểu thêm về DAMO-YOLO

Chi phí chưng cất

Trong khi DAMO- YOLO Mặc dù đạt được độ chính xác tuyệt vời, nhưng việc phụ thuộc nhiều vào quá trình chắt lọc kiến thức trong quá trình huấn luyện đòi hỏi một mô hình "giáo viên" lớn hơn nhiều. Điều này làm tăng đáng kể lượng bộ nhớ CUDA cần thiết trong giai đoạn huấn luyện so với các kiến trúc đơn giản hơn.

So sánh hiệu suất

Khi đánh giá các mô hình phát hiện đối tượng, sự cân bằng giữa độ chính xác trung bình ( mAP ) và tốc độ suy luận là rất quan trọng. Dưới đây là bảng so sánh chi tiết về... YOLOv6 -3.0 và DAMO- YOLO trên các quy mô mô hình khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv6 -3.0 thể hiện tốc độ vượt trội trên NVIDIA GPU sử dụng các tối ưu hóa TensorRT , đặc biệt là trong các biến thể nano và small của nó. Tuy nhiên, DAMO- YOLO Các hệ thống xương sống được tối ưu hóa cho NAS của hãng này thường yêu cầu ít phép tính FLOP hơn ở quy mô vừa và lớn, dẫn đến lợi thế nhỏ về độ trễ đối với các triển khai quy mô lớn hơn.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Trong khi YOLOv6 -3.0 và DAMO- YOLO Mặc dù Ultralytics là những công cụ mạnh mẽ, các nhà phát triển thường gặp khó khăn với các quy trình triển khai phức tạp, yêu cầu bộ nhớ cao trong quá trình huấn luyện và kiến trúc cứng nhắc, đơn nhiệm. Hệ sinh thái Ultralytics cung cấp trải nghiệm phát triển được tối ưu hóa hơn đáng kể.

Với sự ra mắt của YOLO26 , Ultralytics Ultralytics YOLO26 đã định nghĩa lại trí tuệ nhân tạo thị giác tiên tiến nhất. Được phát hành vào tháng 1 năm 2026, YOLO26 đẩy mạnh giới hạn về hiệu quả và tính linh hoạt.

Những cải tiến quan trọng trong YOLO26

Thiết kế đầu cuối không NMS: Dựa trên các khái niệm tiên phong trong YOLOv10, YOLO26 loại bỏ tự nhiên quá trình hậu xử lý Non-Maximum Suppression (NMS). Điều này làm giảm đáng kể sự biến động độ trễ và đơn giản hóa việc triển khai trên các thiết bị biên thông qua CoreML hoặc TFLite.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa quy trình xuất và nâng cao đáng kể khả năng tương thích với các vi điều khiển tiêu thụ ít điện năng và phần cứng biên.
Tăng tốc suy luận trên CPU lên đến 43%: Đối với các ứng dụng thiếu phần cứng GPU chuyên dụng, các tối ưu hóa CPU của YOLO26 mang lại tốc độ vượt trội, vượt xa các mô hình phụ thuộc nhiều vào GPU như YOLOv6.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM như Kimi K2 của Moonshot AI, YOLO26 sử dụng trình tối ưu hóa MuSGD (sự kết hợp giữa SGD và Muon) để đảm bảo huấn luyện ổn định và hội tụ nhanh chóng.
ProgLoss + STAL: Các hàm mất mát tiên tiến cải thiện đáng kể khả năng nhận diện vật thể nhỏ, khiến YOLO26 trở nên hoàn hảo cho các hoạt động máy bay không người lái và track mục tiêu từ xa.
Tính linh hoạt đa nhiệm: Không giống như DAMO-YOLO, vốn chỉ là một detector, YOLO26 cung cấp hỗ trợ ngay khi sử dụng cho Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (thông qua Ước tính Log-Likelihood Dư), và Hộp giới hạn định hướng (OBB) trong một API thống nhất duy nhất.

Tìm hiểu thêm về YOLO26

Huấn luyện trí nhớ hiệu quả

Không giống như các kiến trúc máy biến áp phức tạp như RT-DETR hoặc các đường ống nặng về chưng cất của DAMO- YOLO , Ultralytics Các mô hình này nổi tiếng với dung lượng VRAM sử dụng thấp. Bạn có thể dễ dàng huấn luyện một mô hình YOLO26 trên phần cứng cấp độ người tiêu dùng.

Được tinh giản Python Quy trình làm việc

Việc huấn luyện và triển khai các mô hình tiên tiến không nên đòi hỏi hàng trăm dòng mã lặp đi lặp lại. Ultralytics Python Gói phần mềm này đơn giản hóa vòng đời của máy học .

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

Các trường hợp sử dụng lý tưởng

Việc lựa chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào các ràng buộc triển khai của bạn:

Khi nào nên sử dụng YOLOv6 -3.0

Phân tích video theo lô lớn: Tuyệt vời để xử lý các luồng video dày đặc trên các máy chủ GPU doanh nghiệp, nơi TensorRT có thể được tận dụng tối đa.
Tự động hóa công nghiệp: Các dây chuyền sản xuất tốc độ cao thực hiện phát hiện lỗi kiểm soát chất lượng.

Khi nào nên sử dụng DAMO-YOLO

Silicon tùy chỉnh: Nghiên cứu ánh xạ Tìm kiếm Kiến trúc Mạng nơ-ron cho phần cứng NPU độc quyền, cụ thể.
Nghiên cứu học thuật: Đánh giá các kỹ thuật chưng cất tri thức mới cho mạng thời gian thực.

Khi nào nên sử dụng Ultralytics YOLO26

Triển khai biên và di động: Thiết kế không NMS, loại bỏ DFL và tăng tốc CPU 43% làm cho nó trở thành nhà vô địch không thể tranh cãi cho các tích hợp iOS, Android và Raspberry Pi.
Tạo mẫu nhanh đến sản xuất: Việc tích hợp liền mạch với Nền tảng Ultralytics cho phép các nhóm chuyển từ chú thích bộ dữ liệu sang triển khai đám mây toàn cầu chỉ trong vài ngày, thay vì vài tháng.
Các pipeline thị giác phức tạp: Khi một dự án yêu cầu detect các hộp giới hạn cùng với các điểm chính tư thế người và mặt nạ segment chính xác đồng thời.

Kết luận

Cả YOLOv6-3.0 và DAMO-YOLO đều đã đóng góp đáng kể vào khoa học detect đối tượng thời gian thực. YOLOv6 đã tinh chỉnh việc tối đa hóa GPU, trong khi DAMO-YOLO đã thể hiện sức mạnh của tìm kiếm kiến trúc tự động.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự kết hợp tối ưu giữa độ chính xác, tốc độ suy luận và khả năng duy trì hệ sinh thái, dòng sản phẩm Ultralytics YOLO vẫn là lựa chọn hàng đầu. Với những tối ưu hóa đột phá được giới thiệu trong YOLO26 , rào cản gia nhập thị giác máy tính cấp doanh nghiệp chưa bao giờ thấp đến thế.

Để tìm hiểu sâu hơn, bạn cũng có thể tham khảo việc so sánh các mô hình này với các kiến trúc khác trong tài liệu của chúng tôi, chẳng hạn như YOLO11 hoặc các phương pháp dựa trên transformer như RT-DETR .