YOLOv6 -3.0 so với DAMO- YOLO Một cuộc đối đầu kỹ thuật

Lĩnh vực phát hiện đối tượng thời gian thực được định hình bởi sự lặp lại nhanh chóng và cạnh tranh để đạt được sự cân bằng tối ưu giữa tốc độ và độ chính xác. Hai đóng góp quan trọng cho lĩnh vực này là YOLOv6 -3.0 , được phát triển bởi Meituan, và DAMO- YOLO , từ Học viện DAMO của Alibaba. Bài so sánh này khám phá những đổi mới về kiến trúc, các tiêu chuẩn hiệu năng và các kịch bản triển khai lý tưởng cho cả hai mô hình, đồng thời cũng làm nổi bật cách thức mà công nghệ hiện đại phát triển. Ultralytics Hệ sinh thái này tiếp tục vượt qua những giới hạn của thị giác máy tính.

Điểm chuẩn hiệu suất

Cả hai mô hình đều hướng đến các ứng dụng công nghiệp thời gian thực, nhưng chúng đạt được kết quả thông qua các chiến lược tối ưu hóa khác nhau. Bảng dưới đây trình bày chi tiết hiệu suất của chúng trên... COCO Bộ dữ liệu val2017.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Tổng quan về YOLOv6-3.0

Được Meituan phát hành vào đầu năm 2023, YOLOv6 -3.0 đại diện cho một "sự tái cấu trúc toàn diện" của kiến trúc trước đó của họ. Nó tập trung mạnh vào các mô hình kỹ thuật được tối ưu hóa để triển khai trên phần cứng chuyên dụng như GPU, khiến nó trở thành lựa chọn ưa thích cho tự động hóa công nghiệp.

Các tính năng chính:

Ghép nối hai chiều (Bi-Directional Concatenation - BiC): Một phương pháp kết hợp đặc trưng được cải tiến ở vùng cổ, giúp nâng cao độ chính xác định vị mà không tốn nhiều chi phí tính toán.
Huấn luyện có hỗ trợ neo (Anchor-Aided Training - AAT): Một chiến lược huấn luyện kết hợp giữa mô hình dựa trên neo và mô hình không dựa trên neo để ổn định sự hội tụ và cải thiện độ chính xác cuối cùng.
Đầu dò tách rời: Tách biệt nhiệm vụ phân loại và hồi quy, một tiêu chuẩn trong các bộ dò hiện đại, cho phép tinh chỉnh hộp giới hạn chính xác hơn.
Thân thiện với lượng tử hóa: Kiến trúc này được thiết kế đặc biệt để giảm thiểu tổn thất độ chính xác khi lượng tử hóa thành INT8 bằng các kỹ thuật như RepOptimizer và chưng cất theo từng kênh.

Tìm hiểu thêm về YOLOv6

Tổng quan về DAMO-YOLO

Được phát triển bởi Tập đoàn Alibaba và ra mắt vào cuối năm 2022, DAMO- YOLO giới thiệu một số công nghệ mới nhằm mục đích vượt qua giới hạn về sự cân bằng giữa tốc độ và độ chính xác, đặc biệt là thông qua Tìm kiếm Kiến trúc Thần kinh (NAS).

Các tính năng chính:

Kiến trúc xương sống MAE-NAS: Nó sử dụng kiến trúc xương sống được phát hiện thông qua Tìm kiếm Kiến trúc Mạng thần kinh (NAS) dựa trên nguyên tắc Entropy tối đa, đảm bảo luồng thông tin cao và hiệu quả.
RepGFPN hiệu quả: Một thiết kế mạng nặng nề thay thế PANet tiêu chuẩn bằng mạng kim tự tháp đặc trưng tổng quát (GFPN), cung cấp khả năng kết hợp đặc trưng đa tỷ lệ tốt hơn.
ZeroHead: Một đầu dò cực kỳ nhẹ được thiết kế để giảm thiểu gánh nặng tính toán thường gặp ở các đầu dò tách rời "nặng nề".
AlignedOTA: Một chiến lược gán nhãn được cập nhật giúp đồng bộ hóa các nhiệm vụ phân loại và hồi quy hiệu quả hơn trong quá trình huấn luyện.

Phân tích so sánh

Kiến trúc và Triết lý Thiết kế

Sự khác biệt chính nằm ở nguồn gốc thiết kế của chúng. YOLOv6 -3.0 được thiết kế thủ công với trọng tâm mạnh mẽ vào "khả năng triển khai dễ dàng", đặc biệt nhắm đến mục tiêu... TensorRT tối ưu hóa trên NVIDIA GPU. Việc sử dụng các phép tích chập tiêu chuẩn và các khối kiểu RepVGG giúp nó có tính dự đoán cao trong môi trường sản xuất.

Ngược lại, DAMO- YOLO dựa nhiều vào tìm kiếm tự động (NAS) để tìm ra cấu trúc tối ưu. Mặc dù điều này mang lại hiệu quả lý thuyết tuyệt vời (FLOPs), nhưng các cấu trúc phân nhánh phức tạp được tìm thấy trong các kiến trúc xương sống dựa trên NAS đôi khi khó tối ưu hóa hơn đối với các trình biên dịch phần cứng cụ thể so với thiết kế đơn giản hơn. YOLOv6 .

Hiệu năng trên các thiết bị biên

Đối với các tác vụ liên quan đến AI biên , cả hai mô hình đều cung cấp các biến thể "Tiny" hoặc "Nano" cạnh tranh. YOLOv6 -Nano có trọng lượng cực nhẹ (4,7 triệu tham số), phù hợp với các thiết bị có tài nguyên hạn chế nghiêm ngặt. DAMO- YOLO -Kích thước nhỏ, mặc dù hơi lớn hơn, thường cho độ chính xác cao hơn (42.0 mAP ) ngay từ đầu, có thể biện minh cho chi phí tính toán bổ sung đối với các ứng dụng yêu cầu độ chi tiết cao hơn.

Phương pháp luận huấn luyện

YOLOv6 Hệ thống này sử dụng rộng rãi phương pháp tự chưng cất , trong đó mô hình giáo viên lớn hơn hướng dẫn mô hình học viên trong quá trình huấn luyện. Điều này rất quan trọng đối với hiệu suất cao của hệ thống nhưng lại làm tăng độ phức tạp cho quy trình huấn luyện. DAMO- YOLO Nó sử dụng một mô-đun tăng cường chưng cất nhưng nhấn mạnh vào việc gán nhãn AlignedOTA để xử lý các mẫu khó một cách hiệu quả hơn trong quá trình học tập.

Các cân nhắc khi triển khai

Khi triển khai lên môi trường sản xuất, hãy cân nhắc rằng YOLOv6 thường có hỗ trợ tốt hơn ngay từ đầu cho việc lượng tử hóa INT8 thông qua TensorRT Điều này có thể tăng gấp đôi tốc độ suy luận trên phần cứng tương thích như... NVIDIA Jetson Orin.

Lợi thế của Ultralytics

Trong khi DAMO- YOLO Và YOLOv6 Với những thành tựu nghiên cứu ấn tượng, hệ sinh thái Ultralytics mang lại lợi thế rõ rệt cho các nhà phát triển ưu tiên tính dễ sử dụng, khả năng bảo trì và khả năng sẵn sàng cho môi trường sản xuất.

Trải nghiệm nhà phát triển liền mạch

Ultralytics Các mô hình, bao gồm YOLO11 và YOLO26 tiên tiến, được xây dựng trên một khung nền thống nhất. Điều này có nghĩa là bạn có thể huấn luyện, xác thực và triển khai các mô hình bằng cách sử dụng một API đơn giản và nhất quán.

from ultralytics import YOLO

# Load a model (switch freely between versions)
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

Tính linh hoạt trên nhiều tác vụ

Không giống như nhiều kho lưu trữ chuyên dụng, Ultralytics Khung phần mềm này hỗ trợ một loạt các tác vụ thị giác máy tính rộng lớn, vượt xa khả năng phát hiện đơn giản. Điều này bao gồm phân đoạn đối tượng , ước lượng tư thế , phân loại và phát hiện hộp giới hạn định hướng (OBB) . Tính linh hoạt này cho phép các nhóm hợp nhất các công cụ AI của họ vào một quy trình làm việc duy nhất.

Tích hợp nền tảng

Nền tảng Ultralytics đơn giản hóa hơn nữa vòng đời bằng cách cung cấp các công cụ quản lý tập dữ liệu, tự động chú thích và huấn luyện trên đám mây chỉ với một cú nhấp chuột. Cách tiếp cận tích hợp này loại bỏ những khó khăn trong việc thiết lập môi trường cục bộ phức tạp và quản lý các tập dữ liệu khác nhau.

Tương lai: Ultralytics YOLO26

Đối với các nhà phát triển đang tìm kiếm hiệu năng và sự đổi mới kiến trúc tiên tiến nhất, YOLO26 thiết lập một tiêu chuẩn mới.

Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ Non-Maximum Suppression ( NMS ) , YOLO26 đơn giản hóa quy trình triển khai và giảm sự biến động độ trễ, một tính năng quan trọng đối với các hệ thống an toàn thời gian thực.
Hiệu suất CPU : Nhờ loại bỏ hiện tượng mất mát tiêu điểm phân tán (DFL) và tối ưu hóa cho các ràng buộc biên, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, trở thành lựa chọn vượt trội cho các thiết bị không có GPU chuyên dụng.
Tính ổn định huấn luyện nâng cao: Việc tích hợp Trình tối ưu hóa MuSGD —lấy cảm hứng từ các kỹ thuật huấn luyện LLM—mang lại tính ổn định chưa từng có cho việc huấn luyện mô hình thị giác, đảm bảo sự hội tụ nhanh hơn và khả năng khái quát hóa tốt hơn.
Lợi ích chuyên biệt cho từng tác vụ: Cho dù đó là ước lượng logarit xác suất dư (RLE) để ước lượng tư thế chính xác hay các tổn thất góc chuyên biệt cho OBB, YOLO26 đều cung cấp những cải tiến nhắm mục tiêu cho các trường hợp sử dụng phức tạp.

Tìm hiểu thêm về YOLO26

Tóm tắt

Chọn YOLOv6 -3.0 nếu mục tiêu triển khai chính của bạn là thông lượng cao. NVIDIA GPU (ví dụ: T4, A100) và bạn cần hỗ trợ lượng tử hóa hoàn thiện cho việc kiểm tra công nghiệp hoặc phân tích video.
Hãy chọn DAMO- YOLO nếu bạn quan tâm đến các kiến trúc dựa trên NAS và cần một hệ thống xương sống hiệu quả cao cho nghiên cứu hoặc các kịch bản cụ thể mà RepGFPN cung cấp khả năng kết hợp tính năng tốt hơn.
Hãy chọn Ultralytics YOLO26 để có sự cân bằng tốt nhất giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển. Thiết kế không cần hệ quản lý NMS , yêu cầu bộ nhớ thấp trong quá trình huấn luyện và sự hỗ trợ hệ sinh thái rộng lớn khiến nó trở thành lựa chọn lý tưởng để mở rộng quy mô từ các nguyên mẫu nhanh chóng đến các giải pháp doanh nghiệp sản xuất.

Đọc thêm

Khám phá thêm các so sánh và mô hình khác trong phần Ultralytics tài liệu:

YOLOv8 so với YOLOv6
RT-DETR - Bộ biến đổi phát hiện thời gian thực.
YOLOv10 - Phát hiện đối tượng từ đầu đến cuối theo thời gian thực.
Bộ dữ liệu COCO - Tiêu chuẩn đánh giá cho phát hiện đối tượng.