Chuyển đến nội dung

So sánh kỹ thuật giữa DAMO-YOLO và YOLOv6-3.0

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng trong các dự án thị giác máy tính. Trang này cung cấp so sánh kỹ thuật chi tiết giữa DAMO-YOLO, một mô hình có độ chính xác cao từ Alibaba Group và YOLOv6-3.0, một mô hình tập trung vào hiệu quả từ Meituan. Chúng ta sẽ khám phá các sắc thái kiến trúc, điểm chuẩn hiệu suất và tính phù hợp của chúng cho các ứng dụng khác nhau để hướng dẫn lựa chọn của bạn.

Tổng quan về DAMO-YOLO

DAMO-YOLO là một mô hình phát hiện đối tượng nhanh và chính xác được phát triển bởi Alibaba Group. Nó giới thiệu một số kỹ thuật mới để đẩy mạnh sự phát triển về sự cân bằng giữa tốc độ và độ chính xác. Mô hình được thiết kế để có khả năng mở rộng cao, cung cấp một loạt các kích thước để phù hợp với các mức ngân sách tính toán khác nhau.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
Tài liệu: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Kiến trúc và các tính năng chính

Kiến trúc của DAMO-YOLO được xây dựng dựa trên mô hình dò tìm "một giai đoạn" nhưng kết hợp một số thành phần tiên tiến để nâng cao hiệu suất:

  • NAS-Backbones: Sử dụng Neural Architecture Search (NAS) để tìm các backbone tối ưu (đặc biệt là MazeNet) cho việc trích xuất đặc trưng, từ đó cải thiện hiệu suất.
  • Efficient RepGFPN: Triển khai Mạng kim tự tháp đặc trưng (FPN) tổng quát với tái tham số hóa, cho phép kết hợp đặc trưng đa tỷ lệ hiệu quả trong quá trình suy luận.
  • ZeroHead: Một thiết kế đầu dò đơn giản, không tham số giúp giảm chi phí tính toán và độ phức tạp trong đầu dò.
  • Gán Nhãn AlignedOTA: Một chiến lược gán nhãn được cải thiện, căn chỉnh tốt hơn các tác vụ phân loại và hồi quy, dẫn đến các dự đoán chính xác hơn.
  • Tăng cường chưng cất: Sử dụng chưng cất kiến thức để chuyển kiến thức từ mô hình giáo viên lớn hơn sang mô hình học sinh nhỏ hơn, tăng hiệu suất của các biến thể nhỏ hơn.

Điểm mạnh

  • Độ chính xác cao: Đạt được điểm số mAP rất cạnh tranh, đặc biệt là trong các cấu hình vừa và lớn.
  • Đổi mới kiến trúc: Giới thiệu các khái niệm mới lạ như ZeroHead và RepGFPN hiệu quả, những thứ thúc đẩy ranh giới của thiết kế detector.
  • Khả năng mở rộng: Cung cấp một loạt các kích cỡ mô hình (Tiny, Small, Medium, Large), giúp nó có khả năng thích ứng với các giới hạn phần cứng khác nhau.

Điểm yếu

  • Độ phức tạp khi tích hợp: Vì là một dự án nghiên cứu độc lập, việc tích hợp DAMO-YOLO vào quy trình sản xuất có thể đòi hỏi nhiều công sức hơn so với các mô hình trong một hệ sinh thái toàn diện.
  • Tính linh hoạt hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, thiếu sự hỗ trợ đa nhiệm gốc (ví dụ: phân đoạn, ước tính tư thế) có trong các framework như Ultralytics YOLO.
  • Cộng đồng và Hỗ trợ: Có thể có một cộng đồng nhỏ hơn và ít tài nguyên có sẵn hơn so với các mô hình được sử dụng rộng rãi hơn như Ultralytics YOLOv8.

Hiệu suất và các trường hợp sử dụng

DAMO-YOLO vượt trội trong các tình huống đòi hỏi độ chính xác và khả năng mở rộng cao. Các kích thước mô hình khác nhau của nó cho phép triển khai trên các phần cứng khác nhau, làm cho nó trở nên linh hoạt cho các ứng dụng khác nhau như:

  • Lái xe tự động: Độ chính xác cao của các mô hình DAMO-YOLO lớn hơn có lợi cho việc phát hiện chính xác cần thiết trong xe tự hành.
  • Hệ thống an ninh cao cấp: Đối với các ứng dụng mà độ chính xác cao là rất quan trọng để xác định các mối đe dọa tiềm ẩn, như trong các thành phố thông minh.
  • Kiểm tra công nghiệp: Trong sản xuất, DAMO-YOLO có thể được sử dụng để kiểm soát chất lượng và phát hiện khuyết tật, nơi độ chính xác là tối quan trọng.

Tìm hiểu thêm về DAMO-YOLO

Tổng quan về YOLOv6-3.0

YOLOv6-3.0, được phát triển bởi Meituan, được thiết kế cho các ứng dụng công nghiệp, nhấn mạnh hiệu suất cân bằng giữa hiệu quả và độ chính xác. Phiên bản 3.0 thể hiện một bản lặp lại tinh tế tập trung vào hiệu suất và độ mạnh mẽ được cải thiện để triển khai trong thế giới thực.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Tài liệu: https://docs.ultralytics.com/models/yolov6/

Kiến trúc và các tính năng chính

YOLOv6-3.0 nhấn mạnh một kiến trúc được sắp xếp hợp lý cho tốc độ và hiệu quả, được thiết kế để nhận biết phần cứng. Các tính năng chính bao gồm:

  • EfficientRep Backbone: Một backbone có thể tái tham số hóa, có thể được chuyển đổi thành một cấu trúc đơn giản hơn, nhanh hơn để suy luận.
  • Rep-PAN Neck: Một cấu trúc liên kết mạng tổng hợp đường dẫn (PAN) sử dụng các khối có thể tái tham số hóa để cân bằng khả năng và hiệu quả hợp nhất đặc trưng.
  • Head tách rời: Tách biệt các head phân loại và hồi quy, đây là một phương pháp phổ biến trong các mô hình YOLO hiện đại để cải thiện hiệu suất.
  • Tự chưng cất: Một chiến lược huấn luyện trong đó mô hình học hỏi từ các lớp sâu hơn của chính nó, nâng cao hiệu suất của các mô hình nhỏ hơn mà không cần giáo viên bên ngoài.

Điểm mạnh

  • Tập trung vào công nghiệp: Được điều chỉnh cho các thách thức triển khai công nghiệp thực tế, với trọng tâm lớn vào tốc độ suy luận.
  • Balanced Performance: Mang lại sự cân bằng tốt giữa tốc độ và độ chính xác, đặc biệt với các mô hình nhỏ hơn.
  • Tối ưu hóa phần cứng: Hiệu suất hiệu quả trên các nền tảng phần cứng khác nhau, với tốc độ suy luận tuyệt vời trên GPU.

Điểm yếu

  • Đánh đổi về độ chính xác: Có thể ưu tiên tốc độ và hiệu quả hơn là đạt được độ chính xác cao nhất tuyệt đối so với các mô hình chuyên dụng hơn.
  • Tích hợp hệ sinh thái: Mặc dù là mã nguồn mở, nhưng nó có thể không tích hợp liền mạch vào một nền tảng thống nhất như Ultralytics HUB, nền tảng này đơn giản hóa việc huấn luyện, triển khai và quản lý.
  • Tính đặc hiệu của tác vụ: Giống như DAMO-YOLO, nó chủ yếu là một trình phát hiện đối tượng và thiếu tính linh hoạt tích hợp của các mô hình đa nhiệm.

Hiệu suất và các trường hợp sử dụng

YOLOv6-3.0 đặc biệt phù hợp cho các tình huống công nghiệp đòi hỏi sự kết hợp giữa tốc độ và độ chính xác. Thiết kế tối ưu hóa của nó làm cho nó hiệu quả cho:

  • Tự động hóa công nghiệp: Kiểm soát chất lượng và giám sát quy trình trong sản xuất.
  • Bán lẻ thông minh: Quản lý hàng tồn kho theo thời gian thực và hệ thống thanh toán tự động.
  • Triển khai biên: Ứng dụng trên các thiết bị có tài nguyên hạn chế như camera thông minh hoặc NVIDIA Jetson, nơi FPS cao của nó là một lợi thế lớn.

Tìm hiểu thêm về YOLOv6

So sánh Hiệu suất: DAMO-YOLO so với YOLOv6-3.0

Hiệu năng của DAMO-YOLO và YOLOv6-3.0 trên tập dữ liệu COCO val2017 cho thấy những điểm mạnh riêng biệt của chúng. YOLOv6-3.0 thường vượt trội về tốc độ suy luận và hiệu quả tính toán (FLOPs/params), đặc biệt là với phiên bản nano ('n'), đây là một trong những mô hình nhanh nhất hiện có. Phiên bản lớn ('l') của nó cũng đạt được mAP cao nhất trong so sánh này.

Ngược lại, DAMO-YOLO thể hiện sự cân bằng mạnh mẽ, thường đạt được độ chính xác cao hơn YOLOv6-3.0 với kích thước mô hình tương đương hoặc nhỏ hơn trong phạm vi nhỏ đến trung bình. Ví dụ: DAMO-YOLOs đạt được mAP cao hơn YOLOv6-3.0s với ít tham số và FLOP hơn, mặc dù tốc độ suy luận chậm hơn một chút.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Kết luận

Cả DAMO-YOLO và YOLOv6-3.0 đều là những mô hình phát hiện đối tượng mạnh mẽ với những ưu điểm riêng biệt. DAMO-YOLO là một lựa chọn tuyệt vời cho các ứng dụng mà việc đạt được độ chính xác cao nhất có thể là mục tiêu chính, nhờ các thành phần kiến trúc sáng tạo của nó. YOLOv6-3.0 nổi bật với tốc độ suy luận và hiệu quả vượt trội, khiến nó lý tưởng cho các ứng dụng công nghiệp thời gian thực và triển khai trên các thiết bị biên.

Tuy nhiên, đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp toàn diện hơn, Ultralytics YOLO11 cung cấp một giải pháp thay thế hấp dẫn. YOLO11 cung cấp sự cân bằng vượt trội giữa tốc độ và độ chính xác đồng thời là một phần của một hệ sinh thái mạnh mẽ, được duy trì tốt. Các lợi thế chính bao gồm:

  • Dễ sử dụng: Trải nghiệm người dùng được tinh giản với API đơn giản, tài liệu đầy đủ và các trọng số đã được huấn luyện trước có sẵn.
  • Tính linh hoạt: Hỗ trợ nguyên bản cho nhiều tác vụ, bao gồm phát hiện đối tượng (object detection), phân vùng thể hiện (instance segmentation), ước tính tư thế (pose estimation) và phân loại (classification), tất cả trong cùng một framework.
  • Hệ sinh thái được duy trì tốt: Phát triển tích cực, hỗ trợ cộng đồng mạnh mẽ và tích hợp liền mạch với Ultralytics HUB để phát triển và triển khai mô hình đầu cuối.
  • Hiệu quả huấn luyện: Quy trình huấn luyện được tối ưu hóa và yêu cầu bộ nhớ thấp hơn giúp việc huấn luyện các mô hình tùy chỉnh trở nên nhanh hơn và dễ tiếp cận hơn.

Mặc dù DAMO-YOLO và YOLOv6-3.0 là những đối thủ đáng gờm trong lĩnh vực phát hiện đối tượng, nhưng tính linh hoạt, dễ sử dụng và hỗ trợ toàn diện của các mô hình Ultralytics như YOLO11 khiến chúng trở thành một lựa chọn thiết thực và mạnh mẽ hơn cho nhiều ứng dụng thực tế.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến các mô hình này, bạn cũng có thể muốn khám phá các so sánh khác trong tài liệu của chúng tôi:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận