Chuyển đến nội dung

So sánh chi tiết kỹ thuật YOLOv7 và DAMO-YOLO

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một bước quan trọng trong bất kỳ dự án thị giác máy tính nào. Quyết định này thường liên quan đến sự đánh đổi giữa độ chính xác, tốc độ và chi phí tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv7 và DAMO-YOLO, hai mô hình mạnh mẽ đã có những đóng góp đáng kể cho việc phát hiện đối tượng theo thời gian thực. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt cho các nhu cầu cụ thể của mình.

YOLOv7: Độ chính xác và tốc độ cao

YOLOv7 được giới thiệu như một bước tiến lớn trong dòng YOLO, thiết lập các tiêu chuẩn mới cho các công cụ phát hiện đối tượng theo thời gian thực bằng cách tối ưu hóa cả hiệu quả huấn luyện và tốc độ suy luận mà không làm tăng chi phí tính toán.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/

Kiến trúc và các tính năng chính

YOLOv7 giới thiệu một số cải tiến kiến trúc để đạt được hiệu suất hiện đại. Một thành phần quan trọng là Mạng Tổng Hợp Lớp Hiệu Quả Mở Rộng (E-ELAN) trong backbone của mô hình, giúp tăng cường khả năng học các đặc trưng đa dạng của mạng mà không làm gián đoạn đường dẫn gradient. Mô hình này cũng sử dụng các kỹ thuật mở rộng mô hình nâng cao được thiết kế riêng cho các kiến trúc dựa trên ghép nối.

Một trong những đóng góp quan trọng nhất của nó là khái niệm "trainable bag-of-freebies," đề cập đến các chiến lược huấn luyện giúp tăng độ chính xác mà không làm tăng chi phí suy luận. Chúng bao gồm sử dụng các auxiliary head để giám sát sâu hơn và huấn luyện dẫn dắt từ thô đến tinh. Các kỹ thuật này, được trình bày chi tiết trong bài báo YOLOv7, cho phép mô hình đạt được kết quả ấn tượng trên các benchmark tiêu chuẩn.

Hiệu suất và các trường hợp sử dụng

Khi ra mắt, YOLOv7 đã thể hiện sự cân bằng vượt trội giữa tốc độ và độ chính xác. Nó vượt trội trong các tình huống đòi hỏi cả phát hiện nhanh và độ chính xác cao, chẳng hạn như phân tích video thời gian thực, hệ thống lái xe tự động và kiểm tra công nghiệp độ phân giải cao. Ví dụ: trong các ứng dụng thành phố thông minh, YOLOv7 có thể được sử dụng để quản lý giao thông nâng cao hoặc để tăng cường khả năng phát hiện mối đe dọa ngay lập tức trong hệ thống an ninh.

Điểm mạnh

  • Sự Đánh Đổi Tuyệt Vời Giữa Độ Chính Xác và Tốc Độ: Cung cấp sự kết hợp mạnh mẽ giữa mAP và tốc độ suy luận, khiến nó rất hiệu quả cho các tác vụ theo thời gian thực.
  • Huấn luyện hiệu quả: Tận dụng các chiến lược huấn luyện tiên tiến để cải thiện hiệu suất mà không làm tăng yêu cầu tính toán trong quá trình suy luận.
  • Hiệu suất đã được chứng minh: Kết quả đã được thiết lập và ghi nhận đầy đủ trên các bộ dữ liệu tiêu chuẩn như MS COCO.

Điểm yếu

  • Độ phức tạp về kiến trúc: Sự kết hợp của E-ELAN và các kỹ thuật huấn luyện khác nhau có thể phức tạp để hiểu và sửa đổi.
  • Huấn luyện tốn nhiều tài nguyên: Mặc dù quá trình suy luận nhanh, nhưng việc huấn luyện các mô hình YOLOv7 lớn hơn đòi hỏi tài nguyên GPU đáng kể.
  • Tính linh hoạt hạn chế: Được thiết kế chủ yếu cho phát hiện đối tượng, với các tiện ích mở rộng do cộng đồng phát triển cho các tác vụ khác, không giống như các mô hình mới hơn với khả năng đa nhiệm tích hợp.

Tìm hiểu thêm về YOLOv7

DAMO-YOLO: Tốc độ và hiệu quả cho Edge

DAMO-YOLO, được phát triển bởi Alibaba Group, là một mô hình phát hiện đối tượng được thiết kế để có hiệu suất tối ưu trên nhiều loại phần cứng, đặc biệt tập trung vào tốc độ và hiệu quả cho thiết bị biên.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

Kiến trúc và các tính năng chính

DAMO-YOLO giới thiệu một số kỹ thuật mới để đạt được tốc độ ấn tượng của nó. Nó sử dụng backbone được tạo thông qua Tìm kiếm Kiến trúc Mạng nơ-ron (NAS), dẫn đến một bộ trích xuất đặc trưng hiệu quả cao được gọi là GiraffeNet. Phần neck của mạng là một RepGFPN hiệu quả, cân bằng khả năng hợp nhất đặc trưng với chi phí tính toán thấp.

Một tính năng nổi bật là ZeroHead, một detection head (đầu dò) đơn giản hóa, không có tham số nào cho phân loại và hồi quy, giúp giảm đáng kể chi phí tính toán. Hơn nữa, DAMO-YOLO sử dụng AlignedOTA để gán nhãn động và sử dụng knowledge distillation (chưng cất tri thức) để nâng cao hiệu suất của các mô hình nhỏ hơn, làm cho chúng vừa nhanh vừa chính xác.

Hiệu suất và các trường hợp sử dụng

Điểm mạnh chính của DAMO-YOLO là tốc độ suy luận vượt trội, đặc biệt là với các biến thể nhỏ hơn (DAMO-YOLO-T/S). Điều này làm cho nó trở thành một ứng cử viên hàng đầu cho các ứng dụng mà độ trễ thấp là một yêu cầu quan trọng, chẳng hạn như xử lý trên thiết bị cho các ứng dụng di động, giám sát thời gian thực trong tự động hóa công nghiệp và robot. Khả năng mở rộng của nó cho phép các nhà phát triển chọn một mô hình phù hợp với các ràng buộc phần cứng cụ thể của họ, từ các máy chủ đám mây mạnh mẽ đến các nền tảng biên có tài nguyên hạn chế.

Điểm mạnh

  • Tốc độ suy luận vượt trội: Các mô hình nhỏ hơn nằm trong số các trình phát hiện đối tượng nhanh nhất hiện có, lý tưởng cho các yêu cầu độ trễ thấp.
  • Kiến trúc có khả năng mở rộng: Cung cấp một loạt các mô hình (Tiny, Small, Medium, Large) để phù hợp với các giới hạn tính toán khác nhau.
  • Thiết kế cải tiến: Kết hợp các ý tưởng tiên tiến như backbone hỗ trợ NAS, neck hiệu quả và head không tham số.

Điểm yếu

  • Độ chính xác trên các mô hình lớn hơn: Mặc dù có tính cạnh tranh, các mô hình DAMO-YOLO lớn nhất có thể không đạt được độ chính xác cao nhất của các biến thể cao cấp của YOLOv7.
  • Hệ sinh thái và Hỗ trợ: Vì là một dự án hướng đến nghiên cứu, nó có thể không có cùng mức độ tài liệu toàn diện, hỗ trợ cộng đồng hoặc các công cụ tích hợp như các framework được hỗ trợ thương mại.

DAMO-YOLO trên GitHub

So sánh trực tiếp: YOLOv7 so với DAMO-YOLO

Khi so sánh trực tiếp hai mô hình này, sự khác biệt chính nằm ở triết lý thiết kế của chúng. YOLOv7 đẩy mạnh ranh giới của những gì có thể đối với một detector thời gian thực về độ chính xác, tận dụng các chiến lược đào tạo phức tạp để tối đa hóa mAP. Ngược lại, DAMO-YOLO ưu tiên hiệu quả kiến trúc và tốc độ suy luận thô, làm cho các mô hình nhỏ hơn của nó cực kỳ nhanh, thường phải trả giá bằng một vài điểm về độ chính xác so với các mô hình lớn hơn, phức tạp hơn.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Tại sao các mô hình Ultralytics YOLO là một lựa chọn tốt hơn

Mặc dù YOLOv7 và DAMO-YOLO đều là những mô hình mạnh mẽ, nhưng các nhà phát triển và nhà nghiên cứu tìm kiếm trải nghiệm hiện đại, tích hợp và thân thiện với người dùng hơn nên cân nhắc hệ sinh thái Ultralytics YOLO, bao gồm các mô hình phổ biến như Ultralytics YOLOv8Ultralytics YOLO11 mới nhất. Các mô hình này mang lại một số lợi thế chính:

  • Dễ sử dụng: Các mô hình Ultralytics được thiết kế chú trọng đến trải nghiệm người dùng được tinh giản, có Python APICLI đơn giản. Điều này được hỗ trợ bởi tài liệu đầy đủ và vô số hướng dẫn, giúp bạn dễ dàng bắt đầu.
  • Hệ sinh thái được duy trì tốt: Tận dụng lợi thế từ quá trình phát triển tích cực, cộng đồng mã nguồn mở vững mạnh và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps toàn diện, từ huấn luyện đến triển khai.
  • Cân bằng hiệu năng: Các model Ultralytics đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến chúng phù hợp với nhiều tình huống thực tế khác nhau.
  • Hiệu quả bộ nhớ: Các mô hình Ultralytics YOLO được tối ưu hóa để sử dụng bộ nhớ hiệu quả, thường yêu cầu ít bộ nhớ CUDA hơn để huấn luyện và suy luận so với các kiến trúc khác.
  • Tính linh hoạt: Các mô hình như YOLOv8 và YOLO11 là các giải pháp đa nhiệm thực sự, hỗ trợ phát hiện, phân đoạn, phân loại, ước tính tư thếphát hiện đối tượng theo hướng (OBB) trong một framework duy nhất, thống nhất.
  • Hiệu quả huấn luyện: Tận dụng lợi thế từ quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn và thời gian hội tụ nhanh hơn.

Kết luận

Cả DAMO-YOLO và YOLOv7 đều thể hiện những tiến bộ đáng kể trong lĩnh vực phát hiện đối tượng. DAMO-YOLO vượt trội về tốc độ suy luận, đặc biệt là với các biến thể nhỏ hơn, khiến nó trở thành một ứng cử viên mạnh mẽ cho các thiết bị biên hoặc các ứng dụng ưu tiên độ trễ thấp. YOLOv7 đẩy mạnh ranh giới của độ chính xác trong khi vẫn duy trì hiệu suất thời gian thực tốt, đặc biệt phù hợp cho các tình huống mà việc đạt được mAP cao nhất có thể là rất quan trọng.

Tuy nhiên, các nhà phát triển cũng có thể xem xét các mô hình trong hệ sinh thái Ultralytics, chẳng hạn như YOLOv8 hoặc YOLO11 mới nhất. Các mô hình này thường cung cấp sự cân bằng vượt trội về hiệu suất, sự dễ sử dụng, tài liệu mở rộng, huấn luyện hiệu quả, yêu cầu bộ nhớ thấp hơn và tính linh hoạt trên nhiều tác vụ thị giác, tất cả đều được hỗ trợ bởi một hệ sinh thái được duy trì tốt và hỗ trợ cộng đồng tích cực.

Khám phá các Mô hình Khác

Người dùng quan tâm đến DAMO-YOLO và YOLOv7 cũng có thể thấy các mô hình này liên quan:

  • Ultralytics YOLOv5: Một mô hình rất phổ biến và hiệu quả, nổi tiếng về tốc độ và dễ triển khai. Khám phá Tài liệu YOLOv5.
  • Ultralytics YOLOv8: Một mô hình hiện đại đa năng cung cấp hiệu suất tuyệt vời trên các tác vụ phát hiện, phân đoạn, tư thế và phân loại. Khám phá Tài liệu YOLOv8.
  • YOLOv9: Giới thiệu các cải tiến như PGI và GELAN để cải thiện độ chính xác và hiệu quả. Xem Tài liệu YOLOv9.
  • YOLOv10: Tập trung vào phát hiện end-to-end không cần NMS để giảm độ trễ. So sánh YOLOv10 với DAMO-YOLO.
  • RT-DETR: Một mô hình phát hiện theo thời gian thực dựa trên transformer. So sánh RT-DETR với DAMO-YOLO.


📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận