Chuyển đến nội dung

So sánh kỹ thuật giữa DAMO-YOLO và YOLOv9

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng nhu cầu về độ chính xác, tốc độ và hiệu quả tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình mạnh mẽ: DAMO-YOLO từ Alibaba Group và YOLOv9. Chúng tôi sẽ khám phá những cải tiến về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho các dự án thị giác máy tính của mình. Mặc dù cả hai mô hình đều giới thiệu những tiến bộ đáng kể, YOLOv9, đặc biệt là trong hệ sinh thái Ultralytics, mang lại sự kết hợp hấp dẫn giữa hiệu suất hiện đại và các tính năng thân thiện với nhà phát triển.

DAMO-YOLO: Một phương pháp nhanh và chính xác từ Alibaba

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO là một mô hình phát hiện đối tượng được phát triển bởi Alibaba, tập trung vào việc đạt được sự cân bằng vượt trội giữa tốc độ và độ chính xác. Nó giới thiệu một số kỹ thuật mới để nâng cao hiệu suất trên nhiều loại phần cứng, từ thiết bị biên đến GPU đám mây. Kiến trúc này là kết quả của phương pháp "một lần cho tất cả", trong đó một supernet được đào tạo và sau đó các mạng con chuyên biệt được tạo ra bằng cách sử dụng Tìm kiếm kiến trúc thần kinh (NAS) để phù hợp với các ràng buộc tính toán khác nhau.

Kiến trúc và các tính năng chính

Kiến trúc của DAMO-YOLO kết hợp một số cải tiến quan trọng:

  • NAS-Generated Backbones: Thay vì backbone được thiết kế thủ công, DAMO-YOLO sử dụng các backbone được khám phá thông qua NAS, được tối ưu hóa cho hiệu quả trích xuất đặc trưng.
  • Neck RepGFPN hiệu quả: Nó sử dụng một neck mạng lưới kim tự tháp đặc trưng mới, RepGFPN, được thiết kế để kết hợp đặc trưng hiệu quả và tương thích với các kỹ thuật tái tham số hóa để tăng tốc độ trong quá trình suy luận.
  • ZeroHead: Một đầu dò đơn giản, gọn nhẹ giúp giảm chi phí tính toán trong khi vẫn duy trì hiệu suất cao.
  • Gán Nhãn AlignedOTA: Một chiến lược gán nhãn được cải thiện, giải quyết các vấn đề sai lệch giữa các tác vụ phân loại và hồi quy, dẫn đến các dự đoán chính xác hơn.
  • Tăng cường chưng cất: Chưng cất kiến thức được sử dụng để chuyển kiến thức từ mô hình giáo viên lớn hơn sang mô hình học sinh nhỏ hơn, cải thiện hơn nữa độ chính xác của các mô hình nhỏ gọn.

Điểm mạnh

  • Tốc độ GPU cao: DAMO-YOLO được tối ưu hóa cao để suy luận nhanh trên GPU, khiến nó phù hợp cho xử lý video thời gian thực và các ứng dụng nhạy cảm với độ trễ khác.
  • Các mô hình có khả năng mở rộng: Nó cung cấp một họ các mô hình (Tiny, Small, Medium, Large) cung cấp sự đánh đổi rõ ràng giữa tốc độ và độ chính xác, cho phép các nhà phát triển chọn mô hình phù hợp nhất cho phần cứng của họ.
  • Kỹ thuật cải tiến: Việc sử dụng NAS, neck hiệu quả và bộ gán nhãn nâng cao thể hiện một cách tiếp cận hiện đại đối với thiết kế detector.

Điểm yếu

  • Tính đặc hiệu của tác vụ: DAMO-YOLO chủ yếu được thiết kế để phát hiện đối tượng và thiếu tính linh hoạt tích hợp cho các tác vụ khác như phân đoạn thể hiện hoặc ước tính tư thế được tìm thấy trong các khuôn khổ toàn diện như Ultralytics.
  • Hệ sinh thái và khả năng sử dụng: Mặc dù mạnh mẽ, hệ sinh thái của nó kém phát triển hơn so với Ultralytics. Người dùng có thể thấy rằng nó đòi hỏi nhiều nỗ lực hơn cho việc huấn luyện, triển khai và tích hợp vào quy trình sản xuất.
  • Hỗ trợ Cộng đồng: Cộng đồng và các tài nguyên có sẵn có thể nhỏ hơn so với các mô hình được sử dụng rộng rãi hơn như các mô hình từ dòng YOLO.

Tìm hiểu thêm về DAMO-YOLO

YOLOv9: Nâng cao độ chính xác và hiệu quả

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs.ultralytics.com/models/yolov9/

YOLOv9 đại diện cho một bước nhảy về phía trước đáng kể trong phát hiện đối tượng thời gian thực, giới thiệu các khái niệm đột phá để giải quyết tình trạng mất thông tin trong mạng nơ-ron sâu. Các đổi mới cốt lõi của nó, Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN), cho phép nó đạt được độ chính xác và hiệu quả tham số vượt trội. Khi được tích hợp vào framework Ultralytics, YOLOv9 kết hợp hiệu suất hiện đại này với trải nghiệm người dùng tuyệt vời.

Kiến trúc và các tính năng chính

Sức mạnh của YOLOv9 nằm ở các thành phần kiến trúc mới lạ:

  • Thông tin Gradient có thể lập trình (PGI): Cơ chế này giúp giảm thiểu vấn đề tắc nghẽn thông tin bằng cách tạo ra các gradient đáng tin cậy thông qua một nhánh phụ có thể đảo ngược, đảm bảo rằng các lớp sâu hơn nhận được thông tin đầu vào đầy đủ để cập nhật chính xác.
  • Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): Một kiến trúc mạng tiên tiến xây dựng dựa trên các nguyên tắc của CSPNet và ELAN. GELAN được thiết kế để sử dụng tham số tối ưu và hiệu quả tính toán, làm cho nó vừa mạnh mẽ vừa nhanh chóng.

Điểm mạnh

  • Độ chính xác vượt trội: YOLOv9 đặt ra một tiêu chuẩn mới về độ chính xác trên tập dữ liệu COCO, vượt trội hơn nhiều mô hình trước đó với chi phí tính toán tương tự hoặc thấp hơn.
  • Hiệu quả vượt trội: Như được hiển thị trong bảng hiệu suất, các mô hình YOLOv9 thường đạt được độ chính xác cao hơn với ít tham số và FLOPs hơn so với các đối thủ, khiến chúng trở nên lý tưởng cho việc triển khai trên nhiều loại phần cứng từ thiết bị Edge đến các máy chủ mạnh mẽ.
  • Hệ sinh thái được duy trì tốt: Được tích hợp vào hệ sinh thái Ultralytics, YOLOv9 hưởng lợi từ sự dễ sử dụng thông qua Python APICLI được sắp xếp hợp lý, tài liệu mở rộng và sự hỗ trợ tích cực từ cộng đồng.
  • Hiệu quả huấn luyện: Việc triển khai Ultralytics đảm bảo các quy trình huấn luyện hiệu quả với các trọng số đã được huấn luyện trước có sẵn, yêu cầu bộ nhớ thấp hơn và tích hợp liền mạch với các công cụ như Ultralytics HUB để huấn luyện không cần code và MLOps.
  • Tính linh hoạt: Mặc dù bài báo gốc tập trung vào phát hiện, kiến trúc GELAN có khả năng thích ứng cao. Hệ sinh thái Ultralytics mở rộng các khả năng của nó sang các tác vụ thị giác khác, phù hợp với sự hỗ trợ đa nhiệm được tìm thấy trong các mô hình như YOLOv8.

Điểm yếu

  • Mô hình mới hơn: Vì là một kiến trúc gần đây hơn, số lượng hướng dẫn do cộng đồng đóng góp và tích hợp của bên thứ ba vẫn đang tăng lên, mặc dù việc đưa nó vào thư viện Ultralytics đã đẩy nhanh đáng kể việc áp dụng nó.
  • Yêu cầu tài nguyên: Các biến thể YOLOv9 lớn nhất, như YOLOv9-E, yêu cầu tài nguyên tính toán đáng kể cho việc huấn luyện, mặc dù chúng cung cấp độ chính xác hàng đầu cho kích thước của chúng.

Tìm hiểu thêm về YOLOv9

Phân tích hiệu năng: Độ chính xác và tốc độ

Khi so sánh DAMO-YOLO và YOLOv9, rõ ràng là cả hai họ mô hình đều đẩy mạnh ranh giới của việc phát hiện đối tượng thời gian thực. Tuy nhiên, xem xét kỹ hơn các số liệu cho thấy hiệu quả vượt trội của YOLOv9.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Từ bảng so sánh, chúng ta có thể rút ra một vài kết luận sau:

  • Độ chính xác: Các mô hình YOLOv9 luôn đạt được điểm số mAP cao hơn. Ví dụ: YOLOv9m vượt qua DAMO-YOLOl với 51.4 mAP so với 50.8 mAP. Mô hình lớn nhất, YOLOv9-E, đạt được 55.6 mAP ấn tượng, thiết lập một chuẩn mực mới.
  • Hiệu quả: YOLOv9 thể hiện tham số đáng kể và hiệu quả tính toán. YOLOv9m mang lại độ chính xác tốt hơn DAMO-YOLOl trong khi sử dụng ít hơn một nửa số tham số (20.0M so với 42.1M) và ít FLOP hơn (76.3B so với 97.3B). Điều này làm cho YOLOv9 trở thành một lựa chọn hiệu quả hơn để đạt được hiệu suất cao.
  • Tốc độ suy luận: Trên GPU T4, tốc độ suy luận có tính cạnh tranh cao. Ví dụ: DAMO-YOLOs (3,45 ms) và YOLOv9s (3,54 ms) có tốc độ rất gần nhau, nhưng YOLOv9s đạt được mAP cao hơn (46,8 so với 46,0).

Kết luận: Bạn nên chọn mô hình nào?

Cả DAMO-YOLO và YOLOv9 đều là những công cụ phát hiện đối tượng tuyệt vời với những thế mạnh riêng. DAMO-YOLO cung cấp một giải pháp nhanh chóng và có khả năng mở rộng với các kỹ thuật cải tiến như NAS và RepGFPN neck hiệu quả, khiến nó trở thành một lựa chọn vững chắc cho các ứng dụng yêu cầu suy luận GPU tốc độ cao.

Tuy nhiên, đối với hầu hết các nhà phát triển và nhà nghiên cứu, YOLOv9 là lựa chọn được khuyến nghị, đặc biệt khi được sử dụng trong hệ sinh thái Ultralytics. Nó không chỉ mang lại độ chính xác hiện đại và hiệu quả vượt trội mà còn cung cấp những lợi thế đáng kể về khả năng sử dụng và hỗ trợ. Framework Ultralytics loại bỏ sự phức tạp, cung cấp một quy trình làm việc hợp lý từ đào tạo đến triển khai. Sự kết hợp của PGI và GELAN trong YOLOv9 cung cấp một kiến trúc tiên tiến và hiệu quả hơn, trong khi hệ sinh thái Ultralytics mạnh mẽ đảm bảo bạn có các công cụ, tài liệu và hỗ trợ cộng đồng cần thiết để thành công.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến việc so sánh DAMO-YOLO và YOLOv9 với các mô hình hàng đầu khác, hãy xem các so sánh khác trong tài liệu Ultralytics của chúng tôi:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận