Chuyển đến nội dung

YOLOv9 so với DAMO-YOLO: So sánh kỹ thuật

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa nhu cầu về độ chính xác, tốc độ suy luận và hiệu quả tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình mạnh mẽ: YOLOv9, nổi tiếng với những cải tiến về kiến trúc và DAMO-YOLO, được công nhận về tốc độ của nó. Chúng ta sẽ khám phá kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho các dự án thị giác máy tính của mình.

YOLOv9: Học nâng cao với Thông tin Gradient có thể lập trình

YOLOv9 thể hiện một bước tiến vượt bậc trong phát hiện đối tượng, giải quyết các thách thức cơ bản về mất thông tin trong mạng nơ-ron sâu. Việc tích hợp nó vào hệ sinh thái Ultralytics không chỉ làm cho nó trở nên mạnh mẽ mà còn đặc biệt dễ tiếp cận.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs.ultralytics.com/models/yolov9/

Kiến trúc và các tính năng chính

YOLOv9 giới thiệu hai khái niệm đột phá: Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). PGI được thiết kế để bảo toàn thông tin đầu vào đầy đủ cho hàm mất mát, giảm thiểu vấn đề tắc nghẽn thông tin thường làm giảm hiệu suất của các mạng sâu. GELAN là một kiến trúc mạng mới, hiệu quả cao, giúp tối ưu hóa việc sử dụng tham số và chi phí tính toán.

Khi được triển khai trong khuôn khổ Ultralytics, kiến trúc tiên tiến của YOLOv9 được kết hợp với một loạt các tính năng được thiết kế cho các nhà phát triển:

  • Dễ sử dụng: Trải nghiệm người dùng được tinh giản với Python APICLI đơn giản, được hỗ trợ bởi tài liệu đầy đủ.
  • Hệ sinh thái được duy trì tốt: Hưởng lợi từ quá trình phát triển tích cực, sự hỗ trợ mạnh mẽ từ cộng đồng, cập nhật thường xuyên và tích hợp với các công cụ như Ultralytics HUB để đào tạo và triển khai không cần code.
  • Hiệu quả huấn luyện: Cung cấp quy trình huấn luyện hiệu quả với các trọng số đã được huấn luyện trước có sẵn và thường yêu cầu bộ nhớ thấp hơn so với nhiều mô hình cạnh tranh.
  • Tính linh hoạt: Mặc dù bài báo gốc tập trung vào phát hiện đối tượng, kho lưu trữ hé lộ các khả năng cho phân đoạn thể hiện và phân đoạn toàn cảnh, phù hợp với bản chất đa nhiệm của các mô hình Ultralytics.

Điểm mạnh

  • Độ chính xác vượt trội: Đạt được điểm số mAP hàng đầu trên tập dữ liệu COCO, thường vượt trội hơn các mô hình khác ở quy mô tương tự.
  • Hiệu quả tham số vượt trội: Kiến trúc GELAN cho phép YOLOv9 mang lại độ chính xác cao với số lượng tham số và FLOPs ít hơn đáng kể so với nhiều đối thủ.
  • Bảo toàn thông tin: PGI giải quyết hiệu quả vấn đề mất thông tin, cho phép đào tạo chính xác hơn các mô hình sâu hơn và phức tạp hơn.
  • Mạnh mẽ và Được hỗ trợ: Việc tích hợp vào hệ sinh thái Ultralytics đảm bảo độ tin cậy, cải tiến liên tục và quyền truy cập vào vô số tài nguyên.

Điểm yếu

  • Mô hình mới hơn: Là một bản phát hành gần đây, số lượng ví dụ triển khai do cộng đồng đóng góp có thể vẫn đang phát triển, mặc dù việc áp dụng nó được thúc đẩy nhanh chóng bởi khuôn khổ Ultralytics.
  • Nhu cầu tài nguyên cho các mô hình lớn: Biến thể lớn nhất, YOLOv9-E, mặc dù có độ chính xác cao, nhưng đòi hỏi tài nguyên tính toán đáng kể cho việc huấn luyện.

Tìm hiểu thêm về YOLOv9

DAMO-YOLO là một mô hình phát hiện đối tượng nhanh và chính xác được phát triển bởi Alibaba Group. Nó tận dụng một số kỹ thuật hiện đại để đạt được sự cân bằng tuyệt vời giữa tốc độ và hiệu suất, đặc biệt là trên phần cứng GPU.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

Kiến trúc và các tính năng chính

Kiến trúc của DAMO-YOLO là kết quả của sự kết hợp các kỹ thuật tiên tiến:

  • Tìm kiếm kiến trúc thần kinh (NAS): Sử dụng NAS để tạo ra một mạng backbone hiệu quả (TinyNAS).
  • Thiết kế Neck hiệu quả: Sử dụng RepGFPN (Generalized Feature Pyramid Network) hiệu quả để kết hợp các đặc trưng.
  • ZeroHead: Một đầu dò đơn giản, tính toán nhẹ.
  • AlignedOTA: Một chiến lược gán nhãn được cải tiến để huấn luyện hiệu quả hơn.
  • Chưng cất: Sử dụng chưng cất kiến thức để tăng cường hiệu suất của các mô hình nhỏ hơn.

Điểm mạnh

  • Tốc độ suy luận cao: DAMO-YOLO được tối ưu hóa cao để suy luận nhanh trên GPU, khiến nó trở thành một ứng cử viên mạnh mẽ cho các tình huống suy luận thời gian thực.
  • Hiệu suất cao: Mang lại sự đổi mới về tốc độ và độ chính xác cạnh tranh, đặc biệt đối với các biến thể nhỏ hơn của nó.
  • Kỹ thuật cải tiến: Kết hợp các phương pháp hiện đại như NAS và gán nhãn nâng cao để vượt qua các giới hạn về hiệu suất.
  • Loại bỏ Anchor: Là một detector không neo (anchor-free), nó đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu điều chỉnh các hộp neo (anchor box).

Điểm yếu

  • Tính đặc hiệu của tác vụ: Chủ yếu được thiết kế để phát hiện đối tượng, thiếu tính linh hoạt tích hợp cho các tác vụ khác như phân đoạn, ước tính tư thế hoặc phân loại được tìm thấy trong các mô hình Ultralytics.
  • Hệ sinh thái và Hỗ trợ: Vì là một dự án hướng đến nghiên cứu, nó thiếu hệ sinh thái toàn diện, tài liệu mở rộng và hỗ trợ cộng đồng tích cực vốn là đặc điểm của các mô hình Ultralytics. Điều này có thể làm cho việc tích hợp và khắc phục sự cố trở nên khó khăn hơn.
  • Số lượng tham số cao hơn: So với YOLOv9, các mô hình DAMO-YOLO thường có nhiều tham số và FLOP hơn để đạt được mức độ chính xác tương đương hoặc thấp hơn.

Tìm hiểu thêm về DAMO-YOLO

Phân tích hiệu năng: YOLOv9 so với DAMO-YOLO

Khi so sánh hiệu suất, YOLOv9 thể hiện một lợi thế rõ ràng về cả độ chính xác và hiệu quả tham số. Mô hình lớn nhất, YOLOv9-E, thiết lập một chuẩn mực hiện đại mới với 55.6% mAP trên COCO. Trên tất cả các kích thước mô hình, YOLOv9 luôn sử dụng ít tham số hơn và trong nhiều trường hợp, ít FLOPs hơn so với các đối tác DAMO-YOLO để đạt được độ chính xác cao hơn.

Mặc dù các mô hình DAMO-YOLO thể hiện tốc độ suy luận rất nhanh trên GPU NVIDIA T4, YOLOv9 vẫn có tính cạnh tranh cao, đặc biệt khi xem xét độ chính xác và hiệu quả vượt trội của nó. Ví dụ: YOLOv9-C nhanh hơn một chút so với DAMO-YOLO-L trong khi chính xác hơn đáng kể (53,0 so với 50,8 mAP) và sử dụng ít tham số hơn nhiều (25,3M so với 42,1M).

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Các trường hợp sử dụng lý tưởng

YOLOv9

YOLOv9 là lựa chọn lý tưởng cho các ứng dụng mà độ chính xác và hiệu quả là tối quan trọng. Khả năng mang lại kết quả hiện đại với ít tham số hơn khiến nó trở nên hoàn hảo cho:

  • Hệ thống độ chính xác cao: Ứng dụng trong lái xe tự động, phân tích hình ảnh y tế và kiểm soát chất lượng công nghiệp.
  • Triển khai trên thiết bị hạn chế tài nguyên: Các biến thể YOLOv9 nhỏ hơn rất phù hợp cho các thiết bị edge AI, nơi tài nguyên tính toán bị hạn chế nhưng vẫn yêu cầu hiệu suất cao.
  • Giải pháp đa nhiệm: Các dự án có thể mở rộng để bao gồm phân đoạn hoặc các tác vụ thị giác khác được hưởng lợi từ nền tảng linh hoạt do hệ sinh thái Ultralytics cung cấp.
  • Nghiên cứu và Phát triển: Kiến trúc sáng tạo của nó cung cấp một cơ sở vững chắc cho các nhà nghiên cứu khám phá những lĩnh vực mới trong học sâu.

DAMO-YOLO

DAMO-YOLO vượt trội trong các tình huống mà việc tối đa hóa thông lượng GPU là mục tiêu chính và ứng dụng tập trung hoàn toàn vào phát hiện đối tượng.

  • Phân tích video thông lượng cao: Các dịch vụ dựa trên đám mây xử lý đồng thời một lượng lớn luồng video.
  • Ứng dụng GPU theo thời gian thực: Các hệ thống mà tốc độ suy luận thô trên GPU là yếu tố quan trọng nhất và có thể chấp nhận sự đánh đổi nhỏ về độ chính xác.

Mặc dù DAMO-YOLO là một công cụ phát hiện đối tượng đáng gờm với tốc độ GPU ấn tượng, Ultralytics YOLOv9 nổi lên như một lựa chọn vượt trội và thiết thực hơn cho phần lớn các nhà phát triển và nhà nghiên cứu.

YOLOv9 không chỉ đạt được độ chính xác cao hơn mà còn đạt được điều đó với hiệu quả tham số lớn hơn. Điều này chuyển thành các mô hình nhỏ hơn, chi phí tính toán rẻ hơn và dễ triển khai hơn. Tuy nhiên, yếu tố tạo nên sự khác biệt thực sự là hệ sinh thái Ultralytics. Bằng cách chọn YOLOv9, bạn có được quyền truy cập vào một nền tảng được duy trì tốt, tích hợp đầy đủ, giúp đơn giản hóa mọi bước của vòng đời MLOps—từ chú thích và đào tạo dữ liệu đến triển khai và giám sát. Sự kết hợp giữa hiệu suất hàng đầu, tính dễ sử dụng, tính linh hoạt đa nhiệm và hỗ trợ mạnh mẽ làm cho YOLOv9 trở thành giải pháp hiệu quả và đáng tin cậy nhất để xây dựng các ứng dụng thị giác máy tính tiên tiến.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến việc so sánh DAMO-YOLO với các mô hình hiện đại khác, hãy xem các so sánh khác trong tài liệu của chúng tôi:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận