Chuyển đến nội dung

DAMO- YOLO so với YOLOv9 : So sánh kỹ thuật

Trong thế giới thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định then chốt, ảnh hưởng đến mọi thứ, từ độ trễ hệ thống đến độ chính xác phát hiện. Hướng dẫn toàn diện này cung cấp so sánh kỹ thuật giữa DAMO- YOLO , một bộ phát hiện tốc độ cao của Tập đoàn Alibaba, và YOLOv9 , một kiến trúc tập trung vào bảo tồn và hiệu quả thông tin. Chúng tôi sẽ phân tích những cải tiến về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp các nhà phát triển và nhà nghiên cứu đưa ra lựa chọn sáng suốt.

Mặc dù cả hai mô hình đều cung cấp những cải tiến đáng kể so với các mô hình tiền nhiệm của chúng, YOLOv9 , đặc biệt là khi được tận dụng trong Ultralytics hệ sinh thái, cung cấp sự kết hợp hấp dẫn giữa độ chính xác tiên tiến, công cụ thân thiện với nhà phát triển và các tùy chọn triển khai linh hoạt.

DAMO- YOLO là một nền tảng phát hiện đối tượng do Alibaba phát triển, được thiết kế với phương pháp "một lần cho tất cả". Nền tảng này ưu tiên độ trễ thấp và thông lượng cao, trở thành ứng cử viên sáng giá cho các ứng dụng công nghiệp đòi hỏi giới hạn tốc độ được xác định nghiêm ngặt trên phần cứng cụ thể.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO- YOLO

Đổi mới kiến trúc

DAMO- YOLO tự phân biệt mình thông qua các quy trình thiết kế tự động và các thành phần hiệu quả:

  • Tìm kiếm kiến trúc thần kinh (NAS): Thay vì thiết kế xương sống thủ công, DAMO- YOLO sử dụng Tìm kiếm Kiến trúc Thần kinh (NAS) để khám phá các cấu trúc hiệu quả (TinyNAS) phù hợp với các ngân sách tính toán khác nhau.
  • RepGFPN Neck: Giới thiệu một biến thể hiệu quả của Mạng Kim tự tháp Tính năng Tổng quát (GFPN), được gọi là RepGFPN. Thành phần này tối ưu hóa việc hợp nhất tính năng và hỗ trợ tham số hóa lại, cho phép tốc độ suy luận nhanh hơn.
  • ZeroHead: Mô hình này sử dụng đầu phát hiện "ZeroHead" nhẹ, giúp giảm chi phí tính toán thường liên quan đến các đầu phát hiện phức tạp.
  • AlignedOTA: Để cải thiện độ ổn định và độ chính xác của quá trình đào tạo, AlignedOTA sử dụng một chiến lược gán nhãn giúp giải quyết các vấn đề không khớp giữa các tác vụ phân loại và hồi quy.

Điểm mạnh và hạn chế

Điểm mạnh chính của DAMO- YOLO nằm ở tốc độ suy luận của nó. Kiến trúc được tối ưu hóa mạnh mẽ cho GPU thông lượng cao, phù hợp với các quy trình phân tích video đòi hỏi khối lượng xử lý lớn. Ngoài ra, việc sử dụng phương pháp chưng cất giúp tăng cường hiệu suất của các mô hình nhỏ hơn.

Tuy nhiên, DAMO- YOLO phải đối mặt với những thách thức liên quan đến sự trưởng thành của hệ sinh thái . So với các công cụ mạnh mẽ hiện có Ultralytics Với các mô hình này, người dùng có thể gặp ít tài nguyên hơn cho việc triển khai, chuyển đổi định dạng và hỗ trợ cộng đồng. Tính linh hoạt của nó cũng thường chỉ giới hạn ở việc phát hiện đối tượng , trong khi các nền tảng hiện đại thường hỗ trợ phân đoạn và ước tính tư thế một cách tự nhiên.

Tìm hiểu thêm về DAMO-YOLO

YOLOv9 : Độ dốc có thể lập trình để đạt hiệu quả tối đa

YOLOv9 đại diện cho một sự thay đổi mô hình trong phát hiện đối tượng theo thời gian thực bằng cách giải quyết vấn đề cơ bản về mất thông tin trong mạng nơ-ron sâu. Bằng cách đảm bảo dữ liệu quan trọng được lưu giữ trên toàn bộ chiều sâu của mạng, YOLOv9 đạt được độ chính xác cao với hiệu quả tham số đáng chú ý.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs. ultralytics .com/models/yolov9/

Kiến trúc cốt lõi: PGI và GELAN

YOLOv9 giới thiệu hai công nghệ đột phá giúp nó trở nên khác biệt:

  1. Thông tin Gradient Lập trình (PGI): Mạng sâu thường gặp phải tình trạng tắc nghẽn thông tin, trong đó dữ liệu đầu vào bị mất khi truyền qua các lớp. PGI cung cấp một nhánh giám sát phụ trợ tạo ra các gradient đáng tin cậy, đảm bảo các lớp sâu nhận được thông tin đầy đủ để cập nhật trọng số chính xác.
  2. Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN): Kiến trúc mới này kết hợp thế mạnh của CSPNet và ELAN. GELAN được thiết kế để tối đa hóa việc sử dụng tham số, mang lại một mô hình vừa nhẹ vừa cực kỳ mạnh mẽ.

Tại sao PGI lại quan trọng

Trong các mô hình học sâu truyền thống, hàm mất mát ở lớp đầu ra thường thiếu thông tin cần thiết để hướng dẫn việc cập nhật các lớp nông một cách hiệu quả. PGI hoạt động như một cầu nối, bảo toàn thông tin đầu vào và đảm bảo toàn bộ mạng học được các đặc điểm mạnh mẽ, dẫn đến sự hội tụ tốt hơn và độ chính xác cao hơn.

Các Ultralytics Lợi thế

Khi sử dụng YOLOv9 trong hệ sinh thái Ultralytics , các nhà phát triển có được những lợi thế đáng kể so với các triển khai độc lập:

  • Dễ sử dụng: Ultralytics Python API và CLI trừu tượng hóa các đường ống đào tạo phức tạp thành các lệnh đơn giản.
  • Hiệu quả đào tạo: Ultralytics phương pháp luận đảm bảo sử dụng tài nguyên tối ưu. YOLOv9 thường yêu cầu ít bộ nhớ CUDA trong quá trình đào tạo so với các bộ dò dựa trên máy biến áp, giúp nó có thể truy cập được trên nhiều loại phần cứng hơn.
  • Tính linh hoạt: Trong khi cốt lõi YOLOv9 bài báo tập trung vào việc phát hiện, Ultralytics Khung này tạo điều kiện thuận lợi cho việc mở rộng các kiến trúc này sang các tác vụ khác và đảm bảo xuất dữ liệu liền mạch sang các định dạng như ONNX , TensorRTOpenVINO .

Tìm hiểu thêm về YOLOv9

Phân tích hiệu suất: Độ chính xác so với Hiệu quả

Sự so sánh dưới đây làm nổi bật sự đánh đổi giữa DAMO- YOLO Và YOLOv9 . Trong khi DAMO- YOLO cung cấp tốc độ cạnh tranh trên phần cứng cụ thể, YOLOv9 luôn mang lại Độ chính xác trung bình ( mAP ) cao hơn với ít tham số hơn, thể hiện hiệu quả kiến trúc vượt trội.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Những điểm chính cần ghi nhớ:

  • Hiệu quả tham số: YOLOv9s đạt được hiệu suất cao hơn mAP (46,8) so với DAMO-YOLOs (46,0) trong khi sử dụng ít hơn một nửa số tham số (7,1M so với 16,3M). Điều này làm cho YOLOv9 thân thiện hơn đáng kể với bộ nhớ và dễ dàng cập nhật qua mạng cho các thiết bị AI biên .
  • Độ chính xác cao nhất: Lớn nhất YOLOv9 các biến thể (c và e) đẩy ranh giới độ chính xác vượt xa DAMO- YOLO giới hạn của, đạt tới 55,6 mAP .
  • Tốc độ: Trong khi DAMO- YOLO cho thấy một chút cạnh thô TensorRT Độ trễ đối với các mô hình trung bình, YOLOv9t cực kỳ nhanh (2,3 ms), khiến nó trở nên lý tưởng cho các ứng dụng di động thời gian thực.

Phương pháp luận đào tạo và Tính khả dụng

Trải nghiệm đào tạo khác nhau đáng kể giữa hai mô hình. DAMO- YOLO Việc dựa vào NAS đồng nghĩa với một giai đoạn tìm kiếm phức tạp để rút ra kiến trúc, hoặc sử dụng các xương sống đã được tìm kiếm trước. Cách tiếp cận "một lần cho tất cả" của nó có thể tốn kém về mặt tính toán nếu cần tùy chỉnh cấu trúc xương sống.

Ngược lại, YOLOv9 , được hỗ trợ bởi Ultralytics , cung cấp chế độ đào tạo hợp lý. Người dùng có thể tinh chỉnh các mô hình trên các tập dữ liệu tùy chỉnh như Open Images V7 hoặc các bộ sưu tập chuyên biệt với cấu hình tối thiểu. Việc tích hợp với Ultralytics HUB cho phép đào tạo, trực quan hóa và triển khai trên nền tảng đám mây chỉ bằng một cú nhấp chuột, giúp phổ cập hóa khả năng tiếp cận AI tiên tiến mà không cần chuyên môn sâu về NAS hoặc tinh chỉnh siêu tham số.

Ví dụ về mã: Đào tạo YOLOv9

Thực hiện YOLOv9 là thẳng thắn với Ultralytics Python bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn DAMO- YOLO

  • Xử lý video quy mô lớn: Nếu bạn đang xử lý hàng nghìn luồng video trên GPU máy chủ cụ thể, trong đó mỗi mili giây độ trễ đều chuyển thành khoản tiết kiệm chi phí cơ sở hạ tầng đáng kể, DAMO- YOLO Việc tối ưu hóa để đạt được thông lượng cao có thể mang lại lợi ích.
  • Ràng buộc phần cứng cố định: Đối với các tình huống mà phần cứng đã biết và tĩnh, có thể chọn kiến trúc bắt nguồn từ NAS để đáp ứng hoàn hảo ngân sách tính toán hiện có.

Khi nào nên chọn YOLOv9

  • Tầm nhìn máy tính mục đích chung: Đối với phần lớn các nhà phát triển làm việc về robot, bảo mật hoặc phân tích bán lẻ, YOLOv9 mang lại sự cân bằng tốt nhất giữa độ chính xác và tính dễ sử dụng.
  • Triển khai Edge: Do hiệu quả tham số vượt trội (ví dụ: YOLOv9s), nó phù hợp hơn với các thiết bị hạn chế như Raspberry Pi hoặc NVIDIA Jetson, tạo nhiều không gian hơn cho các ứng dụng khác.
  • Nghiên cứu và phát triển: Kiến trúc PGI cung cấp nền tảng hấp dẫn cho nghiên cứu sâu hơn về hiệu quả học sâu.
  • Yêu cầu một hệ sinh thái trưởng thành: Nếu dự án của bạn yêu cầu theo dõi đáng tin cậy, dễ dàng xuất sang CoreML hoặc TFLite và sự hỗ trợ tích cực của cộng đồng, Ultralytics hệ sinh thái xung quanh YOLOv9 là không gì sánh bằng.

Kết luận

Cả DAMO- YOLO Và YOLOv9 thể hiện sự đổi mới nhanh chóng trong lĩnh vực phát hiện đối tượng. DAMO- YOLO chứng minh giá trị của Tìm kiếm Kiến trúc Nơ-ron trong việc khai thác hiệu suất tốc độ tối đa. Tuy nhiên, YOLOv9 nổi bật là giải pháp linh hoạt và mạnh mẽ hơn cho hầu hết người dùng.

Bằng cách giải quyết tình trạng tắc nghẽn thông tin giám sát sâu với PGI và tối ưu hóa các lớp với GELAN, YOLOv9 mang lại độ chính xác tiên tiến với hiệu quả đáng chú ý . Khi kết hợp với Ultralytics Hệ sinh thái này cung cấp một nền tảng mạnh mẽ, được bảo trì tốt và thân thiện với người dùng, giúp đẩy nhanh quá trình từ ý tưởng đến triển khai. Dành cho các nhà phát triển đang tìm kiếm khả năng tự tin xây dựng các ứng dụng thị giác tiên tiến, Ultralytics YOLO mô hình vẫn là sự lựa chọn tốt nhất.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến việc khám phá các tùy chọn hiện đại khác trong Ultralytics gia đình hoặc so sánh thêm, hãy xem xét các nguồn sau:


Bình luận