Chuyển đến nội dung

YOLOv9 vs. DAMO- YOLO So sánh kỹ thuật các mô hình phát hiện đối tượng

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra một loạt các kiến ​​trúc mạnh mẽ được thiết kế riêng cho các ràng buộc triển khai và yêu cầu độ chính xác khác nhau. Hai cái tên đáng chú ý trong lĩnh vực này là YOLOv9 , được đánh giá cao nhờ khả năng xử lý mạnh mẽ các nút thắt thông tin, và DAMO- YOLO , tập trung mạnh vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và các kim tự tháp đặc trưng hiệu quả.

Hướng dẫn này cung cấp sự so sánh chuyên sâu, mang tính kỹ thuật về... YOLOv9 và DAMO- YOLO Bài viết này sẽ làm nổi bật những khác biệt về kiến ​​trúc, phương pháp đào tạo và các kịch bản triển khai lý tưởng của chúng. Chúng ta cũng sẽ tìm hiểu cách hệ sinh thái Ultralytics cung cấp một lộ trình liền mạch từ phát triển đến sản xuất, và tại sao các mô hình hiện đại như YOLO26 lại trở thành tiêu chuẩn được khuyến nghị cho các dự án mới.

Tìm hiểu sâu về kiến trúc

Hiểu được các cơ chế cốt lõi thúc đẩy từng mô hình sẽ giúp ta hiểu tại sao chúng lại hoạt động khác nhau trên nhiều chỉ số khác nhau.

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 Được thiết kế để trực tiếp giải quyết vấn đề mất mát thông tin xảy ra khi dữ liệu truyền qua các mạng nơ-ron sâu.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 21 tháng 2 năm 2024
Liên kết: Arxiv , GitHub , Tài liệu

Tìm hiểu thêm về YOLOv9

YOLOv9 Bài viết giới thiệu Thông tin Gradient có thể lập trình (PGI)Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) . PGI đảm bảo rằng thông tin không gian và ngữ nghĩa quan trọng được giữ lại trong quá trình truyền tiến, ngăn chặn sự suy giảm của gradient được sử dụng để cập nhật trọng số. GELAN bổ sung điều này bằng cách tối đa hóa hiệu quả tham số, cho phép mô hình đạt được Độ chính xác trung bình ( mAP ) hàng đầu với số phép tính dấu phẩy động (FLOP) ít hơn nhiều so với các mạng CNN thông thường.

DAMO-YOLO: Hiệu quả dựa trên NAS

Được phát triển bởi Tập đoàn Alibaba, DAMO- YOLO Phương pháp này áp dụng cách tiếp cận khác, tận dụng tìm kiếm kiến ​​trúc tự động để tìm ra sự cân bằng tối ưu giữa tốc độ và độ chính xác.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Liên kết: Arxiv , GitHub

Tìm hiểu thêm về DAMO-YOLO

DAMO- YOLO Nó dựa trên kiến ​​trúc MAE-NAS (Masked Autoencoders for Neural Architecture Search) để tự động tạo ra các cấu trúc mạng hiệu quả. Nó sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) để kết hợp các đặc trưng mạnh mẽ và thiết kế "ZeroHead" nhằm giảm thiểu gánh nặng tính toán của bộ phận phát hiện. Ngoài ra, nó còn tích hợp AlignedOTA để gán nhãn và chắt lọc kiến ​​thức nhằm nâng cao hiệu suất của các biến thể nhỏ hơn.

Vai trò của NAS trong thị giác máy tính

Tìm kiếm kiến ​​trúc mạng thần kinh (NAS) tự động hóa quá trình thiết kế mạng thần kinh nhân tạo. Mặc dù nó có thể tạo ra các mô hình hiệu quả cao như DAMO- YOLO Việc tìm kiếm trong không gian kiến ​​trúc thường đòi hỏi nguồn tài nguyên tính toán khổng lồ, trái ngược với triết lý thiết kế mang tính xác định hơn của các mô hình như... YOLOv9 .

So sánh hiệu năng và số liệu

Khi lựa chọn mô hình phát hiện đối tượng , việc cân bằng giữa độ chính xác, tốc độ và mức độ yêu cầu tính toán là rất quan trọng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Phân tích

  • Độ chính xác so với các thông số: YOLOv9 Nhìn chung, nó thể hiện tỷ lệ tham số trên độ chính xác vượt trội. Ví dụ, YOLOv9c đạt 53,0%. mAP với 25,3 triệu thông số, trong khi DAMO-YOLOl đạt được 50,8%. mAP nhưng đòi hỏi nhiều tham số hơn đáng kể (42,1 triệu).
  • Tốc độ suy luận: DAMO- YOLO Kiến trúc của 's mang lại lợi thế cạnh tranh TensorRT Tốc độ suy luận trên GPU T4, nhỉnh hơn một chút. YOLOv9 ở các cấp độ trung bình. Tuy nhiên, YOLOv9 Hiệu suất của nó về số phép tính FLOPs và số lượng tham số dẫn đến hiệu quả sử dụng bộ nhớ GPU vượt trội.
  • Yêu cầu bộ nhớ: Ultralytics YOLO các mô hình, bao gồm YOLOv9 So với các mô hình phức tạp được tạo ra từ NAS hoặc các kiến ​​trúc transformer nặng nề, chúng thường có mức sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận, điều này giúp chúng dễ dàng triển khai trên phần cứng biên có hạn chế về tài nguyên.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù các chỉ số lý thuyết rất quan trọng, nhưng việc triển khai thực tế mới là yếu tố quyết định lớn đến sự thành công của một dự án. Đây là điểm mà Nền tảng Ultralytics và hệ sinh thái phần mềm toàn diện của nó vượt trội hơn so với các kho lưu trữ độc lập như DAMO-. YOLO .

Dễ sử dụng và Hiệu quả huấn luyện

Đào tạo một nhóm tùy chỉnh YOLOv9 Mô hình này yêu cầu mã mẫu tối thiểu. API Python Ultralytics trừu tượng hóa các quy trình phức tạp như tăng cường dữ liệu , huấn luyện phân tán và tối ưu hóa phần cứng.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Ngược lại, việc sử dụng DAMO- YOLO Việc này thường đòi hỏi phải điều hướng qua các tệp cấu hình cứng nhắc và chuỗi phụ thuộc phức tạp đặc thù cho quy trình huấn luyện riêng của nó, dẫn đến đường cong học tập khó khăn hơn.

Tính linh hoạt trên nhiều tác vụ

Một dấu ấn đặc trưng của Ultralytics Điểm mạnh của các mô hình này nằm ở tính linh hoạt vốn có của chúng. Ngoài khả năng phát hiện hộp giới hạn tiêu chuẩn, các mô hình này còn có khả năng... Ultralytics Khung phần mềm hỗ trợ liền mạch các tác vụ như Phân đoạn đối tượng , Ước tính tư thế , Phân loại hình ảnh và Phát hiện hộp giới hạn định hướng (OBB) . DAMO- YOLO Nó được tối ưu hóa nghiêm ngặt cho việc phát hiện đối tượng 2D, đòi hỏi phải thiết kế lại đáng kể để thích ứng với các mô hình hình ảnh khác.

Xuất dữ liệu sang thiết bị biên

Ultralytics đơn giản hóa quy trình triển khai bằng cách cung cấp tính năng xuất mô hình chỉ với một cú nhấp chuột sang các định dạng như TensorRT , OpenVINO và... CoreML , đảm bảo hiệu suất tối đa bất kể phần cứng mục tiêu của bạn là gì.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv9 và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

  • Nghiên cứu về tắc nghẽn thông tin: Các dự án học thuật nghiên cứu kiến ​​trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
  • Nghiên cứu tối ưu hóa dòng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu sự mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đánh giá hiệu năng phát hiện độ chính xác cao: Các kịch bản trong đó YOLOv9 mạnh mẽ COCO Hiệu năng chuẩn là cần thiết để làm điểm tham chiếu cho việc so sánh kiến ​​trúc.

Khi nào nên chọn DAMO-YOLO

DAMO- YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến ​​trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến ​​trúc tự động (MAE-NAS) và các kiến ​​trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Tương lai: Chuyển sang YOLO26

Trong khi YOLOv9 và DAMO- YOLO Đại diện cho những cột mốc lịch sử quan trọng, thị giác máy tính hiện đại đã chuyển hướng sang các kiến ​​trúc đầu cuối hoàn chỉnh. Đối với bất kỳ dự án phát triển mới nào, YOLO26 là tiêu chuẩn được khuyến nghị.

Ra mắt vào năm 2026, YOLO26 kế thừa những thành công của các phiên bản tiền nhiệm, mang đến bước tiến vượt bậc về độ chính xác và sự đơn giản trong triển khai.

Những đổi mới chính của YOLO26

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression) NMS ) xử lý hậu kỳ hoàn toàn. Điều này tạo ra một quy trình triển khai được tối ưu hóa, hoạt động trọn vẹn từ đầu đến cuối, một bước đột phá lần đầu tiên được tiên phong trong YOLOv10 .
  • Loại bỏ DFL: Hiện tượng suy hao tiêu điểm phân bổ (Distribution Focal Loss - DFL) đã được loại bỏ để đơn giản hóa quá trình xuất dữ liệu và cải thiện khả năng tương thích với các thiết bị công suất thấp/cạnh.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ các bước xử lý hậu kỳ phức tạp và tối ưu hóa các phép tích chập cốt lõi, YOLO26 đặc biệt phù hợp với các kịch bản điện toán biên thiếu GPU chuyên dụng.
  • MuSGD Optimizer: Lấy cảm hứng từ những cải tiến trong đào tạo LLM, YOLO26 sử dụng sự kết hợp của... SGD và Muon (MuSGD) để đảm bảo các quá trình huấn luyện ổn định hơn và thời gian hội tụ nhanh hơn đáng kể.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, giúp YOLO26 trở nên lý tưởng cho ảnh chụp từ trên không ở độ cao lớn và các thiết bị IoT.

Nếu bạn đang nghiên cứu YOLO11 hoặc YOLOv8 cho dự án tiếp theo của mình, việc nâng cấp lên YOLO26 sẽ đảm bảo bạn đang sử dụng khung AI xử lý hình ảnh tiên tiến và tối ưu nhất hiện nay.

Tóm tắt

Việc lựa chọn mô hình phù hợp phụ thuộc vào các ràng buộc hoạt động cụ thể của bạn:

  • DAMO- YOLO mang đến cái nhìn thú vị về tối ưu hóa dựa trên NAS, cung cấp tốc độ cạnh tranh cho các cấu hình phần cứng rất cụ thể, nơi kiến ​​trúc RepGFPN của nó phát huy tối đa hiệu quả.
  • YOLOv9 là một lựa chọn tuyệt vời dành cho các nhà nghiên cứu tập trung vào việc giữ lại các chi tiết hình ảnh nhỏ nhất, tận dụng kiến ​​trúc PGI của nó để ngăn ngừa mất mát thông tin trong các mạng nơ-ron sâu.
  • Ultralytics YOLO26 là sự lựa chọn tối ưu cho các ứng dụng doanh nghiệp và nghiên cứu hiện đại. Với khả năng sử dụng dễ dàng vượt trội, NMS Kiến trúc không phụ thuộc vào thư viện và các tối ưu hóa huấn luyện MuSGD tiên tiến khiến nó trở thành mô hình đáng tin cậy, chính xác và dễ triển khai nhất trong lĩnh vực thị giác máy tính.

Bình luận