YOLOv9 so với DAMO-YOLO: So sánh kỹ thuật về các mô hình phát hiện đối tượng

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra hàng loạt kiến trúc mạnh mẽ được tùy chỉnh cho các ràng buộc triển khai và yêu cầu độ chính xác khác nhau. Hai cái tên đáng chú ý trong không gian này là YOLOv9, nổi tiếng với khả năng xử lý tốt các nút thắt thông tin, và DAMO-YOLO, vốn tập trung mạnh vào Tìm kiếm Kiến trúc Thần kinh (NAS) và các kim tự tháp đặc trưng hiệu quả.

Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa YOLOv9 và DAMO-YOLO, làm nổi bật những khác biệt về kiến trúc, phương pháp đào tạo và các kịch bản triển khai lý tưởng. Chúng ta cũng sẽ khám phá cách hệ sinh thái Ultralytics cung cấp lộ trình liền mạch từ phát triển đến sản xuất, và tại sao các mô hình hiện đại như YOLO26 đã trở thành tiêu chuẩn được khuyến nghị cho các dự án mới.

Đi sâu vào kiến trúc

Hiểu rõ các cơ chế cốt lõi thúc đẩy mỗi mô hình sẽ làm sáng tỏ lý do tại sao chúng có hiệu suất khác nhau trên nhiều chỉ số.

YOLOv9: Thông tin Gradient có thể lập trình (Programmable Gradient Information)

YOLOv9 được thiết kế để giải quyết trực tiếp tình trạng mất mát thông tin xảy ra khi dữ liệu truyền qua các mạng thần kinh sâu.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 21 tháng 2 năm 2024
Liên kết: Arxiv, GitHub, Docs

Tìm hiểu thêm về YOLOv9

YOLOv9 giới thiệu Programmable Gradient Information (PGI)Generalized Efficient Layer Aggregation Network (GELAN). PGI đảm bảo rằng thông tin ngữ nghĩa và không gian quan trọng được giữ lại trong quá trình lan truyền tiến, ngăn chặn sự suy giảm của các gradient được sử dụng để cập nhật trọng số. GELAN bổ sung cho điều này bằng cách tối đa hóa hiệu quả tham số, cho phép mô hình đạt được mean Average Precision (mAP) ở đẳng cấp hiện đại với ít FLOPs hơn so với nhiều CNN thông thường.

DAMO-YOLO: Hiệu quả dựa trên NAS

Được phát triển bởi Alibaba Group, DAMO-YOLO áp dụng một cách tiếp cận khác, tận dụng việc tìm kiếm kiến trúc tự động để tìm ra sự cân bằng tối ưu giữa tốc độ và độ chính xác.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23 tháng 11 năm 2022
Liên kết: Arxiv, GitHub

Tìm hiểu thêm về DAMO-YOLO

DAMO-YOLO dựa vào khung backbone MAE-NAS (Masked Autoencoders for Neural Architecture Search) để tự động tạo ra các cấu trúc mạng hiệu quả. Nó sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) để hợp nhất đặc trưng mạnh mẽ và thiết kế "ZeroHead" để giảm thiểu gánh nặng tính toán của phần đầu phát hiện. Ngoài ra, nó kết hợp AlignedOTA để gán nhãn và chưng cất tri thức nhằm tăng hiệu suất của các biến thể nhỏ hơn của nó.

Vai trò của NAS trong thị giác máy tính

Neural Architecture Search (NAS) tự động hóa việc thiết kế các mạng thần kinh nhân tạo. Mặc dù nó có thể tạo ra các mô hình hiệu quả cao như DAMO-YOLO, nó thường đòi hỏi nguồn lực tính toán khổng lồ để tìm kiếm không gian kiến trúc, trái ngược với triết lý thiết kế mang tính xác định hơn của các mô hình như YOLOv9.

So sánh hiệu suất và các chỉ số

Khi chọn mô hình object detection, việc cân bằng giữa độ chính xác, tốc độ và dấu chân tính toán là rất quan trọng.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Phân tích

  • Độ chính xác so với Tham số: YOLOv9 thường chứng tỏ tỷ lệ tham số trên độ chính xác vượt trội. Ví dụ, YOLOv9c đạt 53,0% mAP với 25,3 triệu tham số, trong khi DAMO-YOLOl đạt 50,8% mAP nhưng đòi hỏi số lượng tham số lớn hơn đáng kể (42,1 triệu).
  • Tốc độ suy luận (Inference Speed): Kiến trúc của DAMO-YOLO cung cấp tốc độ suy luận TensorRT cạnh tranh trên các GPU T4, vượt trội nhẹ so với YOLOv9 ở các phân khúc trung bình. Tuy nhiên, hiệu quả của YOLOv9 về FLOPs và số lượng tham số chuyển thành hiệu quả bộ nhớ GPU vượt trội.
  • Yêu cầu bộ nhớ: Các mô hình Ultralytics YOLO, bao gồm YOLOv9, thường thể hiện mức sử dụng bộ nhớ thấp hơn trong cả quá trình đào tạo và suy luận so với các mô hình do NAS tạo ra phức tạp hoặc các kiến trúc transformer nặng, giúp chúng dễ dàng tiếp cận để triển khai trên các phần cứng biên bị giới hạn.

Lợi thế của hệ sinh thái Ultralytics

Mặc dù các chỉ số lý thuyết rất quan trọng, việc triển khai thực tế quyết định phần lớn sự thành công của một dự án. Đây là nơi Ultralytics Platform và hệ sinh thái phần mềm toàn diện của nó vượt trội hơn so với các kho lưu trữ độc lập như DAMO-YOLO.

Dễ sử dụng và hiệu quả huấn luyện

Đào tạo một mô hình YOLOv9 tùy chỉnh yêu cầu tối thiểu mã boilerplate. Ultralytics Python API trừu tượng hóa các quy trình phức tạp như data augmentation, đào tạo phân tán và tối ưu hóa phần cứng.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Ngược lại, việc sử dụng DAMO-YOLO thường đòi hỏi phải điều hướng qua các tệp cấu hình cứng nhắc và các chuỗi phụ thuộc phức tạp đặc thù cho quy trình đào tạo độc đáo của nó, dẫn đến đường cong học tập khó khăn hơn.

Tính linh hoạt trên nhiều tác vụ

Một đặc trưng của các mô hình Ultralytics là tính linh hoạt vốn có của chúng. Ngoài việc phát hiện bounding box tiêu chuẩn, khung làm việc Ultralytics hỗ trợ liền mạch các tác vụ như Instance Segmentation, Pose Estimation, Image Classification, và phát hiện Oriented Bounding Box (OBB). DAMO-YOLO được tối ưu hóa nghiêm ngặt cho phát hiện đối tượng 2D, đòi hỏi phải tái thiết kế đáng kể để thích ứng với các mô hình thị giác khác.

Xuất sang các thiết bị biên

Ultralytics đơn giản hóa lộ trình triển khai bằng cách cung cấp tính năng xuất mô hình chỉ bằng một cú nhấp chuột sang các định dạng như TensorRT, OpenVINO, và CoreML, đảm bảo hiệu suất tối đa bất kể phần cứng mục tiêu của bạn là gì.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLOv9 và DAMO-YOLO phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và tùy chọn hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là lựa chọn mạnh mẽ cho:

  • Nghiên cứu về Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về kiến trúc Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN).
  • Nghiên cứu Tối ưu hóa Dòng Gradient: Các nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đo lường Hiệu năng Nhận diện Độ chính xác cao: Các trường hợp cần hiệu năng benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu để so sánh kiến trúc.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Tương lai: Chuyển sang YOLO26

Trong khi YOLOv9 và DAMO-YOLO đại diện cho các cột mốc lịch sử mạnh mẽ, thị giác máy tính hiện đại đã chuyển dịch sang các kiến trúc end-to-end tự nhiên. Đối với bất kỳ sự phát triển mới nào, YOLO26 là tiêu chuẩn được khuyến nghị.

Được phát hành vào năm 2026, YOLO26 xây dựng dựa trên những thành công của các phiên bản tiền nhiệm, mang lại bước nhảy vọt về cả độ chính xác và sự đơn giản trong triển khai.

Những đổi mới chính trên YOLO26

  • Thiết kế end-to-end không cần NMS: YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression (NMS). Điều này tạo ra một lộ trình triển khai tinh gọn, vốn là end-to-end tự nhiên, một bước đột phá lần đầu tiên được tiên phong trong YOLOv10.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa việc xuất mô hình và cải thiện khả năng tương thích với các thiết bị biên/thiết bị tiêu thụ điện năng thấp.
  • Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ hậu xử lý phức tạp và tối ưu hóa các phép tích chập (convolutions) cốt lõi, YOLO26 đặc biệt phù hợp cho các kịch bản điện toán biên thiếu các GPU chuyên dụng.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các cải tiến trong đào tạo LLM, YOLO26 sử dụng sự kết hợp giữa SGD và Muon (MuSGD) để đảm bảo các lượt đào tạo ổn định hơn và thời gian hội tụ nhanh hơn đáng kể.
  • ProgLoss + STAL: Các hàm mất mát (loss functions) nâng cao này cung cấp những cải tiến đáng kinh ngạc trong việc nhận diện đối tượng nhỏ, giúp YOLO26 trở nên lý tưởng cho hình ảnh chụp từ trên không ở độ cao lớn và các thiết bị IoT.

Nếu bạn hiện đang nghiên cứu YOLO11 hoặc YOLOv8 cho dự án tiếp theo của mình, việc nâng cấp lên YOLO26 đảm bảo bạn đang sử dụng khung làm việc thị giác AI tối ưu và hiện đại nhất hiện có.

Tóm tắt

Việc lựa chọn mô hình phù hợp phụ thuộc vào các ràng buộc vận hành cụ thể của bạn:

  • DAMO-YOLO cung cấp một cái nhìn thú vị về tối ưu hóa dựa trên NAS, mang lại tốc độ cạnh tranh cho các cấu hình phần cứng rất cụ thể, nơi kiến trúc RepGFPN của nó phát huy ưu thế.
  • YOLOv9 là lựa chọn tuyệt vời cho các nhà nghiên cứu tập trung vào việc giữ lại các chi tiết thị giác tinh vi, tận dụng kiến trúc PGI để ngăn chặn mất mát thông tin trong các mạng sâu.
  • Ultralytics YOLO26 đứng vững là lựa chọn dứt khoát cho các ứng dụng doanh nghiệp và nghiên cứu hiện đại. Sự dễ sử dụng vượt trội, kiến trúc không cần NMS, và các tối ưu hóa đào tạo MuSGD tiên tiến khiến nó trở thành mô hình đáng tin cậy, chính xác và dễ triển khai nhất trong bối cảnh thị giác máy tính.

Bình luận