YOLOv9 vs. DAMO- YOLO So sánh kỹ thuật các mô hình phát hiện đối tượng

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra một loạt các kiến trúc mạnh mẽ được thiết kế riêng cho các ràng buộc triển khai và yêu cầu độ chính xác khác nhau. Hai cái tên đáng chú ý trong lĩnh vực này là YOLOv9 , được đánh giá cao nhờ khả năng xử lý mạnh mẽ các nút thắt thông tin, và DAMO- YOLO , tập trung mạnh vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và các kim tự tháp đặc trưng hiệu quả.

Hướng dẫn này cung cấp sự so sánh chuyên sâu, mang tính kỹ thuật về... YOLOv9 và DAMO- YOLO Bài viết này sẽ làm nổi bật những khác biệt về kiến trúc, phương pháp đào tạo và các kịch bản triển khai lý tưởng của chúng. Chúng ta cũng sẽ tìm hiểu cách hệ sinh thái Ultralytics cung cấp một lộ trình liền mạch từ phát triển đến sản xuất, và tại sao các mô hình hiện đại như YOLO26 lại trở thành tiêu chuẩn được khuyến nghị cho các dự án mới.

Tìm hiểu sâu về kiến trúc

Hiểu được các cơ chế cốt lõi thúc đẩy từng mô hình sẽ giúp ta hiểu tại sao chúng lại hoạt động khác nhau trên nhiều chỉ số khác nhau.

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 Được thiết kế để trực tiếp giải quyết vấn đề mất mát thông tin xảy ra khi dữ liệu truyền qua các mạng nơ-ron sâu.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 21 tháng 2 năm 2024
Liên kết:Arxiv, GitHub, Tài liệu

Tìm hiểu thêm về YOLOv9

YOLOv9 Bài viết giới thiệu Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) . PGI đảm bảo rằng thông tin không gian và ngữ nghĩa quan trọng được giữ lại trong quá trình truyền tiến, ngăn chặn sự suy giảm của gradient được sử dụng để cập nhật trọng số. GELAN bổ sung điều này bằng cách tối đa hóa hiệu quả tham số, cho phép mô hình đạt được Độ chính xác trung bình ( mAP ) hàng đầu với số phép tính dấu phẩy động (FLOP) ít hơn nhiều so với các mạng CNN thông thường.

DAMO-YOLO: Hiệu quả dựa trên NAS

Được phát triển bởi Alibaba Group, DAMO-YOLO áp dụng một cách tiếp cận khác, tận dụng tìm kiếm kiến trúc tự động để tìm ra sự cân bằng tối ưu giữa tốc độ và độ chính xác.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Liên kết:Arxiv, GitHub

Tìm hiểu thêm về DAMO-YOLO

DAMO-YOLO dựa vào kiến trúc xương sống (backbone) MAE-NAS (Masked Autoencoders for Neural Architecture Search) để tự động tạo ra các cấu trúc mạng hiệu quả. Nó sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) để hợp nhất đặc trưng (feature fusion) mạnh mẽ và thiết kế "ZeroHead" để giảm thiểu gánh nặng tính toán của đầu detect. Ngoài ra, nó tích hợp AlignedOTA cho việc gán nhãn và chưng cất tri thức (knowledge distillation) để tăng cường hiệu suất của các biến thể nhỏ hơn.

Vai trò của NAS trong thị giác máy tính

Tìm kiếm kiến trúc mạng thần kinh (NAS) tự động hóa quá trình thiết kế mạng thần kinh nhân tạo. Mặc dù nó có thể tạo ra các mô hình hiệu quả cao như DAMO- YOLO Việc tìm kiếm trong không gian kiến trúc thường đòi hỏi nguồn tài nguyên tính toán khổng lồ, trái ngược với triết lý thiết kế mang tính xác định hơn của các mô hình như... YOLOv9 .

So sánh hiệu năng và số liệu

Khi lựa chọn mô hình phát hiện đối tượng , việc cân bằng giữa độ chính xác, tốc độ và mức độ yêu cầu tính toán là rất quan trọng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Phân tích

Độ chính xác so với Tham số: YOLOv9 nhìn chung thể hiện tỷ lệ tham số trên độ chính xác vượt trội. Chẳng hạn, YOLOv9c đạt 53.0% mAP với 25.3 triệu tham số, trong khi DAMO-YOLOl đạt 50.8% mAP nhưng yêu cầu nhiều tham số hơn đáng kể (42.1 triệu).
Tốc độ suy luận: Kiến trúc của DAMO-YOLO cung cấp tốc độ suy luận TensorRT cạnh tranh trên các GPU T4, nhỉnh hơn một chút so với YOLOv9 ở các cấp độ trung bình. Tuy nhiên, hiệu quả của YOLOv9 về FLOPs và số lượng tham số chuyển thành hiệu quả bộ nhớ GPU vượt trội.
Yêu cầu bộ nhớ: Các mô hình Ultralytics YOLO, bao gồm YOLOv9, thường thể hiện mức sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận so với các mô hình được tạo bằng NAS phức tạp hoặc các kiến trúc transformer nặng, giúp chúng dễ dàng tiếp cận để triển khai trên phần cứng biên bị hạn chế.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù các chỉ số lý thuyết rất quan trọng, nhưng việc triển khai thực tế mới là yếu tố quyết định lớn đến sự thành công của một dự án. Đây là điểm mà Nền tảng Ultralytics và hệ sinh thái phần mềm toàn diện của nó vượt trội hơn so với các kho lưu trữ độc lập như DAMO-. YOLO .

Dễ sử dụng và Hiệu quả huấn luyện

Đào tạo một nhóm tùy chỉnh YOLOv9 Mô hình này yêu cầu mã mẫu tối thiểu. API Python Ultralytics trừu tượng hóa các quy trình phức tạp như tăng cường dữ liệu , huấn luyện phân tán và tối ưu hóa phần cứng.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Ngược lại, việc sử dụng DAMO-YOLO thường yêu cầu điều hướng các tệp cấu hình cứng nhắc và chuỗi phụ thuộc phức tạp đặc trưng cho quy trình huấn luyện độc đáo của nó, dẫn đến một đường cong học tập dốc hơn.

Tính linh hoạt trên nhiều tác vụ

Một đặc điểm nổi bật của các mô hình Ultralytics là tính linh hoạt vốn có của chúng. Ngoài phát hiện hộp giới hạn tiêu chuẩn, khung Ultralytics còn hỗ trợ liền mạch các tác vụ như Phân đoạn đối tượng, Ước tính tư thế, Phân loại hình ảnh và phát hiện Hộp giới hạn định hướng (OBB). DAMO-YOLO được tối ưu hóa nghiêm ngặt cho phát hiện đối tượng 2D, đòi hỏi phải tái cấu trúc đáng kể để thích ứng với các mô hình thị giác khác.

Xuất dữ liệu sang thiết bị biên

Ultralytics đơn giản hóa quy trình triển khai bằng cách cung cấp tính năng xuất mô hình chỉ với một cú nhấp chuột sang các định dạng như TensorRT , OpenVINO và... CoreML , đảm bảo hiệu suất tối đa bất kể phần cứng mục tiêu của bạn là gì.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv9 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Tương lai: Chuyển sang YOLO26

Trong khi YOLOv9 và DAMO- YOLO Đại diện cho những cột mốc lịch sử quan trọng, thị giác máy tính hiện đại đã chuyển hướng sang các kiến trúc đầu cuối hoàn chỉnh. Đối với bất kỳ dự án phát triển mới nào, YOLO26 là tiêu chuẩn được khuyến nghị.

Ra mắt vào năm 2026, YOLO26 kế thừa những thành công của các phiên bản tiền nhiệm, mang đến bước tiến vượt bậc về độ chính xác và sự đơn giản trong triển khai.

Những đổi mới chính của YOLO26

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 loại bỏ hoàn toàn hậu xử lý Non-Maximum Suppression (NMS). Điều này tạo ra một quy trình triển khai tinh gọn, có tính đầu cuối tự nhiên, một bước đột phá lần đầu tiên được tiên phong trong YOLOv10.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa việc xuất và khả năng tương thích tốt hơn với thiết bị biên/công suất thấp.
Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ hậu xử lý phức tạp và tối ưu hóa các phép tích chập cốt lõi, YOLO26 đặc biệt phù hợp cho các kịch bản điện toán biên thiếu GPU chuyên dụng.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, YOLO26 sử dụng sự kết hợp giữa SGD và Muon (MuSGD) để đảm bảo các lần huấn luyện ổn định hơn và thời gian hội tụ nhanh hơn đáng kể.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến vượt trội trong việc nhận diện vật thể nhỏ, khiến YOLO26 trở nên lý tưởng cho hình ảnh trên không ở độ cao lớn và các thiết bị IoT.

Nếu bạn đang nghiên cứu YOLO11 hoặc YOLOv8 cho dự án tiếp theo của mình, việc nâng cấp lên YOLO26 sẽ đảm bảo bạn đang sử dụng khung AI xử lý hình ảnh tiên tiến và tối ưu nhất hiện nay.

Tóm tắt

Việc lựa chọn mô hình phù hợp phụ thuộc vào các ràng buộc vận hành cụ thể của bạn:

DAMO-YOLO mang đến cái nhìn thú vị về tối ưu hóa dựa trên NAS, cung cấp tốc độ cạnh tranh cho các cấu hình phần cứng rất cụ thể nơi kiến trúc RepGFPN của nó tỏa sáng.
YOLOv9 là một lựa chọn tuyệt vời cho các nhà nghiên cứu tập trung vào việc giữ lại các chi tiết hình ảnh tinh tế, tận dụng kiến trúc PGI của nó để ngăn chặn mất thông tin trong các mạng sâu.
Ultralytics YOLO26 là lựa chọn tối ưu cho các ứng dụng doanh nghiệp và nghiên cứu hiện đại. Khả năng dễ sử dụng vượt trội, kiến trúc không NMS và các tối ưu hóa huấn luyện MuSGD tiên tiến của nó làm cho nó trở thành mô hình đáng tin cậy, chính xác và dễ triển khai nhất trong lĩnh vực thị giác máy tính.