YOLOv9 so với DAMO- YOLO : So sánh kỹ thuật toàn diện
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là yếu tố then chốt cho sự thành công của dự án. Phân tích này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình mạnh mẽ: YOLOv9 , nổi tiếng với những đổi mới về kiến trúc trong thông tin gradient, và DAMO- YOLO , một mô hình của Tập đoàn Alibaba được thiết kế cho khả năng suy luận tốc độ cao. Chúng tôi xem xét kiến trúc độc đáo, số liệu hiệu suất và các kịch bản triển khai lý tưởng của họ để hướng dẫn các nhà phát triển và nhà nghiên cứu đưa ra quyết định sáng suốt.
YOLOv9 : Thông tin Gradient có thể lập trình để có độ chính xác vượt trội
YOLOv9 đánh dấu một sự tiến hóa đáng kể trong Bạn chỉ nhìn một lần ( YOLO ) tập trung vào việc giải quyết vấn đề tắc nghẽn thông tin vốn có trong mạng nơ-ron sâu. Bằng cách đảm bảo dữ liệu đầu vào quan trọng được bảo toàn trên khắp các lớp mạng, YOLOv9 đạt được độ chính xác hiện đại.
Tác giả: Vương Chien-Yao và Liêu Hồng Nguyên
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: 2402.13616
GitHub: WongKinYiu/yolov9
Tài liệu: Tài liệu Ultralytics YOLOv9
Kiến trúc và Đổi mới cốt lõi
Kiến trúc của YOLOv9 được xây dựng dựa trên hai khái niệm đột phá được thiết kế để tối ưu hóa hiệu quả học sâu :
- Thông tin Gradient Lập trình (PGI): PGI là một khung giám sát phụ trợ giải quyết vấn đề mất thông tin khi dữ liệu lan truyền qua các lớp sâu. Nó đảm bảo hàm mất nhận được các gradient đáng tin cậy, cho phép mô hình học các đặc trưng hiệu quả hơn mà không làm tăng chi phí suy luận.
- Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN): Kiến trúc mới này kết hợp thế mạnh của CSPNet và ELAN. GELAN được thiết kế để tối đa hóa việc sử dụng tham số và hiệu quả tính toán , cung cấp một nền tảng nhẹ nhưng mạnh mẽ, hỗ trợ nhiều khối tính toán khác nhau.
Điểm mạnh và Hệ sinh thái
- Độ chính xác hàng đầu: YOLOv9 đạt được điểm mAP đặc biệt trên tập dữ liệu COCO , thiết lập chuẩn mực cho các máy dò đối tượng theo thời gian thực.
- Hiệu quả tham số: Nhờ GELAN, model này mang lại hiệu suất cao với ít tham số hơn so với nhiều model tiền nhiệm.
- Tích hợp Ultralytics : Trở thành một phần của Ultralytics hệ sinh thái có nghĩa là YOLOv9 lợi ích từ API Python thống nhất, các tùy chọn xuất mô hình liền mạch ( ONNX , TensorRT , CoreML ), và tài liệu hướng dẫn chi tiết.
- Độ ổn định khi đào tạo: Khung PGI cải thiện đáng kể tốc độ hội tụ và độ ổn định trong quá trình đào tạo mô hình .
Điểm yếu
- Cường độ tài nguyên: Mặc dù hiệu quả đối với lớp độ chính xác của nó, các biến thể lớn nhất (như YOLOv9 -E) yêu cầu bộ nhớ GPU đáng kể để đào tạo.
- Tập trung vào nhiệm vụ: Nghiên cứu cốt lõi chủ yếu nhắm vào việc phát hiện đối tượng , trong khi các nghiên cứu khác Ultralytics Các mô hình như YOLO11 hỗ trợ sẵn nhiều tác vụ hơn, bao gồm ước tính tư thế và OBB.
DAMO- YOLO : Kiến trúc thần kinh Tìm kiếm tốc độ
DAMO- YOLO là minh chứng cho sức mạnh của thiết kế kiến trúc tự động. Được phát triển bởi Alibaba, giải pháp này tận dụng Tìm kiếm Kiến trúc Thần kinh (NAS) để tìm ra sự cân bằng tối ưu giữa độ trễ suy luận và hiệu suất phát hiện, đặc biệt nhắm đến các ứng dụng công nghiệp.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 2022-11-23
Arxiv: 2211.15444
GitHub: tinyvision/DAMO- YOLO
Kiến trúc và các tính năng chính
DAMO- YOLO tự phân biệt mình thông qua một số tiến bộ công nghệ nhằm tối đa hóa thông lượng:
- Xương sống MAE-NAS: Sử dụng cấu trúc xương sống bắt nguồn từ Tìm kiếm kiến trúc nơ-ron hiệu quả nhận biết phương pháp, tối ưu hóa cấu trúc mạng cho các hạn chế phần cứng cụ thể.
- RepGFPN hiệu quả: Mô hình sử dụng Mạng kim tự tháp tính năng tổng quát được tham số hóa làm phần cổ, tăng cường khả năng hợp nhất tính năng trong khi vẫn duy trì độ trễ thấp.
- ZeroHead: Thiết kế đầu phát hiện nhẹ giúp giảm chi phí tính toán thường liên quan đến các lớp dự đoán cuối cùng.
- AlignedOTA: Một chiến lược gán nhãn cải tiến giúp giải quyết tình trạng không khớp giữa các tác vụ phân loại và hồi quy trong quá trình đào tạo.
Điểm mạnh
- Độ trễ thấp: DAMO- YOLO được thiết kế để tăng tốc độ, giúp suy luận thời gian thực trên các thiết bị biên và GPU trở nên cực kỳ hiệu quả.
- Thiết kế tự động: Việc sử dụng NAS đảm bảo rằng kiến trúc được điều chỉnh về mặt toán học để đạt hiệu quả thay vì chỉ dựa vào phương pháp thủ công.
- Không có neo: Áp dụng phương pháp không có neo , đơn giản hóa quá trình điều chỉnh siêu tham số liên quan đến hộp neo.
Điểm yếu
- Hệ sinh thái hạn chế: So với các công cụ mở rộng có sẵn cho Ultralytics các mô hình, DAMO- YOLO có cộng đồng nhỏ hơn và ít công cụ tích hợp sẵn có cho MLOps .
- Tính linh hoạt: Chủ yếu chuyên về phát hiện, thiếu khả năng đa nhiệm gốc (phân đoạn, phân loại) có trong các khuôn khổ toàn diện hơn.
Phân tích hiệu năng: Tốc độ so với độ chính xác
Khi so sánh các số liệu hiệu suất, sự đánh đổi giữa hai kiến trúc trở nên rõ ràng. YOLOv9 ưu tiên bảo quản thông tin để đạt được độ chính xác cao hơn, thường vượt trội hơn DAMO- YOLO TRONG mAP điểm số trên các kích thước mô hình tương tự. Ngược lại, DAMO- YOLO tập trung vào thông lượng thô.
Tuy nhiên, hiệu quả của YOLOv9 Kiến trúc GELAN của YOLOv9-C cho phép nó duy trì khả năng cạnh tranh cao về tốc độ trong khi vẫn mang lại chất lượng phát hiện tốt hơn. Ví dụ, YOLOv9 -C đạt được hiệu suất cao hơn đáng kể. mAP (53,0%) so với DAMO- YOLO -L (50,8%) trong khi sử dụng ít tham số hơn (25,3M so với 42,1M). Điều này làm nổi bật YOLOv9 khả năng cung cấp "nhiều hơn với chi phí thấp hơn" xét về độ phức tạp của mô hình.
Diễn giải hiệu suất
Khi đánh giá các mô hình, hãy xem xét FLOP (Phép tính dấu chấm động) cùng với số lượng tham số. Số lượng FLOP thấp hơn thường cho thấy mô hình nhẹ hơn về mặt tính toán và có khả năng nhanh hơn trên phần cứng AI di động hoặc biên .
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Các trường hợp sử dụng lý tưởng
Sự khác biệt về kiến trúc quyết định kịch bản triển khai lý tưởng cho từng mô hình.
YOLOv9 Ứng dụng
YOLOv9 là sự lựa chọn ưu tiên cho các ứng dụng đòi hỏi độ chính xác không thể thương lượng .
- Chụp ảnh y tế: Phát hiện những bất thường nhỏ trong quá trình phân tích hình ảnh y tế, trong đó việc bỏ sót một dấu hiệu nào đó có thể rất nghiêm trọng.
- Điều hướng tự động: Hệ thống nhận thức tiên tiến dành cho xe tự lái đòi hỏi độ tin cậy cao trong việc phát hiện vật thể .
- Giám sát chi tiết: Hệ thống an ninh cần xác định các vật thể nhỏ hoặc hoạt động trong môi trường phức tạp với nhiều sự lộn xộn.
DAMO- YOLO Ứng dụng
DAMO- YOLO hoạt động tốt trong môi trường bị giới hạn bởi ngân sách độ trễ nghiêm ngặt .
- Sản xuất tốc độ cao: Các dây chuyền công nghiệp nơi hệ thống thị giác máy tính phải theo kịp băng chuyền tốc độ cao.
- Phân tích video: Xử lý khối lượng lớn luồng video trong đó chi phí thông lượng là mối quan tâm chính.
Các Ultralytics Lợi thế
Mặc dù cả hai mô hình đều ấn tượng về mặt kỹ thuật, nhưng việc lựa chọn một mô hình trong hệ sinh thái Ultralytics —chẳng hạn như YOLOv9 hoặc YOLO11 tiên tiến —mang lại những lợi thế riêng biệt cho các nhà phát triển và doanh nghiệp.
Quy trình làm việc liền mạch và khả năng sử dụng
Ultralytics Ưu tiên tính dễ sử dụng . Các mô hình có thể truy cập thông qua một giao diện thống nhất, tóm tắt mã nguồn phức tạp. Cho dù bạn đang đào tạo trên dữ liệu tùy chỉnh hay chạy suy luận, quy trình đều nhất quán và trực quan.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Hệ sinh thái được duy trì tốt
Ultralytics Các mô hình được hỗ trợ bởi một cộng đồng năng động và cập nhật thường xuyên. Các tính năng như Ultralytics HUB cho phép quản lý và đào tạo dữ liệu dựa trên web, trong khi khả năng tích hợp sâu rộng với các công cụ như TensorBoard và MLflow giúp hợp lý hóa vòng đời MLOps. Ngược lại, các mô hình nghiên cứu như DAMO- YOLO thường thiếu mức độ hỗ trợ liên tục và tích hợp công cụ này.
Tính linh hoạt và hiệu quả
Ultralytics Các mô hình được thiết kế để linh hoạt. Trong khi DAMO- YOLO là cụ thể để phát hiện, Ultralytics các mô hình như YOLO11 mở rộng khả năng phân đoạn thực thể , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) . Hơn nữa, chúng được tối ưu hóa để tiết kiệm bộ nhớ , thường yêu cầu ít tài nguyên hơn. CUDA bộ nhớ trong quá trình đào tạo so với các kiến trúc khác, tiết kiệm chi phí phần cứng.
Kết luận
Trong quá trình so sánh YOLOv9 với DAMO- YOLO , cả hai mô hình đều cho thấy những tiến bộ nhanh chóng trong AI. DAMO- YOLO cung cấp một kiến trúc hấp dẫn cho việc tối ưu hóa tốc độ thuần túy. Tuy nhiên, YOLOv9 nổi bật là giải pháp mạnh mẽ hơn cho hầu hết các ứng dụng thực tế. Nó mang lại độ chính xác vượt trội trên mỗi tham số, sử dụng kiến trúc tiên tiến để ngăn ngừa mất thông tin và nằm trong Ultralytics hệ sinh thái. Dành cho các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa hiệu suất, tính dễ sử dụng và hỗ trợ lâu dài, Ultralytics các mô hình vẫn là lựa chọn được khuyến nghị.
Khám phá các Mô hình Khác
Khám phá cách so sánh các mô hình hiện đại khác trong tài liệu của chúng tôi:
- YOLO11 so với DAMO-YOLO
- YOLOv8 so với DAMO-YOLO
- RT-DETR so với DAMO-YOLO
- YOLOX so với DAMO-YOLO
- YOLOv10 so với DAMO- YOLO