Link to this sectionYOLOv9 so với DAMO-YOLO#
Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra một loạt các kiến trúc mạnh mẽ được thiết kế riêng cho các ràng buộc triển khai và yêu cầu độ chính xác khác nhau. Hai cái tên đáng chú ý trong lĩnh vực này là YOLOv9, nổi tiếng với khả năng xử lý tốt các nút thắt thông tin và DAMO-YOLO, tập trung mạnh vào Tìm kiếm kiến trúc thần kinh (NAS) và các kim tự tháp đặc trưng hiệu quả.
Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa YOLOv9 và DAMO-YOLO, làm nổi bật sự khác biệt về kiến trúc, phương pháp huấn luyện và các tình huống triển khai lý tưởng. Chúng ta cũng sẽ khám phá cách hệ sinh thái Ultralytics cung cấp một lộ trình liền mạch từ phát triển đến sản xuất, và lý do tại sao các model hiện đại như YOLO26 đã trở thành tiêu chuẩn được khuyến nghị cho các dự án mới.
Link to this sectionPhân tích chuyên sâu về kiến trúc#
Việc hiểu rõ các cơ chế cốt lõi thúc đẩy từng model cho thấy lý do tại sao chúng hoạt động khác nhau trên các chỉ số khác nhau.
Link to this sectionYOLOv9: Thông tin Gradient có thể lập trình#
YOLOv9 được thiết kế để giải quyết trực tiếp sự mất mát thông tin xảy ra khi dữ liệu truyền qua các mạng thần kinh sâu.
Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 21 tháng 2 năm 2024
Liên kết: Arxiv, GitHub, Tài liệu
YOLOv9 giới thiệu Thông tin gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). PGI đảm bảo rằng thông tin không gian và ngữ nghĩa quan trọng được giữ lại trong quá trình truyền tiến, ngăn chặn sự suy giảm của các gradient được sử dụng để cập nhật trọng số. GELAN bổ sung điều này bằng cách tối đa hóa hiệu quả tham số, cho phép model đạt được mean Average Precision (mAP) tiên tiến với ít FLOPs hơn so với nhiều CNN thông thường.
Link to this sectionDAMO-YOLO: Hiệu quả dựa trên NAS#
Được phát triển bởi Alibaba Group, DAMO-YOLO có cách tiếp cận khác, tận dụng tìm kiếm kiến trúc tự động để tìm ra sự cân bằng tối ưu giữa tốc độ và độ chính xác.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23 tháng 11 năm 2022
Liên kết: Arxiv, GitHub
DAMO-YOLO dựa vào nền tảng MAE-NAS (Masked Autoencoders for Neural Architecture Search) để tự động tạo ra các cấu trúc mạng hiệu quả. Nó sử dụng RepGFPN (Reparameterized Generalized Feature Pyramid Network) để hợp nhất tính năng mạnh mẽ và thiết kế "ZeroHead" để giảm thiểu gánh nặng tính toán của đầu phát hiện. Ngoài ra, nó tích hợp AlignedOTA để gán nhãn và chưng cất kiến thức nhằm tăng hiệu suất của các biến thể nhỏ hơn.
Tìm kiếm kiến trúc thần kinh (NAS) tự động hóa việc thiết kế các mạng thần kinh nhân tạo. Mặc dù nó có thể tạo ra các model hiệu quả cao như DAMO-YOLO, nó thường đòi hỏi tài nguyên tính toán khổng lồ để tìm kiếm không gian kiến trúc, trái ngược với triết lý thiết kế xác định hơn của các model như YOLOv9.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi chọn model phát hiện đối tượng, việc cân bằng độ chính xác, tốc độ và dung lượng tính toán là rất quan trọng.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Link to this sectionPhân tích#
- Độ chính xác so với tham số: YOLOv9 thường thể hiện tỷ lệ tham số trên độ chính xác vượt trội. Ví dụ, YOLOv9c đạt 53,0% mAP với 25,3M tham số, trong khi DAMO-YOLOl đạt 50,8% mAP nhưng đòi hỏi nhiều tham số hơn đáng kể (42,1M).
- Tốc độ suy luận: Kiến trúc của DAMO-YOLO cung cấp tốc độ suy luận TensorRT cạnh tranh trên các GPU T4, vượt trội hơn YOLOv9 một chút ở các phân khúc tầm trung. Tuy nhiên, hiệu quả của YOLOv9 về FLOPs và số lượng tham số chuyển thành hiệu quả bộ nhớ GPU vượt trội.
- Yêu cầu bộ nhớ: Các model Ultralytics YOLO, bao gồm YOLOv9, thường thể hiện mức sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận so với các model do NAS tạo ra phức tạp hoặc các kiến trúc transformer nặng nề, khiến chúng trở nên rất dễ tiếp cận để triển khai trên các phần cứng biên bị hạn chế.
Link to this sectionLợi thế từ hệ sinh thái Ultralytics#
Mặc dù các chỉ số lý thuyết rất quan trọng, việc triển khai thực tế quyết định phần lớn sự thành công của một dự án. Đây là lúc Nền tảng Ultralytics và hệ sinh thái phần mềm toàn diện của nó vượt trội hơn các kho lưu trữ độc lập như DAMO-YOLO.
Link to this sectionDễ sử dụng và hiệu quả huấn luyện#
Huấn luyện một model YOLOv9 tùy chỉnh yêu cầu tối thiểu các đoạn mã mẫu. Ultralytics Python API trừu tượng hóa các quy trình phức tạp như tăng cường dữ liệu, huấn luyện phân tán và tối ưu hóa phần cứng.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate model performance
metrics = model.val()
# Export for production deployment
model.export(format="onnx")Ngược lại, việc sử dụng DAMO-YOLO thường đòi hỏi phải làm việc với các tệp cấu hình cứng nhắc và các chuỗi phụ thuộc phức tạp dành riêng cho quy trình huấn luyện độc đáo của nó, dẫn đến đường cong học tập dốc hơn.
Link to this sectionTính linh hoạt giữa các tác vụ#
Một đặc điểm của các model Ultralytics là tính linh hoạt vốn có. Ngoài việc phát hiện bounding box tiêu chuẩn, framework Ultralytics hỗ trợ liền mạch các tác vụ như Phân đoạn đối tượng, Ước tính tư thế, Phân loại hình ảnh và phát hiện Bounding box định hướng (OBB). DAMO-YOLO chỉ được tối ưu hóa nghiêm ngặt cho phát hiện đối tượng 2D, đòi hỏi phải tái cấu trúc đáng kể để thích ứng với các mô hình thị giác khác.
Ultralytics đơn giản hóa quy trình triển khai bằng cách cung cấp tính năng xuất model chỉ bằng một cú nhấp chuột sang các định dạng như TensorRT, OpenVINO và CoreML, đảm bảo hiệu suất tối đa bất kể phần cứng mục tiêu của bạn là gì.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLOv9 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOv9#
YOLOv9 là lựa chọn mạnh mẽ cho:
- Nghiên cứu Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về Programmable Gradient Information (PGI) và kiến trúc Generalized Efficient Layer Aggregation Network (GELAN).
- Nghiên cứu Tối ưu hóa Luồng Gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu tình trạng mất thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
- Đo lường Phát hiện Độ chính xác cao: Các kịch bản mà hiệu suất đo lường trên bộ dữ liệu COCO của YOLOv9 cần thiết làm điểm tham chiếu cho các so sánh kiến trúc.
Link to this sectionKhi nào nên chọn DAMO-YOLO#
DAMO-YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionTương lai: Chuyển sang YOLO26#
Trong khi YOLOv9 và DAMO-YOLO đại diện cho các cột mốc lịch sử quan trọng, thị giác máy tính hiện đại đã chuyển dịch sang các kiến trúc end-to-end tự nhiên. Đối với bất kỳ sự phát triển mới nào, YOLO26 là tiêu chuẩn được khuyến nghị.
Được phát hành vào năm 2026, YOLO26 xây dựng dựa trên những thành công của các phiên bản tiền nhiệm, mang lại bước nhảy vọt về cả độ chính xác và sự đơn giản trong triển khai.
Link to this sectionNhững đổi mới chính của YOLO26#
- Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression (NMS). Điều này tạo ra một quy trình triển khai tinh gọn, tự nhiên end-to-end, một bước đột phá lần đầu tiên được tiên phong trong YOLOv10.
- Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa việc xuất và cải thiện khả năng tương thích với các thiết bị biên/thiết bị tiêu thụ điện năng thấp.
- Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ quá trình xử lý hậu kỳ phức tạp và tối ưu hóa các phép tích chập cốt lõi, YOLO26 đặc biệt phù hợp cho các tình huống điện toán biên thiếu GPU chuyên dụng.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, YOLO26 sử dụng sự kết hợp giữa SGD và Muon (MuSGD) để đảm bảo các lần huấn luyện ổn định hơn và thời gian hội tụ nhanh hơn đáng kể.
- ProgLoss + STAL: Các hàm mất mát nâng cao này cung cấp những cải tiến đáng kinh ngạc trong việc nhận diện đối tượng nhỏ, giúp YOLO26 trở nên lý tưởng cho hình ảnh hàng không độ cao và các thiết bị IoT.
Nếu bạn hiện đang nghiên cứu YOLO11 hoặc YOLOv8 cho dự án tiếp theo của mình, việc nâng cấp lên YOLO26 đảm bảo bạn đang sử dụng framework AI thị giác tiên tiến, được tối ưu hóa nhất hiện có.
Link to this sectionTóm tắt#
Việc chọn đúng model phụ thuộc vào các ràng buộc hoạt động cụ thể của bạn:
- DAMO-YOLO cung cấp một cái nhìn hấp dẫn về tối ưu hóa dựa trên NAS, mang lại tốc độ cạnh tranh cho các cấu hình phần cứng rất cụ thể, nơi kiến trúc RepGFPN của nó tỏa sáng.
- YOLOv9 là lựa chọn tuyệt vời cho các nhà nghiên cứu tập trung vào việc giữ lại các chi tiết hình ảnh tinh vi, tận dụng kiến trúc PGI của nó để ngăn ngừa mất mát thông tin trong các mạng sâu.
- Ultralytics YOLO26 là lựa chọn xác định cho các ứng dụng doanh nghiệp và nghiên cứu hiện đại. Sự dễ sử dụng vô song, kiến trúc không cần NMS và các tối ưu hóa huấn luyện MuSGD tiên tiến khiến nó trở thành model đáng tin cậy, chính xác và dễ triển khai nhất trong lĩnh vực thị giác máy tính.