Link to this sectionSo sánh DAMO-YOLO với YOLOv5#
Sự phát triển của thị giác máy tính được đánh dấu bằng sự đổi mới không ngừng trong lĩnh vực phát hiện đối tượng theo thời gian thực. Ngày nay, các lập trình viên và nhà nghiên cứu phải đối mặt với vô vàn lựa chọn về kiến trúc khi thiết kế các quy trình xử lý thị giác. Bài so sánh kỹ thuật toàn diện này khám phá những sắc thái khác biệt giữa DAMO-YOLO và Ultralytics YOLOv5, làm nổi bật kiến trúc, phương pháp huấn luyện, chỉ số hiệu suất và các kịch bản triển khai lý tưởng của từng mô hình.
Link to this sectionGiới thiệu về DAMO-YOLO#
Được phát hành bởi Tập đoàn Alibaba, DAMO-YOLO giới thiệu một số kỹ thuật mới lạ nhằm đẩy mạnh giới hạn về tốc độ và độ chính xác trong phát hiện đối tượng.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 23 tháng 11, 2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- Tài liệu: README.md
Link to this sectionCải tiến kiến trúc#
DAMO-YOLO được xây dựng dựa trên nền tảng Tìm kiếm Kiến trúc Mạng thần kinh (Neural Architecture Search - NAS). Các tác giả đã sử dụng MAE-NAS để tự động thiết kế các backbone cân bằng giữa độ trễ và độ chính xác. Mô hình giới thiệu kiến trúc RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả, giúp cải thiện việc hợp nhất đặc trưng trên các quy mô khác nhau. Hơn nữa, DAMO-YOLO tích hợp thiết kế "ZeroHead", loại bỏ các đầu dự đoán đa nhánh phức tạp để thay thế bằng một cấu trúc đơn giản, hiệu quả hơn, vốn dựa chủ yếu vào kỹ thuật tái tham số hóa (rep-parameterization) trong quá trình suy luận.
Để cải thiện quá trình huấn luyện, mô hình sử dụng AlignedOTA cho việc gán nhãn và quy trình tăng cường chưng cất (distillation) chuyên sâu, trong đó một mô hình "giáo viên" lớn hơn sẽ hướng dẫn mô hình "học sinh" nhỏ hơn để đạt được độ chính xác cao hơn.
Link to this sectionGiới thiệu về Ultralytics YOLOv5#
Ultralytics YOLOv5 là một trong những kiến trúc thị giác được áp dụng rộng rãi nhất trên thế giới, nổi tiếng nhờ sự ổn định, dễ sử dụng và hệ sinh thái triển khai mở rộng.
- Tác giả: Glenn Jocher
- Tổ chức: Ultralytics
- Ngày: 26 tháng 6, 2020
- GitHub: ultralytics/yolov5
- Tài liệu: Tài liệu YOLOv5
Link to this sectionTiêu chuẩn của Hệ sinh thái#
YOLOv5 đã định nghĩa lại tiêu chuẩn ngành về khả năng sử dụng. Được xây dựng nguyên bản trong PyTorch, mô hình này sử dụng backbone CSPNet được tối ưu hóa cao và neck PANet để tổng hợp đặc trưng mạnh mẽ. Mặc dù xuất hiện trước xu hướng không sử dụng anchor (anchor-free) của các mô hình sau này, phương pháp dựa trên anchor được tinh chỉnh kỹ lưỡng, kết hợp với khả năng tự động học anchor, đảm bảo hiệu suất tuyệt vời ngay khi vừa khởi chạy.
Sức mạnh thực sự của YOLOv5 nằm ở Hệ sinh thái được duy trì tốt. Nó tích hợp liền mạch với các công cụ theo dõi như Comet và Weights & Biases, đồng thời hỗ trợ xuất dữ liệu một lần nhấp sang các định dạng như ONNX, TensorRT và CoreML.
YOLOv5 cực kỳ dễ huấn luyện trên các tập dữ liệu tùy chỉnh. API được tinh giản giúp giảm bớt trở ngại từ khâu thử nghiệm đến sản xuất, khiến nó trở thành lựa chọn ưa thích của các nhóm kỹ thuật linh hoạt.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi so sánh các mô hình này, việc xem xét sự cân bằng giữa mAP (mean Average Precision), tốc độ suy luận và số lượng tham số là rất quan trọng.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Link to this sectionPhân tích các đánh đổi#
DAMO-YOLO đạt được các chỉ số mAP ấn tượng so với kích thước tham số của nó, hưởng lợi rất lớn từ giai đoạn huấn luyện chưng cất. Tuy nhiên, điều này đi kèm với cái giá là Hiệu quả Huấn luyện. Quy trình chưng cất đa giai đoạn đòi hỏi phải huấn luyện trước một mô hình giáo viên nặng, làm tăng đáng kể thời gian GPU compute và VRAM cần thiết.
Ngược lại, YOLOv5 cung cấp Yêu cầu Bộ nhớ tuyệt vời. Các mô hình Ultralytics YOLO nổi tiếng với mức tiêu thụ bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận so với các quy trình chưng cất phức tạp hoặc các mô hình dựa trên Transformer như RT-DETR. Điều này cho phép YOLOv5 được huấn luyện hiệu quả trên phần cứng phổ thông hoặc các môi trường đám mây dễ tiếp cận như Google Colab.
Link to this sectionCác ứng dụng thực tế và tính linh hoạt#
Việc lựa chọn kiến trúc phù hợp thường phụ thuộc vào môi trường triển khai.
Link to this sectionĐiểm mạnh của DAMO-YOLO#
DAMO-YOLO chỉ đơn thuần là mô hình phát hiện đối tượng. Đây là lựa chọn tuyệt vời cho nghiên cứu học thuật, đặc biệt là đối với các nhóm nghiên cứu về Tìm kiếm Kiến trúc Mạng thần kinh hoặc những nhóm muốn tái hiện các kỹ thuật tái tham số hóa chi tiết trong bài báo. Nếu một dự án có nguồn lực tính toán dồi dào để thực hiện giai đoạn huấn luyện chưng cất và chỉ tập trung vào việc tận dụng tối đa độ chính xác cho các hộp bao (bounding box) 2D, thì DAMO-YOLO là một đối thủ nặng ký.
Link to this sectionLợi thế từ Ultralytics#
Đối với sản xuất thực tế, Dễ sử dụng và Tính linh hoạt của các mô hình Ultralytics khiến chúng trở thành lựa chọn ưu tiên. Mặc dù YOLOv5 vẫn là một trụ cột cho việc phát hiện và phân loại hình ảnh, hệ sinh thái Ultralytics rộng lớn hơn cho phép các nhà phát triển chuyển đổi giữa các tác vụ một cách dễ dàng.
Ví dụ, các phiên bản mới hơn trong gia đình Ultralytics hỗ trợ nguyên bản các tác vụ phân đoạn đối tượng, ước tính tư thế và phát hiện Hộp bao định hướng (OBB). Khả năng đa tác vụ này đảm bảo rằng các nhóm có thể sử dụng một API Python thống nhất duy nhất cho các quy trình phức tạp, chẳng hạn như kết hợp nhận dạng biển số xe tự động với phân đoạn xe.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc chọn giữa DAMO-YOLO và YOLOv5 phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn DAMO-YOLO#
DAMO-YOLO là một lựa chọn mạnh mẽ cho:
- Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.
Link to this sectionKhi nào nên chọn YOLOv5#
YOLOv5 được khuyến nghị cho:
- Hệ thống sản xuất đã được kiểm chứng: Các hệ thống triển khai hiện có, nơi mà lịch sử lâu dài về tính ổn định, tài liệu đầy đủ và sự hỗ trợ cộng đồng khổng lồ của YOLOv5 được đánh giá cao.
- Huấn luyện hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi đường ống huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
- Hỗ trợ định dạng xuất mở rộng: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreML và TFLite.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionTương lai: Chuyển sang YOLO26#
Trong khi YOLOv5 là huyền thoại và DAMO-YOLO mang đến những hiểu biết học thuật thú vị, công nghệ hiện đại đã tiến xa. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một bước nhảy vọt to lớn đối với cộng đồng thị giác máy tính.
YOLO26 giải quyết các nút thắt truyền thống trong triển khai trên thiết bị biên và sự thiếu ổn định khi huấn luyện:
- End-to-End NMS-Free Design: YOLO26 natively eliminates Non-Maximum Suppression post-processing. This breakthrough simplifies deployment logic and drastically reduces latency variability, making it ideal for high-speed robotics and autonomous systems.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các cải tiến trong huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD (kết hợp giữa SGD và Muon). Điều này đảm bảo các lần huấn luyện có độ ổn định cao và hội tụ nhanh hơn rõ rệt.
- Suy luận trên CPU nhanh hơn tới 43%: Bằng cách loại bỏ có chiến lược Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ vượt trội trên CPU và các thiết bị biên so với các phiên bản tiền nhiệm như YOLO11 và YOLOv8.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận dạng đối tượng nhỏ, vốn rất quan trọng để phân tích hình ảnh máy bay không người lái và các luồng dữ liệu từ cảm biến IoT.
Link to this sectionVí dụ mã: Sự đơn giản trong thực tế#
Gói Ultralytics cho phép bạn huấn luyện và triển khai các mô hình chỉ với vài dòng code. Cho dù bạn đang sử dụng YOLOv5 hay nâng cấp lên YOLO26 được khuyến nghị, giao diện vẫn nhất quán và trực quan.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
# Export the model for edge deployment
model.export(format="onnx")Link to this sectionKết luận#
Cả DAMO-YOLO và YOLOv5 đều đã đóng góp đáng kể vào cảnh quan thị giác máy tính. DAMO-YOLO thể hiện sức mạnh của Tìm kiếm Kiến trúc Mạng thần kinh và chưng cất, khiến nó trở thành một nghiên cứu thú vị cho các nhà nghiên cứu. Tuy nhiên, YOLOv5 vẫn là một công cụ mạnh mẽ thực tế nhờ sự Cân bằng Hiệu suất, yêu cầu bộ nhớ thấp và tính dễ sử dụng chưa từng có.
Đối với các nhà phát triển bắt đầu các dự án mới ngay hôm nay, khuyến nghị là hãy tận dụng Nền tảng Ultralytics và áp dụng YOLO26. Nó kết hợp hệ sinh thái thân thiện được yêu thích của YOLOv5 với các tiến bộ kiến trúc mang tính đột phá, đảm bảo độ chính xác hàng đầu và khả năng suy luận nhanh chóng cho cả ứng dụng AI trên đám mây và biên. Các nhà phát triển cũng có thể muốn khám phá các mô hình hiệu quả khác như YOLOv6 hoặc YOLOX tùy thuộc vào các ràng buộc phần cứng cũ cụ thể.