DAMO-YOLO so với YOLOv5: Phân tích chuyên sâu về Phát hiện đối tượng thời gian thực

Sự phát triển của computer vision được đánh dấu bằng sự đổi mới liên tục trong lĩnh vực phát hiện đối tượng thời gian thực. Ngày nay, các nhà phát triển và nhà nghiên cứu phải đối mặt với vô vàn lựa chọn kiến trúc khi thiết kế các pipeline thị giác máy tính. Bài so sánh kỹ thuật toàn diện này khám phá những điểm khác biệt giữa DAMO-YOLOUltralytics YOLOv5, làm nổi bật kiến trúc, phương pháp huấn luyện, chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng.

Giới thiệu về DAMO-YOLO

Được phát hành bởi Alibaba Group, DAMO-YOLO đã giới thiệu một số kỹ thuật mới nhằm đẩy mạnh ranh giới về tốc độ và độ chính xác trong phát hiện đối tượng.

Tìm hiểu thêm về DAMO-YOLO

Đổi mới kiến trúc

DAMO-YOLO được xây dựng dựa trên nền tảng Neural Architecture Search (NAS). Các tác giả đã sử dụng MAE-NAS để tự động thiết kế các backbone giúp cân bằng giữa độ trễ và độ chính xác. Mô hình giới thiệu kiến trúc RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả, giúp cải thiện khả năng kết hợp đặc trưng trên các thang đo khác nhau. Hơn nữa, DAMO-YOLO còn tích hợp thiết kế "ZeroHead", loại bỏ các head dự đoán đa nhánh phức tạp để chuyển sang cấu trúc đơn giản, hiệu quả hơn, vốn dựa chủ yếu vào tái tham số hóa (rep-parameterization) trong quá trình suy luận (inference).

Để cải thiện quá trình huấn luyện, mô hình sử dụng AlignedOTA cho việc gán nhãn và quy trình tăng cường chưng cất (distillation) chuyên sâu, trong đó một mô hình "giáo viên" lớn hơn sẽ hướng dẫn mô hình "học sinh" nhỏ hơn để đạt được độ chính xác cao hơn.

Giới thiệu về Ultralytics YOLOv5

Ultralytics YOLOv5 là một trong những kiến trúc thị giác máy tính được áp dụng rộng rãi nhất trên thế giới, nổi tiếng nhờ sự ổn định, dễ sử dụng và hệ sinh thái triển khai phong phú.

Tìm hiểu thêm về YOLOv5

Tiêu chuẩn hệ sinh thái

YOLOv5 đã định nghĩa lại tiêu chuẩn công nghiệp về khả năng sử dụng. Được xây dựng dựa trên PyTorch, nó sử dụng backbone CSPNet được tối ưu hóa cao và neck PANet để tổng hợp đặc trưng mạnh mẽ. Mặc dù xuất hiện trước xu hướng không sử dụng neo (anchor-free) ở các mô hình sau này, phương pháp dựa trên neo (anchor-based) được tinh chỉnh cao của nó, cùng với tính năng tự động học neo, đảm bảo hiệu suất tuyệt vời ngay từ khi bắt đầu sử dụng.

Sức mạnh thực sự của YOLOv5 nằm ở Hệ sinh thái được duy trì tốt (Well-Maintained Ecosystem). Nó tích hợp liền mạch với các công cụ theo dõi như CometWeights & Biases, đồng thời hỗ trợ xuất dữ liệu một lần nhấp sang các định dạng như ONNX, TensorRTCoreML.

Bắt đầu với YOLOv5

YOLOv5 cực kỳ dễ huấn luyện trên các tập dữ liệu tùy chỉnh. API được tinh giản giúp giảm bớt rào cản từ khâu tạo mẫu thử nghiệm đến khi đưa vào sản xuất, khiến nó trở thành lựa chọn ưu tiên của các đội ngũ kỹ thuật linh hoạt (agile).

So sánh hiệu suất và các chỉ số

Khi so sánh các mô hình này, điều quan trọng là phải xem xét sự cân bằng giữa mean Average Precision (mAP), tốc độ suy luận và số lượng tham số.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Phân tích sự đánh đổi

DAMO-YOLO đạt được điểm mAP ấn tượng so với kích thước tham số của nó, hưởng lợi rất nhiều từ giai đoạn huấn luyện chưng cất. Tuy nhiên, điều này đòi hỏi chi phí về Hiệu quả huấn luyện. Quy trình chưng cất đa giai đoạn yêu cầu phải huấn luyện một mô hình giáo viên nặng trước, điều này làm tăng đáng kể thời gian GPU compute và VRAM cần thiết.

Ngược lại, YOLOv5 cung cấp Yêu cầu bộ nhớ tuyệt vời. Các mô hình Ultralytics YOLO nổi tiếng với mức sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận so với các pipeline chưng cất phức tạp hoặc các mô hình dựa trên Transformer như RT-DETR. Điều này cho phép YOLOv5 được huấn luyện hiệu quả trên phần cứng phổ thông hoặc các môi trường đám mây dễ tiếp cận như Google Colab.

Ứng dụng thực tế và tính linh hoạt

Việc lựa chọn kiến trúc phù hợp thường phụ thuộc vào môi trường triển khai.

Nơi DAMO-YOLO chiếm ưu thế

DAMO-YOLO hoàn toàn là một mô hình object detection. Đây là lựa chọn tuyệt vời cho nghiên cứu học thuật, đặc biệt là các đội ngũ đang nghiên cứu Neural Architecture Search hoặc những ai muốn tái lập các kỹ thuật tái tham số hóa được trình bày chi tiết trong bài báo. Nếu một dự án có nguồn lực tính toán dồi dào để thực hiện giai đoạn huấn luyện chưng cất và chỉ tập trung vào việc vắt kiệt từng chút độ chính xác cuối cùng cho các hộp bao (bounding box) 2D, thì DAMO-YOLO là một đối thủ nặng ký.

Ưu thế của Ultralytics

Đối với môi trường sản xuất thực tế, Dễ sử dụngTính linh hoạt của các mô hình Ultralytics khiến chúng trở thành lựa chọn ưu tiên. Trong khi YOLOv5 vẫn là lựa chọn chủ đạo cho việc phát hiện và image classification, hệ sinh thái Ultralytics rộng lớn hơn cho phép các nhà phát triển chuyển đổi giữa các tác vụ một cách dễ dàng.

Ví dụ, các phiên bản mới hơn trong gia đình Ultralytics hỗ trợ tự nhiên instance segmentation, pose estimation và phát hiện Oriented Bounding Box (OBB). Khả năng đa tác vụ này đảm bảo các đội ngũ có thể sử dụng một Python API duy nhất, thống nhất cho các pipeline phức tạp, chẳng hạn như kết hợp nhận diện biển số xe tự động với phân đoạn phương tiện.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa DAMO-YOLO và YOLOv5 phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO là lựa chọn mạnh mẽ cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.

Khi nào nên chọn YOLOv5

YOLOv5 được khuyến nghị cho:

  • Các hệ thống sản xuất đã được kiểm chứng: Các triển khai hiện có nơi mà hồ sơ ổn định lâu dài, tài liệu phong phú và sự hỗ trợ lớn từ cộng đồng của YOLOv5 được đánh giá cao.
  • Huấn luyện trong môi trường hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreML, và TFLite.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Tương lai: Chuyển sang YOLO26

Trong khi YOLOv5 là huyền thoại và DAMO-YOLO cung cấp những thông tin chi tiết thú vị về mặt học thuật, thì trạng thái hiện tại của công nghệ (state-of-the-art) đã tiến hóa. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho một bước nhảy vọt lớn cho cộng đồng thị giác máy tính.

Tìm hiểu thêm về YOLO26

YOLO26 giải quyết các nút thắt truyền thống của việc triển khai trên thiết bị biên (edge) và sự bất ổn trong huấn luyện:

  • Thiết kế NMS-Free End-to-End: YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Bước đột phá này đơn giản hóa logic triển khai và giảm đáng kể sự biến thiên độ trễ, khiến nó trở nên lý tưởng cho robotics tốc độ cao và các hệ thống tự hành.
  • MuSGD Optimizer: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng trình tối ưu hóa MuSGD (kết hợp giữa SGD và Muon). Điều này đảm bảo các lượt huấn luyện có độ ổn định cao và hội tụ nhanh hơn rõ rệt.
  • Suy luận trên CPU nhanh hơn tới 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ vượt trội trên CPU và các thiết bị biên so với những thế hệ tiền nhiệm như YOLO11YOLOv8.
  • ProgLoss + STAL: Những hàm loss tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng đối tượng nhỏ, vốn là yếu tố quan trọng để phân tích hình ảnh máy bay không người lái và dữ liệu từ cảm biến IoT.

Ví dụ mã nguồn: Sự đơn giản trong thực tế

Gói phần mềm Ultralytics cho phép bạn huấn luyện và triển khai các mô hình chỉ với vài dòng code. Cho dù bạn đang sử dụng YOLOv5 hay nâng cấp lên YOLO26 được khuyến nghị, giao diện vẫn nhất quán và trực quan.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Kết luận

Cả DAMO-YOLO và YOLOv5 đều đóng góp đáng kể vào bối cảnh thị giác máy tính. DAMO-YOLO thể hiện sức mạnh của Neural Architecture Search và chưng cất, khiến nó trở thành một nghiên cứu thú vị cho các nhà nghiên cứu. Tuy nhiên, YOLOv5 vẫn là một công cụ thực dụng mạnh mẽ nhờ Sự cân bằng về hiệu suất, yêu cầu bộ nhớ thấp và sự dễ sử dụng không đối thủ.

Đối với các nhà phát triển đang bắt đầu dự án mới hôm nay, khuyến nghị là hãy tận dụng Ultralytics Platform và áp dụng YOLO26. Nó kết hợp hệ sinh thái thân thiện được yêu thích của YOLOv5 với những tiến bộ kiến trúc đột phá, đảm bảo độ chính xác hàng đầu và suy luận cực nhanh cho cả ứng dụng đám mây và AI trên thiết bị biên. Các nhà phát triển cũng có thể muốn khám phá các mô hình hiệu quả khác như YOLOv6 hoặc YOLOX tùy thuộc vào các hạn chế về phần cứng cũ cụ thể.

Bình luận