YOLOv10 vs DAMO-YOLO: So sánh kỹ thuật giữa các mô hình phát hiện đối tượng thời gian thực

Khi xây dựng các pipeline computer vision hiện đại, việc chọn lựa kiến trúc phát hiện đối tượng thời gian thực phù hợp là vô cùng quan trọng. Trong bài phân tích kỹ thuật toàn diện này, chúng ta sẽ cùng tìm hiểu về kiến trúc, các chỉ số hiệu năng và các trường hợp sử dụng lý tưởng cho YOLOv10DAMO-YOLO. Cả hai mô hình đều đại diện cho những bước tiến đáng kể trong khả năng phát hiện đối tượng, tuy nhiên chúng đi theo những hướng kiến trúc khác nhau để đạt được mục tiêu của mình.

Dù dự án của bạn yêu cầu triển khai trên phần cứng edge AI bị giới hạn tài nguyên hay đòi hỏi độ chính xác tối đa trên GPU đám mây, việc hiểu rõ các sắc thái của những kiến trúc này sẽ giúp bạn đưa ra quyết định sáng suốt.

Khám phá YOLOv10

Được giới thiệu bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã tạo ra một cuộc cách mạng cho dòng họ YOLO bằng cách giới thiệu phương pháp end-to-end nguyên bản, giúp loại bỏ hoàn toàn nhu cầu sử dụng Non-Maximum Suppression (NMS) trong quá trình hậu xử lý.

Chi tiết YOLOv10:

Các tính năng kiến trúc chính

Sự đổi mới chính của YOLOv10 nằm ở chiến lược Consistent Dual Assignments dành cho quá trình huấn luyện không cần NMS. Các mô hình phát hiện đối tượng truyền thống thường phụ thuộc nặng nề vào NMS để lọc các bounding box chồng chéo, điều này gây ra độ trễ khó dự đoán—một nút thắt đáng kể đối với các ứng dụng thời gian thực như autonomous vehicles và robot tốc độ cao. Bằng cách dự đoán trực tiếp một bounding box tối ưu duy nhất cho mỗi đối tượng, YOLOv10 đạt được suy luận với độ trễ siêu thấp và có thể dự đoán trước.

Hơn nữa, mô hình này còn sử dụng thiết kế Holistic Efficiency-Accuracy Driven Design. Kiến trúc này tối ưu hóa các thành phần khác nhau, bao gồm đầu phân loại nhẹ (lightweight classification head) và kỹ thuật downsampling tách biệt giữa không gian và kênh (spatial-channel decoupled downsampling), giúp giảm đáng kể sự dư thừa về tính toán. Kết quả là một kiến trúc có số lượng tham số thấp hơn và ít FLOPs hơn trong khi vẫn duy trì mean Average Precision (mAP) đầy tính cạnh tranh.

Xuất mô hình tối giản cho sản xuất

Vì YOLOv10 loại bỏ các thao tác NMS khỏi đồ thị suy luận, việc xuất mô hình sang các định dạng như ONNX hoặc TensorRT trở nên đơn giản hơn nhiều, giúp nó đặc biệt phù hợp cho việc triển khai tại biên (edge deployments).

Tìm hiểu thêm về YOLOv10

Ví dụ sử dụng

YOLOv10 được tích hợp sâu vào hệ sinh thái Ultralytics, giúp việc sử dụng trở nên cực kỳ dễ dàng thông qua gói Python của Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to TensorRT format
model.export(format="engine", half=True)

Khám phá DAMO-YOLO

Được phát triển bởi Tập đoàn Alibaba, DAMO-YOLO tập trung vào việc khám phá các cấu trúc mạng hiệu quả cao thông qua Neural Architecture Search (NAS) tự động, nhằm mục đích thúc đẩy biên Pareto về tốc độ và độ chính xác.

Chi tiết về DAMO-YOLO:

Các tính năng kiến trúc chính

DAMO-YOLO giới thiệu một số công nghệ mới được thiết kế riêng cho các ứng dụng công nghiệp. Nền tảng của mô hình là MAE-NAS Backbone, được tạo ra thông qua quá trình tìm kiếm tiến hóa đa mục tiêu (Multi-Objective Evolutionary search). Quá trình tự động này khám phá ra các cấu trúc backbone tuân thủ nghiêm ngặt các ngân sách tính toán được xác định trước, tạo ra sự cân bằng tinh tế giữa độ chính xác và độ trễ suy luận.

Ngoài ra, kiến trúc này còn sử dụng neck Efficient RepGFPN. Mạng kim tự tháp tính năng này được thiết kế để cải thiện sự hợp nhất tính năng trên các quy mô khác nhau, điều cực kỳ quan trọng đối với các tác vụ phức tạp như phân tích hình ảnh trên không nơi các đối tượng có kích thước thay đổi đáng kể. Để bổ sung cho điều này, DAMO-YOLO triển khai ZeroHead, một đầu phát hiện tối giản giúp giảm đáng kể độ phức tạp của các lớp dự đoán cuối cùng, tiết kiệm thời gian tính toán quý báu trong quá trình suy luận.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu năng

Khi đánh giá các kiến trúc phát hiện đối tượng, việc tìm kiếm sự cân bằng phù hợp giữa tốc độ suy luận, hiệu quả tham số và độ chính xác phát hiện là điều tối quan trọng. Bảng dưới đây so sánh hiệu năng của YOLOv10 và DAMO-YOLO trên các kích thước mô hình tương ứng của chúng.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Như đã thấy trong các điểm chuẩn (benchmarks), YOLOv10 liên tục cung cấp các cấu hình độ trễ vượt trội trên TensorRT, đặc biệt là ở biến thể nano, yêu cầu ít tham số và FLOPs hơn đáng kể so với các mô hình tương đương của DAMO-YOLO. Mặc dù DAMO-YOLO cung cấp mAP tốt ở biến thể tiny, nhưng hiệu quả tham số và độ trễ suy luận của dòng YOLOv10 mang lại lợi thế khác biệt cho các môi trường triển khai bị hạn chế tài nguyên.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLOv10 và DAMO-YOLO phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là lựa chọn mạnh mẽ cho:

  • Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Ưu thế của Ultralytics

Mặc dù cả hai mô hình đều ấn tượng về mặt kỹ thuật, việc chọn kiến trúc cho môi trường sản xuất đòi hỏi phải nhìn xa hơn các chỉ số thô. Việc xây dựng với các mô hình được hỗ trợ nguyên bản bởi hệ sinh thái Ultralytics mang lại những lợi thế không gì sánh bằng cho cả nhà phát triển và nhà nghiên cứu.

Dễ sử dụng và hệ sinh thái được bảo trì tốt

Không giống như các kho lưu trữ học thuật độc lập thường phải đối mặt với tình trạng bị bỏ rơi, Ultralytics cung cấp một hệ sinh thái mạnh mẽ và được duy trì tích cực. Việc thiết lập các môi trường phức tạp cho các mô hình dựa nhiều vào các pipeline NAS có thể là một công việc khó khăn. Ngược lại, Ultralytics cung cấp API Python chuẩn hóa, trực quan và CLI mạnh mẽ, được hỗ trợ bởi tài liệu toàn diện. Điều này giúp giảm đáng kể thời gian đưa ra thị trường cho các giải pháp thị giác máy tính tùy chỉnh.

Hiệu quả Huấn luyện và Yêu cầu bộ nhớ

Huấn luyện các mô hình lớn có thể nhanh chóng trở nên đắt đỏ về mặt tính toán. Các kiến trúc YOLO của Ultralytics vốn nổi tiếng với dấu chân bộ nhớ CUDA thấp trong quá trình huấn luyện và suy luận. Hiệu quả này cho phép các nhà phát triển huấn luyện mô hình trên phần cứng tiêu dùng hoặc các instance đám mây tiết kiệm chi phí mà không gặp phải các lỗi hết bộ nhớ (out-of-memory) vốn phổ biến khi làm việc với các mô hình dựa trên Transformer như RT-DETR.

Theo dõi thử nghiệm

Ultralytics tích hợp nguyên bản với các công cụ MLOps hàng đầu. Bạn có thể dễ dàng theo dõi tiến trình huấn luyện mô hình của mình bằng cách sử dụng các tích hợp với Weights & Biases, Comet hoặc ClearML mà không cần viết thêm bất kỳ mã boilerplate nào.

Tính linh hoạt trên nhiều tác vụ

Một hạn chế đáng kể của nhiều mô hình phát hiện chuyên biệt là sự tập trung hẹp của chúng. Trong hệ sinh thái Ultralytics, bạn không chỉ bị giới hạn ở việc phát hiện đối tượng. Các công cụ mở rộng một cách liền mạch sang nhiều tác vụ thị giác máy tính, bao gồm instance segmentation, image classification, pose estimationoriented bounding box (OBB) detection.

Hướng tới tương lai: Sự tiến hóa của YOLO26

Trong khi YOLOv10 tiên phong trong suy luận không cần NMS và DAMO-YOLO thể hiện sức mạnh của NAS, lĩnh vực thị giác máy tính đang chuyển động rất nhanh. Đối với các nhà phát triển đang tìm kiếm giải pháp tiên tiến nhất, chúng tôi khuyên bạn nên xem qua Ultralytics YOLO26.

Được phát hành như là sự kế thừa chính thức cho YOLO11, YOLO26 xây dựng dựa trên nền tảng không cần NMS do YOLOv10 đặt ra nhưng tiến xa hơn đáng kể.

Những tiến bộ chính trong YOLO26 bao gồm:

  • Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho tính toán tại biên và các thiết bị năng lượng thấp.
  • Loại bỏ DFL: Distribution Focal Loss đã bị loại bỏ, đảm bảo việc xuất mô hình đơn giản hơn và tăng cường khả năng tương thích với các mục tiêu triển khai đa dạng.
  • Trình tối ưu hóa MuSGD: Một mô hình lai giữa SGD và Muon, mang lại sự ổn định khi huấn luyện LLM tiên tiến và khả năng hội tụ nhanh hơn trực tiếp vào thị giác máy tính.
  • ProgLoss + STAL: Drastically improved loss functions that offer notable enhancements in small-object recognition, which is essential for use cases like agriculture and remote sensing.

Bằng cách sử dụng Ultralytics Platform mới được tân trang lại, các nhà phát triển có thể chú thích, huấn luyện và triển khai liền mạch các mô hình thế hệ tiếp theo như YOLO26 chỉ trong vài cú nhấp chuột, đảm bảo pipeline thị giác máy tính của bạn vừa tiên tiến vừa sẵn sàng cho tương lai.

Bình luận