RTDETRv2 so với YOLOv10: Những tiến bộ trong phát hiện đối tượng thời gian thực không cần NMS

Sự phát triển của thị giác máy tính phần lớn được thúc đẩy bởi việc không ngừng theo đuổi sự cân bằng giữa tốc độ và độ chính xác. Theo truyền thống, các quy trình phát hiện đối tượng thời gian thực thường dựa vào Non-Maximum Suppression (NMS) như một bước hậu xử lý để lọc bỏ các bounding box bị chồng lấp. Tuy nhiên, NMS gây ra các nút thắt về độ trễ và việc điều chỉnh siêu tham số phức tạp. Gần đây, hai phương pháp kiến trúc riêng biệt đã xuất hiện để giải quyết vấn đề này một cách tự nhiên: các mô hình dựa trên Transformer như RTDETRv2 và các mô hình dựa trên CNN như YOLOv10.

Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện về hai mô hình này, phân tích kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng, đồng thời nêu bật cách những cải tiến mới nhất trong hệ sinh thái Ultralytics mang đến giải pháp tối ưu cho việc triển khai hiện đại.

RTDETRv2: Transformer phát hiện thời gian thực

RTDETRv2 được xây dựng dựa trên kiến trúc RT-DETR gốc, nhằm mục đích kết hợp khả năng hiểu ngữ cảnh toàn cục của Vision Transformer với các yêu cầu về tốc độ thời gian thực vốn thường do các mô hình YOLO chiếm lĩnh.

Đặc điểm chính:

Kiến trúc và các phương pháp huấn luyện

RTDETRv2 sử dụng kiến trúc transformer end-to-end vốn dĩ không cần NMS. Nó cải thiện so với phiên bản tiền nhiệm bằng cách giới thiệu phương pháp "Bag-of-Freebies", tối ưu hóa chiến lược huấn luyện và kết hợp khả năng phát hiện đa quy mô. Mô hình sử dụng backbone CNN để trích xuất feature map (các chi tiết trực quan như cạnh và kết cấu), sau đó được xử lý bởi cấu trúc encoder-decoder của transformer. Điều này cho phép mô hình phân tích ngữ cảnh toàn bộ hình ảnh cùng một lúc, khiến nó đạt hiệu quả cao trong việc hiểu các cảnh phức tạp nơi các đối tượng được đóng gói dày đặc hoặc chồng lấp.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Ngữ cảnh toàn cục: Cơ chế chú ý cho phép mô hình vượt trội trong các môi trường phức tạp, lộn xộn.
  • Không cần NMS: Dự đoán trực tiếp tọa độ đối tượng, đơn giản hóa quy trình triển khai.
  • Độ chính xác cao: Đạt được mean average precision (mAP) xuất sắc trên tập dữ liệu COCO.

Điểm yếu:

  • Tốn nhiều tài nguyên: Các kiến trúc Transformer thường yêu cầu nhiều bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện so với CNN, khiến chúng trở nên đắt đỏ khi tinh chỉnh trên phần cứng tiêu chuẩn.
  • Inference Speed Variability: While fast, the heavy attention calculations can lead to lower FPS in computer vision on edge devices lacking dedicated AI accelerators.

Tìm hiểu thêm về RTDETRv2

YOLOv10: Phát hiện đối tượng end-to-end theo thời gian thực

YOLOv10 represents a major shift in the YOLO object detection lineage by addressing the long-standing NMS bottleneck directly within a CNN framework.

Đặc điểm chính:

Kiến trúc và các phương pháp huấn luyện

Cải tiến cốt lõi của YOLOv10 là các nhiệm vụ kép nhất quán cho quá trình huấn luyện không cần NMS. Nó sử dụng hai detection head trong quá trình huấn luyện: một head với nhiệm vụ một-nhiều (như các YOLO truyền thống) để cung cấp tín hiệu giám sát phong phú và một head khác với nhiệm vụ một-một để loại bỏ nhu cầu về NMS. Trong quá trình suy luận, chỉ có head một-một được sử dụng, dẫn đến một quy trình end-to-end. Hơn nữa, các tác giả đã áp dụng chiến lược thiết kế mô hình hướng tới hiệu quả-độ chính xác toàn diện, tối ưu hóa triệt để các thành phần khác nhau để giảm sự dư thừa tính toán.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Extreme Speed: By removing NMS and optimizing the architecture, YOLOv10 achieves incredibly low inference latency.
  • Efficiency: Requires fewer parameters and FLOPs to achieve comparable accuracy to other models, making it highly suitable for constrained environments.
  • NMS-Free Deployments: Streamlines integration into edge applications like smart surveillance.

Điểm yếu:

  • Khái niệm thế hệ đầu: Là mô hình YOLO đầu tiên triển khai kiến trúc không cần NMS cụ thể này, nó đã đặt nền móng nhưng vẫn còn dư địa cho tính linh hoạt đa nhiệm và tối ưu hóa như đã thấy ở các mô hình sau này như YOLO11 và YOLO26.

Tìm hiểu thêm về YOLOv10

So sánh hiệu năng

Khi đánh giá các mô hình cho sản xuất, việc cân bằng độ chính xác với chi phí tính toán là rất quan trọng. Bảng dưới đây làm nổi bật sự đánh đổi hiệu suất giữa các kích thước khác nhau của RTDETRv2 và YOLOv10.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

While RTDETRv2 offers robust accuracy, YOLOv10 demonstrates a remarkable advantage in latency and parameter efficiency, particularly in its smaller variants (Nano and Small), making it highly attractive for edge computing and AIoT applications.

Chọn quy mô phù hợp

If you are deploying on server-grade GPUs where batch size and VRAM are less constrained, the larger models (like -x or -l) maximize accuracy. For edge devices like Raspberry Pi or mobile phones, prioritize nano (-n) or small (-s) variants to maintain real-time frame rates.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa RT-DETR và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Khi nào nên chọn RT-DETR

RT-DETR là lựa chọn mạnh mẽ cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá các cơ chế chú ý và kiến trúc transformer cho việc phát hiện đối tượng end-to-end mà không cần NMS.
  • Các tình huống có độ chính xác cao với độ trễ linh hoạt: Các ứng dụng nơi độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là điều có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh có các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLOv10

YOLOv10 được khuyến nghị cho:

  • Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Lợi thế của Ultralytics: Giới thiệu YOLO26

While both RTDETRv2 and YOLOv10 offer compelling academic advancements, deploying them in real-world scenarios requires a robust, well-maintained software ecosystem. The Ultralytics Platform provides an unparalleled developer experience, combining ease of use, extensive documentation, and powerful tools for data annotation and deployment.

Đối với các nhà phát triển tìm kiếm trạng thái tốt nhất vào năm 2026, Ultralytics YOLO26 là khuyến nghị cuối cùng. Nó tổng hợp những ý tưởng tốt nhất từ cả hai kiến trúc đồng thời giới thiệu những cải tiến đột phá:

  • Thiết kế end-to-end không cần NMS: Dựa trên khái niệm tiên phong bởi YOLOv10, YOLO26 loại bỏ hoàn toàn hậu xử lý NMS, dẫn đến logic triển khai nhanh hơn, đơn giản hơn và độ trễ bằng không.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa việc xuất mô hình và cải thiện đáng kể khả năng tương thích với các thiết bị biên và thiết bị năng lượng thấp.
  • Trình tối ưu hóa MuSGD: Là sự kết hợp giữa SGD và Muon (lấy cảm hứng từ những cải tiến trong huấn luyện LLM), trình tối ưu hóa mới này mang lại quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn đáng kể so với các phương pháp truyền thống.
  • Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa cẩn thận cho các môi trường không có GPU chuyên dụng, giúp phổ cập hóa AI thị giác hiệu năng cao.
  • ProgLoss + STAL: These advanced loss functions yield notable improvements in small-object recognition, which is critical for applications using drones and IoT sensors.
  • Tính linh hoạt vô song: Không giống như các mô hình giới hạn ở bounding box, YOLO26 hỗ trợ toàn bộ các tác vụ bao gồm phân đoạn đối tượng, ước tính tư thế, phân loại hình ảnhphát hiện OBB, hoàn thiện với các cải tiến đặc thù cho tác vụ như Residual Log-Likelihood Estimation (RLE) cho Pose.

Tìm hiểu thêm về YOLO26

Triển khai liền mạch với Python

Việc huấn luyện và triển khai các mô hình này bằng Ultralytics Python API được thiết kế để không gây khó khăn. Yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc nặng nề transformer, cho phép bạn huấn luyện các mô hình mạnh mẽ trên phần cứng tiêu chuẩn.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Whether you are implementing security alarm systems or conducting medical image analysis, choosing a model backed by the active Ultralytics community ensures you have the tools, hyperparameter tuning guides, and continuous updates needed to succeed. While YOLOv10 and RTDETRv2 paved the way for NMS-free architectures, YOLO26 perfects the formula, offering the best balance of performance, versatility, and production readiness.

Bình luận