RTDETRv2 so với YOLOv7: Định hướng sự tiến hóa của nhận diện đối tượng thời gian thực

Bối cảnh của computer vision đã mở rộng đáng kể trong vài năm qua, được thúc đẩy bởi những đổi mới liên tục trong cả Mạng thần kinh tích chập (CNN) và Vision Transformer (ViT). Việc lựa chọn kiến trúc phù hợp cho quá trình triển khai của bạn đòi hỏi sự hiểu biết về những đánh đổi tinh tế giữa tốc độ, độ chính xác và chi phí tính toán. Hướng dẫn này khám phá những khác biệt kỹ thuật giữa hai kiến trúc được đánh giá cao: RTDETRv2 và YOLOv7, đồng thời làm nổi bật những tiến bộ hiện đại có sẵn trong Ultralytics YOLO26 mới hơn.

RTDETRv2: Cách tiếp cận Transformer cho nhận diện thời gian thực

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) xây dựng trên nền tảng của phiên bản tiền nhiệm để chứng minh rằng các kiến trúc dựa trên transformer có thể cạnh tranh hiệu quả trong các tình huống thời gian thực mà không cần dựa vào các bước hậu xử lý truyền thống.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu Ngày: 2024-07-24 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RTDETRv2 Repository

Các điểm nổi bật về kiến trúc

RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.

Ưu điểm và Hạn chế

Điểm mạnh chính của RTDETRv2 nằm ở khả năng xử lý các đối tượng dày đặc, chồng chéo trong các khung cảnh phức tạp. Bối cảnh toàn cầu được cung cấp bởi các lớp transformer attention làm cho nó có độ chính xác cao, đặc biệt là trong các tình huống thường xuyên xảy ra tình trạng che khuất.

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

Tìm hiểu thêm về RTDETRv2

YOLOv7: Một nền tảng CNN cho tốc độ

Ra mắt trước RTDETRv2 một năm, YOLOv7 đã giới thiệu một số tối ưu hóa cấu trúc cho framework YOLO cổ điển, thiết lập một chuẩn mực mạnh mẽ cho các trình phát hiện thời gian thực dựa trên CNN vào thời điểm xuất bản.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica, Taiwan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: YOLOv7 Repository

Các điểm nổi bật về kiến trúc

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Ưu điểm và Hạn chế

YOLOv7 vẫn là một mô hình rất mạnh mẽ cho các tác vụ object detection tiêu chuẩn, mang lại tốc độ xử lý tuyệt vời trên các GPU tiêu dùng. Bản chất CNN của nó có nghĩa là nó thường yêu cầu ít bộ nhớ CUDA hơn trong quá trình huấn luyện so với các mô hình dựa trên transformer như RTDETRv2.

Mặc dù có những ưu điểm này, YOLOv7 vẫn dựa vào NMS để hậu xử lý. Trong các môi trường có mật độ dự đoán cao, bước NMS có thể gây ra biến động về thời gian xử lý, khiến cho việc đảm bảo tính thời gian thực nghiêm ngặt trở nên khó khăn. Ngoài ra, so với các framework hiện đại, quá trình xử lý các tác vụ đa dạng như instance segmentationpose estimation có thể bị phân mảnh.

Tìm hiểu thêm về YOLOv7

So sánh hiệu năng

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Bối cảnh hiệu suất

Trong khi RTDETRv2-x đạt được mAP cao nhất, nó cũng đi kèm với số lượng tham số và FLOPs lớn nhất. Các biến thể nhỏ hơn như RTDETRv2-s mang lại tốc độ cạnh tranh trên TensorRT, nhưng người dùng nhắm đến các môi trường năng lượng thấp mà không có GPU chuyên dụng phải đánh giá cẩn thận khả năng inference trên CPU.

Giải pháp hiện đại: Sự xuất hiện của YOLO26

Mặc dù RTDETRv2 và YOLOv7 đóng vai trò then chốt trong việc đẩy lùi giới hạn của các computer vision applications, bối cảnh AI đang phát triển nhanh chóng. Được ra mắt vào tháng 1 năm 2026, YOLO26 tổng hợp những khía cạnh tốt nhất của cả hiệu suất CNN và kiến trúc không cần NMS giống transformer.

Đối với các nhà phát triển và nhà nghiên cứu đang xây dựng các hệ thống mới, Ultralytics Platform tích hợp và hệ sinh thái Python cung cấp trải nghiệm thống nhất giúp giảm đáng kể nợ kỹ thuật.

Những đổi mới chính trong YOLO26

  • Thiết kế end-to-end không cần NMS: YOLO26 là mô hình end-to-end nguyên bản, loại bỏ hậu xử lý NMS để triển khai nhanh hơn và đơn giản hơn. Cách tiếp cận đột phá này lần đầu tiên được tiên phong trong YOLOv10, đảm bảo độ trễ ổn định bất kể mật độ đối tượng.
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • Trình tối ưu hóa MuSGD: Một sự kết hợp lai giữa SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI), mang những đổi mới trong huấn luyện LLM vào thị giác máy tính để huấn luyện ổn định hơn và hội tụ nhanh hơn.
  • Loại bỏ DFL: Distribution Focal Loss đã bị loại bỏ, dẫn đến biểu đồ tính toán được đơn giản hóa để xuất sang các NPU nhúng và môi trường TensorRT mượt mà hơn.
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • Cải tiến theo tác vụ: YOLO26 không chỉ dành cho nhận diện. Nó có các mẫu đa quy mô (multi-scale prototypes) cho phân đoạn, Residual Log-Likelihood Estimation (RLE) để theo dõi tư thế, và hàm loss góc chuyên biệt giải quyết các vấn đề về biên oriented bounding box (OBB).

Trải nghiệm nhà phát triển được tinh giản

Lợi thế thực sự của việc chọn một mô hình Ultralytics như YOLO26 (hoặc YOLO11 vô cùng phổ biến) là hệ sinh thái được duy trì tốt. Việc huấn luyện một tập dữ liệu tùy chỉnh chỉ yêu cầu mã nguồn boilerplate tối thiểu:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng và ứng dụng lý tưởng

Việc lựa chọn giữa các kiến trúc này phụ thuộc rất nhiều vào phần cứng mục tiêu và các yêu cầu vận hành cụ thể.

Khi nào nên cân nhắc RTDETRv2

RTDETRv2 đạt hiệu quả cao trong các môi trường server-side processing được trang bị GPU mạnh mẽ. Cơ chế chú ý toàn cầu (global attention mechanism) của nó làm cho nó phù hợp để hiểu các cảnh phức tạp, chẳng hạn như giám sát các sự kiện đông đúc hoặc hình ảnh y tế chuyên dụng nơi các đặc điểm chồng chéo đòi hỏi phân tích ngữ cảnh sâu.

Khi nào nên cân nhắc YOLOv7

YOLOv7 thường được duy trì trong nghiên cứu học thuật cũ như một mô hình so sánh cơ sở. Nó cũng được tìm thấy trong các triển khai công nghiệp cũ hơn nơi các đường ống hiện có đã được hardcode cho các phiên bản PyTorch cụ thể và không yêu cầu sự linh hoạt đa tác vụ của các framework mới hơn.

Tại sao YOLO26 là tiêu chuẩn được khuyến nghị

Đối với cơ sở hạ tầng smart city hiện đại, drone navigation và sản xuất tốc độ cao, YOLO26 mang lại sự cân bằng không gì sánh được. Yêu cầu bộ nhớ thấp hơn của nó giúp việc hyperparameter tuning và huấn luyện trở nên dễ tiếp cận trên phần cứng tiêu dùng, trong khi quá trình inference không cần NMS của nó đảm bảo thực thi nhanh chóng trên các thiết bị edge bị hạn chế như Raspberry Pi hoặc NVIDIA Jetson.

Khám phá thêm các so sánh

Bạn quan tâm đến việc các mô hình này so với các kiến trúc khác như thế nào? Hãy xem hướng dẫn chi tiết của chúng tôi về YOLO11 vs. RTDETRYOLOv8 vs. YOLOv7 để tìm sự phù hợp hoàn hảo cho dự án AI thị giác của bạn.

Bình luận