Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 so với YOLOv7#

Bối cảnh của computer vision đã mở rộng đáng kể trong vài năm qua, được thúc đẩy bởi những đổi mới liên tục trong cả Convolutional Neural Networks (CNNs) và Vision Transformers (ViTs). Việc lựa chọn kiến trúc phù hợp cho quá trình triển khai đòi hỏi sự hiểu biết về những đánh đổi tinh tế giữa tốc độ, độ chính xác và chi phí tính toán. Hướng dẫn này khám phá sự khác biệt kỹ thuật giữa hai kiến trúc được đánh giá cao: RTDETRv2 và YOLOv7, đồng thời làm nổi bật các cải tiến hiện đại có sẵn trong YOLO26 mới của Ultralytics.

Link to this sectionRTDETRv2: Cách tiếp cận Transformer cho phát hiện thời gian thực#

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) xây dựng dựa trên nền tảng của phiên bản tiền nhiệm để chứng minh rằng các kiến trúc dựa trên Transformer có thể cạnh tranh hiệu quả trong các tình huống thời gian thực mà không cần dựa vào các bước hậu xử lý truyền thống.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu Ngày: 2024-07-24 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RTDETRv2 Repository

Link to this sectionĐiểm nổi bật về kiến trúc#

RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.

Link to this sectionĐiểm mạnh và hạn chế#

Thế mạnh chính của RTDETRv2 nằm ở khả năng xử lý các vật thể dày đặc, chồng chéo trong các cảnh phức tạp. Bối cảnh toàn cục được cung cấp bởi các lớp attention của Transformer giúp nó đạt độ chính xác cao, đặc biệt là trong các tình huống thường xuyên xảy ra tình trạng che khuất.

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

Tìm hiểu thêm về RTDETRv2

Link to this sectionYOLOv7: Baseline CNN cho tốc độ#

Ra mắt một năm trước RTDETRv2, YOLOv7 đã giới thiệu một số tối ưu hóa cấu trúc cho framework YOLO cổ điển, thiết lập một benchmark mạnh mẽ cho các bộ phát hiện thời gian thực dựa trên CNN tại thời điểm xuất bản.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica, Taiwan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: YOLOv7 Repository

Link to this sectionĐiểm nổi bật về kiến trúc#

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Link to this sectionĐiểm mạnh và hạn chế#

YOLOv7 vẫn là một model rất mạnh mẽ cho các tác vụ object detection tiêu chuẩn, mang lại tốc độ xử lý tuyệt vời trên các GPU tiêu dùng. Bản chất CNN của nó có nghĩa là nó thường yêu cầu ít bộ nhớ CUDA hơn trong quá trình đào tạo so với các model dựa trên Transformer như RTDETRv2.

Bất chấp những ưu điểm này, YOLOv7 vẫn dựa vào NMS để hậu xử lý. Trong các môi trường có mật độ dự đoán cao, bước NMS có thể gây ra biến động về thời gian xử lý, khiến việc đảm bảo tính thời gian thực nghiêm ngặt trở nên khó khăn. Ngoài ra, so với các framework hiện đại, quá trình xử lý các tác vụ đa dạng như instance segmentationpose estimation có thể bị phân mảnh.

Tìm hiểu thêm về YOLOv7

Link to this sectionSo sánh hiệu năng#

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Bối cảnh hiệu suất

Mặc dù RTDETRv2-x đạt được mAP cao nhất, nhưng nó cũng mang số lượng tham số và FLOPs lớn nhất. Các biến thể nhỏ hơn như RTDETRv2-s mang lại tốc độ cạnh tranh trên TensorRT, nhưng người dùng nhắm đến môi trường công suất thấp không có GPU chuyên dụng cần đánh giá cẩn thận khả năng inference trên CPU.

Link to this sectionGiải pháp hiện đại: Bước tiến YOLO26#

Trong khi RTDETRv2 và YOLOv7 đóng vai trò then chốt trong việc thúc đẩy ranh giới của computer vision applications, bối cảnh AI phát triển rất nhanh chóng. Ra mắt vào tháng 1 năm 2026, YOLO26 tổng hợp các khía cạnh tốt nhất của cả hiệu suất CNN và các kiến trúc không cần NMS giống như Transformer.

Đối với các nhà phát triển và nhà nghiên cứu đang xây dựng các hệ thống mới, Ultralytics Platform tích hợp và hệ sinh thái Python cung cấp một trải nghiệm thống nhất giúp giảm thiểu đáng kể nợ kỹ thuật.

Link to this sectionNhững cải tiến chính trong YOLO26#

  • Thiết kế End-to-End NMS-Free: YOLO26 là thiết kế end-to-end tự nhiên, loại bỏ hậu xử lý NMS để triển khai nhanh hơn và đơn giản hơn. Cách tiếp cận đột phá này lần đầu tiên được tiên phong trong YOLOv10, đảm bảo độ trễ ổn định bất kể mật độ vật thể.
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • MuSGD Optimizer: Sự kết hợp giữa SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI), mang những đổi mới trong đào tạo LLM vào thị giác máy tính để đào tạo ổn định hơn và hội tụ nhanh hơn.
  • Loại bỏ DFL: Distribution Focal Loss đã bị loại bỏ, dẫn đến biểu đồ tính toán được đơn giản hóa để xuất mượt mà hơn sang các NPU nhúng và môi trường TensorRT.
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • Cải tiến theo tác vụ: YOLO26 không chỉ dành cho phát hiện. Nó có các nguyên mẫu đa quy mô cho phân đoạn, Residual Log-Likelihood Estimation (RLE) cho theo dõi tư thế và loss góc chuyên biệt giải quyết các vấn đề biên oriented bounding box (OBB).

Link to this sectionTrải nghiệm nhà phát triển hợp lý hóa#

Lợi thế thực sự của việc chọn một model Ultralytics như YOLO26 (hoặc YOLO11 rất phổ biến) là hệ sinh thái được duy trì tốt. Việc đào tạo một tập dữ liệu tùy chỉnh đòi hỏi rất ít boilerplate code:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

Tìm hiểu thêm về YOLO26

Link to this sectionCác trường hợp sử dụng và ứng dụng lý tưởng#

Việc lựa chọn giữa các kiến trúc này phụ thuộc phần lớn vào phần cứng mục tiêu và các yêu cầu vận hành cụ thể.

Link to this sectionKhi nào nên xem xét RTDETRv2#

RTDETRv2 cực kỳ hiệu quả trong các môi trường server-side processing được trang bị GPU mạnh mẽ. Cơ chế chú ý toàn cục (global attention mechanism) làm cho nó phù hợp để hiểu các cảnh phức tạp, chẳng hạn như giám sát sự kiện đông đúc hoặc chẩn đoán hình ảnh y tế chuyên sâu, nơi các đặc điểm chồng chéo đòi hỏi phân tích bối cảnh sâu sắc.

Link to this sectionKhi nào nên cân nhắc YOLOv7#

YOLOv7 thường được duy trì trong nghiên cứu học thuật cũ như một model so sánh baseline. Nó cũng được tìm thấy trong các triển khai công nghiệp cũ, nơi các đường ống (pipelines) hiện có được mã hóa cứng cho các phiên bản PyTorch cụ thể và không yêu cầu sự linh hoạt đa tác vụ của các framework mới hơn.

Link to this sectionTại sao YOLO26 là tiêu chuẩn được khuyến nghị#

For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.

Khám phá thêm các so sánh

Bạn quan tâm đến việc các model này so sánh với các kiến trúc khác như thế nào? Hãy xem hướng dẫn chi tiết của chúng tôi về YOLO11 vs. RTDETRYOLOv8 vs. YOLOv7 để tìm sự phù hợp hoàn hảo cho dự án AI thị giác của bạn.

Người đóng góp

Bình luận