Chuyển đến nội dung

RTDETRv2 so với YOLO26: So sánh Kỹ thuật về các Bộ detect Đối tượng Thế hệ Tiếp theo

Việc lựa chọn mô hình detect đối tượng phù hợp cho dự án thị giác máy tính của bạn thường liên quan đến việc điều hướng một bối cảnh phức tạp gồm các lựa chọn kiến trúc, đánh đổi giữa tốc độ-độ chính xác và các ràng buộc triển khai. Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa RTDETRv2, một transformer detect thời gian thực từ Baidu, và YOLO26, sự phát triển mới nhất trong dòng YOLO từ Ultralytics. Chúng tôi sẽ phân tích kiến trúc, điểm chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt.

Tóm tắt điều hành

Cả hai mô hình đều đại diện cho công nghệ tiên tiến nhất trong detect thời gian thực tính đến năm 2026. RTDETRv2 tiếp tục vượt qua giới hạn của detect dựa trên Transformer, mang lại độ chính xác xuất sắc thông qua các cơ chế chú ý của nó, đặc biệt trong các cảnh phức tạp. YOLO26, ra mắt vào tháng 1 năm 2026, cách mạng hóa dòng YOLO bằng cách áp dụng thiết kế đầu cuối không NMS nguyên bản, tăng đáng kể tốc độ suy luận trên CPU và đơn giản hóa việc triển khai trong khi vẫn duy trì độ chính xác hàng đầu.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

RTDETRv2: Tinh chỉnh Transformer Thời gian Thực

RTDETRv2 được xây dựng dựa trên thành công của RT-DETR gốc, vốn là bộ detect dựa trên transformer đầu tiên thực sự thách thức các mô hình YOLO trong các kịch bản thời gian thực. Được phát triển bởi Baidu, nó tập trung vào việc tối ưu hóa kiến trúc Vision Transformer (ViT) để đạt được tốc độ và độ chính xác thực tế.

Điểm nổi bật về kiến trúc

Đổi mới cốt lõi của RTDETRv2 nằm ở bộ mã hóa lai linh hoạt và cơ chế chọn truy vấn hiệu quả của nó. Không giống như các bộ detect dựa trên CNN truyền thống, nó sử dụng các cơ chế tự chú ý để nắm bắt ngữ cảnh toàn cục, điều này đặc biệt có lợi cho việc detect các đối tượng có mối quan hệ phức tạp hoặc bị che khuất. Bản cập nhật v2 giới thiệu một "Bag-of-Freebies" giúp cải thiện độ ổn định và hiệu suất huấn luyện mà không làm tăng chi phí suy luận. Nó sử dụng chiến lược lấy mẫu rời rạc cho các truy vấn, cho phép mô hình tập trung vào các vùng ảnh liên quan nhất.

Hiệu suất và Huấn luyện

RTDETRv2 vượt trội về độ chính xác, thường vượt qua các thế hệ YOLO trước đó trong các kịch bản yêu cầu độ chính xác cao. Tuy nhiên, điều này đi kèm với một cái giá. Kiến trúc Transformer thường yêu cầu nhiều bộ nhớ GPU và tài nguyên tính toán hơn đáng kể trong quá trình huấn luyện so với CNN. Mặc dù tốc độ suy luận là "thời gian thực" trên các GPU mạnh mẽ (như NVIDIA T4), nhưng nó có thể gặp khó khăn trên các thiết bị chỉ có CPU hoặc phần cứng biên, nơi các phép toán transformer ít được tối ưu hóa hơn so với các phép tích chập.

Tác giả chính: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: Tháng 7 năm 2024 (Arxiv v2)
Liên kết:Arxiv | GitHub

Tìm hiểu thêm về RT-DETR

YOLO26: Giải pháp Mạnh mẽ Đầu cuối cho Thiết bị Biên

YOLO26 đại diện cho một sự thay đổi kiến trúc lớn đối với Ultralytics. Nó từ bỏ sự phụ thuộc truyền thống vào Non-Maximum Suppression (NMS) để chuyển sang một kiến trúc đầu cuối nguyên bản. Lựa chọn thiết kế này giải quyết một trong những nút thắt cổ chai lâu đời nhất trong triển khai detect đối tượng: độ trễ và sự phức tạp của hậu xử lý.

Đổi mới Kiến trúc

Kiến trúc của YOLO26 được tinh gọn để đạt hiệu quả và tính đa năng:

  • Đầu cuối Không NMS: Bằng cách dự đoán các cặp khớp một-đối-một trong quá trình huấn luyện, YOLO26 loại bỏ nhu cầu về các bước suy luận NMS. Điều này làm giảm sự không thể đoán trước của độ trễ và đơn giản hóa các quy trình triển khai, đặc biệt trên các phần cứng không tiêu chuẩn như FPGA hoặc NPU.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss (DFL) đơn giản hóa đầu ra, giúp mô hình dễ dàng xuất sang các định dạng như ONNX và CoreML đồng thời cải thiện khả năng tương thích với lượng tử hóa 8-bit.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng một bộ tối ưu hóa lai kết hợp SGD và Muon. Điều này mang lại sự hội tụ nhanh hơn và các lần huấn luyện ổn định hơn.
  • ProgLoss + STAL: Các hàm mất mát mới—Cân bằng mất mát lũy tiến (Progressive Loss Balancing) và Gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment)—đặc biệt nhắm đến detect đối tượng nhỏ, một điểm yếu truyền thống của các bộ detect một giai đoạn.

Hiệu suất và Tính Đa năng

YOLO26 mang lại sự cân bằng hấp dẫn giữa tốc độ và độ chính xác. Mô hình YOLO26n (nano) chạy nhanh hơn tới 43% trên CPUs so với các phiên bản trước, biến nó thành lựa chọn hàng đầu cho các ứng dụng di động và IoT. Hơn nữa, YOLO26 là một họ mô hình thống nhất; người dùng có thể chuyển đổi liền mạch giữa các tác vụ Phát hiện đối tượng, Phân đoạn thực thể, Ước tính tư thế, Phân loạiPhát hiện đối tượng có hướng (obb) bằng cách sử dụng cùng một API.

Tác giả chính: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 14 tháng 1 năm 2026
Liên kết:Tài liệu Ultralytics | GitHub

Tìm hiểu thêm về YOLO26

So sánh chi tiết

1. Tốc độ và Hiệu quả trên Thiết bị Biên

Đây là điểm khác biệt rõ rệt nhất. RTDETRv2 phụ thuộc nhiều vào các phép nhân ma trận có khả năng mở rộng tốt trên GPUs nhưng có thể gây tắc nghẽn cho CPUs. YOLO26, với kiến trúc backbone dựa trên CNN và head không NMS, hiệu quả hơn đáng kể trên các thiết bị có tài nguyên hạn chế. Ví dụ, mô hình YOLO26n đạt độ trễ 38.9 ms trên một CPU tiêu chuẩn, trong khi các mô hình dựa trên transformer thường gặp khó khăn trong việc đạt hiệu suất thời gian thực nếu không có tăng tốc chuyên dụng.

Triển khai biên

Để triển khai trên Raspberry Pi, Jetson Nano hoặc các thiết bị di động, YOLO26 thường là lựa chọn ưu việt hơn nhờ tập hợp các phép toán được tối ưu hóa và yêu cầu bộ nhớ thấp hơn. Việc loại bỏ DFL còn đơn giản hóa quá trình xuất sang TFLiteCoreML.

2. Yêu cầu về Tài nguyên Huấn luyện

Các mô hình Ultralytics nổi tiếng với các vòng lặp huấn luyện hiệu quả. YOLO26 yêu cầu VRAM ít hơn đáng kể để huấn luyện so với RTDETRv2. Các mô hình Transformer thường cần kích thước batch lớn và lịch trình huấn luyện mở rộng để hội tụ, điều này dẫn đến chi phí tính toán đám mây cao hơn. Trình tối ưu hóa MuSGD của YOLO26 còn đẩy nhanh quá trình này, cho phép các nhà nghiên cứu lặp lại nhanh hơn ngay cả trên các thiết lập GPU đơn.

3. Tính Đa năng của Tác vụ

Trong khi RTDETRv2 chủ yếu tập trung vào phát hiện đối tượng, hệ sinh thái YOLO26 vốn dĩ là đa tác vụ.

  • RTDETRv2: Tuyệt vời cho phát hiện hộp giới hạn.
  • YOLO26: Hỗ trợ nguyên bản các tác vụ Phát hiện, Phân đoạn, Tư thế, obb và Phân loại. Điều này biến YOLO26 thành một "dao đa năng" cho các nhà phát triển, những người có thể cần chuyển đổi từ phát hiện hộp giới hạn sang phân đoạn mask hoặc ước tính điểm khóa mà không cần thay đổi toàn bộ ngăn xếp phần mềm của họ.

4. Hệ sinh thái và Dễ sử dụng

Hệ sinh thái Ultralytics mang lại lợi thế đáng kể về trải nghiệm nhà phát triển. Với một gói python thống nhất, tài liệu phong phú và tích hợp liền mạch với các công cụ như Weights & BiasesRoboflow, việc đưa một mô hình YOLO26 từ tập dữ liệu đến triển khai trở nên đơn giản. RTDETRv2, mặc dù mạnh mẽ, thường yêu cầu cấu hình thủ công nhiều hơn và có đường cong học tập dốc hơn đối với những người dùng ít quen thuộc với kiến trúc transformer.

Ví dụ Mã: Chạy YOLO26

Sự đơn giản của API Ultralytics cho phép thử nghiệm và tích hợp ngay lập tức.

from ultralytics import YOLO

# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Kết luận

Cả hai mô hình đều là những thành tựu vượt trội trong thị giác máy tính. RTDETRv2 là một ứng cử viên mạnh mẽ cho các triển khai GPU cao cấp, nơi độ chính xác tối đa trong các cảnh phức tạp là tối quan trọng và chi phí tính toán của các mô hình transformer là chấp nhận được.

Tuy nhiên, YOLO26 là lựa chọn toàn diện được khuyến nghị cho phần lớn các ứng dụng thực tế. Thiết kế đầu cuối không NMS, hiệu suất CPU vượt trội, yêu cầu bộ nhớ thấp hơn và hỗ trợ nhiều tác vụ thị giác khiến nó trở thành lựa chọn thực dụng cho các kỹ sư xây dựng hệ thống AI có khả năng mở rộng, hiệu quả và linh hoạt. Dù bạn triển khai trên một trang trại máy chủ hay một camera thông minh, YOLO26 đều mang lại một hồ sơ hiệu suất cân bằng khó có thể đánh bại.

Các mô hình khác để xem xét

  • YOLO11: Tiền nhiệm đáng tin cậy của YOLO26, vẫn được sử dụng rộng rãi và hỗ trợ đầy đủ.
  • YOLO-World: Lý tưởng cho phát hiện từ vựng mở, nơi bạn cần detect các đối tượng không có trong tập huấn luyện của mình.
  • FastSAM: Nếu bạn đặc biệt cần khả năng segment-anything với tốc độ thời gian thực.

Bình luận