YOLO26 so với RTDETRv2: So sánh kỹ thuật các bộ detect thời gian thực thế hệ tiếp theo
Trong lĩnh vực thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng để cân bằng tốc độ, độ chính xác và tính linh hoạt trong triển khai. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa Ultralytics YOLO26 và RTDETRv2, hai kiến trúc tiên tiến được thiết kế cho hiệu suất thời gian thực.
Mặc dù cả hai mô hình đều tận dụng những đổi mới hiện đại để đạt được độ chính xác cao, nhưng chúng khác biệt đáng kể về triết lý kiến trúc, chiến lược tối ưu hóa và dễ dàng triển khai. Phân tích này đi sâu vào các số liệu, sự khác biệt về cấu trúc và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho các ứng dụng thị giác máy tính của mình.
Tóm tắt điều hành
Ultralytics YOLO26 đại diện cho sự phát triển mới nhất trong dòng YOLO, ra mắt vào tháng 1 năm 2026. Nó giới thiệu một thiết kế end-to-end (không NMS) nguyên bản, loại bỏ nhu cầu về các bước hậu xử lý như Non-Maximum Suppression. Với các tối ưu hóa như loại bỏ DFL và bộ tối ưu hóa MuSGD mới, YOLO26 được thiết kế để đạt hiệu quả tối đa trên các thiết bị biên, cung cấp khả năng suy luận trên CPU nhanh hơn tới 43% so với các phiên bản tiền nhiệm. Đây là một phần của hệ sinh thái Ultralytics tích hợp, đảm bảo quá trình huấn luyện, xác thực và triển khai liền mạch.
RTDETRv2 (Real-Time Detection Transformer v2), được phát triển bởi Baidu, cải tiến dựa trên RT-DETR gốc bằng cách tinh chỉnh bộ mã hóa lai và giới thiệu cơ chế lựa chọn truy vấn rời rạc linh hoạt. Nó tập trung vào việc mang lại lợi ích về độ chính xác của các mô hình transformer cho các kịch bản thời gian thực. Mặc dù nó loại bỏ NMS thông qua kiến trúc transformer của mình, nhưng nó thường yêu cầu nhiều tài nguyên tính toán và bộ nhớ GPU hơn so với các mô hình YOLO dựa trên CNN hoặc được tối ưu hóa lai.
So sánh Các chỉ số Hiệu suất
Bảng dưới đây nêu bật hiệu suất của cả hai mô hình trên tập dữ liệu COCO. YOLO26 thể hiện hiệu quả vượt trội, đặc biệt về số lượng tham số và tốc độ suy luận, khiến nó rất phù hợp cho các ứng dụng AI biên.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Cân bằng hiệu suất
YOLO26 đạt mAP cao hơn với số lượng tham số và FLOPs ít hơn đáng kể. Ví dụ, YOLO26s vượt trội hơn RTDETRv2-s (48.6 so với 48.1 mAP) trong khi nhanh hơn khoảng 2 lần trên GPU T4 và sử dụng ít hơn một nửa số tham số (9.5M so với 20M).
Tìm hiểu sâu về kiến trúc
Ultralytics YOLO26
YOLO26 giới thiệu một số thay đổi kiến trúc đột phá nhằm đơn giản hóa việc triển khai và tăng tốc độ mà không làm giảm độ chính xác.
- End-to-End không NMS: Một sự thay đổi lớn so với các kiến trúc YOLO truyền thống, YOLO26 là mô hình end-to-end nguyên bản. Thiết kế này loại bỏ bước hậu xử lý Non-Maximum Suppression (NMS), giảm độ trễ và độ phức tạp trong quá trình triển khai. Cách tiếp cận này được tiên phong trong YOLOv10 và được tinh chỉnh tại đây.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, cấu trúc mô hình được đơn giản hóa. Thay đổi này rất quan trọng để tương thích tốt hơn với các thiết bị biên và thiết bị tiêu thụ ít năng lượng, hợp lý hóa việc xuất sang các định dạng như ONNX và CoreML.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các đổi mới trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa lai kết hợp SGD và Muon. Điều này mang lại động lực huấn luyện ổn định hơn và hội tụ nhanh hơn.
- ProgLoss + STAL: Sự kết hợp giữa Cân bằng mất mát lũy tiến (Progressive Loss Balancing) và Gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment) cải thiện đáng kể khả năng detect vật thể nhỏ, một thách thức phổ biến trong các tác vụ thị giác máy tính như phân tích hình ảnh trên không.
RTDETRv2
RTDETRv2 được xây dựng trên nền tảng của RT-DETR gốc, một bộ detect dựa trên transformer được thiết kế để thách thức sự thống trị của các mô hình YOLO dựa trên CNN.
- Backbone Transformer: Sử dụng kiến trúc encoder-decoder của transformer vốn dĩ xử lý các truy vấn đối tượng mà không cần NMS.
- Truy vấn rời rạc linh hoạt: Giới thiệu một cơ chế linh hoạt hơn để lựa chọn truy vấn so với phiên bản tiền nhiệm, nhằm cải thiện khả năng thích ứng trên các tỷ lệ khác nhau.
- Bộ mã hóa lai: Sử dụng bộ mã hóa lai để xử lý các đặc trưng đa tỷ lệ, cố gắng cân bằng chi phí tính toán của self-attention với nhu cầu về ngữ cảnh toàn cục.
Dễ sử dụng và hệ sinh thái
Một trong những yếu tố khác biệt quan trọng nhất là hệ sinh thái xung quanh các mô hình.
Ultralytics YOLO26 hưởng lợi từ hệ sinh thái Ultralytics trưởng thành và rộng lớn. Người dùng có thể tận dụng API thống nhất để huấn luyện, xác thực và triển khai trên nhiều tác vụ đa dạng bao gồm detect, segment, phân loại, ước tính tư thế và Oriented Bounding Box (OBB). Sự tích hợp liền mạch với các công cụ như Nền tảng Ultralytics và Weights & Biases cho phép theo dõi thử nghiệm và quản lý mô hình dễ dàng.
RTDETRv2, mặc dù mạnh mẽ, thường yêu cầu thiết lập và cấu hình phức tạp hơn. Sự phụ thuộc của nó vào các thư viện transformer cụ thể và chi phí bộ nhớ cao hơn có thể khiến nó kém tiếp cận hơn đối với các nhà phát triển đang tìm kiếm một giải pháp "plug-and-play". Tài liệu và hỗ trợ cộng đồng, mặc dù đang phát triển, nhìn chung kém toàn diện hơn so với các tài nguyên mạnh mẽ có sẵn cho các mô hình Ultralytics.
Hiệu quả huấn luyện và Tài nguyên
Yêu cầu bộ nhớ: Các mô hình dựa trên transformer như RTDETRv2 nổi tiếng là ngốn bộ nhớ. Chúng thường yêu cầu nhiều bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện và suy luận so với kiến trúc YOLO26 được tối ưu hóa CNN. Điều này làm cho YOLO26 trở thành lựa chọn thực tế hơn để huấn luyện trên các GPU cấp người tiêu dùng hoặc triển khai trên phần cứng có tài nguyên hạn chế.
Tốc độ huấn luyện: Nhờ Bộ tối ưu hóa MuSGD và kiến trúc hiệu quả, YOLO26 cung cấp tốc độ hội tụ nhanh hơn. Điều này làm giảm thời gian và chi phí tính toán liên quan đến việc huấn luyện các mô hình tùy chỉnh, cho dù bạn đang làm việc với tập dữ liệu hình ảnh y tế hay hệ thống kiểm soát chất lượng sản xuất.
Ví dụ mã: Huấn luyện YOLO26
Việc huấn luyện YOLO26 rất đơn giản với API Python của Ultralytics:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Đề xuất Trường hợp Sử dụng
Chọn YOLO26 nếu:
- Triển khai biên là ưu tiên hàng đầu: Bạn cần chạy các mô hình trên thiết bị di động (iOS/Android), Raspberry Pi hoặc các hệ thống nhúng nơi tốc độ CPU và kích thước mô hình là những hạn chế quan trọng. Khả năng suy luận trên CPU nhanh hơn 43% là một yếu tố thay đổi cuộc chơi ở đây.
- Yêu cầu tính linh hoạt: Dự án của bạn liên quan đến nhiều tác vụ. YOLO26 là một họ mô hình thống nhất hỗ trợ detect, segment, tư thế và OBB, không giống như RTDETRv2 chủ yếu tập trung vào detect.
- Phát triển nhanh chóng: Bạn muốn có trải nghiệm người dùng được tối ưu hóa với tài liệu phong phú, trọng số tiền huấn luyện sẵn sàng sử dụng và hỗ trợ cộng đồng tích cực.
- Detect vật thể nhỏ: Ứng dụng của bạn liên quan đến việc detect các vật thể nhỏ, chẳng hạn như trong giám sát nông nghiệp bằng máy bay không người lái, nơi ProgLoss và STAL mang lại lợi thế rõ rệt.
Chọn RTDETRv2 nếu:
- Sở thích nghiên cứu: Bạn đang đặc biệt nghiên cứu các kiến trúc dựa trên transformer cho nghiên cứu học thuật.
- Phần cứng cụ thể: Bạn có quyền truy cập vào các GPU cấp máy chủ cao cấp (như A100s) nơi chi phí bộ nhớ ít đáng lo ngại hơn, và bạn đặc biệt yêu cầu một cách tiếp cận dựa trên transformer.
Kết luận
Mặc dù RTDETRv2 thể hiện tiềm năng của transformer trong detect thời gian thực, Ultralytics YOLO26 vẫn là lựa chọn ưu việt cho các triển khai thực tế. Sự kết hợp giữa suy luận end-to-end không NMS, yêu cầu tài nguyên thấp hơn đáng kể và khả năng tích hợp vào hệ sinh thái Ultralytics mạnh mẽ đã biến nó thành giải pháp hàng đầu cho các nhà phát triển và kỹ sư. Dù bạn đang xây dựng hạ tầng thành phố thông minh, robot tự hành hay ứng dụng di động, YOLO26 đều mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và dễ sử dụng.
Đối với người dùng quan tâm đến việc khám phá các mô hình khác trong hệ sinh thái Ultralytics, YOLO11 vẫn là một lựa chọn thay thế mạnh mẽ và được hỗ trợ đầy đủ, cung cấp một nền tảng vững chắc cho nhiều tác vụ thị giác máy tính.
Chi tiết mô hình
YOLO26
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2026-01-14
- GitHub:Kho lưu trữ Ultralytics
- Tài liệu:Tài liệu chính thức
RTDETRv2
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 2023-04-17
- Arxiv:2304.08069
- GitHub:Kho lưu trữ RT-DETR