YOLO26 so với RTDETRv2: So sánh toàn diện về các kiến trúc phát hiện đối tượng hiện đại

Bối cảnh thị giác máy tính đang không ngừng phát triển, đặt ra cho các kỹ sư một sự lựa chọn quan trọng: bạn nên tận dụng các Mạng thần kinh tích chập (CNN) được tối ưu hóa cao hay áp dụng các kiến trúc dựa trên Transformer mới hơn? Hai ứng cử viên nổi bật trong lĩnh vực này là Ultralytics YOLO26 tiên tiến và RTDETRv2 của Baidu. Cả hai mô hình đều thúc đẩy giới hạn của việc phát hiện đối tượng thời gian thực nhưng dựa trên các triết lý kiến trúc hoàn toàn khác nhau.

Hướng dẫn này cung cấp cái nhìn chuyên sâu về kỹ thuật của cả hai mô hình, so sánh cấu trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng để giúp bạn chọn nền tảng tốt nhất cho dự án thị giác máy tính tiếp theo của mình.

Ultralytics YOLO26: Đỉnh cao của AI thị giác hướng tới thiết bị biên (Edge-First)

Được phát triển bởi Ultralytics, YOLO26 đại diện cho một bước nhảy vọt về thế hệ cho dòng họ YOLO. Được ra mắt vào tháng 1 năm 2026, nó được thiết kế rõ ràng cho tốc độ, độ chính xác và khả năng triển khai liền mạch trên các môi trường đám mây và thiết bị biên.

Những cải tiến và thế mạnh về kiến trúc

YOLO26 giới thiệu một số tính năng đột phá giúp nó khác biệt không chỉ với các mô hình Transformer mà còn với các phiên bản trước đó như YOLO11:

  • Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ phương pháp triệt tiêu cực đại không cần thiết (NMS) truyền thống trong quá trình hậu xử lý. Được tiên phong trong các mô hình như YOLOv10, phương pháp end-to-end tự nhiên này giúp giảm độ trễ suy luận và đơn giản hóa logic triển khai, đặc biệt là trên phần cứng biên.
  • Suy luận trên CPU nhanh hơn tới 43%: Nhận thấy nhu cầu ngày càng tăng về AI phi tập trung, YOLO26 được tối ưu hóa cao cho các thiết bị thiếu GPU chuyên dụng, chẳng hạn như Raspberry Pi.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 cung cấp quy trình xuất mô hình đơn giản và khả năng tương thích được cải thiện đáng kể với các thiết bị biên và vi điều khiển tiêu thụ năng lượng thấp.
  • Bộ tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa huấn luyện Mô hình ngôn ngữ lớn (LLM) và thị giác máy tính, YOLO26 sử dụng bộ tối ưu hóa MuSGD. Đây là sự kết hợp giữa SGD và Muon—lấy cảm hứng từ Kimi K2 của Moonshot AI—đảm bảo độ ổn định huấn luyện mạnh mẽ và hội tụ nhanh hơn.
  • ProgLoss + STAL: Các hàm mất mát (loss functions) tiên tiến mang lại những cải tiến đáng kể cho việc nhận dạng đối tượng nhỏ. Điều này rất quan trọng đối với các ngành công nghiệp dựa vào phân tích hình ảnh trên không và các cảm biến Internet vạn vật (IoT).

Tìm hiểu thêm về YOLO26

Sự linh hoạt trên nhiều tác vụ thị giác

Không giống như các mô hình chỉ giới hạn ở hộp bao (bounding box), YOLO26 là một cỗ máy mạnh mẽ đa năng. Nó tích hợp các cải tiến đặc thù cho từng tác vụ, chẳng hạn như loss phân đoạn ngữ nghĩa và proto đa quy mô cho phân đoạn cá thể, Ước tính khả năng log residual (RLE) cho ước tính tư thế và loss góc chuyên dụng để giải quyết các vấn đề biên trong các tác vụ Hộp bao định hướng (OBB).

Chiến lược triển khai thiết bị biên

Khi triển khai trên các thiết bị biên, hãy sử dụng các biến thể YOLO26n (Nano) hoặc YOLO26s (Small). Việc xuất các mô hình này sang CoreML hoặc TFLite diễn ra rất trơn tru nhờ việc loại bỏ DFL và kiến trúc không NMS, đảm bảo hiệu suất thời gian thực mượt mà trên iOS và Android.

RTDETRv2: Tăng cường các Transformer phát hiện thời gian thực

RTDETRv2, được phát triển bởi các nhà nghiên cứu tại Baidu, xây dựng dựa trên khung RT-DETR gốc. Nó nhằm mục đích chứng minh rằng Detection Transformers (DETRs) có thể cạnh tranh với, và đôi khi vượt qua, tốc độ và độ chính xác của các CNN được tối ưu hóa cao trong các tình huống thời gian thực.

Kiến trúc và khả năng

RTDETRv2 sử dụng kiến trúc dựa trên Transformer, vốn xử lý hình ảnh khác biệt so với các CNN bằng cách tận dụng các cơ chế tự chú ý (self-attention) để hiểu bối cảnh toàn cục.

  • Bag-of-Freebies: Phiên bản v2 giới thiệu một loạt các kỹ thuật huấn luyện được tối ưu hóa (bag-of-freebies) giúp cải thiện hiệu suất cơ sở mà không làm tăng chi phí suy luận.
  • Nhận thức bối cảnh toàn cục: Nhờ các lớp chú ý (attention layers) của Transformer, RTDETRv2 có khả năng bẩm sinh trong việc hiểu các cảnh phức tạp, nơi bối cảnh toàn cục là cần thiết để phân biệt các đối tượng chồng lấp hoặc bị che khuất.

Tìm hiểu thêm về RTDETR

Hạn chế của các mô hình Transformer

Mặc dù mạnh mẽ, các mô hình phát hiện dựa trên Transformer như RTDETRv2 thường gặp khó khăn trong việc triển khai thực tế. Chúng thường yêu cầu bộ nhớ CUDA cao hơn trong quá trình huấn luyện so với các CNN hiệu quả. Hơn nữa, việc tích hợp chúng vào các môi trường biên đa dạng có thể trở nên cồng kềnh do các thao tác phức tạp mà các lớp chú ý yêu cầu, khiến các mô hình như YOLO26 trở nên hấp dẫn hơn nhiều cho các lần triển khai bị hạn chế về tài nguyên.

So sánh hiệu năng

Đánh giá trực diện các mô hình này cho thấy những lợi ích hữu hình của các tối ưu hóa CNN mới nhất. Bảng dưới đây phác thảo hiệu suất của chúng trên các điểm chuẩn tiêu chuẩn.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Như đã chứng minh, YOLO26 liên tục vượt trội hơn RTDETRv2 trên tất cả các biến thể kích thước. YOLO26x đạt được 57.5 mAP đáng kinh ngạc với độ trễ thấp hơn (11.8 ms trên TensorRT) và ít tham số hơn đáng kể (55.7M) so với RTDETRv2-x (54.3 mAP, 15.03 ms, 76M tham số).

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLO26 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, các hạn chế triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn mạnh mẽ cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Khi nào nên chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá các cơ chế chú ý và kiến trúc transformer cho việc phát hiện đối tượng end-to-end mà không cần NMS.
  • Các tình huống có độ chính xác cao với độ trễ linh hoạt: Các ứng dụng nơi độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là điều có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh có các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Ưu thế của Ultralytics

Việc chọn kiến trúc máy học phù hợp chỉ là một phần của phương trình; hệ sinh thái xung quanh quyết định tốc độ mà một nhóm có thể chuyển từ tạo mẫu sang sản xuất.

Dễ sử dụng và hiệu quả huấn luyện

API Python Ultralytics cung cấp một trải nghiệm vô cùng hợp lý. Việc huấn luyện các mô hình phức tạp không còn đòi hỏi mã soạn sẵn (boilerplate) rườm rà. Hơn nữa, hiệu quả huấn luyện của YOLO26 tốt hơn đáng kể, sử dụng ít VRAM GPU hơn nhiều so với các cơ chế chú ý tiêu tốn bộ nhớ của RTDETRv2, cho phép kích thước batch lớn hơn ngay cả trên phần cứng phổ thông.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Một hệ sinh thái được duy trì tốt

Bằng cách sử dụng các mô hình Ultralytics, các nhà phát triển có quyền truy cập vào một khung làm việc được duy trì tích cực, tích hợp tự nhiên với các công cụ theo dõi hiện đại như Weights & BiasesComet ML. Đối với những người thích cách tiếp cận không cần mã (no-code), Nền tảng Ultralytics tạo điều kiện thuận lợi cho việc huấn luyện trên đám mây, quản lý tập dữ liệu và triển khai chỉ bằng một cú nhấp chuột.

Cân bằng hiệu suất

YOLO26 đạt được sự cân bằng vô song giữa tốc độ suy luận và độ chính xác. Việc loại bỏ NMS kết hợp với bộ tối ưu hóa MuSGD đảm bảo rằng bạn đang triển khai một mô hình vừa có độ chính xác cao trên các đối tượng nhỏ (nhờ ProgLoss + STAL) vừa cực nhanh trong sản xuất, biến nó thành lựa chọn vượt trội cho hầu hết các ứng dụng thị giác máy tính hiện đại.

Các mô hình khác trong hệ sinh thái

Trong khi YOLO26 và RTDETRv2 bao phủ phân khúc tiên tiến của việc phát hiện thời gian thực, các nhà phát triển duy trì các đường ống cũ hoặc khám phá các đường cong hiệu suất khác có thể cân nhắc YOLOv8 cho các môi trường doanh nghiệp đã thiết lập, hoặc khám phá các kiến trúc khác như EfficientDet. Tuy nhiên, đối với bất kỳ sáng kiến mới nào, YOLO26 vẫn là khuyến nghị cuối cùng.

Bình luận