Chuyển đến nội dung

YOLO26 so với RTDETRv2: So sánh toàn diện các kiến ​​trúc phát hiện đối tượng hiện đại

Lĩnh vực thị giác máy tính liên tục phát triển, đặt ra cho các chuyên gia một lựa chọn quan trọng: liệu nên tận dụng các mạng nơ-ron tích chập (CNN) được tối ưu hóa cao hay áp dụng các kiến ​​trúc dựa trên Transformer mới hơn? Hai ứng cử viên nổi bật trong lĩnh vực này là Ultralytics YOLO26 tiên tiến và Baidu RTDETRv2 . Cả hai mô hình đều đẩy mạnh giới hạn của việc phát hiện đối tượng trong thời gian thực nhưng dựa trên các triết lý kiến ​​trúc khác nhau về cơ bản.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về cả hai mô hình, so sánh cấu trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn lựa chọn nền tảng tốt nhất cho dự án thị giác máy tính tiếp theo của mình.

Ultralytics YOLO26: Đỉnh cao của Trí tuệ nhân tạo thị giác ưu tiên thiết bị đầu cuối

Được phát triển bởi Ultralytics YOLO26 đánh dấu một bước tiến vượt bậc về mặt thế hệ. YOLO Được phát hành vào tháng 1 năm 2026, sản phẩm này được thiết kế đặc biệt để đạt tốc độ, độ chính xác và khả năng triển khai liền mạch trên môi trường đám mây và biên.

Những đổi mới và thế mạnh trong kiến ​​trúc

YOLO26 giới thiệu một số tính năng đột phá, tạo nên sự khác biệt không chỉ so với các mẫu Transformer mà còn so với các phiên bản trước đó như YOLO11 :

  • Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ cơ chế triệt tiêu cực đại không truyền thống (Non-Maximum Suppression - NMS) NMS ) trong quá trình xử lý hậu kỳ. Được tiên phong trong các mô hình như YOLOv10 , phương pháp tiếp cận từ đầu đến cuối này giúp giảm sự biến đổi độ trễ suy luận và đơn giản hóa logic triển khai, đặc biệt là trên phần cứng biên.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Nhận thấy nhu cầu ngày càng tăng về trí tuệ nhân tạo phi tập trung, YOLO26 được tối ưu hóa cao cho các thiết bị không có GPU chuyên dụng, chẳng hạn như Raspberry Pi .
  • Loại bỏ DFL: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 cung cấp quy trình xuất dữ liệu đơn giản hơn và cải thiện đáng kể khả năng tương thích với các thiết bị biên và vi điều khiển công suất thấp.
  • Bộ tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM) và thị giác máy tính, YOLO26 sử dụng bộ tối ưu hóa MuSGD. Sự kết hợp này của SGD và Muon—lấy cảm hứng từ Kimi K2 của Moonshot AI—đảm bảo tính ổn định mạnh mẽ trong quá trình huấn luyện và tốc độ hội tụ nhanh hơn.
  • ProgLoss + STAL: Các hàm mất mát nâng cao mang lại những cải tiến đáng kể cho việc nhận dạng vật thể nhỏ. Điều này rất quan trọng đối với các ngành công nghiệp dựa vào phân tích ảnh chụp từ trên không và cảm biến Internet vạn vật (IoT).

Tìm hiểu thêm về YOLO26

Tính linh hoạt trong các nhiệm vụ thị giác

Không giống như các mô hình chỉ giới hạn ở các hộp giới hạn, YOLO26 là một công cụ mạnh mẽ và đa năng. Nó tích hợp các cải tiến dành riêng cho từng nhiệm vụ, chẳng hạn như tổn thất phân đoạn ngữ nghĩa và proto đa tỷ lệ cho phân đoạn đối tượng , ước lượng logarit khả năng dư (RLE) cho ước lượng tư thế và tổn thất góc chuyên dụng để giải quyết các vấn đề về ranh giới trong các nhiệm vụ hộp giới hạn định hướng (OBB) .

Chiến lược triển khai biên

Khi triển khai trên các thiết bị biên, hãy sử dụng YOLO26n (Nano) hoặc YOLO26s Các biến thể (nhỏ). Xuất các mô hình này sang CoreML hoặc TFLite nhờ loại bỏ DFL mà nó hoạt động trơn tru. NMS - Kiến trúc không cần cấu trúc hỗ trợ, đảm bảo hiệu năng thời gian thực mượt mà trên iOS Và Android .

RTDETRv2: Nâng cao hiệu năng của bộ chuyển đổi phát hiện thời gian thực

RTDETRv2, được phát triển bởi các nhà nghiên cứu tại Baidu, dựa trên phiên bản gốc. RT-DETR Khung lý thuyết này nhằm mục đích chứng minh rằng Detection Transformers (DETRs) có thể cạnh tranh, và đôi khi vượt trội hơn, về tốc độ và độ chính xác so với các mạng CNN được tối ưu hóa cao trong các kịch bản thời gian thực.

Kiến trúc và Khả năng

RTDETRv2 sử dụng kiến ​​trúc dựa trên Transformer, vốn xử lý hình ảnh khác biệt so với mạng CNN bằng cách tận dụng cơ chế tự chú ý để hiểu ngữ cảnh tổng thể.

  • Gói quà tặng miễn phí: Phiên bản v2 giới thiệu một loạt các kỹ thuật huấn luyện được tối ưu hóa (gói quà tặng miễn phí) giúp cải thiện hiệu suất cơ bản mà không làm tăng chi phí suy luận.
  • Nhận thức ngữ cảnh toàn cục: Nhờ các lớp chú ý Transformer, RTDETRv2 có khả năng hiểu các cảnh phức tạp một cách tự nhiên, nơi ngữ cảnh toàn cục là cần thiết để phân biệt các đối tượng chồng chéo hoặc bị che khuất.

Tìm hiểu thêm về RTDETR

Những hạn chế của mô hình máy biến áp

Mặc dù mạnh mẽ, các mô hình phát hiện dựa trên Transformer như RTDETRv2 thường gặp khó khăn trong việc triển khai thực tế. Chúng thường thể hiện mức độ ưu việt cao hơn. CUDA So với các mạng CNN hiệu quả, YOLO26 đòi hỏi nhiều bộ nhớ hơn trong quá trình huấn luyện. Hơn nữa, việc tích hợp chúng vào các môi trường biên đa dạng có thể gặp khó khăn do các thao tác phức tạp mà các lớp chú ý yêu cầu, khiến các mô hình như YOLO26 trở nên hấp dẫn hơn nhiều đối với các triển khai có tài nguyên hạn chế.

So sánh hiệu suất

Việc đánh giá trực tiếp các mô hình này cho thấy những lợi ích hữu hình của các tối ưu hóa CNN mới nhất. Bảng dưới đây trình bày hiệu suất của chúng trên các bộ dữ liệu chuẩn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Như đã chứng minh, YOLO26 luôn vượt trội hơn RTDETRv2 ở tất cả các biến thể kích thước. YOLO26x đạt được hiệu suất đáng kinh ngạc là 57,5%. mAP với độ trễ thấp hơn (11,8 ms trên TensorRT ) và số lượng tham số ít hơn đáng kể (55,7 triệu) so với RTDETRv2-x (54,3 triệu). mAP (15,03 ms, 76 triệu tham số).

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLO26 và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn tốt cho:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Lợi thế của Ultralytics

Việc lựa chọn kiến ​​trúc máy học phù hợp chỉ là một phần của vấn đề; hệ sinh thái xung quanh sẽ quyết định tốc độ chuyển đổi từ giai đoạn nguyên mẫu sang sản phẩm của nhóm.

Dễ sử dụng và Hiệu quả huấn luyện

API Python Ultralytics mang đến trải nghiệm được tối ưu hóa đáng kể. Việc huấn luyện các mô hình phức tạp không còn yêu cầu mã boilerplate dài dòng nữa. Hơn nữa, hiệu quả huấn luyện của YOLO26 tốt hơn đáng kể, sử dụng ít tài nguyên hơn nhiều. GPU VRAM vượt trội hơn so với các cơ chế chú ý tốn nhiều bộ nhớ của RTDETRv2, cho phép kích thước lô lớn hơn ngay cả trên phần cứng cấp người tiêu dùng.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Một hệ sinh thái được duy trì tốt

Bằng cách sử dụng Ultralytics Với các mô hình này, các nhà phát triển có quyền truy cập vào một khung nền tảng được duy trì tích cực, tích hợp liền mạch với các công cụ theo dõi hiện đại như Weights & BiasesComet ML . Đối với những người thích phương pháp không cần lập trình, Nền tảng Ultralytics hỗ trợ đào tạo trên đám mây, quản lý tập dữ liệu và triển khai chỉ bằng một cú nhấp chuột.

Cân bằng hiệu suất

YOLO26 đạt được sự cân bằng tuyệt vời giữa tốc độ suy luận và độ chính xác. Việc loại bỏ NMS Kết hợp với trình tối ưu hóa MuSGD, mô hình này đảm bảo bạn đang triển khai một mô hình vừa có độ chính xác cao trên các đối tượng nhỏ (nhờ ProgLoss + STAL) vừa có tốc độ xử lý cực nhanh trong thực tế, trở thành lựa chọn ưu việt cho hầu hết các ứng dụng thị giác máy tính hiện đại.

Các mô hình khác trong hệ sinh thái

Trong khi YOLO26 và RTDETRv2 bao phủ những công nghệ tiên tiến nhất về phát hiện thời gian thực, các nhà phát triển duy trì các hệ thống cũ hoặc đang tìm kiếm các đường cong hiệu quả khác nhau cũng có thể xem xét YOLOv8 cho các môi trường doanh nghiệp đã được thiết lập, hoặc khám phá các kiến ​​trúc khác như EfficientDet . Tuy nhiên, đối với bất kỳ sáng kiến ​​mới nào, YOLO26 vẫn là sự lựa chọn tối ưu nhất.


Bình luận