Chuyển đến nội dung

So sánh kỹ thuật toàn diện giữa RTDETRv2 và YOLO26

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển vượt bậc, với các nhà nghiên cứu liên tục nỗ lực vượt qua giới hạn về tốc độ, độ chính xác và hiệu quả triển khai. Hai kiến ​​trúc nổi bật nhất hiện đang dẫn đầu xu hướng này là RTDETRv2 dựa trên Transformer và Mạng nơ-ron tích chập (CNN) tiên tiến nhất, Ultralytics YOLO26 . Hướng dẫn này cung cấp phân tích chuyên sâu về kiến ​​trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn lựa chọn mô hình phù hợp cho dự án thị giác máy tính tiếp theo của mình.

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

RTDETRv2 được xây dựng dựa trên kiến ​​trúc RT-DETR ban đầu, nhằm mục đích kết hợp khả năng nhận biết ngữ cảnh toàn cục của bộ chuyển đổi hình ảnh với tốc độ cần thiết cho các ứng dụng thời gian thực.

Các đặc điểm chính:

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức:Baidu
  • Ngày: 2024-07-24
  • Liên kết:Arxiv, GitHub, Docs

Kiến trúc và Điểm mạnh

Không giống như các bộ dò dựa trên neo truyền thống, RTDETRv2 tận dụng phương pháp dựa trên transformer, giúp loại bỏ hoàn toàn nhu cầu về loại bỏ cực đại không cần thiết (Non-Maximum Suppression - NMS ) trong quá trình xử lý hậu kỳ. Bằng cách sử dụng cơ chế chú ý linh hoạt, mô hình này rất hiệu quả trong việc hiểu các cảnh phức tạp và các đối tượng chồng chéo. Những cải tiến "Bag-of-Freebies" của nó đã nâng cao đáng kể độ chính xác trên tập dữ liệu COCO trong khi vẫn duy trì tốc độ suy luận chấp nhận được trên các GPU cao cấp.

Hạn chế

Mặc dù RTDETRv2 đạt được những kết quả học thuật ấn tượng, nó thường gặp khó khăn trong môi trường sản xuất. Kiến trúc Transformer vốn dĩ đòi hỏi mức sử dụng bộ nhớ cao hơn trong cả quá trình huấn luyện và suy luận so với mạng CNN. Điều này có thể gây khó khăn cho việc triển khai trên các thiết bị AI biên có tài nguyên hạn chế. Ngoài ra, việc huấn luyện Transformer thường yêu cầu kích thước batch lớn hơn và nhiều hơn nữa. CUDA Bộ nhớ, vốn có thể là điểm nghẽn đối với các nhà nghiên cứu có phần cứng hạn chế.

Tìm hiểu thêm về RTDETRv2

YOLO26: Đỉnh cao của Trí tuệ nhân tạo thị giác ưu tiên thiết bị đầu cuối

Ra mắt vào đầu năm 2026, Ultralytics YOLO26 định nghĩa lại những gì có thể đạt được với khả năng phát hiện đối tượng dựa trên mạng nơ-ron tích chập (CNN). Nó tích hợp các tối ưu hóa tiên tiến được thiết kế riêng để triển khai sản xuất liền mạch và đạt hiệu quả phần cứng cực cao.

Các đặc điểm chính:

Những đột phá về kiến trúc

YOLO26 giới thiệu một số tính năng mang tính cách mạng giúp giải quyết các vấn đề thường gặp trong quá trình triển khai mô hình:

  • Thiết kế không NMS đầu cuối: Dựa trên các khái niệm được tiên phong trong YOLOv10, YOLO26 là một mô hình đầu cuối tự nhiên. Bằng cách loại bỏ xử lý hậu kỳ NMS, nó giảm đáng kể biến thiên độ trễ, đảm bảo thời gian suy luận có tính dự đoán cao trong môi trường sản xuất.
  • Tăng tốc suy luận trên CPU lên đến 43%: Thông qua các tinh chỉnh kiến trúc chiến lược và việc loại bỏ Distribution Focal Loss (DFL), YOLO26 đạt tốc độ CPU chưa từng có, biến nó thành lựa chọn hàng đầu cho điện toán biên mà không cần GPU chuyên dụng.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng trình tối ưu hóa MuSGD (một sự kết hợp giữa SGD và Muon). Điều này đảm bảo quá trình huấn luyện rất ổn định và hội tụ cực kỳ nhanh chóng.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một nâng cấp thiết yếu cho các ứng dụng liên quan đến ảnh chụp từ trên không và giám sát bằng drone.

Các cải tiến dành riêng cho từng tác vụ trong YOLO26

Ngoài phát hiện tiêu chuẩn, YOLO26 còn có các cải tiến chuyên biệt: hàm mất mát phân đoạn ngữ nghĩa và proto đa tỷ lệ cho các tác vụ phân đoạn, Ước tính Log-Likelihood dư (RLE) cho ước tính tư thế, và hàm mất mát góc tùy chỉnh để giải quyết các vấn đề ranh giới trong phát hiện Hộp giới hạn định hướng (OBB).

Tìm hiểu thêm về YOLO26

So sánh hiệu suất

Khi đánh giá các mô hình này, cần đạt được sự cân bằng hiệu suất tốt giữa độ chính xác ( mAP và hiệu quả tính toán là rất quan trọng. Bảng dưới đây minh họa cách YOLO26 luôn vượt trội hơn RTDETRv2 trên nhiều biến thể kích thước khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Như đã thấy ở trên, mô hình YOLO26x đạt 57.5 mAP đáng chú ý, vượt trội đáng kể so với mô hình RTDETRv2-x trong khi sử dụng ít tham số hơn và duy trì tốc độ suy luận TensorRT nhanh hơn. Hơn nữa, yêu cầu bộ nhớ cho YOLO26 thấp hơn đáng kể, biến nó thành lựa chọn tối ưu cho các triển khai biên thời gian thực.

Hệ sinh thái và Dễ sử dụng

Mặc dù hiệu năng thô rất quan trọng, nhưng hệ sinh thái xung quanh quyết định tốc độ chuyển đổi một mô hình từ nghiên cứu sang sản xuất. Đây là nơi Nền tảng Ultralytics mang lại lợi thế vượt trội.

Một Hệ Sinh Thái Thống Nhất, Được Duy Trì Tốt

RTDETRv2 hoạt động chủ yếu như một kho lưu trữ dành cho nghiên cứu, điều này có thể đòi hỏi thiết lập môi trường phức tạp và lập trình thủ công cho các tác vụ tùy chỉnh. Ngược lại, Ultralytics YOLO26 được thừa hưởng những ưu điểm từ một nền tảng đã được kiểm chứng kỹ lưỡng và hoàn thiện. Python gói. Cái Ultralytics Hệ sinh thái này cung cấp trải nghiệm người dùng vô cùng đơn giản, với API dễ sử dụng cho việc huấn luyện, xác thực, dự đoán và xuất dữ liệu.

Với khả năng tích hợp sẵn Weights & BiasesComet ML , việc theo dõi thí nghiệm trở nên liền mạch. Hơn nữa, Ultralytics Các mô hình này rất linh hoạt; trong khi RTDETRv2 tập trung vào phát hiện đối tượng, YOLO26 hỗ trợ phân đoạn đối tượng, ước tính tư thế và phân loại hình ảnh trong cùng một khuôn khổ.

Ví dụ Mã nguồn: Sự Đơn giản trong Thực tế

Cái Ultralytics API này cho phép các nhà phát triển tải, huấn luyện và chạy suy luận chỉ với một vài dòng mã. Điều này giúp cải thiện đáng kể hiệu quả huấn luyện và rút ngắn thời gian đưa sản phẩm ra thị trường.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the YOLO26 results
results_yolo[0].show()

# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa RT-DETR và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị sử dụng cho:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Khám phá các kiến ​​trúc khác

Mặc dù YOLO26 hiện đại diện cho đỉnh cao hiệu năng, các nhà phát triển cũng có thể tìm thấy giá trị trong việc khám phá các phiên bản trước đó. YOLO11 rất thành công vẫn là một mô hình mạnh mẽ, được hỗ trợ đầy đủ cho nhiều hệ thống cũ. Bạn có thể tìm hiểu sâu hơn về khả năng của nó bằng cách đọc bài so sánh RTDETR vs YOLO11 của chúng tôi. Ngoài ra, nếu bạn đang phân tích các kiến ​​trúc cũ hơn, việc xem bài so sánh EfficientDet vs YOLO26 sẽ cung cấp bối cảnh lịch sử tuyệt vời về mức độ tiến bộ của các kiến ​​trúc phát hiện đối tượng .

Lời Kết

Cả RTDETRv2 và YOLO26 đều mang lại những tiến bộ đáng kinh ngạc trong lĩnh vực AI. Tuy nhiên, đối với các nhóm ưu tiên chuyển đổi liền mạch sang sản xuất, yêu cầu bộ nhớ tối thiểu và tính linh hoạt tác vụ rộng, Ultralytics YOLO26 là khuyến nghị rõ ràng. Kiến trúc không NMS, tốc độ CPU nhanh và sự hỗ trợ từ hệ sinh thái Ultralytics mạnh mẽ đảm bảo rằng các dự án AI thị giác của bạn luôn có khả năng mở rộng, hiệu quả và bền vững trong tương lai. Dù triển khai trên máy chủ đám mây hay Raspberry Pi với tài nguyên hạn chế, YOLO26 vẫn mang lại hiệu suất vượt trội ngay khi sử dụng.


Bình luận