PP-YOLOE+ so với RTDETRv2: Hướng dẫn toàn diện về các kiến trúc phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển vượt bậc trong những năm gần đây, đặc biệt là trong lĩnh vực phát hiện đối tượng thời gian thực. Việc chọn đúng kiến trúc cho quá trình triển khai có thể tạo ra sự khác biệt giữa một ứng dụng chậm chạp, tốn bộ nhớ và một hệ thống được tối ưu hóa cao, phản hồi nhanh. Trong bài so sánh kỹ thuật này, chúng tôi khám phá hai mô hình nổi bật từ Baidu: PP-YOLOE+ dựa trên CNN và RTDETRv2 dựa trên Transformer. Chúng tôi sẽ phân tích kiến trúc, chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời xem xét cách chúng so sánh với nền tảng Ultralytics YOLO26 tiên tiến nhất.

PP-YOLOE+: Thúc đẩy mô hình CNN

Được phát triển như một bước lặp so với các phiên bản tiền nhiệm, PP-YOLOE+ mở rộng giới hạn những gì mà các Mạng thần kinh tích chập (CNN) truyền thống có thể đạt được trong phát hiện đối tượng. Đây là một bộ phát hiện không sử dụng neo (anchor-free) có năng lực cao, được xây dựng dựa trên các cơ chế nền tảng của loạt YOLO trong khi giới thiệu các tối ưu hóa cụ thể cho hệ sinh thái PaddlePaddle.

Chi tiết mô hình:

Kiến trúc và Phương pháp luận

PP-YOLOE+ dựa vào một backbone được tối ưu hóa mạnh mẽ và mạng kim tự tháp tính năng tùy chỉnh để tổng hợp hiệu quả các tính năng đa quy mô. Nó sử dụng thiết kế không neo, giúp đơn giản hóa quy trình điều chỉnh heuristic thường cần thiết cho việc tạo hộp neo. Hơn nữa, phương pháp huấn luyện của nó bao gồm các chiến lược gán nhãn nâng cao để khớp các dự đoán với các hộp thực tế (ground truth) tốt hơn trong giai đoạn học tập.

Điểm mạnh và các trường hợp sử dụng

Điểm mạnh chính của PP-YOLOE+ nằm ở hiệu suất mạnh mẽ trên phần cứng máy chủ tiêu chuẩn và khả năng tích hợp sâu với các công cụ của Baidu. Nó rất phù hợp cho các quy trình công nghiệp truyền thống, chẳng hạn như phát hiện lỗi tĩnh trong môi trường sản xuất nơi các hạn chế về phần cứng không quá khắt khe.

Tìm hiểu thêm về PP-YOLOE+

Các cân nhắc về hệ sinh thái

Mặc dù PP-YOLOE+ cung cấp độ chính xác cao, việc triển khai nó bên ngoài hệ sinh thái gốc đôi khi có thể yêu cầu các bước chuyển đổi bổ sung, không giống như các định dạng xuất bản gốc có sẵn trong các pipeline hiện đại của Ultralytics.

RTDETRv2: Transformer phát hiện thời gian thực

Chuyển dịch khỏi các mô hình thuần CNN, RTDETRv2 (Real-Time Detection Transformer version 2) đại diện cho một bước nhảy vọt vào các cơ chế dựa trên sự chú ý (attention-based) cho các tác vụ thị giác máy tính. Nó nỗ lực kết hợp sự hiểu biết về bối cảnh toàn cục của Transformer với độ trễ thấp cần thiết cho các ứng dụng thực tế.

Chi tiết mô hình:

Kiến trúc và Phương pháp luận

RTDETRv2 tận dụng kiến trúc lai, kết hợp backbone CNN để trích xuất tính năng với một bộ mã hóa-giải mã Transformer được tinh giản. Đặc điểm xác định của RTDETRv2 là thiết kế end-to-end gốc giúp bỏ qua quá trình xử lý hậu kỳ NMS (Non-Maximum Suppression) truyền thống. Nó cũng giới thiệu các tính năng như phát hiện đa quy mô và xử lý cảnh phức tạp, sử dụng cơ chế tự chú ý (self-attention) để hiểu các mối quan hệ không gian giữa các đối tượng ở xa.

Điểm mạnh và các trường hợp sử dụng

Kiến trúc Transformer làm cho RTDETRv2 trở nên cực kỳ hiệu quả trong các kịch bản mà việc hiểu bối cảnh toàn cục là rất quan trọng. Tuy nhiên, các mô hình Transformer thường yêu cầu bộ nhớ CUDA cao hơn đáng kể trong cả quá trình huấn luyện và suy luận so với các CNN nhẹ. Nó phù hợp nhất cho các môi trường có phần cứng không bị hạn chế, chẳng hạn như phân tích video trên nền tảng đám mây chạy trên các máy chủ GPU mạnh mẽ.

Tìm hiểu thêm về RTDETR

So sánh hiệu suất và các chỉ số

Khi đánh giá các mô hình này, sự đánh đổi giữa mAP (mean Average Precision) và chi phí tính toán (đo bằng FLOPs và độ trễ suy luận) là tối quan trọng. Bảng dưới đây phác thảo các chỉ số chính cho nhiều quy mô khác nhau của cả PP-YOLOE+ và RTDETRv2.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Trong khi RTDETRv2 cho thấy mAP mạnh mẽ với cái giá phải trả là số lượng tham số và FLOPs cao hơn, các nhà phát triển muốn triển khai trên các thiết bị biên bị hạn chế thường phải đối mặt với các nút thắt do yêu cầu bộ nhớ lớn đặc trưng của các lớp Transformer.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là lựa chọn mạnh mẽ cho:

  • Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
  • Triển khai Edge với Paddle Lite: Triển khai lên phần cứng với các nhân inference được tối ưu hóa cao dành riêng cho công cụ Paddle Lite hoặc Paddle inference.
  • Nhận diện độ chính xác cao phía máy chủ: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.

Khi nào nên chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá các cơ chế chú ý và kiến trúc transformer cho việc phát hiện đối tượng end-to-end mà không cần NMS.
  • Các tình huống có độ chính xác cao với độ trễ linh hoạt: Các ứng dụng nơi độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là điều có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh có các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Mặc dù cả PP-YOLOE+ và RTDETRv2 đều đại diện cho những cột mốc quan trọng, nhà phát triển hiện đại yêu cầu một hệ sinh thái cân bằng hoàn hảo giữa hiệu suất cực cao và khả năng sử dụng tinh gọn. Nền tảng Ultralytics và mô hình YOLO26 đột phá mang đến chính xác điều này.

Được phát hành vào tháng 1 năm 2026, YOLO26 thiết lập tiêu chuẩn mới cho AI thị giác ưu tiên thiết bị biên (edge-first). Nó giải quyết một cách thanh lịch các rào cản triển khai liên quan đến các kiến trúc cũ hơn trong khi vượt qua chúng về cả tốc độ và độ chính xác.

Đổi mới kiến trúc

YOLO26 giới thiệu một số cải tiến tiên phong vượt xa các CNN truyền thống và các Transformer nặng nề:

  • Thiết kế End-to-End không cần NMS: Giống như RTDETRv2, YOLO26 là mô hình end-to-end nguyên bản. Bằng cách loại bỏ xử lý hậu kỳ NMS, nó mang lại quá trình triển khai nhanh hơn, đơn giản hơn với độ trễ jitter giảm, lý tưởng cho robot học thời gian thực và các hệ thống tự hành.
  • Suy luận CPU nhanh hơn tới 43%: Thông qua các tối ưu hóa kiến trúc sâu, YOLO26 vượt trội đáng kể so với các mô hình cạnh tranh trên các thiết bị biên thiếu GPU rời, khiến nó trở thành lựa chọn hàng đầu cho IoT và các ứng dụng thành phố thông minh.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại quỹ đạo huấn luyện ổn định hơn và khả năng hội tụ nhanh hơn đáng kể, giảm đáng kể thời gian huấn luyện trên GPU.
  • ProgLoss + STAL: Các hàm mất mát (loss functions) nâng cao này mang lại những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ, một lĩnh vực mà các mô hình như PP-YOLOE+ trước đây gặp khó khăn, chứng tỏ tầm quan trọng đối với các ứng dụng ảnh hàng không và drone.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa quy trình xuất, đảm bảo khả năng tương thích liền mạch trên nhiều thiết bị biên và thiết bị tiêu thụ điện năng thấp.

Tìm hiểu thêm về YOLO26

Tính linh hoạt theo tác vụ

Không giống như các bộ phát hiện đối tượng chuyên biệt, YOLO26 có tính linh hoạt cao, hỗ trợ Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (Pose Estimation), Phân loại (Classification)Hộp bao định hướng (OBB). Nó bao gồm các cải tiến tùy chỉnh như RLE cho Pose và hàm mất mát góc chuyên biệt cho OBB.

Sự dễ sử dụng vượt trội

Một trong những nhược điểm lớn nhất của việc áp dụng các kiến trúc phức tạp như RTDETRv2 là đường cong học tập khó khăn và các quy trình tích hợp rời rạc. Hệ sinh thái Ultralytics trừu tượng hóa hoàn toàn những phức tạp này thông qua một API Python trực quan và nền tảng dựa trên web toàn diện.

Cho dù bạn đang huấn luyện các tập dữ liệu tùy chỉnh hay chạy suy luận nhanh, quy trình đều rất liền mạch:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

Yêu cầu bộ nhớ thấp hơn đặc trưng của các mô hình Ultralytics YOLO đồng nghĩa với việc bạn có thể huấn luyện nhanh hơn và triển khai trên phần cứng rẻ hơn so với các đối tác dựa trên Transformer. Hơn nữa, sự phát triển tích cực và tài liệu đẳng cấp thế giới đảm bảo các pipeline sản xuất của bạn luôn ổn định.

Đối với các nhóm đang khám phá các lựa chọn thay thế, YOLO11 vẫn là một phiên bản tiền nhiệm được hỗ trợ mạnh mẽ và có năng lực đặc biệt trong hệ sinh thái, cung cấp nền tảng tuyệt vời cho các tích hợp phần cứng kế thừa. Bạn cũng có thể thấy hữu ích khi đọc bài so sánh của chúng tôi về YOLO11 so với RTDETR.

Tóm tắt

PP-YOLOE+ và RTDETRv2 đã đóng góp đáng kể vào sự phát triển của thị giác máy tính, chứng minh tính khả thi của các pipeline CNN tiên tiến và Transformer thời gian thực. Tuy nhiên, đối với các tổ chức muốn triển khai các ứng dụng thị giác máy tính mạnh mẽ, linh hoạt và được tối ưu hóa cao vào năm 2026, Ultralytics YOLO26 cung cấp một giải pháp vô song. Kiến trúc NMS-free nguyên bản, suy luận CPU nhanh hơn đáng kể và hệ sinh thái tinh gọn của nó giúp các nhà phát triển chuyển từ ý tưởng sang sản xuất quy mô lớn nhanh hơn bao giờ hết.

Bình luận