Link to this sectionSo sánh PP-YOLOE+ và RTDETRv2#
Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển vượt bậc trong những năm gần đây, đặc biệt là trong phạm vi phát hiện đối tượng thời gian thực. Việc lựa chọn kiến trúc phù hợp cho quá trình triển khai có thể tạo ra sự khác biệt giữa một ứng dụng chậm chạp, tốn nhiều bộ nhớ và một hệ thống phản hồi nhanh, được tối ưu hóa cao. Trong bài so sánh kỹ thuật này, chúng tôi khám phá hai model nổi bật từ Baidu: PP-YOLOE+ dựa trên CNN và RTDETRv2 dựa trên Transformer. Chúng tôi sẽ phân tích kiến trúc, các chỉ số hiệu năng và các trường hợp sử dụng lý tưởng của chúng, đồng thời xem xét cách chúng so sánh với nền tảng Ultralytics YOLO26 tiên tiến nhất.
Link to this sectionPP-YOLOE+: Thúc đẩy mô hình CNN#
Được phát triển như một sự lặp lại so với các phiên bản tiền nhiệm, PP-YOLOE+ mở rộng giới hạn những gì mà các Mạng thần kinh tích chập (CNN) truyền thống có thể đạt được trong phát hiện đối tượng. Đây là một trình phát hiện không cần neo (anchor-free) có năng lực cao, được xây dựng dựa trên các cơ chế nền tảng của dòng YOLO trong khi giới thiệu các tối ưu hóa cụ thể cho hệ sinh thái PaddlePaddle.
Chi tiết Model:
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Ngày: 02-04-2022
- Arxiv: 2203.16250
- GitHub: Kho lưu trữ PaddleDetection
- Tài liệu: Tài liệu PP-YOLOE+
Link to this sectionKiến trúc và phương pháp luận#
PP-YOLOE+ dựa vào một backbone được tối ưu hóa mạnh mẽ và mạng kim tự tháp đặc trưng (feature pyramid network) tùy chỉnh để tổng hợp các đặc trưng đa quy mô một cách hiệu quả. Nó sử dụng thiết kế không cần neo (anchor-free), giúp đơn giản hóa quá trình tinh chỉnh heuristic thường cần thiết cho việc tạo hộp neo (anchor box). Hơn nữa, phương pháp đào tạo của nó bao gồm các chiến lược gán nhãn tiên tiến để khớp các dự đoán với các hộp sự thật mặt đất (ground truth boxes) tốt hơn trong giai đoạn học tập.
Link to this sectionĐiểm mạnh và các trường hợp sử dụng#
Điểm mạnh chính của PP-YOLOE+ nằm ở hiệu năng mạnh mẽ trên phần cứng máy chủ tiêu chuẩn và khả năng tích hợp sâu với các công cụ của Baidu. Nó rất phù hợp cho các quy trình công nghiệp truyền thống, chẳng hạn như phát hiện lỗi tĩnh trong môi trường sản xuất nơi các ràng buộc phần cứng không quá hạn chế.
Mặc dù PP-YOLOE+ mang lại độ chính xác cao, việc triển khai nó bên ngoài hệ sinh thái gốc đôi khi có thể yêu cầu các bước chuyển đổi bổ sung, không giống như các định dạng xuất khẩu gốc có sẵn trong các pipeline hiện đại của Ultralytics.
Link to this sectionRTDETRv2: Transformer phát hiện thời gian thực#
Chuyển dịch khỏi các CNN thuần túy, RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho một bước nhảy vọt sang các cơ chế dựa trên sự chú ý (attention-based) cho các tác vụ thị giác máy tính. Nó nỗ lực kết hợp khả năng hiểu bối cảnh toàn cầu của các Transformer với độ trễ thấp cần thiết cho các ứng dụng thực tế.
Chi tiết Model:
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- Arxiv: 2407.17140
- GitHub: Kho lưu trữ RT-DETRv2
- Tài liệu: RTDETRv2 README
Link to this sectionKiến trúc và phương pháp luận#
RTDETRv2 tận dụng kiến trúc lai, kết hợp backbone CNN để trích xuất đặc trưng với bộ mã hóa-giải mã (encoder-decoder) Transformer được tinh giản. Một đặc điểm định hình của RTDETRv2 là thiết kế end-to-end gốc giúp bỏ qua quá trình hậu xử lý NMS (Non-Maximum Suppression) truyền thống. Nó cũng giới thiệu các tính năng như phát hiện đa quy mô và xử lý cảnh phức tạp, sử dụng cơ chế tự chú ý (self-attention) để hiểu các mối quan hệ không gian giữa các đối tượng ở xa.
Link to this sectionĐiểm mạnh và các trường hợp sử dụng#
Kiến trúc Transformer làm cho RTDETRv2 cực kỳ hiệu quả trong các kịch bản mà việc hiểu bối cảnh toàn cầu là rất quan trọng. Tuy nhiên, các model Transformer thường yêu cầu bộ nhớ CUDA cao hơn đáng kể trong cả quá trình đào tạo và suy luận so với các CNN nhẹ. Nó phù hợp nhất cho các môi trường có phần cứng không bị hạn chế, chẳng hạn như phân tích video dựa trên đám mây chạy trên các máy chủ GPU mạnh mẽ.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi đánh giá các model này, sự đánh đổi giữa mAP (mean Average Precision) và chi phí tính toán (được đo bằng FLOPs và độ trễ suy luận) là tối quan trọng. Bảng dưới đây phác thảo các chỉ số chính cho các quy mô khác nhau của cả PP-YOLOE+ và RTDETRv2.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Trong khi RTDETRv2 cho thấy mAP mạnh mẽ với cái giá phải trả là số lượng tham số và FLOPs cao hơn, các nhà phát triển muốn triển khai trên các thiết bị biên bị hạn chế thường phải đối mặt với các nút thắt do yêu cầu bộ nhớ lớn đặc trưng của các lớp Transformer.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa PP-YOLOE+ và RT-DETR phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn PP-YOLOE+#
PP-YOLOE+ là lựa chọn mạnh mẽ cho:
- Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
- Triển khai Paddle Lite Edge: Triển khai lên phần cứng với các kernel suy luận được tối ưu hóa cao dành riêng cho Paddle Lite hoặc engine suy luận Paddle.
- Nhận diện phía máy chủ có độ chính xác cao: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.
Link to this sectionKhi nào nên chọn RT-DETR#
RT-DETR được khuyên dùng cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
- Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
- Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#
Mặc dù cả PP-YOLOE+ và RTDETRv2 đều đại diện cho những cột mốc quan trọng, nhưng nhà phát triển hiện đại cần một hệ sinh thái cân bằng hoàn hảo giữa hiệu năng cực cao và khả năng sử dụng được tinh giản. Nền tảng Ultralytics và model YOLO26 đột phá mang đến chính xác điều này.
Được phát hành vào tháng 1 năm 2026, YOLO26 thiết lập tiêu chuẩn mới cho AI thị giác ưu tiên thiết bị biên. Nó giải quyết một cách tao nhã các rào cản triển khai liên quan đến các kiến trúc cũ trong khi vượt qua chúng về cả tốc độ và độ chính xác.
Link to this sectionCải tiến kiến trúc#
YOLO26 giới thiệu một số cải tiến tiên phong vượt xa các CNN truyền thống và các Transformer nặng nề:
- Thiết kế End-to-End không cần NMS: Giống như RTDETRv2, YOLO26 là end-to-end nguyên bản. Bằng cách loại bỏ quá trình hậu xử lý NMS, nó mang lại việc triển khai nhanh hơn, đơn giản hơn với độ trễ dao động (latency jitter) thấp hơn, lý tưởng cho robotics và các hệ thống tự hành thời gian thực.
- Suy luận CPU nhanh hơn tới 43%: Thông qua các tối ưu hóa kiến trúc sâu, YOLO26 vượt trội đáng kể so với các model cạnh tranh trên các thiết bị biên thiếu GPU rời, khiến nó trở thành lựa chọn hàng đầu cho các ứng dụng IoT và thành phố thông minh.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các đổi mới trong đào tạo LLM, YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại các quỹ đạo đào tạo ổn định hơn và sự hội tụ nhanh hơn đáng kể, giảm đáng kể số giờ đào tạo trên GPU.
- ProgLoss + STAL: Các hàm mất mát (loss function) tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng đối tượng nhỏ, một lĩnh vực mà các model như PP-YOLOE+ trước đây gặp khó khăn, chứng tỏ sự quan trọng đối với hình ảnh trên không và các ứng dụng drone.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa quy trình xuất, đảm bảo khả năng tương thích liền mạch trên nhiều thiết bị biên và thiết bị năng lượng thấp.
Không giống như các trình phát hiện đối tượng chuyên biệt, YOLO26 có tính linh hoạt cao, hỗ trợ Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (Pose Estimation), Phân loại (Classification) và Hộp bao quanh định hướng (Oriented Bounding Boxes - OBB). Nó bao gồm các cải tiến tùy chỉnh như RLE cho Pose và hàm mất mát góc chuyên biệt cho OBB.
Link to this sectionSự dễ sử dụng vô song#
Một trong những hạn chế lớn nhất của việc áp dụng các kiến trúc phức tạp như RTDETRv2 là đường cong học tập dốc và các quy trình tích hợp rời rạc. Hệ sinh thái Ultralytics trừu tượng hóa hoàn toàn những phức tạp này thông qua API Python trực quan và nền tảng dựa trên web toàn diện.
Cho dù bạn đang đào tạo các tập dữ liệu tùy chỉnh hay chạy suy luận nhanh, quy trình đều liền mạch:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", quantize=16)Các yêu cầu bộ nhớ thấp hơn đặc trưng của các model Ultralytics YOLO đồng nghĩa với việc bạn có thể đào tạo nhanh hơn và triển khai trên phần cứng rẻ hơn so với các đối tác dựa trên Transformer. Hơn nữa, sự phát triển tích cực và tài liệu đẳng cấp thế giới đảm bảo các pipeline sản xuất của bạn luôn ổn định.
Đối với các nhóm đang khám phá các lựa chọn thay thế, YOLO11 vẫn là một phiên bản tiền nhiệm được hỗ trợ cao và có năng lực đặc biệt trong hệ sinh thái, cung cấp nền tảng tuyệt vời cho các tích hợp phần cứng cũ. Bạn cũng có thể thấy hữu ích khi đọc bài so sánh của chúng tôi về YOLO11 so với RTDETR.
Link to this sectionTóm tắt#
PP-YOLOE+ và RTDETRv2 đã đóng góp đáng kể vào sự phát triển của thị giác máy tính, chứng minh tính khả thi của các pipeline CNN tiên tiến và các Transformer thời gian thực. Tuy nhiên, đối với các tổ chức muốn triển khai các ứng dụng thị giác máy tính mạnh mẽ, linh hoạt và được tối ưu hóa cao vào năm 2026, Ultralytics YOLO26 cung cấp một giải pháp không đối thủ. Kiến trúc không cần NMS, suy luận trên CPU nhanh hơn đáng kể và hệ sinh thái tinh giản của nó trao quyền cho các nhà phát triển chuyển từ ý tưởng sang sản xuất quy mô lớn nhanh hơn bao giờ hết.