PP-YOLOE+ so với RTDETRv2: Hướng dẫn toàn diện về các kiến trúc phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển vượt bậc trong những năm gần đây, đặc biệt là trong lĩnh vực phát hiện đối tượng theo thời gian thực. Việc lựa chọn kiến trúc phù hợp cho việc triển khai có thể tạo nên sự khác biệt giữa một ứng dụng chậm chạp, ngốn bộ nhớ và một hệ thống được tối ưu hóa cao, phản hồi nhanh nhạy. Trong bài so sánh kỹ thuật này, chúng ta sẽ khám phá hai mô hình nổi bật từ Baidu: PP-YOLOE+ dựa trên mạng nơ-ron tích chập (CNN) và RTDETRv2 dựa trên bộ chuyển đổi (Transformer). Chúng ta sẽ phân tích kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời xem xét cách chúng so sánh với nền tảng Ultralytics YOLO26 hiện đại nhất.

PP-YOLOE+: Phát triển mô hình CNN

Được phát triển như một phiên bản cải tiến so với các phiên bản tiền nhiệm, PP-YOLOE+ đã vượt qua giới hạn mà các Mạng nơ-ron tích chập (CNN) truyền thống có thể đạt được trong phát hiện đối tượng. Đây là một bộ phát hiện không neo có khả năng cao, được xây dựng dựa trên các cơ chế nền tảng của dòng YOLO, đồng thời giới thiệu các tối ưu hóa cụ thể cho hệ sinh thái PaddlePaddle.

Thông tin chi tiết về mẫu sản phẩm:

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: 2203.16250
GitHub: Kho lưu trữ PaddleDetection
Tài liệu: Tài liệu PP-YOLOE+

Kiến trúc và Phương pháp luận

PP-YOLOE+ dựa trên một kiến trúc xương sống được tối ưu hóa cao và một mạng lưới kim tự tháp đặc trưng tùy chỉnh để tổng hợp các đặc trưng đa tỷ lệ một cách hiệu quả. Nó sử dụng thiết kế không có anchor, giúp đơn giản hóa quá trình điều chỉnh heuristic thường cần thiết cho việc tạo hộp anchor. Hơn nữa, phương pháp huấn luyện của nó bao gồm các chiến lược gán nhãn nâng cao để khớp các dự đoán tốt hơn với các hộp ground truth trong giai đoạn học.

Điểm mạnh và các trường hợp sử dụng

Ưu điểm chính của PP-YOLOE+ nằm ở hiệu năng mạnh mẽ trên phần cứng máy chủ tiêu chuẩn và khả năng tích hợp sâu rộng với các công cụ của Baidu. Nó rất phù hợp với các quy trình công nghiệp truyền thống, chẳng hạn như phát hiện lỗi tĩnh trong môi trường sản xuất nơi các hạn chế về phần cứng không quá khắt khe.

Tìm hiểu thêm về PP-YOLOE+

Các cân nhắc về hệ sinh thái

Mặc dù PP-YOLOE+ có độ chính xác cao, việc triển khai nó bên ngoài hệ sinh thái gốc đôi khi có thể yêu cầu các bước chuyển đổi bổ sung, không giống như các định dạng xuất gốc có sẵn trong các phần mềm hiện đại. Ultralytics đường ống.

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

Khác với các mạng CNN thuần túy, RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho một bước tiến vào các cơ chế dựa trên cơ chế chú ý cho các tác vụ thị giác máy tính. Nó cố gắng kết hợp khả năng hiểu ngữ cảnh toàn cục của các mô hình Transformer với độ trễ thấp cần thiết cho các ứng dụng thực tế.

Thông tin chi tiết về mẫu sản phẩm:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: Kho lưu RT-DETRv2
Tài liệu: README của RTDETRv2

Kiến trúc và Phương pháp luận

RTDETRv2 tận dụng kiến trúc lai, kết hợp mạng nơ-ron tích chập (CNN) làm nền tảng để trích xuất đặc trưng với bộ mã hóa-giải mã transformer được tối ưu hóa. Đặc điểm nổi bật của RTDETRv2 là thiết kế đầu cuối hoàn chỉnh, bỏ qua cơ chế loại bỏ cực đại không cục bộ truyền thống (Non-Maximum Suppression). NMS (Xử lý hậu kỳ). Nó cũng giới thiệu các tính năng như phát hiện đa tỷ lệ và xử lý cảnh phức tạp, sử dụng cơ chế tự chú ý để hiểu mối quan hệ không gian giữa các đối tượng ở xa.

Điểm mạnh và các trường hợp sử dụng

Kiến trúc biến đổi (transformer) giúp RTDETRv2 hoạt động hiệu quả cao trong các tình huống mà việc hiểu bối cảnh toàn cục là rất quan trọng. Tuy nhiên, các mô hình biến đổi thường đòi hỏi tài nguyên cao hơn đáng kể. CUDA So với các mạng CNN nhẹ, nó tiết kiệm bộ nhớ hơn trong cả quá trình huấn luyện và suy luận. Nó phù hợp nhất cho các môi trường có phần cứng không bị hạn chế, chẳng hạn như phân tích video dựa trên đám mây chạy trên các máy tính mạnh mẽ. GPU máy chủ.

Tìm hiểu thêm về RTDETR

So sánh hiệu năng và số liệu

Khi đánh giá các mô hình này, cần xem xét sự đánh đổi giữa độ chính xác trung bình (Average Precision) ( mAP Chi phí tính toán (được đo bằng FLOPs và độ trễ suy luận) là vô cùng quan trọng. Bảng dưới đây nêu rõ các chỉ số chính cho các quy mô khác nhau của cả PP-YOLOE+ và RTDETRv2.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Trong khi RTDETRv2 thể hiện mạnh mẽ mAP Do yêu cầu về số lượng tham số và số phép tính FLOP cao hơn, các nhà phát triển muốn triển khai trên các thiết bị biên có cấu hình hạn chế thường gặp phải tình trạng nghẽn cổ chai do yêu cầu bộ nhớ lớn thường thấy ở các lớp chuyển đổi.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Mặc dù cả PP-YOLOE+ và RTDETRv2 đều đại diện cho những cột mốc quan trọng, nhưng nhà phát triển hiện đại cần một hệ sinh thái cân bằng hoàn hảo giữa hiệu năng cực cao và khả năng sử dụng dễ dàng. Nền tảng Ultralytics và mô hình YOLO26 đột phá cung cấp chính xác điều đó.

Ra mắt vào tháng 1 năm 2026, YOLO26 thiết lập tiêu chuẩn mới cho trí tuệ nhân tạo thị giác ưu tiên thiết bị biên. Nó giải quyết một cách khéo léo những trở ngại trong việc triển khai liên quan đến các kiến trúc cũ hơn, đồng thời vượt trội hơn về tốc độ và độ chính xác.

Đổi mới Kiến trúc

YOLO26 giới thiệu một số cải tiến tiên phong vượt trội so với các mạng CNN truyền thống và các mô hình transformer phức tạp:

Thiết kế NMS-Free End-to-End: Giống như RTDETRv2, YOLO26 là end-to-end nguyên bản. Bằng cách loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS), nó mang lại khả năng triển khai nhanh hơn, đơn giản hơn với độ trễ jitter giảm, lý tưởng cho robot thời gian thực và hệ thống tự hành.
Tăng tốc suy luận trên CPU lên đến 43%: Thông qua các tối ưu hóa kiến trúc sâu, YOLO26 vượt trội đáng kể so với các mô hình cạnh tranh trên các thiết bị biên không có GPU rời, biến nó thành lựa chọn hàng đầu cho các ứng dụng IoT và thành phố thông minh.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, YOLO26 áp dụng sự kết hợp giữa SGD và Muon. Điều này mang lại các quỹ đạo huấn luyện ổn định hơn và khả năng hội tụ nhanh hơn đáng kể, giảm đáng kể số giờ huấn luyện GPU.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một lĩnh vực mà các mô hình như PP-YOLOE+ trước đây thường gặp khó khăn, chứng tỏ tầm quan trọng đối với ảnh chụp từ trên không và các ứng dụng drone.
Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa quy trình xuất, đảm bảo khả năng tương thích liền mạch trên nhiều thiết bị biên và thiết bị công suất thấp khác nhau.

Tìm hiểu thêm về YOLO26

Tính linh hoạt theo nhiệm vụ cụ thể

Không giống như các bộ phát hiện đối tượng chuyên dụng, YOLO26 có tính linh hoạt cao, hỗ trợ Phân đoạn đối tượng (Instance Segmentation) , Ước tính tư thế (Pose Estimation) , Phân loại (Classification) và Hộp giới hạn định hướng (Oriented Bounding Boxes - OBB) . Nó bao gồm các cải tiến tùy chỉnh như RLE cho Tư thế và tổn thất góc chuyên dụng cho OBB.

Dễ sử dụng vượt trội

Một trong những nhược điểm lớn nhất khi áp dụng các kiến trúc phức tạp như RTDETRv2 là đường cong học tập dốc và quy trình tích hợp rời rạc. Ultralytics Hệ sinh thái loại bỏ hoàn toàn những phức tạp này thông qua một cách tiếp cận trực quan. Python API và nền tảng web toàn diện.

Dù bạn đang huấn luyện các tập dữ liệu tùy chỉnh hay thực hiện suy luận nhanh, quy trình đều diễn ra liền mạch:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

Yêu cầu bộ nhớ thấp hơn, điển hình của Ultralytics YOLO Các mô hình này cho phép bạn đào tạo nhanh hơn và triển khai trên phần cứng rẻ hơn so với các mô hình dựa trên Transformer. Hơn nữa, việc phát triển liên tục và tài liệu chất lượng hàng đầu đảm bảo quy trình sản xuất của bạn luôn ổn định.

Đối với các nhóm đang tìm kiếm các giải pháp thay thế, YOLO11 vẫn là một phiên bản tiền nhiệm được hỗ trợ mạnh mẽ và có khả năng vượt trội trong hệ sinh thái, cung cấp một nền tảng tuyệt vời cho việc tích hợp phần cứng cũ. Bạn cũng có thể thấy hữu ích khi đọc bài so sánh của chúng tôi về YOLO11 so với RTDETR .

Tóm tắt

PP-YOLOE+ và RTDETRv2 đã đóng góp đáng kể vào sự phát triển của thị giác máy tính, chứng minh tính khả thi của các đường dẫn CNN tiên tiến và các bộ chuyển đổi thời gian thực. Tuy nhiên, đối với các tổ chức đang tìm cách triển khai các ứng dụng thị giác máy tính mạnh mẽ, linh hoạt và được tối ưu hóa cao vào năm 2026, Ultralytics YOLO26 cung cấp một giải pháp vượt trội. NMS - Kiến trúc không cần cấu trúc bổ sung, tốc độ nhanh hơn đáng kể CPU Khả năng suy luận và hệ sinh thái được tối ưu hóa giúp các nhà phát triển chuyển đổi từ giai đoạn lên ý tưởng sang sản xuất quy mô lớn nhanh hơn bao giờ hết.

PP-YOLOE+ so với RTDETRv2: Hướng dẫn toàn diện về các kiến ​​trúc phát hiện đối tượng thời gian thực

PP-YOLOE+: Phát triển mô hình CNN

Kiến trúc và Phương pháp luận

Điểm mạnh và các trường hợp sử dụng

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

Kiến trúc và Phương pháp luận

Điểm mạnh và các trường hợp sử dụng

So sánh hiệu năng và số liệu

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn PP-YOLOE+

Khi nào nên lựa chọn RT-DETR

Khi nào nên lựa chọn Ultralytics (YOLO26)

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Đổi mới Kiến trúc

Dễ sử dụng vượt trội

Tóm tắt

Bình luận

PP-YOLOE+ so với RTDETRv2: Hướng dẫn toàn diện về các kiến trúc phát hiện đối tượng thời gian thực