Chuyển đến nội dung

PP-YOLOE+ so với RTDETRv2: Hướng dẫn toàn diện về các kiến ​​trúc phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến ​​sự phát triển vượt bậc trong những năm gần đây, đặc biệt là trong lĩnh vực phát hiện đối tượng theo thời gian thực. Việc lựa chọn kiến ​​trúc phù hợp cho việc triển khai có thể tạo nên sự khác biệt giữa một ứng dụng chậm chạp, ngốn bộ nhớ và một hệ thống được tối ưu hóa cao, phản hồi nhanh nhạy. Trong bài so sánh kỹ thuật này, chúng ta sẽ khám phá hai mô hình nổi bật từ Baidu: PP-YOLOE+ dựa trên mạng nơ-ron tích chập (CNN) và RTDETRv2 dựa trên bộ chuyển đổi (Transformer). Chúng ta sẽ phân tích kiến ​​trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời xem xét cách chúng so sánh với nền tảng Ultralytics YOLO26 hiện đại nhất.

PP-YOLOE+: Phát triển mô hình CNN

Được phát triển như một bước tiến vượt bậc so với các thế hệ trước, PP-YOLOE+ đẩy mạnh giới hạn khả năng của Mạng nơ-ron tích chập (CNN) truyền thống trong phát hiện đối tượng. Đây là một bộ phát hiện không cần neo (anchor-free detector) có khả năng cao, được xây dựng dựa trên cơ chế nền tảng của CNN. YOLO loạt bài viết này đồng thời giới thiệu các tối ưu hóa cụ thể cho... PaddlePaddle hệ sinh thái.

Thông tin chi tiết về mẫu sản phẩm:

Kiến trúc và Phương pháp luận

PP-YOLOE+ dựa trên một kiến ​​trúc xương sống được tối ưu hóa cao và một mạng lưới kim tự tháp đặc trưng tùy chỉnh để tổng hợp các đặc trưng đa tỷ lệ một cách hiệu quả. Nó sử dụng thiết kế không có anchor, giúp đơn giản hóa quá trình điều chỉnh heuristic thường cần thiết cho việc tạo hộp anchor. Hơn nữa, phương pháp huấn luyện của nó bao gồm các chiến lược gán nhãn nâng cao để khớp các dự đoán tốt hơn với các hộp ground truth trong giai đoạn học.

Điểm mạnh và các trường hợp sử dụng

Ưu điểm chính của PP-YOLOE+ nằm ở hiệu năng mạnh mẽ trên phần cứng máy chủ tiêu chuẩn và khả năng tích hợp sâu rộng với các công cụ của Baidu. Nó rất phù hợp với các quy trình công nghiệp truyền thống, chẳng hạn như phát hiện lỗi tĩnh trong môi trường sản xuất nơi các hạn chế về phần cứng không quá khắt khe.

Tìm hiểu thêm về PP-YOLOE+

Các cân nhắc về hệ sinh thái

Mặc dù PP-YOLOE+ có độ chính xác cao, việc triển khai nó bên ngoài hệ sinh thái gốc đôi khi có thể yêu cầu các bước chuyển đổi bổ sung, không giống như các định dạng xuất gốc có sẵn trong các phần mềm hiện đại. Ultralytics đường ống.

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

Khác với các mạng CNN thuần túy, RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho một bước tiến vào các cơ chế dựa trên cơ chế chú ý cho các tác vụ thị giác máy tính. Nó cố gắng kết hợp khả năng hiểu ngữ cảnh toàn cục của các mô hình Transformer với độ trễ thấp cần thiết cho các ứng dụng thực tế.

Thông tin chi tiết về mẫu sản phẩm:

Kiến trúc và Phương pháp luận

RTDETRv2 tận dụng kiến ​​trúc lai, kết hợp mạng nơ-ron tích chập (CNN) làm nền tảng để trích xuất đặc trưng với bộ mã hóa-giải mã transformer được tối ưu hóa. Đặc điểm nổi bật của RTDETRv2 là thiết kế đầu cuối hoàn chỉnh, bỏ qua cơ chế loại bỏ cực đại không cục bộ truyền thống (Non-Maximum Suppression). NMS (Xử lý hậu kỳ). Nó cũng giới thiệu các tính năng như phát hiện đa tỷ lệ và xử lý cảnh phức tạp, sử dụng cơ chế tự chú ý để hiểu mối quan hệ không gian giữa các đối tượng ở xa.

Điểm mạnh và các trường hợp sử dụng

Kiến trúc biến đổi (transformer) giúp RTDETRv2 hoạt động hiệu quả cao trong các tình huống mà việc hiểu bối cảnh toàn cục là rất quan trọng. Tuy nhiên, các mô hình biến đổi thường đòi hỏi tài nguyên cao hơn đáng kể. CUDA So với các mạng CNN nhẹ, nó tiết kiệm bộ nhớ hơn trong cả quá trình huấn luyện và suy luận. Nó phù hợp nhất cho các môi trường có phần cứng không bị hạn chế, chẳng hạn như phân tích video dựa trên đám mây chạy trên các máy tính mạnh mẽ. GPU máy chủ.

Tìm hiểu thêm về RTDETR

So sánh hiệu năng và số liệu

Khi đánh giá các mô hình này, cần xem xét sự đánh đổi giữa độ chính xác trung bình (Average Precision) ( mAP Chi phí tính toán (được đo bằng FLOPs và độ trễ suy luận) là vô cùng quan trọng. Bảng dưới đây nêu rõ các chỉ số chính cho các quy mô khác nhau của cả PP-YOLOE+ và RTDETRv2.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Trong khi RTDETRv2 thể hiện mạnh mẽ mAP Do yêu cầu về số lượng tham số và số phép tính FLOP cao hơn, các nhà phát triển muốn triển khai trên các thiết bị biên có cấu hình hạn chế thường gặp phải tình trạng nghẽn cổ chai do yêu cầu bộ nhớ lớn thường thấy ở các lớp chuyển đổi.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa PP-YOLOE+ và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

  • Tích hợp hệ sinh thái PaddlePaddle : Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên nền tảng và công cụ PaddlePaddle của Baidu .
  • Triển khai Paddle Lite Edge: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, dành riêng cho công cụ suy luận Paddle Lite hoặc Paddle.
  • Phát hiện phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác phát hiện tối đa trên các hệ thống mạnh mẽ. GPU các máy chủ mà sự phụ thuộc vào framework không phải là vấn đề đáng quan tâm.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Mặc dù cả PP-YOLOE+ và RTDETRv2 đều đại diện cho những cột mốc quan trọng, nhưng nhà phát triển hiện đại cần một hệ sinh thái cân bằng hoàn hảo giữa hiệu năng cực cao và khả năng sử dụng dễ dàng. Nền tảng Ultralytics và mô hình YOLO26 đột phá cung cấp chính xác điều đó.

Ra mắt vào tháng 1 năm 2026, YOLO26 thiết lập tiêu chuẩn mới cho trí tuệ nhân tạo thị giác ưu tiên thiết bị biên. Nó giải quyết một cách khéo léo những trở ngại trong việc triển khai liên quan đến các kiến ​​trúc cũ hơn, đồng thời vượt trội hơn về tốc độ và độ chính xác.

Đổi mới Kiến trúc

YOLO26 giới thiệu một số cải tiến tiên phong vượt trội so với các mạng CNN truyền thống và các mô hình transformer phức tạp:

  • Thiết kế không cần NMS từ đầu đến cuối: Giống như RTDETRv2, YOLO26 được thiết kế từ đầu đến cuối. Bằng cách loại bỏ Non-Maximum Suppression ( NMS (Với khả năng xử lý hậu kỳ), nó mang lại khả năng triển khai nhanh hơn, đơn giản hơn với độ trễ và dao động được giảm thiểu, lý tưởng cho robot thời gian thực và các hệ thống tự động.)
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Nhờ tối ưu hóa kiến ​​trúc chuyên sâu, YOLO26 vượt trội hơn đáng kể so với các mô hình cạnh tranh trên các thiết bị biên không có GPU rời, trở thành lựa chọn hàng đầu cho các ứng dụng IoT và thành phố thông minh .
  • MuSGD Optimizer: Lấy cảm hứng từ những cải tiến trong đào tạo LLM, YOLO26 sử dụng phương pháp kết hợp của... SGD và Muon. Điều này mang lại các quỹ đạo huấn luyện ổn định hơn và sự hội tụ nhanh hơn đáng kể, giảm thiểu đáng kể chi phí. GPU giờ đào tạo.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một lĩnh vực mà các mô hình như PP-YOLOE+ thường gặp khó khăn, điều này rất quan trọng đối với ảnh chụp từ trên không và các ứng dụng máy bay không người lái.
  • Loại bỏ DFL: Việc loại bỏ hiện tượng suy hao tiêu điểm phân phối (Distribution Focal Loss - DFL) giúp đơn giản hóa quá trình xuất dữ liệu, đảm bảo khả năng tương thích liền mạch trên nhiều thiết bị biên và thiết bị công suất thấp.

Tìm hiểu thêm về YOLO26

Tính linh hoạt theo nhiệm vụ cụ thể

Không giống như các bộ phát hiện đối tượng chuyên dụng, YOLO26 có tính linh hoạt cao, hỗ trợ Phân đoạn đối tượng (Instance Segmentation) , Ước tính tư thế (Pose Estimation) , Phân loại (Classification) và Hộp giới hạn định hướng (Oriented Bounding Boxes - OBB) . Nó bao gồm các cải tiến tùy chỉnh như RLE cho Tư thế và tổn thất góc chuyên dụng cho OBB.

Dễ sử dụng vượt trội

Một trong những nhược điểm lớn nhất khi áp dụng các kiến ​​trúc phức tạp như RTDETRv2 là đường cong học tập dốc và quy trình tích hợp rời rạc. Ultralytics Hệ sinh thái loại bỏ hoàn toàn những phức tạp này thông qua một cách tiếp cận trực quan. Python API và nền tảng web toàn diện.

Dù bạn đang huấn luyện các tập dữ liệu tùy chỉnh hay thực hiện suy luận nhanh, quy trình đều diễn ra liền mạch:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

Yêu cầu bộ nhớ thấp hơn, điển hình của Ultralytics YOLO Các mô hình này cho phép bạn đào tạo nhanh hơn và triển khai trên phần cứng rẻ hơn so với các mô hình dựa trên Transformer. Hơn nữa, việc phát triển liên tục và tài liệu chất lượng hàng đầu đảm bảo quy trình sản xuất của bạn luôn ổn định.

Đối với các nhóm đang tìm kiếm các giải pháp thay thế, YOLO11 vẫn là một phiên bản tiền nhiệm được hỗ trợ mạnh mẽ và có khả năng vượt trội trong hệ sinh thái, cung cấp một nền tảng tuyệt vời cho việc tích hợp phần cứng cũ. Bạn cũng có thể thấy hữu ích khi đọc bài so sánh của chúng tôi về YOLO11 so với RTDETR .

Tóm tắt

PP-YOLOE+ và RTDETRv2 đã đóng góp đáng kể vào sự phát triển của thị giác máy tính, chứng minh tính khả thi của các đường dẫn CNN tiên tiến và các bộ chuyển đổi thời gian thực. Tuy nhiên, đối với các tổ chức đang tìm cách triển khai các ứng dụng thị giác máy tính mạnh mẽ, linh hoạt và được tối ưu hóa cao vào năm 2026, Ultralytics YOLO26 cung cấp một giải pháp vượt trội. NMS - Kiến trúc không cần cấu trúc bổ sung, tốc độ nhanh hơn đáng kể CPU Khả năng suy luận và hệ sinh thái được tối ưu hóa giúp các nhà phát triển chuyển đổi từ giai đoạn lên ý tưởng sang sản xuất quy mô lớn nhanh hơn bao giờ hết.


Bình luận