Chuyển đến nội dung

RTDETRv2 so với PP-YOLOE+: So sánh kỹ thuật giữa các mô hình phát hiện đối tượng

Lĩnh vực thị giác máy tính đang phát triển nhanh chóng đã tạo ra nhiều phương pháp kiến ​​trúc đa dạng để giải quyết các thách thức phức tạp trong việc phát hiện đối tượng theo thời gian thực . Trong số những tiến bộ đáng chú ý gần đây nhất là RTDETRv2PP-YOLOE+ , hai mô hình mạnh mẽ tiếp cận nhận dạng hình ảnh từ các triết lý thiết kế khác nhau về cơ bản. Mặc dù cả hai mô hình đều hướng đến việc cung cấp khả năng phát hiện hiệu suất cao, nhưng cơ chế hoạt động, mô hình huấn luyện và kịch bản triển khai lý tưởng của chúng lại khác nhau đáng kể.

Hướng dẫn toàn diện này đi sâu vào các khía cạnh kỹ thuật của cả hai mô hình, so sánh kiến ​​trúc, số liệu hiệu năng và hỗ trợ hệ sinh thái của chúng để giúp các nhà phát triển và nhà nghiên cứu lựa chọn giải pháp tối ưu cho nhu cầu triển khai cụ thể của họ.

Tổng quan về mô hình

Trước khi phân tích dữ liệu hiệu năng, điều quan trọng là phải hiểu nguồn gốc và mục tiêu kiến ​​trúc của từng mô hình. Cả hai đều xuất phát từ các nhóm nghiên cứu tại Baidu , nhưng chúng đại diện cho các nhánh khác nhau trong cây phả hệ của lĩnh vực phát hiện đối tượng.

RTDETRv2

RTDETRv2 đại diện cho một bước tiến đáng kể trong kiến ​​trúc thị giác dựa trên transformer. Được xây dựng dựa trên Transformer phát hiện thời gian thực ban đầu, nó tận dụng xương sống transformer thị giác linh hoạt kết hợp với bộ mã hóa lai hiệu quả. Đặc điểm nổi bật nhất của nó là khả năng dự đoán từ đầu đến cuối một cách tự nhiên, loại bỏ hoàn toàn nhu cầu về Non-Maximum Suppression (Suppression không tối đa). NMS ) trong quá trình xử lý hậu kỳ.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu Ngày: 24/07/2024 Arxiv: 2407.17140
GitHub: Kho lưu trữ RT-DETR

Tìm hiểu thêm về RTDETRv2

PP-YOLOE+

PP-YOLOE+ là phiên bản cải tiến của... YOLO Bộ xử lý ảnh này được tối ưu hóa mạnh mẽ cho các ứng dụng công nghiệp hiệu năng cao. Nó sở hữu kiến ​​trúc mạng nơ-ron tích chập (CNN) có khả năng mở rộng với đầu phát hiện không cần neo. Được thiết kế để mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, nó giới thiệu các kỹ thuật mạnh mẽ như đầu ET và hàm mất mát tiêu điểm tổng quát để cải thiện khả năng phát hiện vật thể nhỏ .

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: 2203.16250
GitHub: Kho lưu trữ PaddleDetection

Tìm hiểu thêm về PP-YOLOE+

Tích hợp hệ sinh thái

Mặc dù cả hai mô hình đều có kho lưu trữ nghiên cứu riêng, bạn có thể dễ dàng thử nghiệm RTDETRv2 trực tiếp trong gói Python Ultralytics , tận dụng lợi thế của API thống nhất và các tùy chọn xuất dữ liệu được đơn giản hóa.

Sự khác biệt về kiến trúc

Sự khác biệt cơ bản giữa hai mô hình này nằm ở cách chúng xử lý ngữ cảnh hình ảnh và tạo ra dự đoán.

PP-YOLOE+ sử dụng kiến ​​trúc mạng nơron tích chập (CNN) truyền thống nhưng được tối ưu hóa cao. Nó dựa vào các trường tiếp nhận cục bộ để trích xuất đặc trưng, ​​giúp quá trình này cực kỳ nhanh và hiệu quả cho việc triển khai tiêu chuẩn. Tuy nhiên, nó vẫn yêu cầu các cài đặt tiêu chuẩn. NMS Xử lý hậu kỳ để lọc các hộp giới hạn chồng chéo, điều này có thể gây ra tắc nghẽn độ trễ trong các cảnh phức tạp.

Ngược lại, RTDETRv2 sử dụng bộ mã hóa lai (Hybrid Encoder) và bộ giải mã Transformer (Transformer Decoder). Điều này cho phép mô hình nắm bắt ngữ cảnh tổng thể trên toàn bộ hình ảnh cùng một lúc. Cơ chế chú ý tự động hiểu được mối quan hệ giữa các đối tượng, cho phép mô hình xuất ra các hộp giới hạn cuối cùng trực tiếp mà không cần... NMS Cách tiếp cận toàn diện này đảm bảo độ trễ suy luận ổn định bất kể số lượng đối tượng được phát hiện.

Các chỉ số hiệu suất và so sánh

Khi đánh giá các chỉ số hiệu suất YOLO , điều quan trọng là phải cân bằng giữa độ chính xác ( mAP ) so với chi phí tính toán (FLOPs) và tốc độ suy luận. Bảng dưới đây nêu bật hiệu suất của cả hai mô hình trên các kích thước khác nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Trong khi PP-YOLOE+x đạt được hiệu quả cao hơn một chút. mAP Với độ chính xác 54,7% trên tập dữ liệu COCO , các mô hình RTDETRv2 nhìn chung mang lại độ chính xác cạnh tranh với lợi ích bổ sung là độ trễ ổn định nhờ vào... NMS -thiết kế không ràng buộc. Tuy nhiên, PP-YOLOE+ vẫn duy trì ưu thế vượt trội về số lượng tham số và FLOPs đối với các mô hình nhỏ hơn, giúp nó hoạt động hiệu quả cao khi triển khai ở biên.

Lợi thế của Ultralytics: Giới thiệu YOLO26

Mặc dù RTDETRv2 và PP-YOLOE+ đều rất mạnh mẽ, nhưng công nghệ tiên tiến vẫn tiếp tục phát triển. Đối với các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và hỗ trợ hệ sinh thái, Ultralytics YOLO26 đại diện cho tiêu chuẩn mới của ngành.

YOLO26 tổng hợp những ưu điểm tốt nhất của cả mạng CNN và Transformer. Nó áp dụng thiết kế End-to-End NMS -Free tiên phong bởi các kiến ​​trúc hiện đại, loại bỏ hiệu quả các nút thắt cổ chai trong quá trình xử lý hậu kỳ. Hơn nữa, nó giới thiệu bộ tối ưu hóa MuSGD mang tính cách mạng, một phương pháp lai lấy cảm hứng từ những cải tiến trong huấn luyện LLM, đảm bảo quá trình huấn luyện ổn định cao và hội tụ nhanh chóng.

Tối ưu hóa cho thiết bị biên

Không giống như các mẫu máy biến áp cỡ lớn đòi hỏi chi phí đáng kể CUDA Về bộ nhớ, YOLO26 có tính năng loại bỏ DFL (Distribution Focal Loss) và được tối ưu hóa đặc biệt cho điện toán biên, mang lại khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước.

Ngoài ra, YOLO26 không chỉ giới hạn ở việc phát hiện đối tượng đơn giản. Nó có tính linh hoạt cao, hỗ trợ phân đoạn đối tượng , ước tính tư thếhộp giới hạn định hướng (OBB) ngay từ đầu, trong khi PP-YOLOE+ chủ yếu tập trung vào phát hiện hộp giới hạn.

Tìm hiểu thêm về YOLO26

Phương pháp luận đào tạo và Hệ sinh thái

Hiệu quả đào tạo và tính dễ sử dụng là những điểm mạnh thực sự của hệ sinh thái Ultralytics so với các kho lưu trữ nghiên cứu độc lập. Trong khi PP-YOLOE+ dựa trên... PaddlePaddle Khung phần mềm và RTDETRv2 thường yêu cầu thiết lập môi trường phức tạp, tích hợp các mô hình thông qua đó. Ultralytics Mang đến trải nghiệm liền mạch.

Với Ultralytics API này mang lại lợi ích từ việc giảm yêu cầu bộ nhớ trong quá trình huấn luyện, xử lý tập dữ liệu tự động và đơn giản hóa việc tinh chỉnh siêu tham số. Hơn nữa, việc triển khai mô hình sang các định dạng sản xuất như ONNX hoặc TensorRT có thể được thực hiện chỉ bằng một lệnh duy nhất.

Ví dụ mã: Suy luận được tối ưu hóa

Dưới đây là minh họa cho thấy bạn có thể dễ dàng sử dụng RTDETRv2 cùng với mô hình YOLO26 được khuyến nghị như thế nào. Ultralytics Python bưu kiện:

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Ứng dụng và trường hợp sử dụng thực tế

Việc lựa chọn giữa các kiến ​​trúc này thường phụ thuộc vào các yêu cầu cụ thể về phần cứng và ứng dụng.

  • RTDETRv2 hoạt động xuất sắc trong môi trường phía máy chủ và khả năng hiểu cảnh phức tạp. Cơ chế chú ý toàn cục của nó giúp nó hoạt động hiệu quả cao trong quản lý đám đôngphân tích hình ảnh y tế dày đặc, nơi các đối tượng chồng chéo thường gây ra các vấn đề tiêu chuẩn. NMS các thuật toán sẽ thất bại.
  • PP-YOLOE+ rất phù hợp cho việc kiểm tra công nghiệp tốc độ cao và các môi trường được đầu tư mạnh vào công nghệ. PaddlePaddle Hệ sinh thái. Số lượng tham số thấp ở quy mô nhỏ hơn làm cho nó khả thi cho một số ứng dụng robot nhất định.
  • Ultralytics YOLO26 là giải pháp được khuyến nghị rộng rãi cho việc triển khai thương mại toàn diện. Với các chức năng ProgLoss + STAL được nâng cao, nó cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, yếu tố quan trọng đối với hoạt động của máy bay không người láigiám sát giao thông thành phố thông minh .

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa RT-DETR Và PP-YOLOE+ phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ được khuyến nghị sử dụng cho:

  • Tích hợp hệ sinh thái PaddlePaddle : Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên nền tảng và công cụ PaddlePaddle của Baidu .
  • Triển khai Paddle Lite Edge: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, dành riêng cho công cụ suy luận Paddle Lite hoặc Paddle.
  • Phát hiện phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác phát hiện tối đa trên các hệ thống mạnh mẽ. GPU các máy chủ mà sự phụ thuộc vào framework không phải là vấn đề đáng quan tâm.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Kết luận

Cả RTDETRv2 và PP-YOLOE+ đều đã vượt qua những giới hạn của khả năng trong thị giác máy tính, chứng minh tính khả thi của cả kiến ​​trúc Transformer và CNN được tối ưu hóa cao. Tuy nhiên, sự phức tạp trong việc triển khai các mã nguồn nghiên cứu rời rạc có thể cản trở tiến độ sản xuất.

Đối với các kỹ sư AI hiện đại, việc tận dụng Nền tảng Ultralytics mang lại lợi thế vượt trội. Bằng cách chuyển sang các mô hình tích hợp liền mạch như YOLO11 hoặc YOLO26 tiên tiến, các nhóm có thể đạt được tỷ lệ độ chính xác trên tốc độ cao nhất có thể, đồng thời giảm đáng kể yêu cầu về bộ nhớ và chi phí phát triển.


Bình luận