Bỏ qua nội dung

RTDETRv2 so với YOLOX: So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp nhiều loại mô hình khác nhau, bao gồm YOLO loạt và RT-DETR loạt sản phẩm, mỗi sản phẩm có thế mạnh riêng. Trang này cung cấp so sánh kỹ thuật chi tiết giữa RTDETRv2YOLOX , hai mô hình tiên tiến nhất để phát hiện đối tượng, nhằm hỗ trợ bạn đưa ra quyết định sáng suốt dựa trên yêu cầu của dự án.

RTDETRv2: Phát hiện thời gian thực có độ chính xác cao

RTDETRv2 ( Real-Time Detection Transformer v2 ) là một mô hình phát hiện đối tượng tiên tiến do Baidu phát triển, được biết đến với độ chính xác cao và hiệu suất thời gian thực. Được giới thiệu vào ngày 2023-04-17 và được trình bày chi tiết trong bài báo Arxiv , RTDETRv2 sử dụng kiến trúc Vision Transformer (ViT) để đạt được kết quả tiên tiến nhất. Bản triển khai chính thức có sẵn trên GitHub.

Kiến trúc và các tính năng chính

Kiến trúc của RTDETRv2 dựa trên Vision Transformers, cho phép nó nắm bắt bối cảnh toàn cục trong hình ảnh thông qua các cơ chế tự chú ý. Phương pháp tiếp cận dựa trên transformer này cho phép trích xuất tính năng mạnh mẽ và định vị đối tượng chính xác, đặc biệt là trong các cảnh phức tạp. Không giống như các mô hình dựa trên CNN truyền thống, RTDETRv2 vượt trội trong việc hiểu mối quan hệ giữa các phần khác nhau của hình ảnh, dẫn đến cải thiện độ chính xác phát hiện.

Số liệu hiệu suất

Các mô hình RTDETRv2 cho thấy điểm mAP ấn tượng, với các biến thể lớn hơn như RTDETRv2-x đạt được mAPval50-95 là 54,3. Trong khi chi tiết CPU ONNX số liệu tốc độ không được cung cấp trong bảng dưới đây, TensorRT tốc độ cạnh tranh, làm cho nó phù hợp với các ứng dụng thời gian thực trên phần cứng có khả năng như NVIDIA GPU T4. Để biết số liệu hiệu suất chi tiết, hãy tham khảo bảng so sánh mô hình bên dưới.

Điểm mạnh và điểm yếu

Điểm mạnh:

  • Độ chính xác vượt trội: Kiến trúc biến áp cung cấp độ chính xác phát hiện vật thể tuyệt vời.
  • Có khả năng xử lý thời gian thực: Đạt được tốc độ suy luận cạnh tranh với khả năng tăng tốc phần cứng, phù hợp với các hệ thống thời gian thực.
  • Trích xuất tính năng hiệu quả: Vision Transformers nắm bắt bối cảnh toàn cầu và các chi tiết phức tạp một cách hiệu quả.

Điểm yếu:

  • Kích thước mô hình lớn hơn: Các mô hình RTDETRv2, đặc biệt là các phiên bản lớn hơn, có số lượng tham số và FLOP cao hơn, đòi hỏi nhiều tài nguyên tính toán hơn.
  • Giới hạn tốc độ suy luận: Mặc dù theo thời gian thực, nhưng nó có thể không nhanh bằng các mô hình được tối ưu hóa cao như YOLOX trên các thiết bị kém mạnh hơn.

Các trường hợp sử dụng lý tưởng

RTDETRv2 phù hợp nhất cho các ứng dụng mà độ chính xác là tối quan trọng và có đủ tài nguyên tính toán. Các trường hợp sử dụng lý tưởng bao gồm:

Tìm hiểu thêm về RTDETRv2

YOLOX: Phát hiện đối tượng hiệu quả và linh hoạt

YOLOX ( You Only Look Once X ) là một mô hình phát hiện đối tượng không có neo do Megvii phát triển, được biết đến với hiệu suất và hiệu quả cao. Được giới thiệu vào ngày 18-07-2021 và được trình bày chi tiết trong bài báo Arxiv , YOLOX xây dựng dựa trên YOLO loạt sản phẩm, cung cấp thiết kế đơn giản với kết quả tiên tiến. Tài liệu chính thức cung cấp thông tin chi tiết toàn diện.

Kiến trúc và các tính năng chính

YOLOX áp dụng phương pháp không neo, loại bỏ nhu cầu về các hộp neo được xác định trước, giúp đơn giản hóa mô hình và giảm siêu tham số. Nó có đầu tách rời để phân loại và định vị, nâng cao hiệu quả và độ chính xác của quá trình đào tạo. Các kỹ thuật tăng cường dữ liệu tiên tiến như MixUp và Mosaic được sử dụng để cải thiện độ mạnh mẽ. YOLOX được thiết kế để có tốc độ và hiệu quả cao, phù hợp với các ứng dụng thời gian thực và triển khai trên nhiều nền tảng phần cứng khác nhau.

Số liệu hiệu suất

YOLOX cung cấp nhiều kích thước mô hình, từ Nano đến XLarge, đáp ứng các ngân sách tính toán và nhu cầu về độ chính xác khác nhau. Các mô hình YOLOX đạt được sự cân bằng tốt giữa tốc độ và độ chính xác. Ví dụ, YOLOX-s đạt được mAPval50-95 là 40,5 với tốc độ suy luận nhanh trên TensorRT . Tham khảo bảng so sánh mô hình bên dưới để biết số liệu hiệu suất chi tiết trên các biến thể YOLOX khác nhau.

Điểm mạnh và điểm yếu

Điểm mạnh:

  • Hiệu quả và tốc độ cao: Được tối ưu hóa để suy luận nhanh, lý tưởng cho các ứng dụng thời gian thực.
  • Thiết kế không neo: Đơn giản hóa quy trình kiến trúc và đào tạo, cải thiện khả năng khái quát hóa.
  • Kích thước mô hình đa dạng: Cung cấp nhiều kích thước mô hình khác nhau để phù hợp với các ràng buộc tính toán khác nhau.
  • Hiệu suất mạnh mẽ: Đạt được sự cân bằng tốt giữa tốc độ và độ chính xác.

Điểm yếu:

  • Đánh đổi về độ chính xác: Mặc dù hiệu quả, độ chính xác của nó có thể thấp hơn một chút so với các mô hình dựa trên máy biến áp như RTDETRv2 trong các tình huống phức tạp.
  • Hiệu suất trong các cảnh phức tạp: Là một máy dò một giai đoạn, nó có thể kém mạnh mẽ hơn trong các cảnh cực kỳ đông đúc so với một số máy dò hai giai đoạn, mặc dù YOLOX giảm thiểu đáng kể khoảng cách này so với các máy dò trước đó YOLO phiên bản.

Các trường hợp sử dụng lý tưởng

YOLOX lý tưởng cho các ứng dụng yêu cầu phát hiện đối tượng theo thời gian thực, tập trung vào tốc độ và hiệu quả. Bao gồm:

Tìm hiểu thêm về YOLOX

Bảng so sánh mô hình

Người mẫu kích thước (pixel) giá trị mAP
50-95
Tốc độ CPU ONNX
(bệnh đa xơ cứng)
Tốc độ T4 TensorRT10
(bệnh đa xơ cứng)
tham số (M) FLOP (B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOX là 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXLl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Phần kết luận

Cả RTDETRv2 và YOLOX đều là các mô hình phát hiện đối tượng mạnh mẽ, nhưng chúng phục vụ cho các ưu tiên khác nhau. RTDETRv2 là lựa chọn tốt hơn khi cần độ chính xác tối đa và tài nguyên tính toán không phải là yếu tố hạn chế. Ngược lại, YOLOX vượt trội trong các tình huống mà hiệu suất thời gian thực, hiệu quả và triển khai trên phần cứng ít mạnh hơn là rất quan trọng.

Đối với người dùng đang khám phá các tùy chọn khác, Ultralytics cung cấp nhiều mẫu mã đa dạng, bao gồm:

Sự lựa chọn giữa RTDETRv2, YOLOX và các loại khác Ultralytics các mô hình nên được hướng dẫn bởi các nhu cầu cụ thể của dự án thị giác máy tính của bạn, cân bằng cẩn thận độ chính xác, tốc độ và các tài nguyên có sẵn. Khám phá Tài liệu Ultralyticskho lưu trữ GitHub để biết thêm thông tin chuyên sâu và chi tiết triển khai.

📅 Được tạo ra cách đây 1 năm ✏️ Đã cập nhật cách đây 1 tháng

Bình luận