RTDETRv2 so với YOLOX: So sánh kỹ thuật để phát hiện đối tượng
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp nhiều loại mô hình khác nhau, bao gồm YOLO loạt và RT-DETR loạt sản phẩm, mỗi sản phẩm có thế mạnh riêng. Trang này cung cấp so sánh kỹ thuật chi tiết giữa RTDETRv2 và YOLOX , hai mô hình tiên tiến nhất để phát hiện đối tượng, nhằm hỗ trợ bạn đưa ra quyết định sáng suốt dựa trên yêu cầu của dự án.
RTDETRv2: Phát hiện thời gian thực có độ chính xác cao
RTDETRv2 ( Real-Time Detection Transformer v2 ) là một mô hình phát hiện đối tượng tiên tiến do Baidu phát triển, được biết đến với độ chính xác cao và hiệu suất thời gian thực. Được giới thiệu vào ngày 2023-04-17 và được trình bày chi tiết trong bài báo Arxiv , RTDETRv2 sử dụng kiến trúc Vision Transformer (ViT) để đạt được kết quả tiên tiến nhất. Bản triển khai chính thức có sẵn trên GitHub.
Kiến trúc và các tính năng chính
Kiến trúc của RTDETRv2 dựa trên Vision Transformers, cho phép nó nắm bắt bối cảnh toàn cục trong hình ảnh thông qua các cơ chế tự chú ý. Phương pháp tiếp cận dựa trên transformer này cho phép trích xuất tính năng mạnh mẽ và định vị đối tượng chính xác, đặc biệt là trong các cảnh phức tạp. Không giống như các mô hình dựa trên CNN truyền thống, RTDETRv2 vượt trội trong việc hiểu mối quan hệ giữa các phần khác nhau của hình ảnh, dẫn đến cải thiện độ chính xác phát hiện.
Số liệu hiệu suất
Các mô hình RTDETRv2 cho thấy điểm mAP ấn tượng, với các biến thể lớn hơn như RTDETRv2-x đạt được mAPval50-95 là 54,3. Trong khi chi tiết CPU ONNX số liệu tốc độ không được cung cấp trong bảng dưới đây, TensorRT tốc độ cạnh tranh, làm cho nó phù hợp với các ứng dụng thời gian thực trên phần cứng có khả năng như NVIDIA GPU T4. Để biết số liệu hiệu suất chi tiết, hãy tham khảo bảng so sánh mô hình bên dưới.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Độ chính xác vượt trội: Kiến trúc biến áp cung cấp độ chính xác phát hiện vật thể tuyệt vời.
- Có khả năng xử lý thời gian thực: Đạt được tốc độ suy luận cạnh tranh với khả năng tăng tốc phần cứng, phù hợp với các hệ thống thời gian thực.
- Trích xuất tính năng hiệu quả: Vision Transformers nắm bắt bối cảnh toàn cầu và các chi tiết phức tạp một cách hiệu quả.
Điểm yếu:
- Kích thước mô hình lớn hơn: Các mô hình RTDETRv2, đặc biệt là các phiên bản lớn hơn, có số lượng tham số và FLOP cao hơn, đòi hỏi nhiều tài nguyên tính toán hơn.
- Giới hạn tốc độ suy luận: Mặc dù theo thời gian thực, nhưng nó có thể không nhanh bằng các mô hình được tối ưu hóa cao như YOLOX trên các thiết bị kém mạnh hơn.
Các trường hợp sử dụng lý tưởng
RTDETRv2 phù hợp nhất cho các ứng dụng mà độ chính xác là tối quan trọng và có đủ tài nguyên tính toán. Các trường hợp sử dụng lý tưởng bao gồm:
- Xe tự hành: Để nhận thức môi trường đáng tin cậy và chính xác trong các hệ thống tự lái. AI trong xe tự lái
- Robot: Cho phép robot nhận thức và tương tác chính xác với các vật thể trong môi trường phức tạp. Từ thuật toán đến tự động hóa: Vai trò của AI trong robot
- Chụp ảnh y tế: Để phát hiện các bất thường có độ chính xác cao trong hình ảnh y tế, hỗ trợ chẩn đoán. AI trong chăm sóc sức khỏe
- Phân tích hình ảnh độ phân giải cao: Các ứng dụng yêu cầu phân tích chi tiết các hình ảnh lớn, chẳng hạn như hình ảnh vệ tinh hoặc hình ảnh trên không. Sử dụng thị giác máy tính để phân tích hình ảnh vệ tinh
YOLOX: Phát hiện đối tượng hiệu quả và linh hoạt
YOLOX ( You Only Look Once X ) là một mô hình phát hiện đối tượng không có neo do Megvii phát triển, được biết đến với hiệu suất và hiệu quả cao. Được giới thiệu vào ngày 18-07-2021 và được trình bày chi tiết trong bài báo Arxiv , YOLOX xây dựng dựa trên YOLO loạt sản phẩm, cung cấp thiết kế đơn giản với kết quả tiên tiến. Tài liệu chính thức cung cấp thông tin chi tiết toàn diện.
Kiến trúc và các tính năng chính
YOLOX áp dụng phương pháp không neo, loại bỏ nhu cầu về các hộp neo được xác định trước, giúp đơn giản hóa mô hình và giảm siêu tham số. Nó có đầu tách rời để phân loại và định vị, nâng cao hiệu quả và độ chính xác của quá trình đào tạo. Các kỹ thuật tăng cường dữ liệu tiên tiến như MixUp và Mosaic được sử dụng để cải thiện độ mạnh mẽ. YOLOX được thiết kế để có tốc độ và hiệu quả cao, phù hợp với các ứng dụng thời gian thực và triển khai trên nhiều nền tảng phần cứng khác nhau.
Số liệu hiệu suất
YOLOX cung cấp nhiều kích thước mô hình, từ Nano đến XLarge, đáp ứng các ngân sách tính toán và nhu cầu về độ chính xác khác nhau. Các mô hình YOLOX đạt được sự cân bằng tốt giữa tốc độ và độ chính xác. Ví dụ, YOLOX-s đạt được mAPval50-95 là 40,5 với tốc độ suy luận nhanh trên TensorRT . Tham khảo bảng so sánh mô hình bên dưới để biết số liệu hiệu suất chi tiết trên các biến thể YOLOX khác nhau.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Hiệu quả và tốc độ cao: Được tối ưu hóa để suy luận nhanh, lý tưởng cho các ứng dụng thời gian thực.
- Thiết kế không neo: Đơn giản hóa quy trình kiến trúc và đào tạo, cải thiện khả năng khái quát hóa.
- Kích thước mô hình đa dạng: Cung cấp nhiều kích thước mô hình khác nhau để phù hợp với các ràng buộc tính toán khác nhau.
- Hiệu suất mạnh mẽ: Đạt được sự cân bằng tốt giữa tốc độ và độ chính xác.
Điểm yếu:
- Đánh đổi về độ chính xác: Mặc dù hiệu quả, độ chính xác của nó có thể thấp hơn một chút so với các mô hình dựa trên máy biến áp như RTDETRv2 trong các tình huống phức tạp.
- Hiệu suất trong các cảnh phức tạp: Là một máy dò một giai đoạn, nó có thể kém mạnh mẽ hơn trong các cảnh cực kỳ đông đúc so với một số máy dò hai giai đoạn, mặc dù YOLOX giảm thiểu đáng kể khoảng cách này so với các máy dò trước đó YOLO phiên bản.
Các trường hợp sử dụng lý tưởng
YOLOX lý tưởng cho các ứng dụng yêu cầu phát hiện đối tượng theo thời gian thực, tập trung vào tốc độ và hiệu quả. Bao gồm:
- Robot: Nhận thức thời gian thực để điều hướng và tương tác với robot trong môi trường năng động. AI trong Robot
- Hệ thống giám sát: Phát hiện đối tượng hiệu quả trong luồng video cho các ứng dụng bảo mật và giám sát. Tầm nhìn máy tính để phòng chống trộm cắp: Tăng cường bảo mật
- Kiểm tra công nghiệp: Kiểm tra trực quan tự động trên dây chuyền sản xuất để phát hiện lỗi và kiểm soát chất lượng. Cải thiện sản xuất bằng thị giác máy tính
- Thiết bị Edge: Triển khai trên các thiết bị hạn chế về tài nguyên, nơi hiệu quả tính toán là rất quan trọng. Trao quyền cho AI Edge với Sony IMX500 và Aitrios
Bảng so sánh mô hình
Người mẫu | kích thước (pixel) | giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (M) | FLOP (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOX là | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXLl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Phần kết luận
Cả RTDETRv2 và YOLOX đều là các mô hình phát hiện đối tượng mạnh mẽ, nhưng chúng phục vụ cho các ưu tiên khác nhau. RTDETRv2 là lựa chọn tốt hơn khi cần độ chính xác tối đa và tài nguyên tính toán không phải là yếu tố hạn chế. Ngược lại, YOLOX vượt trội trong các tình huống mà hiệu suất thời gian thực, hiệu quả và triển khai trên phần cứng ít mạnh hơn là rất quan trọng.
Đối với người dùng đang khám phá các tùy chọn khác, Ultralytics cung cấp nhiều mẫu mã đa dạng, bao gồm:
- YOLOv8 và YOLOv9: Những người kế nhiệm trong YOLO loạt, cung cấp một loạt các sự đánh đổi về tốc độ và độ chính xác. Ultralytics YOLOv8 tròn một tuổi: Một năm đột phá và đổi mới , Tài liệu YOLOv9
- YOLO -NAS: Các mô hình được thiết kế sử dụng Neural Architecture Search để có hiệu suất tối ưu. YOLO -NAS của Deci AI - Mô hình phát hiện đối tượng hiện đại
- FastSAM và MobileSAM : Dành cho các tác vụ phân đoạn phiên bản thời gian thực. Tài liệu FastSAM , Tài liệu MobileSAM
Sự lựa chọn giữa RTDETRv2, YOLOX và các loại khác Ultralytics các mô hình nên được hướng dẫn bởi các nhu cầu cụ thể của dự án thị giác máy tính của bạn, cân bằng cẩn thận độ chính xác, tốc độ và các tài nguyên có sẵn. Khám phá Tài liệu Ultralytics và kho lưu trữ GitHub để biết thêm thông tin chuyên sâu và chi tiết triển khai.