Bỏ để qua phần nội dung

Baidu của RT-DETR: Máy dò đối tượng thời gian thực dựa trên máy biến áp tầm nhìn

Tổng quan

Biến áp phát hiện thời gian thực (RT-DETR), được phát triển bởi Baidu, là một máy dò đối tượng đầu cuối tiên tiến cung cấp hiệu suất thời gian thực trong khi vẫn duy trì độ chính xác cao. Nó tận dụng sức mạnh của Vision Transformers (ViT) để xử lý hiệu quả các tính năng đa quy mô bằng cách tách tương tác nội bộ và phản ứng tổng hợp quy mô chéo. RT-DETR có khả năng thích ứng cao, hỗ trợ điều chỉnh linh hoạt tốc độ suy luận bằng các lớp bộ giải mã khác nhau mà không cần đào tạo lại. Mô hình vượt trội trên các phụ trợ tăng tốc như CUDA với TensorRT, vượt trội hơn nhiều máy dò đối tượng thời gian thực khác.



Xem: Biến áp phát hiện thời gian thực (RT-DETR)

Hình ảnh ví dụ về mô hình Tổng quan về Baidu's RT-DETR. Các RT-DETR sơ đồ kiến trúc mô hình hiển thị ba giai đoạn cuối cùng của xương sống {S3, S4, S5} làm đầu vào cho bộ mã hóa. Bộ mã hóa lai hiệu quả biến đổi các tính năng đa tỷ lệ thành một chuỗi các tính năng hình ảnh thông qua tương tác tính năng nội bộ (AIFI) và mô-đun hợp nhất tính năng quy mô chéo (CCFM). Lựa chọn truy vấn nhận biết IoU được sử dụng để chọn một số tính năng hình ảnh cố định để phục vụ như các truy vấn đối tượng ban đầu cho bộ giải mã. Cuối cùng, bộ giải mã với các đầu dự đoán phụ trợ lặp đi lặp lại tối ưu hóa các truy vấn đối tượng để tạo hộp và điểm tin cậy (nguồn).

Các tính năng chính

  • Bộ mã hóa lai hiệu quả: Baidu của RT-DETR Sử dụng bộ mã hóa lai hiệu quả xử lý các tính năng đa quy mô bằng cách tách tương tác nội quy mô và hợp nhất quy mô chéo. Thiết kế dựa trên Vision Transformers độc đáo này giúp giảm chi phí tính toán và cho phép phát hiện đối tượng theo thời gian thực.
  • Lựa chọn truy vấn nhận biết IoU: Baidu của RT-DETR cải thiện khởi tạo truy vấn đối tượng bằng cách sử dụng lựa chọn truy vấn nhận biết IoU. Điều này cho phép người mẫu tập trung vào các đối tượng phù hợp nhất trong cảnh, nâng cao độ chính xác phát hiện.
  • Tốc độ suy luận thích ứng: Baidu của RT-DETR Hỗ trợ điều chỉnh linh hoạt tốc độ suy luận bằng cách sử dụng các lớp bộ giải mã khác nhau mà không cần đào tạo lại. Khả năng thích ứng này tạo điều kiện cho ứng dụng thực tế trong các tình huống phát hiện đối tượng thời gian thực khác nhau.

Mô hình được đào tạo trước

Các Ultralytics Python API cung cấp đào tạo trước PaddlePaddle RT-DETR Các mô hình với quy mô khác nhau:

  • RT-DETR-L: 53.0% AP trên COCO val2017, 114 FPS trên GPU T4
  • RT-DETR-X: 54.8% AP trên COCO val2017, 74 FPS trên GPU T4

Ví dụ sử dụng

Ví dụ này cung cấp đơn giản RT-DETR Ví dụ đào tạo và suy luận. Để biết tài liệu đầy đủ về các chế độ này và các chế độ khác, hãy xem các trang tài liệu Dự đoán, Đào tạo, ValXuất .

Ví dụ

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

Các tác vụ và chế độ được hỗ trợ

Bảng này trình bày các loại mô hình, trọng lượng được đào tạo trước cụ thể, các tác vụ được hỗ trợ bởi từng mô hình và các chế độ khác nhau (Tàu hỏa , Val, Dự đoán, Xuất) được hỗ trợ, được biểu thị bằng ✅ biểu tượng cảm xúc.

Loại mô hình Trọng lượng được đào tạo trước Các tác vụ được hỗ trợ Suy luận Xác nhận Đào tạo Xuất khẩu
RT-DETR Lớn rtdetr-l.pt Phát hiện đối tượng
RT-DETR Cực lớn rtdetr-x.pt Phát hiện đối tượng

Trích dẫn và xác nhận

Nếu bạn sử dụng Baidu's RT-DETR Trong công việc nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo gốc:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Chúng tôi xin ghi nhận Baidu và PaddlePaddle Nhóm để tạo và duy trì tài nguyên quý giá này cho cộng đồng thị giác máy tính. Đóng góp của họ cho lĩnh vực này với sự phát triển của máy dò đối tượng thời gian thực dựa trên Vision Transformers, RT-DETR, được đánh giá rất cao.

Từ khoá: RT-DETR, Máy biến áp, ViT, Máy biến áp tầm nhìn, Baidu RT-DETR, PaddlePaddle, mái chèo RT-DETR, phát hiện đối tượng thời gian thực, phát hiện đối tượng dựa trên Vision Transformers, được đào tạo trước PaddlePaddle RT-DETR mô hình, Baidu's RT-DETR Sử dụng Ultralytics Python API



Đã tạo 2023-11-12, Cập nhật 2024-04-17
Tác giả: glenn-jocher (9), RizwanMunawar (1)

Ý kiến