Baidu của RT-DETR : Một máy dò đối tượng thời gian thực dựa trên Vision Transformer
Tổng quan
Bộ chuyển đổi phát hiện thời gian thực ( RT-DETR ), do Baidu phát triển, là một máy dò đối tượng đầu cuối tiên tiến cung cấp hiệu suất thời gian thực trong khi vẫn duy trì độ chính xác cao. Nó dựa trên ý tưởng của DETR (khung không có NMS), đồng thời giới thiệu xương sống dựa trên conv và bộ mã hóa lai hiệu quả để đạt được tốc độ thời gian thực. RT-DETR xử lý hiệu quả các tính năng đa thang đo bằng cách tách rời tương tác nội thang đo và hợp nhất giữa các thang đo. Mô hình có khả năng thích ứng cao, hỗ trợ điều chỉnh linh hoạt tốc độ suy luận bằng các lớp giải mã khác nhau mà không cần đào tạo lại. RT-DETR nổi trội về các phần phụ trợ được tăng tốc như CUDA với TensorRT , vượt trội hơn nhiều máy phát hiện vật thể thời gian thực khác.
Đồng hồ: Bộ chuyển đổi phát hiện thời gian thực ( RT-DETR )
Tổng quan về Baidu RT-DETR . Các RT-DETR sơ đồ kiến trúc mô hình cho thấy ba giai đoạn cuối cùng của xương sống {S3, S4, S5} là đầu vào cho bộ mã hóa. Bộ mã hóa lai hiệu quả chuyển đổi các đặc điểm đa tỷ lệ thành một chuỗi các đặc điểm hình ảnh thông qua tương tác đặc điểm nội tỷ lệ (AIFI) và mô-đun hợp nhất đặc điểm đa tỷ lệ (CCFM). Lựa chọn truy vấn nhận biết IoU được sử dụng để chọn một số lượng cố định các đặc điểm hình ảnh để phục vụ như các truy vấn đối tượng ban đầu cho bộ giải mã. Cuối cùng, bộ giải mã với các đầu dự đoán phụ trợ lặp đi lặp lại tối ưu hóa các truy vấn đối tượng để tạo các hộp và điểm tin cậy (nguồn).
Các tính năng chính
- Bộ mã hóa lai hiệu quả: Baidu RT-DETR sử dụng bộ mã hóa lai hiệu quả xử lý các tính năng đa tỷ lệ bằng cách tách tương tác nội tỷ lệ và hợp nhất tỷ lệ chéo. Thiết kế dựa trên Vision Transformers độc đáo này giúp giảm chi phí tính toán và cho phép phát hiện đối tượng theo thời gian thực.
- Lựa chọn truy vấn nhận thức IoU: Baidu RT-DETR cải thiện việc khởi tạo truy vấn đối tượng bằng cách sử dụng lựa chọn truy vấn nhận biết IoU. Điều này cho phép mô hình tập trung vào các đối tượng có liên quan nhất trong cảnh, nâng cao độ chính xác của phát hiện.
- Tốc độ suy luận thích ứng: Baidu RT-DETR hỗ trợ điều chỉnh linh hoạt tốc độ suy luận bằng cách sử dụng các lớp giải mã khác nhau mà không cần đào tạo lại. Khả năng thích ứng này tạo điều kiện cho ứng dụng thực tế trong nhiều tình huống phát hiện đối tượng thời gian thực.
- Khung không có NMS: Dựa trên DETR, RT-DETR loại bỏ nhu cầu xử lý hậu kỳ loại bỏ tối đa , đơn giản hóa quy trình phát hiện và có khả năng cải thiện hiệu quả.
- Phát hiện không có neo: Là một máy dò không có neo , RT-DETR đơn giản hóa quá trình phát hiện và có thể cải thiện khả năng khái quát hóa trên các tập dữ liệu khác nhau.
Các mô hình được đào tạo trước
Các Ultralytics Python API cung cấp được đào tạo trước PaddlePaddle RT-DETR các mô hình có quy mô khác nhau:
- RT-DETR -L: 53.0% AP trên COCO val2017, 114 FPS trên T4 GPU
- RT-DETR -X: 54,8% AP trên COCO val2017, 74 FPS trên T4 GPU
Ngoài ra, Baidu đã phát hành RTDETRv2 vào tháng 7 năm 2024, cải thiện hơn nữa kiến trúc ban đầu với các số liệu hiệu suất được nâng cao.
Ví dụ sử dụng
Ví dụ này cung cấp đơn giản RT-DETR ví dụ về đào tạo và suy luận. Để biết tài liệu đầy đủ về các chế độ này và các chế độ khác, hãy xem các trang tài liệu Predict , Train , Val và Export .
Ví dụ
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
Nhiệm vụ và chế độ được hỗ trợ
Bảng này trình bày các loại mô hình, trọng số được đào tạo trước cụ thể, các tác vụ được hỗ trợ bởi từng mô hình và các chế độ khác nhau ( Train , Val , Predict , Export ) được hỗ trợ, được biểu thị bằng biểu tượng cảm xúc ✅.
Kiểu mẫu | Tạ đã được tập luyện trước | Nhiệm vụ được hỗ trợ | Suy luận | Xác thực | Đào tạo | Xuất khẩu |
---|---|---|---|---|---|---|
RT-DETR Lớn | rtdetr-l.pt | Phát hiện đối tượng | ✅ | ✅ | ✅ | ✅ |
RT-DETR Cực lớn | rtdetr-x.pt | Phát hiện đối tượng | ✅ | ✅ | ✅ | ✅ |
Các trường hợp sử dụng lý tưởng
RT-DETR đặc biệt phù hợp cho các ứng dụng đòi hỏi cả độ chính xác cao và hiệu suất thời gian thực:
- Lái xe tự động : Để có nhận thức đáng tin cậy về môi trường trong các hệ thống tự lái, nơi cả tốc độ và độ chính xác đều quan trọng. Tìm hiểu thêm về AI trong xe tự lái .
- Robot tiên tiến : Cho phép robot thực hiện các nhiệm vụ phức tạp đòi hỏi khả năng nhận dạng và tương tác đối tượng chính xác trong môi trường năng động. Khám phá vai trò của AI trong robot .
- Chụp ảnh y tế : Dành cho các ứng dụng trong chăm sóc sức khỏe, nơi độ chính xác trong phát hiện vật thể có thể rất quan trọng đối với chẩn đoán. Khám phá AI trong chăm sóc sức khỏe .
- Hệ thống giám sát : Dành cho các ứng dụng an ninh yêu cầu giám sát thời gian thực với độ chính xác phát hiện cao. Tìm hiểu về hệ thống báo động an ninh .
- Phân tích hình ảnh vệ tinh : Để phân tích chi tiết hình ảnh có độ phân giải cao, trong đó hiểu biết về bối cảnh toàn cầu là quan trọng. Đọc về tầm nhìn máy tính trong hình ảnh vệ tinh .
Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng Baidu RT-DETR trong công trình nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo gốc :
Đối với RTDETRv2, bạn có thể trích dẫn bài báo năm 2024 :
Chúng tôi muốn cảm ơn Baidu và nhóm PaddlePaddle đã tạo ra và duy trì nguồn tài nguyên có giá trị này cho cộng đồng thị giác máy tính . Đóng góp của họ cho lĩnh vực này với sự phát triển của máy dò đối tượng thời gian thực dựa trên Vision Transformers, RT-DETR , được đánh giá cao.
CÂU HỎI THƯỜNG GẶP
Baidu là gì? RT-DETR mô hình và nó hoạt động như thế nào?
Baidu của RT-DETR (Real-Time Detection Transformer) là một bộ phát hiện đối tượng thời gian thực tiên tiến được xây dựng dựa trên kiến trúc Vision Transformer. Nó xử lý hiệu quả các tính năng đa thang đo bằng cách tách tương tác trong thang đo và hợp nhất thang đo chéo thông qua bộ mã hóa lai hiệu quả của nó. Bằng cách sử dụng lựa chọn truy vấn nhận biết IoU, mô hình tập trung vào các đối tượng có liên quan nhất, nâng cao độ chính xác phát hiện. Tốc độ suy luận thích ứng của nó, đạt được bằng cách điều chỉnh các lớp giải mã mà không cần đào tạo lại, làm cho RT-DETR phù hợp với nhiều tình huống phát hiện đối tượng thời gian thực khác nhau. Tìm hiểu thêm về RT-DETR các tính năng trong bài báo RT-DETR Arxiv .
Làm thế nào tôi có thể sử dụng được đào tạo trước RT-DETR các mô hình được cung cấp bởi Ultralytics ?
Bạn có thể tận dụng Ultralytics Python API để sử dụng được đào tạo trước PaddlePaddle RT-DETR mô hình. Ví dụ, để tải một RT-DETR -l mô hình được đào tạo trước trên COCO val2017 và đạt FPS cao trên T4 GPU , bạn có thể sử dụng ví dụ sau:
Ví dụ
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
Tại sao tôi nên chọn Baidu RT-DETR so với các máy dò vật thể thời gian thực khác?
Baidu của RT-DETR nổi bật nhờ bộ mã hóa lai hiệu quả và lựa chọn truy vấn nhận biết IoU, giúp giảm đáng kể chi phí tính toán trong khi vẫn duy trì độ chính xác cao. Khả năng độc đáo của nó là điều chỉnh tốc độ suy luận bằng cách sử dụng các lớp giải mã khác nhau mà không cần đào tạo lại, giúp tăng thêm tính linh hoạt đáng kể. Điều này làm cho nó đặc biệt có lợi cho các ứng dụng yêu cầu hiệu suất thời gian thực trên các backend được tăng tốc như CUDA với TensorRT , vượt trội hơn nhiều bộ phát hiện vật thể thời gian thực khác. Kiến trúc bộ biến đổi cũng cung cấp khả năng hiểu ngữ cảnh toàn cầu tốt hơn so với các bộ phát hiện dựa trên CNN truyền thống.
Làm thế nào RT-DETR hỗ trợ tốc độ suy luận thích ứng cho các ứng dụng thời gian thực khác nhau?
Baidu của RT-DETR cho phép điều chỉnh linh hoạt tốc độ suy luận bằng cách sử dụng các lớp giải mã khác nhau mà không cần đào tạo lại. Khả năng thích ứng này rất quan trọng để mở rộng hiệu suất trên nhiều tác vụ phát hiện đối tượng theo thời gian thực. Cho dù bạn cần xử lý nhanh hơn cho nhu cầu độ chính xác thấp hơn hay phát hiện chậm hơn, chính xác hơn, RT-DETR có thể được điều chỉnh để đáp ứng các yêu cầu cụ thể của bạn. Tính năng này đặc biệt có giá trị khi triển khai các mô hình trên các thiết bị có khả năng tính toán khác nhau.
Tôi có thể sử dụng RT-DETR mô hình với các mô hình khác Ultralytics các chế độ như đào tạo, xác thực và xuất khẩu?
Đúng, RT-DETR các mô hình tương thích với nhiều Ultralytics chế độ bao gồm đào tạo, xác thực, dự đoán và xuất. Bạn có thể tham khảo tài liệu tương ứng để biết hướng dẫn chi tiết về cách sử dụng các chế độ này: Đào tạo , Đánh giá , Dự đoán và Xuất . Điều này đảm bảo quy trình làm việc toàn diện để phát triển và triển khai các giải pháp phát hiện đối tượng của bạn. Ultralytics khuôn khổ cung cấp một API nhất quán trên các kiến trúc mô hình khác nhau, giúp dễ dàng làm việc với RT-DETR mô hình.