İçeriğe geç

Baidu'nun RT-DETR: Görüş Dönüştürücüsü Tabanlı Gerçek Zamanlı Nesne Algılayıcısı

Genel Bakış

Baidu tarafından geliştirilen Real-Time Detection Transformer (RT-DETR), yüksek doğruluğu korurken gerçek zamanlı performans sağlayan son teknoloji ürünü uçtan uca bir nesne dedektörüdür. Ölçek içi etkileşimi ve ölçekler arası füzyonu ayırarak çok ölçekli özellikleri verimli bir şekilde işlemek için Vision Transformers'ın (ViT) gücünden yararlanır. RT-DETR son derece uyarlanabilirdir ve yeniden eğitim olmadan farklı kod çözücü katmanları kullanarak çıkarım hızının esnek bir şekilde ayarlanmasını destekler. Model, TensorRT ile CUDA gibi hızlandırılmış arka uçlarda üstünlük sağlayarak diğer birçok gerçek zamanlı nesne dedektöründen daha iyi performans gösterir.



İzle: Gerçek Zamanlı Algılama Transformatörü (RT-DETR)

Örnek model görüntüsü Baidu'ya Genel Bakış RT-DETR. RT-DETR model mimari diyagramı, kodlayıcıya girdi olarak omurganın son üç aşamasını {S3, S4, S5} göstermektedir. Etkili hibrit kodlayıcı, ölçek içi özellik etkileşimi (AIFI) ve ölçekler arası özellik füzyon modülü (CCFM) aracılığıyla çok ölçekli özellikleri bir dizi görüntü özelliğine dönüştürür. IoU farkındalı sorgu seçimi, kod çözücü için ilk nesne sorguları olarak hizmet edecek sabit sayıda görüntü özelliğini seçmek için kullanılır. Son olarak, yardımcı tahmin kafalarına sahip kod çözücü, kutuları ve güven puanlarını oluşturmak için nesne sorgularını yinelemeli olarak optimize eder (kaynak).

Temel Özellikler

  • Verimli Hibrit Kodlayıcı: Baidu RT-DETR , ölçek içi etkileşimi ve ölçekler arası füzyonu ayrıştırarak çok ölçekli özellikleri işleyen verimli bir hibrit kodlayıcı kullanır. Bu benzersiz Vision Transformers tabanlı tasarım, hesaplama maliyetlerini azaltır ve gerçek zamanlı nesne tespitine olanak tanır.
  • IoU farkındalı Sorgu Seçimi: Baidu'nun RT-DETR adresi, IoU farkındalı sorgu seçimini kullanarak nesne sorgusu başlatmayı geliştirir. Bu, modelin sahnedeki en alakalı nesnelere odaklanmasını sağlayarak algılama doğruluğunu artırır.
  • Uyarlanabilir Çıkarım Hızı: Baidu'nun RT-DETR adresi, yeniden eğitime gerek kalmadan farklı kod çözücü katmanları kullanarak çıkarım hızının esnek bir şekilde ayarlanmasını destekler. Bu uyarlanabilirlik, çeşitli gerçek zamanlı nesne algılama senaryolarında pratik uygulamayı kolaylaştırır.

Önceden Eğitilmiş Modeller

Ultralytics Python API, farklı ölçeklerde önceden eğitilmiş PaddlePaddle RT-DETR modelleri sağlar:

  • RT-DETR-L: COCO val2017 üzerinde %53,0 AP, T4 GPU üzerinde 114 FPS
  • RT-DETR-X: COCO val2017 üzerinde %54,8 AP, T4 GPU üzerinde 74 FPS

Kullanım Örnekleri

Bu örnek basit RT-DETR eğitim ve çıkarım örnekleri sağlar. Bu ve diğer modlar hakkında tam dokümantasyon için Predict, Train, Val ve Export docs sayfalarına bakın.

Örnek

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

Desteklenen Görevler ve Modlar

Bu tabloda model türleri, önceden eğitilmiş belirli ağırlıklar, her model tarafından desteklenen görevler ve ✅ emojileriyle gösterilen desteklenen çeşitli modlar(Train, Val, Predict, Export) sunulmaktadır.

Model Tipi Önceden Eğitilmiş Ağırlıklar Desteklenen Görevler Çıkarım Doğrulama Eğitim İhracat
RT-DETR Büyük rtdetr-l.pt Nesne Algılama
RT-DETR Ekstra Büyük rtdetr-x.pt Nesne Algılama

Atıflar ve Teşekkür

Araştırma veya geliştirme çalışmalarınızda Baidu'nun RT-DETR adresini kullanırsanız, lütfen orijinal makaleye atıfta bulunun:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Baidu'ya ve aşağıdaki kuruluşlara teşekkür etmek isteriz PaddlePaddle ekibine bilgisayarla görme topluluğu için bu değerli kaynağı oluşturdukları ve sürdürdükleri için teşekkür ederiz. Vision Transformers tabanlı gerçek zamanlı nesne dedektörü RT-DETR'un geliştirilmesiyle alana yaptıkları katkı büyük takdir görmektedir.

Anahtar Kelimeler: RT-DETR, Transformer, ViT, Vision Transformers, Baidu RT-DETR, PaddlePaddle, Paddle Paddle RT-DETR, gerçek zamanlı nesne algılama, Vision Transformers tabanlı nesne algılama, önceden eğitilmiş PaddlePaddle RT-DETR modelleri, Baidu'nun RT-DETR kullanımı, Ultralytics Python API



Oluşturma 2023-11-12, Güncelleme 2024-04-17
Yazarlar: glenn-jocher (9), RizwanMunawar (1)

Yorumlar