Baidu'nun RT-DETR'si: Bir Vision Transformer Tabanlı Gerçek Zamanlı Nesne Algılayıcısı

Genel Bakış

Baidu tarafından geliştirilen Gerçek Zamanlı Algılama Dönüştürücüsü (RT-DETR), yüksek doğruluğu korurken gerçek zamanlı performans sağlayan son teknoloji ürünü bir uçtan uca nesne algılayıcısıdır. DETR (NMS'siz çerçeve) fikrine dayanırken, gerçek zamanlı hız kazanmak için evrişim tabanlı backbone ve verimli bir hibrit kodlayıcı sunar. RT-DETR, ölçek içi etkileşim ve ölçekler arası birleşmeyi ayırarak çok ölçekli özellikleri verimli bir şekilde işler. Model, yeniden eğitim yapmadan farklı kod çözücü katmanları kullanılarak çıkarım hızının esnek bir şekilde ayarlanmasını destekleyerek son derece uyarlanabilirdir. RT-DETR, TensorRT ile CUDA gibi hızlandırılmış arka uçlarda mükemmeldir ve diğer birçok gerçek zamanlı nesne algılayıcısından daha iyi performans gösterir.

İzle: Baidu'nun RT-DETR'sini Nesne Algılama için Nasıl Kullanabilirsiniz | Ultralytics ile Çıkarım ve Kıyaslama 🚀

Baidu RT-DETR mimarisine genel bakış Baidu'nun RT-DETR'sine genel bakış. RT-DETR model mimarisi şeması, omurganın son üç aşamasını {S3, S4, S5} kodlayıcıya girdi olarak gösterir. Verimli hibrit kodlayıcı, çok ölçekli özellikleri ölçek içi özellik etkileşimi (AIFI) ve ölçekler arası özellik birleştirme modülü (CCFM) aracılığıyla bir dizi görüntü özelliğine dönüştürür. IoU farkındalıklı sorgu seçimi, kod çözücü için ilk nesne sorguları olarak hizmet etmek üzere sabit sayıda görüntü özelliği seçmek için kullanılır. Son olarak, yardımcı tahmin başlıklarına sahip kod çözücü, kutular ve güvenilirlik puanları oluşturmak için nesne sorgularını yinelemeli olarak optimize eder (kaynak).

Temel Özellikler

Verimli Hibrit Kodlayıcı: Baidu'nun RT-DETR'si, ölçek içi etkileşim ve ölçekler arası füzyonu ayırarak çok ölçekli özellikleri işleyen verimli bir hibrit kodlayıcı kullanır. Bu benzersiz Vision Transformers tabanlı tasarım, hesaplama maliyetlerini azaltır ve gerçek zamanlı nesne tespiti sağlar.
IoU-Farkındalıklı Sorgu Seçimi: Baidu'nun RT-DETR'si, IoU-farkındalıklı sorgu seçimi kullanarak nesne sorgu başlatmasını geliştirir. Bu, modelin sahnedeki en alakalı nesnelere odaklanmasını sağlayarak algılama doğruluğunu artırır.
Uyarlanabilir Çıkarım Hızı: Baidu'nun RT-DETR'si, yeniden eğitime ihtiyaç duymadan farklı kod çözücü katmanları kullanarak çıkarım hızının esnek bir şekilde ayarlanmasını destekler. Bu uyarlanabilirlik, çeşitli gerçek zamanlı nesne algılama senaryolarında pratik uygulamayı kolaylaştırır.
NMS'siz Çerçeve: DETR'ye dayalı RT-DETR, maksimum olmayan bastırma son işlemeye olan ihtiyacı ortadan kaldırarak detect işlem hattını basitleştirir ve potansiyel olarak verimliliği artırır.
Çapa Kutusu (Anchor) Olmayan Algılama: Bir çapa kutusu olmayan dedektör olarak RT-DETR, algılama sürecini basitleştirir ve farklı veri kümelerinde genelleştirmeyi iyileştirebilir.

Önceden Eğitilmiş Modeller

Ultralytics python API'si, farklı ölçeklerde önceden eğitilmiş PaddlePaddle RT-DETR modelleri sunar:

RT-DETR-L: COCO val2017 üzerinde %53.0 AP, T4 GPU üzerinde 114 FPS
RT-DETR-X: COCO val2017 üzerinde %54.8 AP, T4 GPU üzerinde 74 FPS

Ek olarak, Baidu, Temmuz 2024'te RTDETRv2'yi yayınladı ve bu, geliştirilmiş performans metrikleriyle orijinal mimariyi daha da geliştiriyor.

Kullanım Örnekleri

Bu örnek, basit RT-DETR eğitimi ve çıkarım örnekleri sunar. Bunlar ve diğer modlar hakkında tam dokümantasyon için Tahmin, Eğitim, Değerlendirme ve Dışa Aktarma doküman sayfalarına bakın.

Örnek

PythonCLI

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

Desteklenen Görevler ve Modlar

Bu tablo, model türlerini, belirli önceden eğitilmiş ağırlıkları, her model tarafından desteklenen görevleri ve desteklenen çeşitli modları (Eğit , Doğrula, Tahmin Et, Dışa Aktar), ✅ emojileriyle belirtilmiştir.

Model Türü	Önceden Eğitilmiş Ağırlıklar	Desteklenen Görevler	Çıkarım	Doğrulama	Eğitim	Dışa aktar
RT-DETR Büyük	rtdetr-l.pt	Nesne Algılama	✅	✅	✅	✅
RT-DETR Ekstra Büyük	rtdetr-x.pt	Nesne Algılama	✅	✅	✅	✅

İdeal Kullanım Senaryoları

RT-DETR, hem yüksek doğruluk hem de gerçek zamanlı performans gerektiren uygulamalar için özellikle uygundur:

Otonom Sürüş: Hız ve doğruluğun kritik olduğu kendi kendine sürüş sistemlerinde güvenilir çevresel algılama için. Kendi kendine sürüş yapan arabalarda yapay zeka hakkında daha fazla bilgi edinin.
Gelişmiş Robotik: Robotların dinamik ortamlarda doğru nesne tanıma ve etkileşim gerektiren karmaşık görevleri gerçekleştirmesini sağlar. Yapay zekanın robotikteki rolünü keşfedin.
Tıbbi Görüntüleme: Nesne tespitinde hassasiyetin teşhis için çok önemli olabileceği sağlık hizmetlerindeki uygulamalar için. Sağlık hizmetlerinde yapay zekayı keşfedin.
Gözetim Sistemleri: Yüksek algılama doğruluğu ile gerçek zamanlı izleme gerektiren güvenlik uygulamaları için. Güvenlik alarm sistemleri hakkında bilgi edinin.
Uydu Görüntü Analizi: Küresel bağlam anlayışının önemli olduğu yüksek çözünürlüklü görüntülerin ayrıntılı analizi için. Uydu görüntülerinde bilgisayar görüşü hakkında bilgi edinin.

Alıntılar ve Teşekkürler

Araştırma veya geliştirme çalışmalarınızda Baidu'nun RT-DETR'sini kullanırsanız, lütfen orijinal makaleye atıfta bulunun:

BibTeX

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

RTDETRv2 için 2024 tarihli makaleye atıfta bulunabilirsiniz:

BibTeX

@misc{lv2024rtdetrv2,
      title={RTDETRv2: All-in-One Detection Transformer Beats YOLO and DINO},
      author={Wenyu Lv and Yian Zhao and Qinyao Chang and Kui Huang and Guanzhong Wang and Yi Liu},
      year={2024},
      eprint={2407.17140},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Bilgisayarla görü topluluğu için bu değerli kaynağı oluşturdukları ve sürdürdükleri için Baidu'ya ve PaddlePaddle ekibine teşekkür etmek isteriz. Vizyon Dönüştürücüler tabanlı gerçek zamanlı nesne dedektörü RT-DETR'nin geliştirilmesiyle alana yaptıkları katkı büyük takdir görmektedir.

SSS

Baidu'nun RT-DETR modeli nedir ve nasıl çalışır?

Baidu'nun RT-DETR'si (Gerçek Zamanlı Algılama Dönüştürücüsü), Vision Transformer mimarisi üzerine inşa edilmiş gelişmiş bir gerçek zamanlı nesne detector'üdür. Verimli hibrit kodlayıcısı aracılığıyla ölçek içi etkileşimi ve çapraz ölçekli birleşimi ayırarak çok ölçekli özellikleri verimli bir şekilde işler. IoU farkında sorgu seçimi kullanarak model, en ilgili nesnelere odaklanarak detect doğruluğunu artırır. Yeniden eğitim yapmadan kod çözücü katmanlarını ayarlayarak elde edilen uyarlanabilir çıkarım hızı, RT-DETR'yi çeşitli gerçek zamanlı nesne detect senaryoları için uygun hale getirir. RT-DETR özellikleri hakkında daha fazla bilgiyi RT-DETR Arxiv makalesinde bulabilirsiniz.

Ultralytics tarafından sağlanan önceden eğitilmiş RT-DETR modellerini nasıl kullanabilirim?

Önceden eğitilmiş PaddlePaddle RT-DETR modellerini kullanmak için Ultralytics python API'sinden yararlanabilirsiniz. Örneğin, COCO val2017 üzerinde önceden eğitilmiş bir RT-DETR-l modelini yüklemek ve T4 GPU üzerinde yüksek FPS elde etmek için aşağıdaki örneği kullanabilirsiniz:

Örnek

PythonCLI

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

Neden Baidu'nun RT-DETR'sini diğer gerçek zamanlı nesne dedektörlerine tercih etmeliyim?

Baidu'nun RT-DETR'si, yüksek doğruluğu korurken hesaplama maliyetlerini büyük ölçüde azaltan verimli hibrit kodlayıcısı ve IoU farkında sorgu seçimi sayesinde öne çıkar. Yeniden eğitim yapmadan farklı kod çözücü katmanları kullanarak çıkarım hızını ayarlama konusundaki benzersiz yeteneği, önemli ölçüde esneklik katar. Bu, CUDA ve TensorRT gibi hızlandırılmış arka uçlarda gerçek zamanlı performans gerektiren uygulamalar için özellikle avantajlıdır ve diğer birçok gerçek zamanlı nesne detector'ünü geride bırakır. Transformer mimarisi ayrıca geleneksel CNN tabanlı detector'lere kıyasla daha iyi küresel bağlam anlayışı sağlar.

RT-DETR, farklı gerçek zamanlı uygulamalar için uyarlanabilir çıkarım hızını nasıl destekler?

Baidu'nun RT-DETR'si, yeniden eğitim gerektirmeden farklı kod çözücü katmanları kullanarak çıkarım hızının esnek bir şekilde ayarlanmasına olanak tanır. Bu uyarlanabilirlik, çeşitli gerçek zamanlı nesne algılama görevlerinde performansı ölçeklendirmek için çok önemlidir. Daha düşük hassasiyet ihtiyaçları için daha hızlı işlemeye veya daha yavaş, daha doğru algılamalara ihtiyacınız olsun, RT-DETR özel gereksinimlerinizi karşılayacak şekilde uyarlanabilir. Bu özellik, modelleri farklı hesaplama yeteneklerine sahip cihazlara dağıtırken özellikle değerlidir.

RT-DETR modellerini eğitim, doğrulama ve dışa aktarma gibi diğer Ultralytics modlarıyla kullanabilir miyim?

Evet, RT-DETR modelleri eğitim, doğrulama, tahmin ve dışa aktarma dahil olmak üzere çeşitli Ultralytics modlarıyla uyumludur. Bu modların nasıl kullanılacağına dair ayrıntılı talimatlar için ilgili belgelere başvurabilirsiniz: Eğitim, Doğrulama, Tahmin ve Dışa Aktarma. Bu, nesne algılama çözümlerinizi geliştirme ve dağıtma için kapsamlı bir iş akışı sağlar. Ultralytics çerçevesi, farklı model mimarileri arasında tutarlı bir API sağlayarak RT-DETR modelleriyle çalışmayı kolaylaştırır.

📅 2 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi