İçeriğe geç

YOLO11 vs RTDETRv2: Gerçek Zamanlı Dedektörlerin Teknik Karşılaştırması

En uygun nesne algılama mimarisinin seçilmesi, çıkarım hızı, algılama doğruluğu ve hesaplama kaynağı verimliliği arasında karmaşık bir ödünleşme ortamında gezinmeyi gerektirir. Bu analiz, aşağıdakiler arasında kapsamlı bir teknik karşılaştırma sağlar Ultralytics YOLO11endüstri standardı CNN tabanlı dedektörün en son yinelemesi ve yüksek performanslı bir Gerçek Zamanlı Algılama Dönüştürücüsü olan RTDETRv2.

RTDETRv2, yüksek doğruluklu görevler için transformatör mimarilerinin potansiyelini gösterirken, YOLO11 tipik olarak daha yüksek çıkarım hızları, önemli ölçüde daha düşük bellek ayak izleri ve daha sağlam bir geliştirici ekosistemi sunarak pratik dağıtım için üstün bir denge sunar.

Ultralytics YOLO11: Gerçek Zamanlı Bilgisayarla Görme için Standart

Ultralytics YOLO11 verimli Konvolüsyonel Sinir Ağları (CNN'ler) üzerine yıllarca süren araştırmaların doruk noktasını temsil eder. Gerçek dünyadaki bilgisayarla görme uygulamaları için kesin bir araç olarak tasarlanan bu sistem, son teknoloji ürünü doğruluktan ödün vermeden verimliliğe öncelik verir.

Yazarlar: Glenn Jocher, Jing Qiu
Organizasyon:Ultralytics
Tarih: 2024-09-27
GitHubultralytics
Docsultralyticsyolo11

Mimari ve Güçlü Yönler

YOLO11 , rafine edilmiş tek aşamalı, çapasız bir mimari kullanır. Çeşitli ölçeklerdeki özellikleri yakalamak için optimize edilmiş C3k2 blokları ve SPPF (Spatial Pyramid Pooling - Fast) modülleri dahil olmak üzere gelişmiş özellik çıkarma modüllerini entegre eder.

YOLO11 hakkında daha fazla bilgi edinin

RTDETRv2: Transformatör Destekli Doğruluk

RTDETRv2, karşılaştırmalı veri kümelerinde yüksek doğruluk elde etmek için Görme Dönüştürücülerinin (ViT ) gücünden yararlanan bir Gerçek Zamanlı Algılama DönüştürücüsüdürRT-DETR). Geleneksel olarak DETR benzeri modellerle ilişkilendirilen gecikme sorunlarını çözmeyi amaçlamaktadır.

Yazarlar Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Organizasyon: Baidu
Tarih: 2023-04-17
ArxivRT-DETR
GitHubRT-DETR
DocsRT-DETRRT-DETR

Mimari ve Özellikler

RTDETRv2, bir CNN'i birleştiren hibrit bir mimari kullanır backbone verimli bir dönüştürücü kodlayıcı-kod çözücü ile. Öz dikkat mekanizması, modelin küresel bağlamı yakalamasını sağlar, bu da karmaşık nesne ilişkilerine sahip sahneler için faydalıdır.

  • Küresel Bağlam: Transformatör mimarisi, yerel özelliklerin belirsiz olabileceği kalabalık ortamlardaki nesneleri ayırt etmede üstündür.
  • Kaynak Yoğunluğu: Hız için optimize edilmiş olsa da, dönüştürücü katmanları, özellikle yüksek çözünürlüklü girdiler için doğal olarak daha fazla hesaplama ve bellek gerektirir.
  • Odaklanma: RTDETRv2 öncelikle algılama odaklı bir mimaridir ve YOLO ailesinde bulunan yerel çoklu görev desteğinden yoksundur.

RTDETRv2 hakkında daha fazla bilgi edinin

Performans Analizi: Hız, Doğruluk ve Verimlilik

YOLO11 ve RTDETRv2 karşılaştırıldığında, fark saf doğruluk ölçütleri ile operasyonel verimlilik arasındaki mimari değiş tokuşta yatmaktadır.

Donanımla İlgili Hususlar

RTDETRv2 gibi transformatör tabanlı modeller, etkili eğitim ve çıkarım için genellikle güçlü GPU'lara ihtiyaç duyar. Buna karşılık, YOLO11 gibi CNN tabanlı modeller, CPU'lar ve Raspberry Pi gibi uç yapay zeka cihazları da dahil olmak üzere daha geniş bir donanım yelpazesi için son derece optimize edilmiştir.

Niceliksel Karşılaştırma

Aşağıdaki tablo COCO veri kümesindeki performans metriklerini göstermektedir. RTDETRv2 güçlü mAP skorları gösterirken, YOLO11 özellikle CPU'da önemli ölçüde daha hızlı çıkarım hızlarıyla rekabetçi doğruluk sağlar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Sonuçların Analizi

  1. Çıkarım Hızı: YOLO11 hız konusunda üstündür. Örneğin, YOLO11x, RTDETRv2-x'ten (54,3 mAP) daha yüksek doğruluğa (54,7 mAP) ulaşırken T4 GPU 'da yaklaşık %25 daha hızlı çalışır (11,3 ms'ye karşı 15,03 ms).
  2. Parametre Verimliliği: YOLO11 modelleri benzer doğruluk seviyelerine ulaşmak için genellikle daha az parametre ve FLOP gerektirir. YOLO11l, RTDETRv2-l ile aynı 53,4 mAP değerine ulaşır ancak bunu FLOP'ların neredeyse yarısı ile yapar (86,9B'ye karşı 136B).
  3. CPU Performansı: RTDETRv2'deki dönüştürücü işlemleri CPU'larda hesaplama açısından pahalıdır. YOLO11 , standart işlemcilerde uygulanabilir kare hızları sunarak GPU olmayan dağıtımlar için tercih edilen seçim olmaya devam etmektedir.

İş Akışı ve Kullanılabilirlik

Geliştiriciler için bir modelin "maliyeti" entegrasyon süresi, eğitim istikrarı ve dağıtım kolaylığını içerir.

Kullanım Kolaylığı ve Ekosistem

Ultralytics Python API, karmaşık eğitim döngülerini birkaç kod satırına soyutlar.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Buna karşılık, RTDETRv2 güçlü bir araştırma aracı olsa da, özel veri kümelerine uyum sağlamak veya aşağıdaki gibi belirli formatlara aktarmak için genellikle daha fazla manuel yapılandırma ve temel kod tabanı hakkında daha derin bilgi gerektirir ONNX veya TensorRT.

Eğitim Verimliliği

Transformatör modellerinin eğitimi genellikle önemli ölçüde daha yüksek GPU belleği (VRAM) gerektirir. Bu da geliştiricileri daha küçük yığın boyutları kullanmaya veya daha pahalı bulut donanımı kiralamaya zorlayabilir. YOLO11'in CNN mimarisi bellek açısından verimlidir ve tüketici sınıfı GPU'larda daha büyük parti boyutlarına ve daha hızlı yakınsamaya olanak tanır.

İdeal Kullanım Senaryoları

YOLO11 Ne Zaman Seçilmeli

  • Gerçek Zamanlı Uç Dağıtım: NVIDIA Jetson, Raspberry Pi veya cep telefonları gibi işlem kaynaklarının sınırlı olduğu cihazlara dağıtım yaparken.
  • Çeşitli Görme Görevleri: Projeniz algılamanın yanı sıra segmentasyon veya poz tahmini gerektiriyorsa.
  • Hızlı Geliştirme: Pazara sunma süresi kritik olduğunda, Ultralytics 'in kapsamlı dokümantasyonu ve topluluk desteği yaşam döngüsünü hızlandırır.
  • Video Analitiği: Trafik izleme veya spor analizi gibi uygulamalarda yüksek FPS işleme için.

RTDETRv2 Ne Zaman Seçilmelidir?

  • Akademik Araştırma: Görme dönüştürücülerinin ve dikkat mekanizmalarının özelliklerini incelemek için.
  • Sunucu Tarafı İşleme: Sınırsız GPU gücü mevcut olduğunda ve gecikme süresine bakılmaksızın belirli kıyaslamalarda mutlak en yüksek doğruluk tek ölçüt olduğunda.
  • Statik Görüntü Analizi: Çevrimdışı tıbbi görüntüleme analizi gibi işlem süresinin bir kısıtlama olmadığı senaryolar.

Sonuç

RTDETRv2, vizyonda transformatör mimarilerinin akademik ilerlemesini sergilerken, Ultralytics YOLO11 gerçek dünya uygulamalarının büyük çoğunluğu için pragmatik bir seçim olmaya devam etmektedir. Üstün hız-doğruluk oranı, düşük bellek gereksinimleri ve birden fazla görüş görevini yerine getirme yeteneği onu çok yönlü ve güçlü bir araç haline getirmektedir. Olgun ve bakımlı bir ekosistemle birleşen YOLO11 , geliştiricilerin konseptten üretime en az sürtünmeyle geçmelerini sağlar.

Diğer Modelleri İnceleyin

Modelleri karşılaştırmak, özel kısıtlamalarınız için doğru aracı seçmenize yardımcı olur. Ultralytics belgelerinde daha fazla karşılaştırma keşfedin:


Yorumlar