İçeriğe geç

YOLO11 - RTDETRv2 Karşılaştırması: Gerçek Zamanlı Algılayıcıların Teknik Karşılaştırması

Optimum nesne algılama mimarisini seçmek, çıkarım hızı, algılama doğruluğu ve hesaplama kaynağı verimliliği arasındaki ödünleşimlerin karmaşık bir ortamında gezinmeyi gerektirir. Bu analiz, endüstri standardı CNN tabanlı detectörün en son yinelemesi olan Ultralytics YOLO11 ile yüksek performanslı bir Gerçek Zamanlı Algılama Transformatörü olan RTDETRv2 arasında kapsamlı bir teknik karşılaştırma sunar.

RTDETRv2, transformatör mimarilerinin yüksek doğruluklu görevler için potansiyelini gösterse de, YOLO11 tipik olarak pratik dağıtım için üstün bir denge sunarak daha hızlı çıkarım hızları, önemli ölçüde daha düşük bellek ayak izleri ve daha sağlam bir geliştirici ekosistemi sağlamaktadır.

Ultralytics YOLO11: Gerçek Zamanlı Bilgisayar Görüntüsü için Standart

Ultralytics YOLO11, verimli Evrişimli Sinir Ağları (CNN'ler) üzerine yapılan yıllarca süren araştırmaların doruk noktasını temsil eder. Gerçek dünya bilgisayarlı görü uygulamaları için kesin araç olacak şekilde tasarlanan bu model, en son teknoloji doğruluğundan ödün vermeden verimliliğe öncelik verir.

Yazarlar: Glenn Jocher, Jing Qiu
Kuruluş:Ultralytics
Tarih: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Belgeler:https://docs.ultralytics.com/models/yolo11/

Mimari ve Güçlü Yönler

YOLO11, geliştirilmiş tek aşamalı, anchor'suz bir mimari kullanır. Çeşitli ölçeklerdeki özellikleri yakalamak için optimize edilmiş C3k2 blokları ve SPPF (Spatial Pyramid Pooling - Fast) modülleri dahil olmak üzere gelişmiş özellik çıkarma modüllerini entegre eder.

YOLO11 hakkında daha fazla bilgi edinin

RTDETRv2: Transformer Destekli Doğruluk

RTDETRv2, kıyaslama veri kümelerinde yüksek doğruluk elde etmek için Vizyon Dönüştürücülerin (ViT) gücünden yararlanan bir Gerçek Zamanlı Algılama Dönüştürücüsüdür (RT-DETR). Geleneksel olarak DETR benzeri modellerle ilişkili gecikme sorunlarını çözmeyi amaçlar.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Belgeler:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Mimari ve Özellikleri

RTDETRv2, bir CNN backbone'unu verimli bir transformer kodlayıcı-kod çözücü ile birleştiren hibrit bir mimari kullanır. Kendinden dikkat mekanizması, modelin karmaşık nesne ilişkilerine sahip sahneler için faydalı olan küresel bağlamı yakalamasını sağlar.

  • Global Bağlam: Transformer mimarisi, yerel özelliklerin belirsiz olabileceği kalabalık ortamlarda nesneleri ayırt etmede mükemmeldir.
  • Kaynak Yoğunluğu: Hız için optimize edilmiş olsa da, transformer katmanları özellikle yüksek çözünürlüklü girdiler için doğal olarak daha fazla işlem ve bellek gerektirir.
  • Odak: RTDETRv2 öncelikle detect odaklı bir mimaridir ve YOLO ailesinde bulunan yerel çoklu görev desteğinden yoksundur.

RTDETRv2 hakkında daha fazla bilgi edinin

Performans Analizi: Hız, Doğruluk ve Verimlilik

YOLO11 ve RTDETRv2'yi karşılaştırırken, ayrım saf doğruluk metrikleri ve operasyonel verimlilik arasındaki mimari ödünleşmede yatmaktadır.

Donanım Hususları

RTDETRv2 gibi transformatör tabanlı modeller genellikle etkili eğitim ve çıkarım için güçlü GPU'lar gerektirir. Buna karşılık, YOLO11 gibi CNN tabanlı modeller, CPU'lar ve Raspberry Pi gibi uç AI cihazları da dahil olmak üzere daha geniş bir donanım yelpazesi için son derece optimize edilmiştir.

Kantitatif Karşılaştırma

Aşağıdaki tablo, COCO veri kümesindeki performans metriklerini göstermektedir. RTDETRv2 güçlü mAP puanları gösterirken, YOLO11 özellikle CPU'da önemli ölçüde daha hızlı çıkarım hızlarıyla rekabetçi doğruluk sağlar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Sonuçların Analizi

  1. Çıkarım Hızı: YOLO11 hız konusunda baskındır. Örneğin, YOLO11x, bir T4 GPU'da (11.3ms'ye karşı 15.03ms) yaklaşık %25 daha hızlı çalışırken RTDETRv2-x'ten (54.3 mAP) daha yüksek doğruluk (54.7 mAP) elde eder.
  2. Parametre Verimliliği: YOLO11 modelleri genellikle benzer doğruluk seviyelerine ulaşmak için daha az parametre ve FLOP gerektirir. YOLO11l, RTDETRv2-l ile aynı 53.4 mAP'ye ulaşır, ancak bunu neredeyse yarı yarıya daha az FLOP (86.9B'ye karşı 136B) ile yapar.
  3. CPU Performansı: RTDETRv2'deki transformatör işlemleri, CPU'larda hesaplama açısından maliyetlidir. YOLO11, GPU olmayan dağıtımlar için tercih edilen seçenek olmaya devam ederek, standart işlemcilerde uygulanabilir kare hızları sunar.

İş Akışı ve Kullanılabilirlik

Geliştiriciler için, bir modelin "maliyeti" entegrasyon süresini, eğitim kararlılığını ve dağıtım kolaylığını içerir.

Kullanım Kolaylığı ve Ekosistem

Ultralytics Python API'si karmaşık eğitim döngülerini birkaç satır koda soyutlar.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Aksine, RTDETRv2 güçlü bir araştırma aracı olmasına rağmen, genellikle özel veri kümelerine uyum sağlamak veya ONNX veya TensorRT gibi belirli biçimlere aktarmak için daha fazla manuel yapılandırma ve temel kod tabanı hakkında daha derin bilgi gerektirir.

Eğitim Verimliliği

Transformatör modellerini eğitmek tipik olarak önemli ölçüde daha yüksek GPU belleği (VRAM) gerektirir. Bu, geliştiricileri daha küçük yığın boyutları kullanmaya veya daha pahalı bulut donanımı kiralamaya zorlayabilir. YOLO11'in CNN mimarisi bellek açısından verimlidir ve tüketici sınıfı GPU'larda daha büyük yığın boyutlarına ve daha hızlı yakınsamaya olanak tanır.

İdeal Kullanım Senaryoları

Ne Zaman YOLO11 Seçmeli

  • Gerçek Zamanlı Uç Dağıtımı: İşlem kaynaklarının sınırlı olduğu NVIDIA Jetson, Raspberry Pi veya cep telefonları gibi cihazlara dağıtım yaparken.
  • Çeşitli Görsel Görevler: Projeniz, detect yanı sıra segment veya poz tahmini gerektiriyorsa.
  • Hızlı Geliştirme: Pazara sunma süresi kritik olduğunda, Ultralytics'in kapsamlı belgeleri ve topluluk desteği yaşam döngüsünü hızlandırır.
  • Video Analitiği: Trafik izleme veya spor analitiği gibi uygulamalarda yüksek FPS işleme için.

Ne Zaman RTDETRv2 Seçmeli

  • Akademik Araştırma: Vizyon transformatörlerinin ve dikkat mekanizmalarının özelliklerini incelemek için.
  • Sunucu Tarafı İşleme: Sınırsız GPU gücü mevcut olduğunda ve gecikmeden bağımsız olarak belirli kıyaslama testlerinde mutlak en yüksek doğruluk tek ölçüt olduğunda.
  • Statik Görüntü Analizi: Çevrimdışı tıbbi görüntüleme analizi gibi işlem süresinin bir kısıtlama olmadığı senaryolar.

Sonuç

RTDETRv2, transformer mimarilerinin vizyondaki akademik ilerlemesini sergilerken, Ultralytics YOLO11 gerçek dünya uygulamalarının büyük çoğunluğu için pratik bir seçim olmaya devam ediyor. Üstün hız-doğruluk oranı, daha düşük bellek gereksinimleri ve birden fazla görüntü işleme görevini yönetebilmesi, onu çok yönlü ve güçlü bir araç haline getiriyor. Olgun ve iyi yönetilen bir ekosistemle birleştiğinde, YOLO11 geliştiricilerin minimum sürtünmeyle konseptten üretime geçmelerini sağlar.

Diğer Modelleri İnceleyin

Modelleri karşılaştırmak, özel kısıtlamalarınız için doğru aracı seçmenize yardımcı olur. Ultralytics belgelerinde daha fazla karşılaştırma inceleyin:


Yorumlar