İçeriğe geç

YOLO vs. RTDETRv2: Hız ve Transformatör Doğruluğunun Dengelenmesi

En uygun nesne algılama mimarisinin seçilmesi genellikle çıkarım gecikmesi ile algılama hassasiyeti arasındaki dengenin gözetilmesini gerektirir. Bu teknik karşılaştırma, Alibaba Group tarafından optimize edilen yüksek hızlı bir dedektör olan YOLO ile Baidu'nun ikinci nesil Gerçek Zamanlı Algılama Dönüştürücüsü RTDETRv2'yi incelemektedir. Bilgisayarla görme uygulamalarınız için bilinçli kararlar vermenize yardımcı olmak için mimari yeniliklerini, performans kıyaslamalarını ve dağıtım uygunluğunu analiz ediyoruz.

YOLO: Düşük Gecikme Süresi için Optimizasyon

YOLO , DAMO-YOLO'nun evriminde önemli bir adımı temsil etmektedir. YOLO mimarileri, doğruluktan ciddi ölçüde ödün vermeden hızı en üst düzeye çıkarmaya odaklanır. Alibaba Group tarafından geliştirilen bu sistem, ağ yapısını verimliliğe göre uyarlamak için gelişmiş Nöral Mimari Arama (NAS) tekniklerini kullanmaktadır.

Mimari Öne Çıkanlar

YOLO , tespit işlem hattını kolaylaştırmak için çeşitli yeni teknolojileri entegre eder:

  • NAS Destekli Backbone: Model, verimli bir backbone yapısını (MAE-NAS) otomatik olarak keşfetmek için Nöral Mimari Arama (NAS) kullanır. Bu yaklaşım, ağ derinliği ve genişliğinin belirli donanım kısıtlamaları için optimize edilmesini sağlar.
  • RepGFPN Boyun: RepGFPN olarak bilinen Genelleştirilmiş Özellik Piramit Ağı'nın (GFPN) verimli bir versiyonunu içerir. Bu bileşen, düşük gecikme kontrolünü korurken farklı ölçeklerde özellik füzyonunu geliştirir.
  • ZeroHead: "ZeroHead" olarak adlandırılan basitleştirilmiş bir kafa tasarımı, sınıflandırma ve regresyon görevlerini birbirinden ayırarak son tahmin katmanlarının hesaplama yükünü azaltır.
  • AlignedOTA: Eğitim kararlılığı için YOLO , yakınsamayı iyileştirmek için sınıflandırma ve regresyon hedeflerini hizalayan bir etiket atama stratejisi olan AlignedOTA'yı (Optimal Taşıma Ataması) kullanır.

DAMO-YOLO hakkında daha fazla bilgi edinin

RTDETRv2: Gerçek Zamanlı Transformatörlerin Evrimi

RTDETRv2, gerçek zamanlı performans elde eden ilk transformatör tabanlı nesne dedektörü olan orijinal RT-DETR'nin başarısı üzerine inşa edilmiştir. Baidu tarafından geliştirilen RTDETRv2, ek çıkarım maliyetlerine neden olmadan eğitim kararlılığını ve doğruluğunu artırmak için bir "karşılıksız torba" sunuyor.

Mimari Öne Çıkanlar

RTDETRv2, geleneksel hız darboğazlarını azaltırken görüntü transformatörlerinin güçlü yönlerinden yararlanır:

  • Hibrit Kodlayıcı: Mimari, hesaplama maliyetlerinden tasarruf etmek için ölçek içi etkileşimi ve ölçekler arası füzyonu ayırarak çok ölçekli özellikleri verimli bir şekilde işleyen bir hibrit kodlayıcı kullanır.
  • IoU Sorgu Seçimi: Bu mekanizma, Birlik üzerinden KesişimIoU) puanlarına dayalı olarak yüksek kaliteli ilk nesne sorgularını seçerek daha hızlı eğitim yakınsamasına yol açar.
  • Uyarlanabilir Yapılandırma: RTDETRv2, dekoder ve sorgu seçimi için esnek konfigürasyonlar sunarak kullanıcıların modeli belirli hız/doğruluk gereksinimleri için ayarlamasına olanak tanır.
  • Çapasız Tasarım: Selefi gibi, tamamen çapasızdır ve işlem sonrası sırasında sezgisel çapa kutusu ayarlama ve Maksimum Olmayan BastırmaNMS) ihtiyacını ortadan kaldırır.

RTDETRv2 hakkında daha fazla bilgi edinin

Teknik Karşılaştırma: Performans ve Verimlilik

Bu iki model arasındaki temel fark, mimari kökenlerinde -CNN ve Transformer- ve bunun performans profillerini nasıl etkilediğinde yatmaktadır.

Metrik Analiz

Aşağıdaki tablo COCO veri setindeki temel ölçümleri özetlemektedir. RTDETRv2 Ortalama Ortalama HassasiyetmAP) açısından baskın olsa da, YOLO daha küçük varyantları için üstün verim (FPS) ve daha düşük parametre sayıları göstermektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Ödünleşimlerin Analiz Edilmesi

YOLO, yüksek frekanslı endüstriyel ayıklama gibi her milisaniyenin önemli olduğu ortamlarda mükemmeldir. 'Tiny' (t) varyantı son derece hafiftir. Buna karşılık, RTDETRv2 daha yüksek bir doğruluk tavanı sağlayarak, otonom navigasyon veya ayrıntılı gözetim gibi bir nesneyi kaçırmanın kritik olduğu karmaşık sahneler için tercih edilmesini sağlar.

Mimari ve Gerçek Dünya Uygulaması

  1. Yerel Özelliklere Karşı Küresel Bağlam: RTDETRv2'nin dönüştürücü dikkat mekanizması, küresel bağlamı CNN tabanlı YOLO'dan daha iyi anlamasını sağlar. Bu da kalabalık sahnelerde veya nesnelerin kapalı olduğu durumlarda daha iyi performans elde edilmesini sağlar. Bununla birlikte, bu küresel dikkat, daha yüksek bellek tüketimi ve daha yavaş eğitim süreleri pahasına gelir.

  2. Donanım Optimizasyonu: YOLO'nun NAS tabanlı backbone GPU çıkarımı için son derece optimize edilmiştir ve çok düşük gecikme süreleri elde etmektedir. RTDETRv2, gerçek zamanlı olsa da, YOLO dedektörlerin kare hızlarını eşleştirmek için genellikle daha güçlü donanım gerektirir.

Ultralytics Avantajı: Neden YOLO11'i Seçmelisiniz?

YOLO ve RTDETRv2 özel avantajlar sunarken, Ultralytics YOLO11 gerçek dünya uygulamalarının büyük çoğunluğu için en dengeli ve geliştirici dostu çözüm olarak öne çıkıyor.

Üstün Geliştirici Deneyimi ve Ekosistemi

YOLO veya RTDETRv2 gibi akademik modellerde karşılaşılan en önemli zorluklardan biri entegrasyondur. Ultralytics bunu sağlam bir ekosistem ile çözer:

  • Kullanım Kolaylığı: Birleştirilmiş Python API ve CLI ile modelleri sadece birkaç satır kodla eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
  • İyi Korunan Ekosistem: Ultralytics modelleri aktif geliştirme, kapsamlı dokümantasyon ve geniş bir topluluk tarafından desteklenmektedir. Bu, en yeni donanım ve yazılım kütüphaneleri ile uyumluluk sağlar.
  • Eğitim Verimliliği: YOLO11 daha hızlı eğitmek için tasarlanmıştır ve RTDETRv2 gibi transformatör tabanlı modellere göre önemli ölçüde daha az GPU belleği (VRAM) gerektirir. Bu, yüksek performanslı yapay zekayı tüketici sınıfı donanımlarda bile erişilebilir hale getirir.

Eşsiz Çok Yönlülük

Öncelikle sınırlayıcı kutu algılamaya odaklanan YOLO ve RTDETRv2'nin aksine, YOLO11 çok çeşitli bilgisayarla görme görevlerini yerel olarak destekler:

Performans Dengesi

YOLO ailesinin çıkarım hızı ve verimlilik özelliklerini korurken, birçok kıyaslamada RTDETRv2'ye rakip olan veya onu aşan son teknoloji ürünü doğruluğa ulaşır.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

YOLO11 hakkında daha fazla bilgi edinin

Sonuç

YOLO ve RTDETRv2 arasındaki seçim sizin özel kısıtlamalarınıza bağlıdır:

  • Birincil kısıtınız gecikme süresiyse ve minimum parametre sayısının kritik olduğu uç cihazlarda dağıtım yapıyorsanız YOLO'yu seçin.
  • Karmaşık sahnelerde mümkün olan en yüksek doğruluğa ihtiyacınız varsa ve bir transformatör mimarisini destekleyecek hesaplama bütçesine sahipseniz RTDETRv2'yi seçin.

Ancak, yüksek performans, kullanım kolaylığı ve çoklu görev kabiliyetini bir araya getiren bütünsel bir çözüm için, Ultralytics YOLO11 önerilen seçim olmaya devam ediyor. Eğitim sırasında daha düşük bellek ayak izi, olgun bir ekosistemle birleştiğinde prototipten üretime giden yolculuğu hızlandırır.

Diğer Modelleri İnceleyin

Nesne algılama alanını daha iyi anlamak için bu karşılaştırmaları inceleyin:


Yorumlar