İçeriğe geç

DAMO-YOLO - RTDETRv2 Karşılaştırması: Hız ve Transformer Doğruluğunu Dengeleme

Optimum nesne algılama mimarisini seçmek genellikle çıkarım gecikmesi ve algılama hassasiyeti arasındaki ödünleşimde gezinmeyi içerir. Bu teknik karşılaştırma, Alibaba Group tarafından optimize edilmiş yüksek hızlı bir detectör olan DAMO-YOLO ve Baidu'nun ikinci nesil Gerçek Zamanlı Algılama Transformatörü olan RTDETRv2'yi inceler. Bilgisayar görüşü uygulamalarınız için bilinçli kararlar vermenize yardımcı olmak için mimari yeniliklerini, performans kıyaslamalarını ve dağıtım uygunluğunu analiz ediyoruz.

DAMO-YOLO: Düşük Gecikme için Optimizasyon

DAMO-YOLO, doğruluğu ciddi şekilde tehlikeye atmadan hızı en üst düzeye çıkarmaya büyük önem vererek YOLO mimarilerinin evriminde önemli bir adımı temsil eder. Alibaba Group tarafından geliştirilen bu model, ağ yapısını verimlilik için uyarlamak üzere gelişmiş Neural Architecture Search (NAS) teknikleri kullanır.

Mimari Öne Çıkanlar

DAMO-YOLO, detect hattını kolaylaştırmak için çeşitli yeni teknolojileri entegre eder:

  • NAS Destekli Backbone: Model, verimli bir backbone yapısını otomatik olarak keşfetmek için Sinir Ağı Mimarisi Arama'yı (NAS) kullanır (MAE-NAS). Bu yaklaşım, ağ derinliğinin ve genişliğinin belirli donanım kısıtlamaları için optimize edilmesini sağlar.
  • RepGFPN Katmanı: RepGFPN olarak bilinen Genelleştirilmiş Özellik Piramidi Ağı'nın (GFPN) verimli bir sürümünü içerir. Bu bileşen, düşük gecikme kontrolünü korurken farklı ölçeklerdeki özellik kaynaştırmayı geliştirir.
  • ZeroHead: "ZeroHead" olarak adlandırılan basitleştirilmiş bir başlık tasarımı, sınıflandırma ve regresyon görevlerini ayırarak son tahmin katmanlarının hesaplama yükünü azaltır.
  • AlignedOTA: Eğitim kararlılığı için DAMO-YOLO, yakınsamayı iyileştirmek üzere sınıflandırma ve regresyon hedeflerini hizalayan bir etiket atama stratejisi olan AlignedOTA'yı (Optimal Transport Assignment) kullanır.

DAMO-YOLO hakkında daha fazla bilgi edinin

RTDETRv2: Gerçek Zamanlı Transformer'ların Evrimi

RTDETRv2, gerçek zamanlı performans elde eden ilk transformer tabanlı nesne dedektörü olan orijinal RT-DETR'nin başarısı üzerine inşa edilmiştir. Baidu tarafından geliştirilen RTDETRv2, ek çıkarım maliyetlerine yol açmadan eğitim kararlılığını ve doğruluğunu artırmak için bir "bag-of-freebies" sunar.

Mimari Öne Çıkanlar

RTDETRv2, geleneksel hız darboğazlarını azaltırken vizyon dönüştürücülerinin güçlü yönlerinden yararlanır:

  • Hibrit Kodlayıcı: Mimari, hesaplama maliyetlerinden tasarruf etmek için ölçek içi etkileşimi ve ölçekler arası kaynaşmayı ayırarak çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanır.
  • IoU-farkındalıklı Sorgu Seçimi: Bu mekanizma, Kesişim Üzerinden Birleşim (IoU) puanlarına dayalı olarak yüksek kaliteli ilk nesne sorguları seçerek daha hızlı eğitim yakınsamasına yol açar.
  • Uyarlanabilir Yapılandırma: RTDETRv2, kod çözücü ve sorgu seçimi için esnek yapılandırmalar sunarak kullanıcıların modeli belirli hız/doğruluk gereksinimleri için ayarlamasına olanak tanır.
  • Ankraj İçermeyen Tasarım: Selefi gibi, tamamen ankraj içermez, bu da sezgisel ankraj kutusu ayarlaması ve işlem sonrası sırasında Maksimum Olmayan Bastırma (NMS) ihtiyacını ortadan kaldırır.

RTDETRv2 hakkında daha fazla bilgi edinin

Teknik Karşılaştırma: Performans ve Verimlilik

Bu iki model arasındaki temel ayrım, mimari köklerindedir (CNN'ye karşı Transformer) ve bunun performans profillerini nasıl etkilediğidir.

Metrik Analizi

Aşağıdaki tablo, COCO veri kümesindeki temel metrikleri özetlemektedir. RTDETRv2 Ortalama Ortalama Hassasiyet (mAP) açısından baskın olsa da, DAMO-YOLO daha küçük varyantları için üstün verim (FPS) ve daha düşük parametre sayıları göstermektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Ödünleşimleri Analiz Etme

DAMO-YOLO, yüksek frekanslı endüstriyel sıralama gibi her milisaniyenin önemli olduğu ortamlarda öne çıkar. 'Tiny' (t) varyantı son derece hafiftir. Aksine, RTDETRv2 daha yüksek bir doğruluk sınırı sağlar ve bu da onu otonom navigasyon veya ayrıntılı gözetim gibi bir nesneyi kaçırmanın kritik olduğu karmaşık sahneler için tercih edilir kılar.

Mimari - Gerçek Dünya Uygulaması Karşılaştırması

  1. Global Bağlam - Yerel Özellikler Karşılaştırması: RTDETRv2'nin transformer dikkat mekanizması, global bağlamı CNN tabanlı DAMO-YOLO'dan daha iyi anlamasını sağlar. Bu, kalabalık sahnelerde veya nesneler tıkandığında daha iyi performans sağlar. Ancak, bu global dikkat daha yüksek bellek tüketimi ve daha yavaş eğitim süreleri pahasına gelir.

  2. Donanım Optimizasyonu: DAMO-YOLO'nun NAS tabanlı backbone'u, GPU çıkarımı için yüksek düzeyde optimize edilmiştir ve çok düşük gecikme süresi elde eder. RTDETRv2, gerçek zamanlı olmasına rağmen, genellikle YOLO tarzı detectörlerin kare hızlarına ulaşmak için daha güçlü donanım gerektirir.

Ultralytics Avantajı: Neden YOLO11'i Seçmelisiniz?

DAMO-YOLO ve RTDETRv2 özel faydalar sunarken, Ultralytics YOLO11, gerçek dünya uygulamalarının büyük çoğunluğu için en dengeli ve geliştirici dostu çözüm olarak öne çıkıyor.

Üstün Geliştirici Deneyimi ve Ekosistemi

DAMO-YOLO veya RTDETRv2 gibi akademik modellerle ilgili en önemli zorluklardan biri entegrasyondur. Ultralytics, güçlü bir ekosistemle bunu çözer:

  • Kullanım Kolaylığı: Birleşik bir Python API ve CLI ile, modelleri yalnızca birkaç satır kodla eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
  • İyi Yönetilen Ekosistem: Ultralytics modelleri, aktif geliştirme, kapsamlı dokümantasyon ve geniş bir topluluk tarafından desteklenmektedir. Bu, en son donanım ve yazılım kütüphaneleriyle uyumluluğu sağlar.
  • Eğitim Verimliliği: YOLO11 daha hızlı eğitilecek şekilde tasarlanmıştır ve RTDETRv2 gibi transformatör tabanlı modellere göre önemli ölçüde daha az GPU belleği (VRAM) gerektirir. Bu, yüksek performanslı yapay zekayı tüketici sınıfı donanımlarda bile erişilebilir kılar.

Rakipsiz Çok Yönlülük

Öncelikle sınırlayıcı kutu tespiti üzerine odaklanan DAMO-YOLO ve RTDETRv2'nin aksine, YOLO11 çok çeşitli bilgisayar görüşü görevlerini yerel olarak destekler:

Performans Dengesi

YOLO11, YOLO ailesinin çıkarım hızı ve verimlilik karakteristiğini korurken, birçok kıyaslamada RTDETRv2'ye rakip olan veya onu aşan son teknoloji doğruluğu elde eder.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

YOLO11 hakkında daha fazla bilgi edinin

Sonuç

DAMO-YOLO ve RTDETRv2 arasındaki seçim, özel kısıtlamalarınıza bağlıdır:

  • Birincil kısıtlamanız gecikme ise ve minimum parametre sayısının kritik olduğu uç cihazlarda dağıtım yapıyorsanız DAMO-YOLO'yu Seçin.
  • RTDETRv2'yi Seçin: Karmaşık sahnelerde mümkün olan en yüksek doğruluğa ihtiyacınız varsa ve bir transformer mimarisini destekleyecek hesaplama bütçeniz varsa.

Ancak, yüksek performans, kullanım kolaylığı ve çoklu görev yeteneğini bir araya getiren bütünsel bir çözüm için, Ultralytics YOLO11 önerilen seçenek olmaya devam ediyor. Olgun bir ekosistemle birleşen, eğitim sırasındaki daha düşük bellek ayak izi, prototipten üretime geçişi hızlandırır.

Diğer Modelleri İnceleyin

Nesne algılamanın genel yapısını daha iyi anlamak için, bu karşılaştırmaları inceleyin:


Yorumlar