İçeriğe geç

DAMO-YOLO ve RTDETRv2: Teknik Bir Karşılaştırma

Doğru nesne algılama modelini seçmek, doğruluk, hız ve hesaplama maliyetini dengeleyen kritik bir karardır. Bu karşılaştırma, iki güçlü mimariyi incelemektedir: Alibaba Group'tan yüksek hızlı bir dedektör olan DAMO-YOLO ve Baidu'dan yüksek doğruluklu gerçek zamanlı bir transformatör modeli olan RTDETRv2. Bilgisayarla görü projeniz için en iyi modeli seçmenize yardımcı olmak için mimari farklılıklarını, performans kıyaslamalarını ve ideal kullanım durumlarını inceleyeceğiz.

DAMO-YOLO: Hızlı ve Doğru Algılama

DAMO-YOLO, hız ve doğruluk arasında üstün bir denge sağlamak üzere tasarlanmış, Alibaba Group tarafından geliştirilen bir nesne algılama modelidir. YOLO tarzı dedektörlerin performansını artırmak için çeşitli yeni teknikler içerir.

Mimari ve Temel Özellikler

DAMO-YOLO, çeşitli temel yeniliklerle klasik tek aşamalı nesne dedektörü paradigması üzerine kurulmuştur:

  • NAS Destekli Backbone: Optimize edilmiş bir backbone ağı oluşturmak için Sinirsel Mimari Arama'yı (NAS) kullanır. Bu, modelin belirli donanım ve performans hedefleri için özel olarak tasarlanmış, yüksek verimli bir mimari bulmasını sağlar.
  • Verimli RepGFPN Katmanı: Model, özellik kaynaştırması için Genelleştirilmiş Özellik Piramidi Ağı'nın (GFPN) verimli bir sürümünü kullanır. Bu katman yapısı, hesaplama açısından hafif kalırken farklı ölçeklerden gelen özellikleri etkili bir şekilde birleştirir.
  • ZeroHead: Temel bir yenilik olan ZeroHead, hesaplama yükünü azaltmak ve performansı artırmak için sınıflandırma ve regresyon başlıklarını ayırır. Bu tasarım seçimi, doğruluğu feda etmeden başlık mimarisini basitleştirir.
  • AlignedOTA Etiket Atama: DAMO-YOLO, eğitim sırasında tahminlere etiket atamak için AlignedOTA'yı (Optimal Taşıma Ataması) kullanır. Bu gelişmiş strateji, her temel doğruluk nesnesi için en uygun bağlantı noktalarının seçilmesini sağlayarak daha iyi eğitim yakınsamasına ve daha yüksek doğruluğa yol açar.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Olağanüstü Çıkarım Hızı: DAMO-YOLO modelleri, özellikle daha küçük varyantları, GPU donanımında çok düşük gecikme süresi sunarak gerçek zamanlı çıkarım için idealdir.
  • Yüksek Verimlilik: Model, nispeten düşük sayıda parametre ve FLOPs ile hız ve doğruluk arasında güçlü bir denge kurar.
  • Ölçeklenebilir Mimari: Birden çok boyutta (Tiny, Small, Medium, Large) mevcuttur ve geliştiricilerin özel kaynak kısıtlamaları için doğru modeli seçmelerine olanak tanır.

Zayıflıklar:

  • Doğruluk Sınırlamaları: Hızlı olmasına rağmen, tepe doğruluğu, çok sayıda küçük veya tıkanmış nesnenin bulunduğu zorlu senaryolarda daha karmaşık, transformatör tabanlı modellerinkiyle eşleşmeyebilir.
  • Ekosistem ve Kullanılabilirlik: DAMO-YOLO etrafındaki ekosistem, daha yaygın çerçevelere kıyasla daha az gelişmiştir ve bu da entegrasyon ve dağıtım için daha fazla çaba gerektirebilir.

DAMO-YOLO hakkında daha fazla bilgi edinin

RTDETRv2: Yüksek Doğruluklu Gerçek Zamanlı Algılama Transformer'ı

RTDETRv2 (Real-Time Detection Transformer v2), gerçek zamanlı performansı korurken yüksek doğruluk sağlamak için transformer'ların gücünden yararlanan Baidu'nun son teknoloji ürünü bir nesne algılama modelidir. Orijinal RT-DETR'nin bir evrimi olup, yeteneklerini daha da geliştirmek için bir "bedava hediyeler" içerir.

Mimari ve Temel Özellikler

RTDETRv2, nesne tespitini doğrudan bir küme tahmin problemi olarak yeniden tasarlayan DETR (DEtection TRansformer) çerçevesini temel alır.

  • Hibrit CNN-Transformatör Tasarımı: İlk özellik haritalarını çıkarmak için geleneksel bir CNN backbone (ResNet gibi) kullanır ve bunlar daha sonra bir transformatör kodlayıcı-çözücüye beslenir.
  • Global Bağlam Modellemesi: Transformer'ın self-attention mekanizması, modelin bir görüntünün farklı bölümleri arasındaki global ilişkileri yakalamasını sağlar. Bu, onu karmaşık ve dağınık sahnelerdeki nesneleri tespit etmede son derece iyi yapar.
  • End-to-End Detection: Diğer DETR tabanlı modeller gibi, RTDETRv2 de uçtan ucadır ve algılama hattını basitleştirerek Non-Maximum Suppression (NMS) gibi elle tasarlanmış bileşenlere olan ihtiyacı ortadan kaldırır.
  • Anchor'sız Yaklaşım: Model anchor'sızdır, bu da anchor kutularını tasarlama ve ayarlama ile ilgili karmaşıklıklardan kaçınır.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Son Teknoloji Doğruluğu: RTDETRv2, özellikle yoğun nesne dağılımlarının olduğu senaryolarda, genellikle diğer gerçek zamanlı dedektörlerden daha iyi performans göstererek çok yüksek mAP skorları elde eder.
  • Karmaşık Sahnelerde Güçlülük: Küresel dikkat mekanizması, örtüşen nesneler arasında ayrım yapmada ve daha geniş sahne bağlamını anlamada onu oldukça etkili kılar.
  • Basitleştirilmiş İşlem Hattı: Uçtan uca, NMS'siz tasarım, işlem sonrası aşamayı daha temiz ve daha anlaşılır hale getirir.

Zayıflıklar:

  • Daha Yüksek Hesaplama Maliyeti: Transformer tabanlı mimariler, tipik olarak parametreler, FLOP'lar ve bellek kullanımı açısından saf CNN modellerine kıyasla daha fazla talepkardır.
  • Daha Yavaş Çıkarım: Gerçek zamanlı kullanım için optimize edilmiş olmasına rağmen, çıkarım hızı genellikle en hızlı YOLO tabanlı modellerden daha yavaştır.
  • Eğitim Karmaşıklığı: Transformer'ları eğitmek daha kaynak yoğun olabilir ve CNN'lere göre daha uzun eğitim programları ve daha fazla bellek gerektirebilir.

RTDETRv2 hakkında daha fazla bilgi edinin

Performans ve Eğitim Karşılaştırması

Performans Kıyaslamaları

İşte COCO val veri kümesinde DAMO-YOLO ve RTDETRv2 varyantları arasındaki ayrıntılı bir performans karşılaştırması.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLO-t 640 42.0 - 2.32 8.5 18.1
DAMO-YOLO-s 640 46.0 - 3.45 16.3 37.8
DAMO-YOLO-m 640 49.2 - 5.09 28.2 61.8
DAMO-YOLO-l 640 50.8 - 7.18 42.1 97.3
RTDETRv2-s 640 48.1 - 5.03 20.0 60.0
RTDETRv2-m 640 51.9 - 7.51 36.0 100.0
RTDETRv2-l 640 53.4 - 9.76 42.0 136.0
RTDETRv2-x 640 54.3 - 15.03 76.0 259.0

Tablodan şu sonuçları çıkarabiliriz:

  • Doğruluk: RTDETRv2, karşılaştırılabilir model boyutlarında sürekli olarak daha yüksek mAP elde eder ve en büyük varyantı etkileyici bir 54.3 mAP'ye ulaşır.
  • Hız: DAMO-YOLO, çıkarım hızında açık bir avantaja sahiptir ve küçük modeli, bir T4 GPU'da en küçük RTDETRv2 modelinden iki kat daha hızlıdır.
  • Verimlilik: DAMO-YOLO modelleri, parametreler ve FLOP'lar açısından daha verimlidir. Örneğin, DAMO-YOLO-m, 28,2M parametre ile 49,2 mAP elde ederken, RTDETRv2-s benzer bir 48,1 mAP'ye ulaşmak için 20,0M parametreye ihtiyaç duyar ancak daha yavaştır.

İdeal Kullanım Senaryoları

  • DAMO-YOLO, hızın çok önemli olduğu aşağıdaki gibi uygulamalar için en uygunudur:

  • RTDETRv2, doğruluğun en yüksek öncelik olduğu senaryolarda mükemmeldir:

    • Otonom Sürüş: Karmaşık şehir ortamlarında yayaları, araçları ve engelleri güvenilir bir şekilde tespit etme.
    • Yüksek Riskli Güvenlik: Hassasiyetin kritik olduğu kalabalık kamusal alanlarda tehditleri belirleme.
    • Perakende Analitiği: Raflardaki çok sayıda ürünü veya bir mağazadaki müşterileri doğru bir şekilde saymak ve izlemek.

Ultralytics Avantajı: YOLOv8 ve YOLO11

DAMO-YOLO ve RTDETRv2'nin her ikisi de güçlü modeller olmasına rağmen, Ultralytics YOLO ekosistemi, YOLOv8 ve en son Ultralytics YOLO11 gibi modellere sahip olup, geliştiriciler ve araştırmacılar için genellikle üstün bir genel paket sağlayan zorlayıcı bir alternatif sunar.

Ultralytics modellerini kullanmanın temel avantajları şunlardır:

  • Kullanım Kolaylığı: Kolaylaştırılmış bir Python API'si, kapsamlı dokümantasyon ve basit CLI kullanımı, eğitimi, doğrulamayı ve dağıtımı inanılmaz derecede kolaylaştırır.
  • İyi Yönetilen Ekosistem: Ultralytics, aktif geliştirme, GitHub aracılığıyla güçlü topluluk desteği, sık güncellemeler ve uçtan uca MLOps için Ultralytics HUB ile sorunsuz entegrasyon sağlar.
  • Performans Dengesi: Ultralytics modelleri, hız ve doğruluk arasında mükemmel bir denge için yüksek düzeyde optimize edilmiştir, bu da onları uç cihazlardan bulut sunucularına kadar çok çeşitli uygulamalar için uygun hale getirir.
  • Bellek Verimliliği: Ultralytics YOLO modelleri, bellek verimli olacak şekilde tasarlanmıştır ve genellikle kaynak yoğun olduğu bilinen RTDETRv2 gibi transformer tabanlı modellere kıyasla eğitim ve çıkarım için daha az CUDA belleği gerektirir.
  • Çok Yönlülük: YOLOv8 ve YOLO11 gibi modeller, DAMO-YOLO ve RTDETRv2'de bulunmayan birleşik bir çözüm sunarak, yerel olarak nesne tespiti, örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş sınırlayıcı kutuları (OBB) destekleyen çoklu görev çerçeveleridir.
  • Eğitim Verimliliği: Hızlı eğitim sürelerinden, verimli yakınsamadan ve COCO gibi popüler veri kümelerinde kolayca erişilebilen önceden eğitilmiş ağırlıklardan yararlanın.

Sonuç

DAMO-YOLO ve RTDETRv2, hız ve doğruluk sınırlarını zorlayan olağanüstü nesne algılama modelleridir. DAMO-YOLO, GPU donanımında mümkün olan en düşük gecikmeyi gerektiren uygulamalar için ideal bir seçimdir. Buna karşılık, RTDETRv2, özellikle karmaşık görsel ortamlarda, en yüksek doğruluğu elde etmekten taviz verilmediği durumlarda tercih edilen modeldir.

Ancak, geliştiricilerin ve araştırmacıların çoğu için YOLO11 gibi Ultralytics modelleri en pratik ve etkili çözümü sunar. Hız ve doğruluğun üstün bir dengesini, benzersiz kullanım kolaylığını, çoklu görev çok yönlülüğünü sunarlar ve sağlam ve aktif olarak sürdürülen bir ekosistem tarafından desteklenirler. Bu kombinasyon, Ultralytics YOLO modellerini yüksek performanslı, gerçek dünya bilgisayarlı görü uygulamaları oluşturmak için önerilen seçim haline getirir.

Diğer Modelleri İnceleyin

DAMO-YOLO ve RTDETRv2 ile ilgilenen kullanıcılar bu karşılaştırmaları da alakalı bulabilir:



📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar