İçeriğe geç

YOLOv7 - DAMO-YOLO: Detaylı Bir Teknik Karşılaştırma

Doğru nesne algılama modelini seçmek, herhangi bir bilgisayar görüşü projesinde kritik bir adımdır. Karar genellikle doğruluk, hız ve hesaplama maliyeti arasında bir ödünleşmeyi içerir. Bu sayfa, gerçek zamanlı nesne algılamaya önemli katkılarda bulunan iki güçlü model olan YOLOv7 ve DAMO-YOLO arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Özel ihtiyaçlarınız için bilinçli bir seçim yapmanıza yardımcı olmak için mimari farklılıklarını, performans metriklerini ve ideal kullanım durumlarını keşfedeceğiz.

YOLOv7: Yüksek Doğruluk ve Hız

YOLOv7, hem eğitim verimliliğini hem de çıkarım hızını, hesaplama maliyetlerini artırmadan optimize ederek YOLO ailesinde önemli bir adım olarak tanıtıldı ve gerçek zamanlı nesne dedektörleri için yeni standartlar belirledi.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica, Taiwan
Tarih: 2022-07-06
Arşiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Belgeler: https://docs.ultralytics.com/models/yolov7/

Mimari ve Temel Özellikler

YOLOv7, son teknoloji performansına ulaşmak için çeşitli mimari yenilikler sunmuştur. Temel bir bileşen, modelin backbone'undaki Genişletilmiş Verimli Katman Toplama Ağı'dır (E-ELAN); bu, ağın gradyan yolunu bozmadan çeşitli özellikleri öğrenme yeteneğini artırır. Model ayrıca, birleştirme tabanlı mimariler için uyarlanmış gelişmiş model ölçekleme teknikleri kullanır.

En önemli katkılarından biri, çıkarım maliyetini artırmadan doğruluğu artıran eğitim stratejilerini ifade eden "eğitilebilir bedava hediyeler çantası" kavramıdır. Bunlar, daha derin denetim için yardımcı başlıkların ve kabadan inceye yönlendirilmiş eğitiminin kullanılmasını içerir. YOLOv7 makalesinde ayrıntılı olarak açıklanan bu teknikler, modelin standart kıyaslamalarda etkileyici sonuçlar elde etmesini sağlar.

Performans ve Kullanım Alanları

YOLOv7 piyasaya sürüldüğünde, hız ve doğruluk arasında olağanüstü bir denge sergiledi. Gerçek zamanlı video analitiği, otonom sürüş sistemleri ve yüksek çözünürlüklü endüstriyel inceleme gibi hem hızlı algılama hem de yüksek hassasiyet gerektiren senaryolarda mükemmeldir. Örneğin, akıllı şehir uygulamalarında YOLOv7, gelişmiş trafik yönetimi için veya güvenlik sistemlerinde acil tehdit algılamayı güçlendirmek için kullanılabilir.

Güçlü Yönler

  • Mükemmel Doğruluk-Hız Ödünleşimi: mAP ve çıkarım hızının güçlü bir kombinasyonunu sağlayarak, gerçek zamanlı görevler için oldukça etkili hale getirir.
  • Verimli Eğitim: Çıkarım sırasında hesaplama taleplerini artırmadan performansı artırmak için gelişmiş eğitim stratejilerinden yararlanır.
  • Kanıtlanmış Performans: MS COCO gibi standart veri kümelerinde yerleşik ve iyi belgelenmiş sonuçlar.

Zayıflıklar

  • Mimari Karmaşıklık: E-ELAN ve çeşitli eğitim tekniklerinin kombinasyonu, anlamak ve değiştirmek için karmaşık olabilir.
  • Yoğun Kaynak Gerektiren Eğitim: Çıkarım hızlı olsa da, daha büyük YOLOv7 modellerini eğitmek önemli miktarda GPU kaynağı gerektirir.
  • Sınırlı Çok Yönlülük: Öncelikli olarak nesne algılama için tasarlanmıştır ve entegre çoklu görev özelliklerine sahip daha yeni modellerin aksine, diğer görevler için topluluk tarafından yönlendirilen uzantılara sahiptir.

YOLOv7 hakkında daha fazla bilgi edinin

DAMO-YOLO: Uç Nokta için Hız ve Verimlilik

Alibaba Group tarafından geliştirilen DAMO-YOLO, özellikle uç cihazlar için hız ve verimliliğe odaklanarak, çok çeşitli donanımlarda optimum performans için tasarlanmış bir nesne algılama modelidir.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 2022-11-23
Arşiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

Mimari ve Temel Özellikler

DAMO-YOLO, etkileyici hızına ulaşmak için çeşitli yeni teknikler sunar. Neural Architecture Search (NAS) aracılığıyla oluşturulan bir backbone kullanarak GiraffeNet adı verilen yüksek verimli bir özellik çıkarıcı elde eder. Ağın boynu, özellik kaynaştırma yeteneklerini düşük hesaplama maliyetiyle dengeleyen verimli bir RepGFPN'dir.

Öne çıkan bir özellik, sınıflandırma ve regresyon için sıfır parametreye sahip, hesaplama yükünü önemli ölçüde azaltan basitleştirilmiş bir algılama başlığı olan ZeroHead'dir. Ayrıca, DAMO-YOLO, dinamik etiket ataması için AlignedOTA kullanır ve daha küçük modellerinin performansını artırmak için bilgi damıtma kullanır, bu da onları hem hızlı hem de doğru hale getirir.

Performans ve Kullanım Alanları

DAMO-YOLO'nun temel gücü, özellikle daha küçük varyantları (DAMO-YOLO-T/S) ile olağanüstü çıkarım hızıdır. Bu, onu mobil uygulamalar için cihaz üzerinde işleme, endüstriyel otomasyon'da gerçek zamanlı izleme ve robotik gibi düşük gecikmenin kritik bir gereklilik olduğu uygulamalar için önemli bir aday yapar. Ölçeklenebilirliği, geliştiricilerin güçlü bulut sunucularından kaynak kısıtlı uç platformlara kadar belirli donanım kısıtlamalarına uyan bir model seçmelerine olanak tanır.

Güçlü Yönler

  • Olağanüstü Çıkarım Hızı: Daha küçük modeller, düşük gecikme süresi gereksinimleri için ideal olan mevcut en hızlı nesne dedektörleri arasındadır.
  • Ölçeklenebilir Mimari: Farklı hesaplama bütçelerine uygun bir model yelpazesi (Tiny, Small, Medium, Large) sunar.
  • Yenilikçi Tasarım: NAS destekli backbonelar, verimli neckler ve parametresiz bir head gibi en son fikirleri içerir.

Zayıflıklar

  • Daha Büyük Modellerde Doğruluk: Rekabetçi olmasına rağmen, en büyük DAMO-YOLO modelleri, YOLOv7'nin üst düzey varyantlarının tepe doğruluğuna ulaşamayabilir.
  • Ekosistem ve Destek: Araştırma odaklı bir proje olduğu için, ticari olarak desteklenen çerçevelerle aynı düzeyde kapsamlı belgelendirme, topluluk desteği veya entegre araçlara sahip olmayabilir.

GitHub'da DAMO-YOLO

Karşılaştırmalı Analiz: YOLOv7 - DAMO-YOLO

Bu iki modeli doğrudan karşılaştırırken, temel ayrım tasarım felsefelerinde yatmaktadır. YOLOv7, mAP'yi en üst düzeye çıkarmak için karmaşık eğitim stratejilerinden yararlanarak, gerçek zamanlı bir dedektör için doğruluk açısından neyin mümkün olduğunun sınırlarını zorlar. Buna karşılık, DAMO-YOLO, mimari verimliliğe ve ham çıkarım hızına öncelik vererek, daha küçük modellerini inanılmaz derecede hızlı hale getirir, genellikle daha büyük, daha karmaşık modellere kıyasla birkaç puanlık doğruluk pahasına.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Neden Ultralytics YOLO Modelleri Daha İyi Bir Seçimdir

Hem YOLOv7 hem de DAMO-YOLO güçlü modeller olsa da, daha modern, entegre ve kullanıcı dostu bir deneyim arayan geliştiriciler ve araştırmacılar, Ultralytics YOLOv8 ve en son Ultralytics YOLO11 gibi popüler modeller de dahil olmak üzere Ultralytics YOLO ekosistemini düşünmelidir. Bu modeller çeşitli önemli avantajlar sunar:

  • Kullanım Kolaylığı: Ultralytics modelleri, basit bir Python API'si ve CLI'ı içeren, kolaylaştırılmış bir kullanıcı deneyimi düşünülerek tasarlanmıştır. Bu, kapsamlı belgelendirme ve çok sayıda kılavuz ile desteklenir ve başlamayı kolaylaştırır.
  • İyi Yönetilen Ekosistem: Aktif geliştirmeden, güçlü bir açık kaynak topluluğundan ve eğitimden dağıtıma kadar uçtan uca MLOps için Ultralytics HUB gibi araçlarla sorunsuz entegrasyondan yararlanın.
  • Performans Dengesi: Ultralytics modelleri, çok çeşitli gerçek dünya senaryoları için uygun olmalarını sağlayan hız ve doğruluk arasında mükemmel bir denge sağlar.
  • Bellek Verimliliği: Ultralytics YOLO modelleri, verimli bellek kullanımı için optimize edilmiştir ve genellikle diğer mimarilere kıyasla eğitim ve çıkarım için daha az CUDA belleği gerektirir.
  • Çok Yönlülük: YOLOv8 ve YOLO11 gibi modeller, tek, birleşik bir çerçeve içinde algılama, segmentasyon, sınıflandırma, poz tahmini ve yönlendirilmiş nesne algılama (OBB)'yı destekleyen gerçek çoklu görev çözümleridir.
  • Eğitim Verimliliği: Verimli eğitim süreçlerinden, kolayca erişilebilen önceden eğitilmiş ağırlıklardan ve daha hızlı yakınsama sürelerinden yararlanın.

Sonuç

Hem DAMO-YOLO hem de YOLOv7, nesne algılamada önemli gelişmeleri temsil etmektedir. DAMO-YOLO, özellikle daha küçük varyantlarıyla çıkarım hızında mükemmeldir ve bu da onu düşük gecikmeye öncelik veren uç cihazlar veya uygulamalar için güçlü bir rakip haline getirir. YOLOv7, özellikle mümkün olan en yüksek mAP'yi elde etmenin kritik olduğu senaryolar için uygun olan iyi gerçek zamanlı performansı korurken doğruluğun sınırlarını zorlar.

Ancak, geliştiriciler Ultralytics ekosistemi içindeki YOLOv8 veya en son YOLO11 gibi modelleri de düşünebilirler. Bu modeller genellikle üstün bir performans dengesi, kullanım kolaylığı, kapsamlı belgelendirme, verimli eğitim, daha düşük bellek gereksinimleri ve çoklu görme görevlerinde çok yönlülük sağlar ve tümü iyi yönetilen bir ekosistem ve aktif topluluk desteği ile desteklenir.

Diğer Modelleri İnceleyin

DAMO-YOLO ve YOLOv7 ile ilgilenen kullanıcılar bu modelleri de alakalı bulabilir:



📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar