İçeriğe geç

DAMO-YOLO - YOLOv9 Karşılaştırması: Teknik Bir İnceleme

Doğru nesne algılama modelini seçmek, doğruluk, hız ve hesaplama verimliliği ihtiyacını dengeleyen kritik bir karardır. Bu sayfa, Alibaba Group'tan DAMO-YOLO ve YOLOv9 olmak üzere iki güçlü model arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Bilgisayar görüşü projeleriniz için en iyi modeli seçmenize yardımcı olmak için mimari yeniliklerini, performans metriklerini ve ideal kullanım durumlarını keşfedeceğiz. Her iki model de önemli gelişmeler sunarken, YOLOv9, özellikle Ultralytics ekosistemi içinde, en son teknoloji performansı ve geliştirici dostu özelliklerin zorlayıcı bir kombinasyonunu sunmaktadır.

DAMO-YOLO: Alibaba'dan Hızlı ve Doğru Bir Yöntem

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 2022-11-23
Arşiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO, Alibaba tarafından geliştirilen ve hız ile doğruluk arasında üstün bir denge sağlamaya odaklanan bir nesne algılama modelidir. Uç cihazlardan bulut GPU'larına kadar geniş bir donanım yelpazesinde performansı artırmak için çeşitli yeni teknikler sunar. Mimari, bir süper ağın eğitildiği ve ardından farklı hesaplama kısıtlamalarına uyacak şekilde Neural Architecture Search (NAS) kullanılarak özel alt ağların türetildiği bir "her şey için bir kez" metodolojisinin sonucudur.

Mimari ve Temel Özellikler

DAMO-YOLO'nun mimarisi çeşitli temel yenilikleri içermektedir:

  • NAS Tarafından Oluşturulan Backbone'ler: DAMO-YOLO, manuel olarak tasarlanmış bir backbone yerine, özellik çıkarımı verimliliği için optimize edilmiş, NAS aracılığıyla keşfedilen backbone'leri kullanır.
  • Verimli RepGFPN Katmanı: Verimli özellik kaynaştırması için tasarlanmış ve çıkarım sırasında hızı artırmak için yeniden parametrelendirme teknikleriyle uyumlu yeni bir özellik piramidi ağı katmanı olan RepGFPN'yi kullanır.
  • ZeroHead: Yüksek performansı korurken hesaplama yükünü azaltan basitleştirilmiş, hafif bir tespit başlığıdır.
  • AlignedOTA Etiket Atama: Sınıflandırma ve regresyon görevleri arasındaki yanlış hizalama sorunlarını gideren ve daha doğru tahminlere yol açan geliştirilmiş bir etiket atama stratejisidir.
  • Damıtma İyileştirmesi: Bilgi damıtma, daha büyük bir öğretmen modelinden daha küçük bir öğrenci modeline bilgi aktarmak için kullanılır ve bu da kompakt modellerin doğruluğunu daha da artırır.

Güçlü Yönler

  • Yüksek GPU Hızı: DAMO-YOLO, GPU'larda hızlı çıkarım için son derece optimize edilmiştir ve bu da onu gerçek zamanlı video işleme ve diğer gecikmeye duyarlı uygulamalar için uygun hale getirir.
  • Ölçeklenebilir Modeller: Geliştiricilerin donanımları için en uygun olanı seçmelerine olanak tanıyan, hız ve doğruluk arasında net bir denge sağlayan bir model ailesi (Tiny, Small, Medium, Large) sunar.
  • Yenilikçi Teknikler: NAS, verimli bir neck ve gelişmiş bir etiket atayıcı kullanımı, dedektör tasarımına modern bir yaklaşım sergilemektedir.

Zayıflıklar

  • Görev Özgüllüğü: DAMO-YOLO öncelikli olarak nesne algılama için tasarlanmıştır ve Ultralytics gibi kapsamlı çerçevelerde bulunan örnek segmentasyonu veya poz tahmini gibi diğer görevler için yerleşik çok yönlülükten yoksundur.
  • Ekosistem ve Kullanılabilirlik: Güçlü olmasına rağmen, ekosistemi Ultralytics'inki kadar olgun değildir. Kullanıcılar, eğitim, dağıtım ve üretim hatlarına entegrasyon için daha fazla çaba gerektirdiğini görebilir.
  • Topluluk Desteği: Topluluk ve mevcut kaynaklar, YOLO serisindekiler gibi daha yaygın olarak benimsenen modellere kıyasla daha küçük olabilir.

DAMO-YOLO hakkında daha fazla bilgi edinin

YOLOv9: Doğruluk ve Verimliliği Geliştirme

Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica, Tayvan
Tarih: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Belgeleme: https://docs.ultralytics.com/models/yolov9/

YOLOv9, derin sinir ağlarındaki bilgi kaybını gidermek için çığır açan konseptler sunarak gerçek zamanlı nesne algılamada önemli bir atılımı temsil etmektedir. Temel yenilikleri olan Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN), üstün doğruluk ve parametre verimliliği elde etmesini sağlar. Ultralytics çerçevesine entegre edildiğinde, YOLOv9 bu son teknoloji performansını benzersiz bir kullanıcı deneyimiyle birleştirir.

Mimari ve Temel Özellikler

YOLOv9'un gücü, yeni mimari bileşenlerinde yatmaktadır:

  • Programlanabilir Gradyan Bilgisi (PGI): Bu mekanizma, yardımcı bir tersine çevrilebilir dal aracılığıyla güvenilir gradyanlar oluşturarak bilgi darboğazı sorununu azaltmaya yardımcı olur ve daha derin katmanların doğru güncellemeler için eksiksiz girdi bilgisi almasını sağlar.
  • Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN): CSPNet ve ELAN prensiplerini temel alan gelişmiş bir ağ mimarisi. GELAN, optimum parametre kullanımı ve hesaplama verimliliği için tasarlanmıştır, bu da onu hem güçlü hem de hızlı yapar.

Güçlü Yönler

  • Son Teknoloji Doğruluk: YOLOv9, COCO veri kümesinde yeni bir doğruluk standardı belirleyerek, benzer veya daha düşük hesaplama maliyetlerinde birçok önceki modelden daha iyi performans gösterir.
  • Üstün Verimlilik: Performans tablosunda gösterildiği gibi, YOLOv9 modelleri genellikle rakiplerine kıyasla daha az parametre ve FLOP ile daha yüksek doğruluk elde ederek, uç cihazlardan güçlü sunuculara kadar çeşitli donanımlarda dağıtım için idealdir.
  • İyi Yönetilen Ekosistem: Ultralytics ekosistemine entegre olan YOLOv9, kolaylaştırılmış bir Python API ve CLI, kapsamlı belgelendirme ve aktif topluluk desteği sayesinde kullanım kolaylığı avantajlarından yararlanır.
  • Eğitim Verimliliği: Ultralytics uygulaması, önceden eğitilmiş ağırlıkların kolayca kullanılabilir olması, daha düşük bellek gereksinimleri ve kodsuz eğitim ve MLOps için Ultralytics HUB gibi araçlarla sorunsuz entegrasyon sayesinde verimli eğitim süreçleri sağlar.
  • Çok Yönlülük: Orijinal makale algılama üzerine odaklansa da, GELAN mimarisi son derece uyarlanabilirdir. Ultralytics ekosistemi, yeteneklerini diğer görme görevlerine genişleterek YOLOv8 gibi modellerde bulunan çoklu görev desteğiyle uyum sağlar.

Zayıflıklar

  • Daha Yeni Model: Daha yeni bir mimari olduğundan, topluluk tarafından katkıda bulunulan eğitimlerin ve üçüncü taraf entegrasyonlarının sayısı hala büyüyor, ancak Ultralytics kitaplığına dahil edilmesi benimsenmesini önemli ölçüde hızlandırdı.
  • Kaynak Gereksinimleri: YOLOv9-E gibi en büyük YOLOv9 varyantları, boyutlarına göre en üst düzeyde doğruluk sağlamalarına rağmen, eğitim için önemli miktarda işlem kaynağı gerektirir.

YOLOv9 hakkında daha fazla bilgi edinin

Performans Analizi: Doğruluk ve Hız

DAMO-YOLO ve YOLOv9'u karşılaştırırken, her iki model ailesinin de gerçek zamanlı nesne algılama sınırlarını zorladığı açıktır. Ancak, metriklere daha yakından bakıldığında YOLOv9'un üstün verimliliği ortaya çıkmaktadır.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Tablodan şu sonuçları çıkarabiliriz:

  • Doğruluk: YOLOv9 modelleri sürekli olarak daha yüksek mAP skorları elde eder. Örneğin, YOLOv9m, DAMO-YOLOl'u 50.8 mAP'ye karşı 51.4 mAP ile geride bırakır. En büyük model olan YOLOv9-E, etkileyici bir 55.6 mAP'ye ulaşarak yeni bir ölçüt belirler.
  • Verimlilik: YOLOv9, dikkat çekici parametre ve hesaplama verimliliği gösterir. YOLOv9m, parametrelerin yarısından daha azını (20,0M'ye karşı 42,1M) ve daha az FLOP'u (76,3B'ye karşı 97,3B) kullanarak DAMO-YOLOl'den daha iyi doğruluk sunar. Bu, YOLOv9'u yüksek performans elde etmek için daha verimli bir seçim yapar.
  • Çıkarım Hızı: Bir T4 GPU'da, çıkarım hızları rekabetçidir. Örneğin, DAMO-YOLOs (3,45 ms) ve YOLOv9s (3,54 ms) hız açısından birbirine çok yakındır, ancak YOLOv9s daha yüksek bir mAP'ye ulaşır (46,8'e karşı 46,0).

Sonuç: Hangi Modeli Seçmelisiniz?

Hem DAMO-YOLO hem de YOLOv9, benzersiz güçlü yönlere sahip mükemmel nesne algılayıcılardır. DAMO-YOLO, NAS ve verimli bir RepGFPN boynu gibi yenilikçi tekniklerle hızlı ve ölçeklenebilir bir çözüm sunarak, yüksek hızlı GPU çıkarımı gerektiren uygulamalar için sağlam bir seçimdir.

Ancak, çoğu geliştirici ve araştırmacı için YOLOv9, özellikle Ultralytics ekosistemi içinde kullanıldığında önerilen seçimdir. Yalnızca en son teknoloji doğruluğu ve üstün verimlilik sağlamakla kalmaz, aynı zamanda kullanılabilirlik ve destek konusunda da önemli avantajlar sunar. Ultralytics çerçevesi karmaşıklığı ortadan kaldırarak eğitimden dağıtıma kadar akıcı bir iş akışı sunar. YOLOv9'daki PGI ve GELAN'ın kombinasyonu daha gelişmiş ve verimli bir mimari sağlarken, sağlam Ultralytics ekosistemi başarılı olmak için ihtiyaç duyduğunuz araçlara, belgelere ve topluluk desteğine sahip olmanızı sağlar.

Diğer Modelleri İnceleyin

DAMO-YOLO ve YOLOv9'un diğer önde gelen modellerle nasıl karşılaştırıldığını merak ediyorsanız, Ultralytics belgelerindeki bu diğer karşılaştırmalara göz atmayı unutmayın:



📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar