İçeriğe geç

YOLOv9 vs. YOLO: Kapsamlı Bir Teknik Karşılaştırma

Bilgisayarla görmenin hızla gelişen ortamında, en uygun nesne algılama mimarisinin seçilmesi proje başarısı için çok önemlidir. Bu analiz, iki zorlu model arasında ayrıntılı bir teknik karşılaştırma sunmaktadır: YOLOv9ve Alibaba Group'un yüksek hızlı çıkarım için tasarladığı bir model olan YOLO. Geliştiricilere ve araştırmacılara bilinçli kararlar vermelerinde rehberlik etmek için benzersiz mimarilerini, performans ölçümlerini ve ideal dağıtım senaryolarını inceliyoruz.

YOLOv9: Üstün Doğruluk için Programlanabilir Gradyan Bilgisi

YOLOv9 , derin sinir ağlarının doğasında bulunan bilgi darboğazı sorununu çözmeye odaklanarak You Only Look OnceYOLO) serisinde önemli bir gelişmeye işaret ediyor. YOLOv9 , önemli girdi verilerinin ağ katmanları boyunca korunmasını sağlayarak son teknoloji ürünü doğruluğa ulaşıyor.

Yazarlar Chien-Yao Wang ve Hong-Yuan Mark Liao
Organizasyon:Bilgi Bilimleri Enstitüsü, Academia Sinica, Tayvan
Tarih: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Dokümanlar:Ultralytics YOLOv9 Dokümantasyonu

Mimari ve Temel Yenilikler

YOLOv9 'un mimarisi, derin öğrenme verimliliğini optimize etmek için tasarlanmış çığır açan iki konsept üzerine inşa edilmiştir:

  1. Programlanabilir Gradyan Bilgisi (PGI): PGI, veriler derin katmanlar boyunca yayılırken bilgi kaybı sorununu ele alan yardımcı bir denetim çerçevesidir. Kayıp fonksiyonunun güvenilir gradyanlar almasını sağlayarak modelin çıkarım maliyeti eklemeden daha etkili özellikler öğrenmesine olanak tanır.
  2. Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN): Bu yeni mimari CSPNet ve ELAN'ın güçlü yönlerini birleştirmektedir. GELAN, çeşitli hesaplama bloklarını destekleyen hafif ancak güçlü bir backbone sağlayarak parametre kullanımını ve hesaplama verimliliğini en üst düzeye çıkarmak için tasarlanmıştır.

Güçlü Yönler ve Ekosistem

  • Üst Düzey Doğruluk: YOLOv9 olağanüstü başarı sağlar mAPCOCO veri setindeki skorlar, gerçek zamanlı nesne dedektörleri için ölçütleri belirler.
  • Parametre Verimliliği: GELAN sayesinde model, birçok öncekine kıyasla daha az parametre ile yüksek performans sunar.
  • Ultralytics Entegrasyonu: Ultralytics ekosisteminin bir parçası olmak, YOLOv9 'un birleşik bir Python API'sinden, sorunsuz model dışa aktar ma seçeneklerindenONNX, TensorRT, CoreML) ve sağlam belgelerden yararlandığı anlamına gelir.
  • Eğitim Kararlılığı: PGI çerçevesi, model eğitimi sırasında yakınsama hızını ve kararlılığı önemli ölçüde artırır.

Zayıflıklar

  • Kaynak Yoğunluğu: Doğruluk sınıfı için verimli olsa da, en büyük varyantlar ( YOLOv9 gibi) önemli ölçüde GPU eğitim için hafıza.
  • Görev Odağı: Temel araştırma öncelikle nesne algılamayı hedeflerken, diğer Ultralytics modelleri YOLO11 poz tahmini ve kutudan çıkar çıkmaz OBB dahil olmak üzere daha geniş bir görev yelpazesini yerel olarak destekler.

YOLOv9 hakkında daha fazla bilgi edinin

YOLO: Hız Arayan Sinir Mimarisi

YOLO , otomatik mimari tasarımının gücünün bir kanıtı olarak hizmet vermektedir. Alibaba tarafından geliştirilen bu sistem, özellikle endüstriyel uygulamaları hedefleyerek çıkarım gecikmesi ve algılama performansı arasındaki optimum dengeyi bulmak için Nöral Mimari Arama'dan (NAS) yararlanıyor.

Yazarlar Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Organizasyon:Alibaba Group
Tarih: 2022-11-23
Arxiv:2211.15444
GitHub:YOLO

Mimari ve Temel Özellikler

YOLO , verimi en üst düzeye çıkarmayı amaçlayan çeşitli teknolojik ilerlemelerle kendini farklılaştırmaktadır:

  • MAE-NAS Backbone: Belirli donanım kısıtlamaları için ağ topolojisini optimize eden Yöntem Farkında Verimli Sinir Mimarisi Aramasından türetilen bir backbone yapısı kullanır.
  • Verimli RepGFPN: Model, boynu için Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramidi Ağı kullanır ve düşük gecikme süresini korurken özellik füzyonunu geliştirir.
  • ZeroHead: Tipik olarak son tahmin katmanlarıyla ilişkili hesaplama ek yükünü azaltan hafif bir algılama kafası tasarımı.
  • AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki yanlış hizalamayı çözen geliştirilmiş bir etiket atama stratejisi.

Güçlü Yönler

  • Düşük Gecikme Süresi: YOLO hız için tasarlanmıştır, bu da onu uç cihazlarda ve GPU'larda gerçek zamanlı çıkarım için oldukça etkili hale getirir.
  • Otomatik Tasarım: NAS kullanımı, mimarinin yalnızca manuel sezgisel yöntemlere dayanmak yerine verimlilik için matematiksel olarak ayarlanmasını sağlar.
  • Çapasız: Çapasız bir yaklaşım benimseyerek çapa kutularıyla ilgili hiperparametre ayarlama sürecini basitleştirir.

Zayıflıklar

  • Sınırlı Ekosistem: Ultralytics modelleri için mevcut olan geniş araçlarla karşılaştırıldığında, YOLO daha küçük bir topluluğa ve MLOps için daha az hazır entegrasyon aracına sahiptir.
  • Çok yönlülük: Öncelikle algılama için uzmanlaşmıştır, daha kapsamlı çerçevelerde bulunan yerel çoklu görev yeteneklerinden (segmentasyon, sınıflandırma) yoksundur.

DAMO-YOLO hakkında daha fazla bilgi edinin

Performans Analizi: Hız - Doğruluk Karşılaştırması

Performans ölçütleri karşılaştırıldığında, iki mimari arasındaki ödünleşimler netleşir. YOLOv9 , üstün doğruluk elde etmek için bilgi korumaya öncelik verir ve genellikle benzer model boyutlarında mAP puanlarında YOLO 'yu geride bırakır. Buna karşılık, YOLO ham iş hacmine odaklanır.

Bununla birlikte, YOLOv9'un GELAN mimarisinin verimliliği, daha iyi algılama kalitesi sunarken hız açısından oldukça rekabetçi kalmasını sağlar. Örneğin, YOLOv9 daha az parametre (25,3M'ye karşı 42,1M) kullanırken YOLO 'ye (%50,8) kıyasla önemli ölçüde daha yüksek bir mAP (%53,0) elde eder. Bu, YOLOv9'un model karmaşıklığı açısından "daha azıyla daha fazlasını" sunma becerisini vurgulamaktadır.

Performans Yorumlama

Modelleri değerlendirirken, parametre sayısının yanı sıra FLOP 'ları (Kayan Nokta İşlemleri) da göz önünde bulundurun. Daha düşük FLOP sayısı genellikle mobil veya uç yapay zeka donanımlarında hesaplama açısından daha hafif ve potansiyel olarak daha hızlı bir modele işaret eder.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

İdeal Kullanım Senaryoları

Mimari farklılıklar, her model için ideal dağıtım senaryolarını belirler.

YOLOv9 Uygulamaları

YOLOv9 , hassasiyetin tartışılmaz olduğu uygulamalar için tercih edilen seçimdir.

  • Tıbbi Görüntüleme: Bir algılamayı kaçırmanın kritik olabileceği tıbbi görüntü analizinde ince anormallikleri tespit etme.
  • Otonom Navigasyon: Nesne algılamada yüksek güven gerektiren sürücüsüz araçlar için gelişmiş algılama sistemleri.
  • Detaylı Gözetim: Küçük nesneleri tanımlaması gereken veya yüksek dağınıklığa sahip karmaşık ortamlarda çalışan güvenlik sistemleri.

YOLO Uygulamaları

YOLO , katı gecikme bütçeleri ile kısıtlanan ortamlarda üstünlük sağlar.

  • Yüksek Hızlı Üretim: Bilgisayarlı görüş sistemlerinin hızlı konveyör bantlarına ayak uydurması gereken endüstriyel hatlar.
  • Video Analitiği: Verim maliyetinin birincil endişe kaynağı olduğu büyük hacimli video akışlarının işlenmesi.

Ultralytics Avantajı

Her iki model de teknik açıdan etkileyici olsa da, Ultralytics ekosistemiiçinde bir model seçmek - YOLOv9 veya son teknoloji YOLO11-geliştiriciler ve işletmeler için belirgin avantajlar sunar.

Sorunsuz İş Akışı ve Kullanılabilirlik

Ultralytics kullanım kolaylığına öncelik verir. Modellere, karmaşık şablon kodunu soyutlayan birleşik bir arayüz aracılığıyla erişilebilir. İster özel veriler üzerinde eğitim alıyor olun, ister çıkarım yapıyor olun, süreç tutarlı ve sezgiseldir.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Bakımlı Ekosistem

Ultralytics modelleri aktif bir topluluk tarafından desteklenir ve sık sık güncellenir. Gibi özellikler Ultralytics HUBTensorBoard ve MLflow gibi araçlarla kapsamlı entegrasyonlar MLOps yaşam döngüsünü kolaylaştırırken, web tabanlı veri kümesi yönetimi ve eğitimine izin verir. Buna karşılık, YOLO gibi araştırma modelleri genellikle bu düzeyde sürekli destek ve araç entegrasyonundan yoksundur.

Çok Yönlülük ve Verimlilik

Ultralytics modelleri çok yönlü olacak şekilde tasarlanmıştır. YOLO algılamaya özelken, YOLO11 gibi Ultralytics modelleri yetenekleri örnek segmentasyonu, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) algılamaya kadar genişletir. Ayrıca, bellek verimliliği için optimize edilmişlerdir ve eğitim sırasında diğer mimarilere kıyasla genellikle daha az CUDA belleği gerektirerek donanım maliyetlerinden tasarruf sağlarlar.

Sonuç

YOLOv9 ile YOLO karşılaştırmasında her iki model de yapay zekadaki hızlı gelişmeleri gözler önüne seriyor. YOLO , saf hız optimizasyonu için cazip bir mimari sunmaktadır. Ancak, YOLOv9 çoğu pratik uygulama için daha sağlam bir çözüm olarak öne çıkmaktadır. Parametre başına üstün doğruluk sağlar, bilgi kaybını önlemek için gelişmiş bir mimari kullanır ve gelişen Ultralytics ekosistemi içinde yer alır. Performans, kullanım kolaylığı ve uzun vadeli destek arasında en iyi dengeyi arayan geliştiriciler için Ultralytics modelleri önerilen seçim olmaya devam etmektedir.

Diğer Modelleri İnceleyin

Diğer son teknoloji modellerin dokümanlarımızda nasıl karşılaştırıldığını keşfedin:


Yorumlar