İçeriğe geç

YOLOv9 - YOLOv7 Karşılaştırması: Nesne Algılama Evrimine Derinlemesine Bir Bakış

Bilgisayar görüşü alanı, mimari atılımların sürekli olarak hız ve doğruluk sınırlarını yeniden tanımladığı hızlı bir yenilikle karakterizedir. Bu yolculuktaki iki önemli kilometre taşı YOLOv9 ve YOLOv7'dir. Her iki model de Chien-Yao Wang ve meslektaşlarının araştırmalarından kaynaklanmaktadır ve "You Only Look Once" ailesinin farklı nesillerini temsil etmektedir.

YOLOv7 2022'de piyasaya sürüldüğünde gerçek zamanlı nesne algılama için standardı belirlerken, YOLOv9 derin ağlarda bilgi kaybını gidermek için yeni mekanizmalarla 2024'te ortaya çıktı. Bu karşılaştırma, geliştiricilerin ihtiyaçları için en uygun modeli seçmelerine yardımcı olmak için teknik özelliklerini, mimari farklılıklarını ve pratik uygulamalarını inceler.

Performans Metrikleri ve Verimlilik

YOLOv7'den YOLOv9'a geçiş, en çok hesaplama maliyeti ve tespit performansı arasındaki dengede görülür. YOLOv9, önemli verimlilik kazanımları sağlayarak, önceki modele kıyasla daha az parametreyle daha yüksek ortalama Ortalama Hassasiyet (mAP) elde etmesini sağlar.

Örneğin, YOLOv9m modeli, YOLOv7l ile aynı %51.4 mAPval değerini elde eder, ancak parametrelerin neredeyse yarısını (20.0M'a karşı 36.9M) ve önemli ölçüde daha az FLOPs kullanır. Bu verimlilik, YOLOv9'u donanım kaynaklarının kısıtlı olduğu uç yapay zeka uygulamaları için özellikle cazip kılar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9, derin sinir ağlarının katmanlar aracılığıyla veri iletimini nasıl ele aldığı konusunda bir paradigma değişimini temsil etmektedir. 2024'ün başlarında yayınlanan bu sürüm, özellikle derin bir ağın ardışık katmanlarından geçerken verilerin kaybolduğu "bilgi darboğazı" sorununu hedeflemektedir.

Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica
Tarih: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Belgeler:Ultralytics YOLOv9

Mimari Yenilik

YOLOv9'daki temel yenilik, Programlanabilir Gradyan Bilgisi (PGI)'nin tanıtılmasıdır. PGI, gradyanların başlangıç katmanlarına güvenilir bir şekilde geri yayılmasını sağlayan ve aksi takdirde özellik çıkarımı sırasında kaybolabilecek temel girdi bilgilerini koruyan yardımcı bir denetim çerçevesi sağlar.

PGI'yi tamamlayan Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) vardır. Bu mimari, geliştiricilerin çeşitli hesaplama bloklarını (CSP veya ResBlocks gibi) esnek bir şekilde yığmasına olanak tanıyarak, doğruluğu feda etmeden belirli donanım kısıtlamaları için model ağırlıklarını optimize eder.

Güçlü ve Zayıf Yönler

  • Güçlü Yönler:
    • Üstün Doğruluk: COCO veri kümesinde son teknoloji sonuçlar elde eder ve YOLOv9-E modeli %55,6 mAP'ye ulaşır.
    • Parametre Verimliliği: Çıkarım sırasında bellek gereksinimlerini azaltarak, önemli ölçüde daha az parametre kullanarak eski modellere kıyasla benzer performans sunar.
    • Bilgi Koruma: Gradyan akışındaki teorik iyileştirmeler, daha iyi yakınsama ve özellik gösterimine yol açar.
  • Zayıflıklar:
    • Eğitim Karmaşıklığı: Eğitim sırasında kullanılan (ve çıkarım için kaldırılan) yardımcı dallar, daha basit mimarilere kıyasla eğitim aşamasında GPU belleği kullanımını artırabilir.

YOLOv9 hakkında daha fazla bilgi edinin

YOLOv7: Ücretsiz Avantajlar Paketi Standardı

YOLOv9'dan önce, YOLOv7 YOLO ailesinin hükmeden üyesiydi. Çıkarım maliyetlerini artırmadan eğitim sürecini optimize etmeye odaklanan mimari iyileştirmeler getirdi, bu kavram "bedava hediyeler" olarak bilinir.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica
Tarih: 2022-07-06
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Belgeler:Ultralytics YOLOv7

Mimari Genel Bakış

YOLOv7, ağın öğrenme yeteneğini geliştirmek için en kısa ve en uzun gradyan yollarını kontrol eden E-ELAN (Genişletilmiş Verimli Katman Toplama Ağı)'nı tanıttı. Ayrıca, farklı hedef cihazlar için optimum mimari sağlayarak ağın derinliğini ve genişliğini aynı anda değiştiren model ölçekleme tekniklerini kullandı.

Güçlü ve Zayıf Yönler

  • Güçlü Yönler:
    • Kanıtlanmış Güvenilirlik: Kapsamlı topluluk kullanımı ve birkaç yıldır doğrulama, onu eski sistemler için istikrarlı bir seçim haline getirir.
    • Yüksek Hız: Standart GPU donanımında gerçek zamanlı çıkarım için özel olarak optimize edilmiştir.
  • Zayıflıklar:
    • Daha Düşük Verimlilik: YOLOv9 veya YOLO11 gibi daha yeni modellerin daha hafif mimarilerle elde edebileceği doğruluk düzeylerini yakalamak için daha fazla parametre ve FLOP gerektirir.
    • Eski Araçlar: Modern Ultralytics ekosisteminde bulunan bazı yerel entegrasyonlara ve kullanım kolaylığı özelliklerine sahip değildir.

YOLOv7 hakkında daha fazla bilgi edinin

İdeal Kullanım Alanları ve Uygulamaları

Bu iki model arasındaki seçim genellikle dağıtım ortamının özel kısıtlamalarına ve görevin gerekli hassasiyetine bağlıdır.

Ne Zaman YOLOv9 Seçmeli

YOLOv9, en yüksek doğruluk-verimlilik oranını talep eden senaryolar için mükemmeldir.

  • Otonom Navigasyon: Sürücüsüz arabalarda, küçük nesneleri uzun mesafelerde detect etmek kritik öneme sahiptir. YOLOv9'un bilgiyi koruma yeteneği, uzaktaki tehlikeleri tanımaya yardımcı olur.
  • Tıbbi Görüntüleme: Pozitif bir tespiti kaçırmanın kritik olduğu tümör tespiti gibi görevler için, YOLOv9'un yüksek hatırlama ve doğruluğu faydalıdır.
  • Uç Cihazlar: yolov9t varyantı, ... için sağlam bir çözüm sunar IoT cihazları Raspberry Pi'ler gibi, minimum işlem yüküyle iyi doğruluk sunar.

Ne Zaman YOLOv7 Seçmeli

YOLOv7, mimarisi için zaten optimize edilmiş mevcut işlem hatları için hala geçerlidir.

  • Eski Sistemler: Kalite kontrolü için YOLOv7'yi doğrulamış endüstriyel üretim hatları, hemen yükseltmek yerine tutarlılığı korumayı tercih edebilir.
  • Araştırma Temelleri: Akademik araştırmalarda yeni detect stratejilerini yerleşik standartlara göre karşılaştırmak için mükemmel bir ölçüt görevi görür.

Ultralytics ile Performans Dengesi

YOLOv9 ve YOLOv7 güçlü olsa da, hız, doğruluk ve geliştirici deneyiminin nihai dengesini arayan geliştiriciler Ultralytics YOLO11'i düşünmelidir. YOLO11, önceki nesillerin en iyi özelliklerini, tek bir çerçevede algılama, segmentasyon, poz tahmini ve sınıflandırmayı destekleyen aerodinamik bir API ile entegre eder.

Ultralytics'in Avantajı

Bu modelleri Ultralytics ekosistemi içinde kullanmak, ham araştırma havuzlarını kullanmaya göre belirgin avantajlar sağlar. Ultralytics Python API'si, karmaşık şablon kodlarını soyutlayarak araştırmacıların ve mühendislerin verilere ve sonuçlara odaklanmasına olanak tanır.

  1. Kullanım Kolaylığı: Birleşik bir arayüz, tek bir kod satırıyla YOLOv8, YOLOv9 ve YOLO11 arasında geçiş yapmanızı sağlar.
  2. Eğitim Verimliliği: Ultralytics modelleri, daha hızlı yakınsama için optimize edilmiştir ve genellikle yüksek doğruluğa ulaşmak için daha az eğitim verisi gerektirir.
  3. Bellek Gereksinimleri: Çerçeve, CUDA belleği kullanımını en aza indirecek şekilde tasarlanmıştır ve bu da bellek yoğun Transformatör modellerine kıyasla tüketici sınıfı donanımda daha büyük toplu iş boyutlarının eğitilmesini sağlar.
  4. Çeşitlilik: Basit sınırlayıcı kutuların ötesinde, ekosistem örnek segmentasyonunu, poz tahminini ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) görevlerini destekleyerek, çeşitli yapay zeka zorlukları için kapsamlı bir araç haline gelir.

Uygulama Örneği

Ultralytics kütüphanesi ile bu modelleri çalıştırmak oldukça kolaydır. Aşağıdaki kod parçacığı, önceden eğitilmiş bir modelin nasıl yükleneceğini ve bir görüntü üzerinde çıkarım yapmanın nasıl gerçekleştirileceğini gösterir.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on a local image
results = model.predict("path/to/image.jpg", save=True, conf=0.5)

# Process results
for result in results:
    result.show()  # Display predictions

Özel veri kümeleri üzerinde eğitim almak isteyenler için, süreç çerçeveye yerleştirilmiş güçlü hiperparametre ayarlama ve veri artırma stratejileri kullanılarak eşit derecede basittir.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Sonuç

Hem YOLOv9 hem de YOLOv7, bilgisayar görüşü alanında önemli başarılara imza atmıştır. YOLOv9, yenilikçi PGI ve GELAN mimarileri aracılığıyla üstün parametre verimliliği ve doğruluğu sunan açık bir teknik halefidir. Belirli Wang ve ark. araştırma soyundan yüksek performans arayan kullanıcılar için önerilen seçimdir.

Ancak, en bütünsel yapay zeka geliştirme deneyimini arayan geliştiriciler için Ultralytics YOLO11 en iyi öneri olmaya devam ediyor. Aktif bakımı, kapsamlı belgeleri ve çok modlu görevler için geniş desteği ile YOLO11, projelerinizin geleceğe dönük ve üretime hazır olmasını sağlar.

Diğer Modelleri İnceleyin

Nesne algılama alanına ilişkin anlayışınızı daha da genişletmek için, bu ilgili modelleri ve karşılaştırmaları keşfetmeyi düşünebilirsiniz:

  • YOLO11 - YOLOv9'a Karşı - En son Ultralytics modelini YOLOv9 ile karşılaştırın.
  • YOLOv8 - YOLOv7 Karşılaştırması - Önceki neslin nasıl bir performans sergilediğine bakın.
  • RT-DETR - YOLOv9 Karşılaştırması - Transformer tabanlı tespite karşı CNN'lere bir bakış.
  • YOLOv10 - Gerçek zamanlı, uçtan uca nesne algılama modelini keşfedin.
  • Ultralytics HUB - Modellerinizi eğitmek ve dağıtmak için en kolay yol.

Yorumlar