YOLOv7 ve YOLOv9: Ayrıntılı Teknik Karşılaştırma
Nesne algılama için bir YOLO modeli seçerken, farklı versiyonlar arasındaki nüansları anlamak çok önemlidir. Bu sayfa, Tayvan, Academia Sinica, Bilgi Bilimi Enstitüsü'ndeki araştırmacılar tarafından geliştirilen YOLO serisindeki iki önemli model olan YOLOv7 ve YOLOv9 arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Bir sonraki bilgisayar görüşü projeniz için bilinçli bir karar vermenize yardımcı olmak için mimari yeniliklerini, performans kıyaslamalarını ve çeşitli uygulamalar için uygunluğunu inceleyeceğiz.
YOLOv7: Verimli ve Hızlı Nesne Algılama
Temmuz 2022'de piyasaya sürülen YOLOv7, gerçek zamanlı nesne tespiti için hem hızı hem de doğruluğu önemli ölçüde optimize etmeyi amaçlayan ve o zamanlar verimlilik için yeni standartlar belirleyen bir dönüm noktası modeliydi.
Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica, Tayvan
Tarih: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Belgeler: https://docs.ultralytics.com/models/yolov7/
Mimari ve Temel Özellikler
YOLOv7'nin tasarım felsefesi, doğruluktan ödün vermeden çıkarım hızını en üst düzeye çıkarmaya odaklanır. Bu dengeyi sağlamak için çeşitli temel mimari unsurlar ve eğitim stratejileri sunmuştur:
- Genişletilmiş Verimli Katman Toplama Ağı (E-ELAN): Backbone'un bu temel bileşeni, özellik toplamayı daha verimli bir şekilde yöneterek ağın öğrenme yeteneğini geliştirir. Araştırma makalesinde ayrıntılı olarak açıklandığı gibi, modelin hesaplama maliyetinde önemli bir artış olmadan daha sağlam özellikler öğrenmesini sağlar.
- Bileşik Model Ölçekleme: YOLOv7, farklı hesaplama bütçelerine uygun bir dizi model boyutu arasında etkili optimizasyon sağlayarak model derinliği ve genişliği için bileşik ölçekleme yöntemleri sunmuştur.
- Eğitilebilir Bedava Hediyeler (Trainable Bag-of-Freebies): Bu konsept, gelişmiş veri artırma ve etiket atama stratejileri gibi çeşitli optimizasyon tekniklerinin eğitim sürecine dahil edilmesini içerir. Bu yöntemler, çıkarım maliyetine herhangi bir ek yük getirmeden nihai modelin doğruluğunu artırır.
Güçlü ve Zayıf Yönler
Güçlü Yönler
- Yüksek Çıkarım Hızı: Gerçek zamanlı uygulamalar için optimize edilmiştir, YOLOv7 belirli donanım ve toplu iş boyutu konfigürasyonlarında genellikle birçok sonraki modelden daha hızlı çıkarım sağlar.
- Yüksek Performans: Rekabetçi mAP skorları elde ederek birçok algılama görevi için güvenilir ve güçlü bir seçimdir.
- Yerleşik Model: Bir süredir mevcut olan YOLOv7, daha geniş bir benimsemeden, kapsamlı topluluk kaynaklarından ve çok sayıda kanıtlanmış dağıtım örneğinden yararlanır.
Zayıflıklar
- Daha Düşük Tepe Doğruluğu: Daha yeni YOLOv9'a kıyasla, YOLOv7 özellikle çok sayıda küçük veya örtüşen nesnenin bulunduğu karmaşık senaryolarda biraz daha düşük maksimum doğruluk sergileyebilir.
- Anchor-Based Detection: Önceden tanımlanmış anchor kutularına dayanır ve bu da bazen alışılmadık veya çok çeşitli en boy oranlarına sahip nesneleri tespit etmek için anchor-free yaklaşımlardan daha az esnek olabilir.
Kullanım Alanları
YOLOv7, çıkarım hızının en kritik faktör olduğu uygulamalar için son derece uygundur:
- Gerçek zamanlı video analizi ve gözetim sistemleri.
- Robotik ve dronlarda bulunanlar gibi kaynak kısıtlı cihazlarda Edge AI dağıtımları.
- Hızlı geri dönüşün önemli olduğu nesne algılama sistemlerinin hızlı prototipleme ve geliştirilmesi.
YOLOv7 hakkında daha fazla bilgi edinin
YOLOv9: Gelişmiş Doğruluk için Programlanabilir Gradyan Bilgisi
Şubat 2024'te tanıtılan YOLOv9, derin sinir ağlarındaki bilgi kaybı sorununu doğrudan ele alarak mimari bir evrimi temsil eder ve bu da doğrulukta önemli kazanımlara yol açar.
Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kuruluş: Institute of Information Science, Academia Sinica, Taiwan
Tarih: 2024-02-21
Arşiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Belgeler: https://docs.ultralytics.com/models/yolov9/
Mimari ve Temel Özellikler
YOLOv9, ağ üzerinden bilgi akışını iyileştirmek için tasarlanmış yeni konseptler sunar ve bu da daha etkili öğrenme ve daha yüksek doğruluk sağlar.
- Programlanabilir Gradyan Bilgisi (PGI): Bu, YOLOv9'un temel yeniliğidir. PGI, yardımcı tersine çevrilebilir dallar aracılığıyla güvenilir gradyanlar oluşturarak derin ağlarda bulunan bilgi darboğazı sorununu ele alır. Bu, daha derin katmanlardaki güncellemeler için önemli bilgilerin korunmasını sağlayarak doğru algılama için gereken temel ayrıntıların kaybını önler.
- Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN): YOLOv5'te kullanılan CSPNet gibi mimarilerin başarıları üzerine inşa edilen GELAN, yeni, yüksek verimli bir ağ mimarisidir. Parametre kullanımını ve hesaplama verimliliğini optimize ederek YOLOv9'un daha az kaynakla daha iyi performans elde etmesini sağlar.
Güçlü ve Zayıf Yönler
Güçlü Yönler
- Gelişmiş Doğruluk: PGI ve GELAN'ın kombinasyonu, özellikle daha büyük model varyantlarında belirgin olan YOLOv7'ye kıyasla üstün özellik çıkarımı ve önemli ölçüde daha yüksek mAP skorları sağlar.
- Gelişmiş Verimlilik: YOLOv9, önceki modellere göre daha az parametre ve hesaplama ile daha iyi doğruluk elde eder. Belirli bir doğruluk seviyesi için YOLOv9 genellikle YOLOv7'den daha verimlidir.
- Son Teknoloji Yenilikler: Orijinal YOLO araştırma soyundan gelen en son gelişmeleri temsil eder ve gerçek zamanlı nesne algılamada mümkün olanın sınırlarını zorlar.
Zayıflıklar
- Hesaplama Talebi: Doğruluğu için verimli olmasına rağmen, gelişmiş mimari, özellikle YOLOv9e gibi daha büyük varyantlarda, eğitim ve dağıtım için hala önemli miktarda hesaplama kaynağı gerektirebilir.
- Daha Yeni Model: Daha yeni bir sürüm olduğundan, topluluk desteği ve üçüncü taraf dağıtım eğitimleri, YOLOv7 gibi köklü bir modele göre daha az kapsamlı olabilir. Ancak, Ultralytics ekosistemine entegrasyonu, kolaylaştırılmış bir kullanıcı deneyimi sağlayarak bunu hafifletmeye yardımcı olur.
Kullanım Alanları
YOLOv9, en yüksek düzeyde doğruluk ve verimlilik gerektiren uygulamalar için ideal bir seçimdir:
- Otonom araçlar ve gelişmiş sürücü destek sistemlerindeki karmaşık tespit görevleri.
- Yanlış pozitif ve negatifleri en aza indirmeyi gerektiren yüksek hassasiyetli güvenlik sistemleri.
- Model boyutu ve hesaplama maliyetinin kritik kısıtlamalar olduğu, ancak yüksek doğruluktan ödün verilemeyeceği uygulamalar.
YOLOv9 hakkında daha fazla bilgi edinin
Performans ve Verimlilik Karşılaştırması
YOLOv7 ve YOLOv9'u doğrudan karşılaştırırken, açık bir eğilim ortaya çıkmaktadır: YOLOv9, doğruluk ve hesaplama maliyeti arasında üstün bir denge sunmaktadır. Örneğin, YOLOv9m modeli, YOLOv7l ile aynı %51,4 mAP'yi elde eder, ancak bunu parametrelerin neredeyse yarısıyla (20,0M'ye karşı 36,9M) ve daha az FLOP ile yapar. Benzer şekilde, YOLOv9c, YOLOv7x'e (53,0%'a karşı %53,1 mAP) kıyasla karşılaştırılabilir performans sunarken, YOLOv7x'in 71,3M'sine kıyasla yalnızca 25,3M parametre kullanarak önemli ölçüde daha verimlidir. Bu verimlilik kazanımı, YOLOv9'daki, özellikle daha etkili öğrenmeyi sağlayan PGI ve GELAN mimari iyileştirmelerinin doğrudan bir sonucudur.
Model | boyut (piksel) |
mAPval 50-95 |
Hız CPU ONNX (ms) |
Hız T4 TensorRT10 (ms) |
parametreler (M) |
FLOP'lar (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Sonuç ve Öneriler
Hem YOLOv7 hem de YOLOv9 zorlu nesne algılama modelleridir, ancak biraz farklı önceliklere hitap ederler.
-
YOLOv7, özellikle ham çıkarım hızının en önemli endişe olduğu ve yerleşik, yaygın olarak desteklenen bir mimarinin tercih edildiği uygulamalar için güçlü bir rakip olmaya devam ediyor. Birçok gerçek zamanlı sistem için kendini kanıtlamış bir araçtır.
-
YOLOv9, açık bir halefidir ve son teknoloji doğruluk ve verimlilik gerektiren yeni projeler için önerilen seçimdir. Yenilikçi mimarisi, derin öğrenmedeki temel sorunları çözerek, selefinden hem daha doğru hem de daha hesaplama açısından verimli bir model ortaya çıkarır.
Her iki model de mükemmel olmasına rağmen, daha entegre ve çok yönlü bir çözüm arayan geliştiriciler, Ultralytics YOLOv8 ve en son YOLO11 gibi Ultralytics ekosisteminden modelleri de değerlendirmelidir. Bu modeller, kolaylaştırılmış bir kullanıcı deneyimi, kapsamlı dokümantasyon ve tek, iyi yönetilen bir çerçeve içinde örnek segmentasyonu, poz tahmini ve sınıflandırma dahil olmak üzere algılamanın ötesinde çok çeşitli görevler için destek sunar.
Diğer Modelleri İnceleyin
Daha fazla karşılaştırma ve diğer son teknoloji modelleri keşfetmek için Ultralytics belgelerindeki bu diğer sayfalara göz atın:
- YOLOv5: Performansı ve yaygın olarak benimsenmesiyle bilinir.
- YOLOv8: Çoklu görme görevlerini destekleyen çok yönlü ve güçlü bir modeldir.
- YOLOv10: NMS ihtiyacını ortadan kaldırarak gerçek zamanlı, uçtan uca nesne algılamaya odaklanır.
- YOLO11: Ultralytics'in en son teknoloji modeli olup, üst düzey performans ve verimlilik sunmaktadır.
- RT-DETR: Farklı bir mimari yaklaşım sunan, transformer tabanlı bir dedektör.