YOLOX ve YOLOv9: Yüksek Performanslı Nesne Algılamanın Evrimi
Hızla gelişen bilgisayar görme alanında, doğru nesne algılama modelini seçmek, doğruluk, hız ve dağıtım karmaşıklığı arasında denge sağlamak için çok önemlidir. Bu karşılaştırma, YOLO iki önemli dönüm noktasını ele almaktadır: 2021 yılında piyasaya sürülen sağlam, bağlantısız bir algılayıcı olan YOLOX ve YOLOv9, üstün özellik koruma için Programlanabilir Gradyan Bilgisi (PGI) sunan 2024 mimarisi.
YOLOX: Bağlantısız Öncü
YOLOX, çapa tabanlı mekanizmalardan çapasız tasarıma geçerek YOLO önemli bir değişimi temsil etti. Bu sadeleştirme, manuel çapa kutusu ayarlamasına olan ihtiyacı ortadan kaldırarak modeli çeşitli veri kümelerine ve en boy oranlarına daha uyumlu hale getirdi. Ayrıştırılmış kafa ve gelişmiş SimOTA etiket atama stratejisini bir araya getiren YOLOX, piyasaya sürüldüğünde en son teknolojiye sahip sonuçlar elde ederek akademik araştırma ile endüstriyel uygulama arasındaki boşluğu doldurdu.
- Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
- Kuruluş:Megvii
- Tarih: 2021-07-18
- Arxiv:YOLOX: 2021'de YOLO Serisini Aşmak
- GitHub:Megvii-BaseDetection/YOLOX
YOLOX hakkında daha fazla bilgi edinin
Temel Mimari Özellikler
- Anchor-Free Mekanizması: Anchor box kümelenmesinin karmaşıklığını ortadan kaldırarak tasarım parametrelerinin sayısını azaltır ve genellemeyi iyileştirir.
- Ayrıştırılmış Başlık: Sınıflandırma ve regresyon görevlerini farklı dallara ayırarak, bu iki hedef arasındaki çelişkiyi giderir ve yakınsama hızını artırır.
- SimOTA Etiket Atama: Eğitim sürecini optimal taşıma problemi olarak gören ve statik IoU daha etkili bir şekilde tahminlere gerçek değerleri atayan dinamik bir etiket atama stratejisi.
YOLOv9: Derin Öğrenme için Programlanabilir Gradyanlar
YOLOv9 derin sinir ağlarında bilgi kaybı gibi temel bir sorunu ele almaktadır. Ağlar derinleştikçe, ileri yayılma sırasında önemli özellik bilgileri kaybolabilir. YOLOv9 , ağ katmanları boyunca kritik verileri korumak için Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) özelliklerini YOLOv9 . Bu, yüksek verimliliği korurken, özellikle hafif modellerde algılama doğruluğunda önemli iyileştirmeler sağlar.
- Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
- Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica
- Tarih: 2024-02-21
- Arxiv:YOLOv9: Programlanabilir Gradyan Bilgisi Kullanarak Ne Öğrenmek İstediğinizi Öğrenme
- GitHub:WongKinYiu/yolov9
- Belgeler:Ultralytics YOLOv9 Belgeleri
YOLOv9 hakkında daha fazla bilgi edinin.
Temel Mimari Özellikler
- GELAN Mimarisi: CSPNet ve ELAN tasarım ilkelerini birleştirerek parametre verimliliğini ve hesaplama hızını en üst düzeye çıkarır ve modelin çeşitli donanımlarda etkili bir şekilde çalışmasını sağlar.
- Programlanabilir Gradyan Bilgisi (PGI): Ağ ağırlıklarını güncellemek için güvenilir gradyanlar üreten ve ana dalın çok derin mimarilerde bile tam özellikleri öğrenmesini sağlayan yardımcı bir denetim çerçevesi.
- Tersine Çevrilebilir İşlevler: Verilerin etkili bir şekilde yeniden yapılandırılmasını sağlayarak ve katmanlar arasında anlamsal bilgileri koruyarak bilgi darboğazı sorununu azaltır.
Performans Karşılaştırması
Bu modelleri değerlendirirken, YOLOv9 genel olarak doğruluk-parametre oranı açısından YOLOX'tan daha iyi performans gösterir. YOLOX-x %51,1 mAP saygıdeğer bir sonuç elde ederken, daha yeni olan YOLOv9c %53,0 mAP ile onu geride bırakır ve bunu önemli ölçüde daha az parametre (25,3 milyon karşı 99,1 milyon) ve daha az hesaplama gücü kullanarak başarır. Bu verimlilik, YOLOv9 donanım kaynaklarının sınırlı olduğu ancak yüksek doğruluk gerektiren gerçek zamanlı uygulamalar için daha güçlü YOLOv9 aday haline getirir.
Ancak YOLOX, eski kenar cihazları için hala oldukça önemlidir. Daha basit, bağlantı noktası içermeyen tasarımı, GELAN gibi yeni modellerde bulunan karmaşık katman birleşimlerini tam olarak desteklemeyen belirli mobil yonga setleri veya NPU mimarileri için bazen daha kolay optimize edilebilir.
Ayrıntılı Metrikler
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Verimlilik Özeti
YOLOv9c'nin, yaklaşık %75 daha az parametre kullanarak en büyük YOLOX-x'ten (51,1% mAP) daha yüksek doğruluk (53,0% mAP) elde ettiğini unutmayın. Bu, bu sürümler arasındaki üç yıl içinde mimari verimlilikte hızlı bir ilerleme olduğunu göstermektedir.
Ultralytics ile Eğitim ve Kullanım Kolaylığı
Geliştiriciler için kritik bir fark yaratıcı unsur, modeli çevreleyen ekosistemdir. YOLOv9 , Ultralytics tamamen entegre edilmiştir ve kullanılabilirlik açısından önemli bir avantaj sağlar.
Ultralytics'in Avantajı
Ultralytics Python kullanarak, birleşik sözdizimi ile en son teknolojiye sahip modellere erişebilirsiniz. YOLOX gibi orijinal araştırma uygulamalarında sıklıkla bir engel teşkil eden karmaşık depoları klonlamanıza veya C++ operatörlerini manuel olarak derlemenize gerek yoktur.
from ultralytics import YOLO
# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")
# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
Bu entegrasyon şunları sağlar:
- Optimize edilmiş iş akışı: Algılama, segmentasyon ve poz tahmin görevleri arasında sorunsuz bir şekilde geçiş yapın.
- Bellek Verimliliği: Ultralytics boru hatları, tüketici donanımı için optimize edilmiştir ve genellikle dönüştürücü tabanlı alternatiflerden veya optimize edilmemiş araştırma kod tabanlarından daha az GPU gerektirir.
- Dağıtım Hazırlığı: Yerleşik dışa aktarma işlevleri, eğitilmiş modelleri ONNX, TensorRT, CoreML ve TFLite dönüştürmenizi TFLite
Gerçek Dünya Uygulamaları
Bu modeller arasında seçim yapmak, özel dağıtım kısıtlamalarınıza bağlıdır.
Yüksek Hızlı Perakende Analitiği
Kenar cihazlarda gerçek zamanlı ürün tanıma gerektiren perakende ortamları için, YOLOv9 genellikle en iyi seçimdir. GELAN mimarisi, NVIDIA Orin Nano gibi cihazlarda yüksek verim sağlar ve önemli bir gecikme olmadan otomatik ödeme veya raf stok analizi gibi özellikleri mümkün kılar.
Eski Mobil Dağıtım
Eski mobil donanımların veya basit konvolüsyon modellerini tercih eden belirli NPU mimarilerinin kullanıldığı senaryolarda, YOLOX-Nano veya YOLOX-Tiny hala tercih edilebilir. Karmaşık toplama blokları içermeyen, tamamen çapa içermeyen tasarımları, bazen çok kısıtlı mikrodenetleyicilerde veya eski Android niceleme ve dağıtım açısından daha kolay olabilir.
Otonom Robotik
Çarpışmaları önlemek için doğruluğun en üst düzeye çıkarılmasının çok önemli olduğu robotik uygulamalarında, YOLOv9e'nin üstün özellik koruma özelliği, eski modellerin sunamadığı bir güvenlik marjı sağlar. PGI çerçevesi, karmaşık ortamlarda navigasyon için çok önemli olan özellik çıkarma sürecinde küçük engellerin kaybolmamasını sağlar.
Gelecek: YOLO26'ya girin
YOLOv9 olağanüstü bir performans YOLOv9 , yapay zeka alanı da sürekli gelişmeye devam ediyor. Yeni piyasaya sürülen YOLO26, bu temeller üzerine inşa edilerek hız ve hassasiyet arasında mükemmel bir denge sunuyor.
YOLO26, uçtan uca NMS bir tasarım sunarak, çıkarım sırasında Non-Maximum Suppression ihtiyacını tamamen ortadan kaldırır. Bu sayede, dağıtım süreçleri önemli ölçüde basitleşir ve yürütme hızları artar. Ayrıca, Dağıtım Odak Kaybını (DFL) ortadan kaldırarak ve yeni MuSGD optimizasyon aracını ( SGD Muon'un bir karışımı) kullanarak, YOLO26 önceki nesillere kıyasla %43'e kadar daha hızlı CPU ulaşır ve modern uç bilgi işlem için ideal seçimdir.
Sınıfının en iyisini arayan geliştiriciler için, bilgisayar görüşündeki bu son teknoloji gelişmelerden yararlanmak üzere bir sonraki projeniz için YOLO26'yı değerlendirmenizi öneririz.
Keşfedilebilecek Benzer Modeller
- YOLO11: YOLO26'nın güçlü bir öncülü olan bu model, çeşitli görme görevlerinde mükemmel çok yönlülük sunar.
- RT-DETR: NMS de ortadan kaldıran transformatör tabanlı bir dedektör, saf çıkarım hızından çok yüksek doğruluğun öncelikli olduğu senaryolar için idealdir.
- YOLOv10: NMS eğitim paradigmasını tanıtan ilk YOLO olup, modern YOLO26 mimarisine köprü görevi görmektedir.