YOLOX ve YOLOv9: Yüksek Performanslı Nesne Algılamanın Evrimi

Hızla gelişen bilgisayar görme alanında, doğru nesne algılama modelini seçmek, doğruluk, hız ve dağıtım karmaşıklığı arasında denge sağlamak için çok önemlidir. Bu karşılaştırma, YOLO iki önemli dönüm noktasını ele almaktadır: 2021 yılında piyasaya sürülen sağlam, bağlantısız bir algılayıcı olan YOLOX ve YOLOv9, üstün özellik koruma için Programlanabilir Gradyan Bilgisi (PGI) sunan 2024 mimarisi.

YOLOX: Bağlantısız Öncü

YOLOX, çapa tabanlı mekanizmalardan çapasız tasarıma geçerek YOLO önemli bir değişimi temsil etti. Bu sadeleştirme, manuel çapa kutusu ayarlamasına olan ihtiyacı ortadan kaldırarak modeli çeşitli veri kümelerine ve en boy oranlarına daha uyumlu hale getirdi. Ayrıştırılmış kafa ve gelişmiş SimOTA etiket atama stratejisini bir araya getiren YOLOX, piyasaya sürüldüğünde en son teknolojiye sahip sonuçlar elde ederek akademik araştırma ile endüstriyel uygulama arasındaki boşluğu doldurdu.

Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş:Megvii
Tarih: 2021-07-18
Arxiv:YOLOX: 2021'de YOLO Serisini Aşmak
GitHub:Megvii-BaseDetection/YOLOX

YOLOX hakkında daha fazla bilgi edinin

Temel Mimari Özellikler

Anchor-Free Mekanizması: Anchor box kümelenmesinin karmaşıklığını ortadan kaldırarak tasarım parametrelerinin sayısını azaltır ve genellemeyi iyileştirir.
Ayrıştırılmış Başlık: Sınıflandırma ve regresyon görevlerini farklı dallara ayırarak, bu iki hedef arasındaki çelişkiyi giderir ve yakınsama hızını artırır.
SimOTA Etiket Atama: Eğitim sürecini optimal taşıma problemi olarak gören ve statik IoU daha etkili bir şekilde tahminlere gerçek değerleri atayan dinamik bir etiket atama stratejisi.

YOLOv9: Derin Öğrenme için Programlanabilir Gradyanlar

YOLOv9 derin sinir ağlarında bilgi kaybı gibi temel bir sorunu ele almaktadır. Ağlar derinleştikçe, ileri yayılma sırasında önemli özellik bilgileri kaybolabilir. YOLOv9 , ağ katmanları boyunca kritik verileri korumak için Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) özelliklerini YOLOv9 . Bu, yüksek verimliliği korurken, özellikle hafif modellerde algılama doğruluğunda önemli iyileştirmeler sağlar.

Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica
Tarih: 2024-02-21
Arxiv:YOLOv9: Programlanabilir Gradyan Bilgisi Kullanarak Ne Öğrenmek İstediğinizi Öğrenme
GitHub:WongKinYiu/yolov9
Belgeler:Ultralytics YOLOv9 Belgeleri

YOLOv9 hakkında daha fazla bilgi edinin.

Temel Mimari Özellikler

GELAN Mimarisi: CSPNet ve ELAN tasarım ilkelerini birleştirerek parametre verimliliğini ve hesaplama hızını en üst düzeye çıkarır ve modelin çeşitli donanımlarda etkili bir şekilde çalışmasını sağlar.
Programlanabilir Gradyan Bilgisi (PGI): Ağ ağırlıklarını güncellemek için güvenilir gradyanlar üreten ve ana dalın çok derin mimarilerde bile tam özellikleri öğrenmesini sağlayan yardımcı bir denetim çerçevesi.
Tersine Çevrilebilir İşlevler: Verilerin etkili bir şekilde yeniden yapılandırılmasını sağlayarak ve katmanlar arasında anlamsal bilgileri koruyarak bilgi darboğazı sorununu azaltır.

Performans Karşılaştırması

Bu modelleri değerlendirirken, YOLOv9 genel olarak doğruluk-parametre oranı açısından YOLOX'tan daha iyi performans gösterir. YOLOX-x %51,1 mAP saygıdeğer bir sonuç elde ederken, daha yeni olan YOLOv9c %53,0 mAP ile onu geride bırakır ve bunu önemli ölçüde daha az parametre (25,3 milyon karşı 99,1 milyon) ve daha az hesaplama gücü kullanarak başarır. Bu verimlilik, YOLOv9 donanım kaynaklarının sınırlı olduğu ancak yüksek doğruluk gerektiren gerçek zamanlı uygulamalar için daha güçlü YOLOv9 aday haline getirir.

Ancak YOLOX, eski kenar cihazları için hala oldukça önemlidir. Daha basit, bağlantı noktası içermeyen tasarımı, GELAN gibi yeni modellerde bulunan karmaşık katman birleşimlerini tam olarak desteklemeyen belirli mobil yonga setleri veya NPU mimarileri için bazen daha kolay optimize edilebilir.

Ayrıntılı Metrikler

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Verimlilik Özeti

YOLOv9c'nin, yaklaşık %75 daha az parametre kullanarak en büyük YOLOX-x'ten (51,1% mAP) daha yüksek doğruluk (53,0% mAP) elde ettiğini unutmayın. Bu, bu sürümler arasındaki üç yıl içinde mimari verimlilikte hızlı bir ilerleme olduğunu göstermektedir.

Ultralytics ile Eğitim ve Kullanım Kolaylığı

Geliştiriciler için kritik bir fark yaratıcı unsur, modeli çevreleyen ekosistemdir. YOLOv9 , Ultralytics tamamen entegre edilmiştir ve kullanılabilirlik açısından önemli bir avantaj sağlar.

Ultralytics'in Avantajı

Ultralytics Python kullanarak, birleşik sözdizimi ile en son teknolojiye sahip modellere erişebilirsiniz. YOLOX gibi orijinal araştırma uygulamalarında sıklıkla bir engel teşkil eden karmaşık depoları klonlamanıza veya C++ operatörlerini manuel olarak derlemenize gerek yoktur.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

Bu entegrasyon şunları sağlar:

Optimize edilmiş iş akışı: Algılama, segmentasyon ve poz tahmin görevleri arasında sorunsuz bir şekilde geçiş yapın.
Bellek Verimliliği: Ultralytics boru hatları, tüketici donanımı için optimize edilmiştir ve genellikle dönüştürücü tabanlı alternatiflerden veya optimize edilmemiş araştırma kod tabanlarından daha az GPU gerektirir.
Dağıtım Hazırlığı: Yerleşik dışa aktarma işlevleri, eğitilmiş modelleri ONNX, TensorRT, CoreML ve TFLite dönüştürmenizi TFLite

Gerçek Dünya Uygulamaları

Bu modeller arasında seçim yapmak, özel dağıtım kısıtlamalarınıza bağlıdır.

Yüksek Hızlı Perakende Analitiği

Kenar cihazlarda gerçek zamanlı ürün tanıma gerektiren perakende ortamları için, YOLOv9 genellikle en iyi seçimdir. GELAN mimarisi, NVIDIA Orin Nano gibi cihazlarda yüksek verim sağlar ve önemli bir gecikme olmadan otomatik ödeme veya raf stok analizi gibi özellikleri mümkün kılar.

Eski Mobil Dağıtım

Eski mobil donanımların veya basit konvolüsyon modellerini tercih eden belirli NPU mimarilerinin kullanıldığı senaryolarda, YOLOX-Nano veya YOLOX-Tiny hala tercih edilebilir. Karmaşık toplama blokları içermeyen, tamamen çapa içermeyen tasarımları, bazen çok kısıtlı mikrodenetleyicilerde veya eski Android niceleme ve dağıtım açısından daha kolay olabilir.

Otonom Robotik

Çarpışmaları önlemek için doğruluğun en üst düzeye çıkarılmasının çok önemli olduğu robotik uygulamalarında, YOLOv9e'nin üstün özellik koruma özelliği, eski modellerin sunamadığı bir güvenlik marjı sağlar. PGI çerçevesi, karmaşık ortamlarda navigasyon için çok önemli olan özellik çıkarma sürecinde küçük engellerin kaybolmamasını sağlar.

Gelecek: YOLO26'ya girin

YOLOv9 olağanüstü bir performans YOLOv9 , yapay zeka alanı da sürekli gelişmeye devam ediyor. Yeni piyasaya sürülen YOLO26, bu temeller üzerine inşa edilerek hız ve hassasiyet arasında mükemmel bir denge sunuyor.

YOLO26, uçtan uca NMS bir tasarım sunarak, çıkarım sırasında Non-Maximum Suppression ihtiyacını tamamen ortadan kaldırır. Bu sayede, dağıtım süreçleri önemli ölçüde basitleşir ve yürütme hızları artar. Ayrıca, Dağıtım Odak Kaybını (DFL) ortadan kaldırarak ve yeni MuSGD optimizasyon aracını ( SGD Muon'un bir karışımı) kullanarak, YOLO26 önceki nesillere kıyasla %43'e kadar daha hızlı CPU ulaşır ve modern uç bilgi işlem için ideal seçimdir.

Sınıfının en iyisini arayan geliştiriciler için, bilgisayar görüşündeki bu son teknoloji gelişmelerden yararlanmak üzere bir sonraki projeniz için YOLO26'yı değerlendirmenizi öneririz.

Keşfedilebilecek Benzer Modeller

YOLO11: YOLO26'nın güçlü bir öncülü olan bu model, çeşitli görme görevlerinde mükemmel çok yönlülük sunar.
RT-DETR: NMS de ortadan kaldıran transformatör tabanlı bir dedektör, saf çıkarım hızından çok yüksek doğruluğun öncelikli olduğu senaryolar için idealdir.
YOLOv10: NMS eğitim paradigmasını tanıtan ilk YOLO olup, modern YOLO26 mimarisine köprü görevi görmektedir.

YOLOX ve YOLOv9: Yüksek Performanslı Nesne Algılamanın Evrimi

YOLOX: Bağlantısız Öncü

Temel Mimari Özellikler

YOLOv9: Derin Öğrenme için Programlanabilir Gradyanlar

Temel Mimari Özellikler

Performans Karşılaştırması

Ayrıntılı Metrikler

Ultralytics ile Eğitim ve Kullanım Kolaylığı

Ultralytics'in Avantajı

Gerçek Dünya Uygulamaları

Yüksek Hızlı Perakende Analitiği

Eski Mobil Dağıtım

Otonom Robotik

Gelecek: YOLO26'ya girin

Keşfedilebilecek Benzer Modeller

Yorumlar