YOLOv9 ile YOLOX: Modern Nesne Tespiti Üzerine Teknik Bir Derinlemesine İnceleme

Bilgisayarlı görü alanı, gerçek zamanlı nesne tespiti mimarilerinde hızlı bir evrime tanık oldu. Bu kılavuz, YOLOv9 ve YOLOX arasında kapsamlı bir karşılaştırma sunarak mimari yeniliklerini, performans metriklerini ve eğitim metodolojilerini analiz ediyor. İster üretimde yapay zeka için akıllı uygulamalar geliştiriyor ol, ister tahminleyici modelleme çalışmaları yapıyor ol, bu modelleri anlaman bir sonraki dağıtımın için bilinçli kararlar almana yardımcı olacak.

Mimari Yenilikler

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9, derin sinir ağlarında doğal olarak bulunan bilgi darboğazı sorununu ele alarak bir paradigma değişimi başlattı. Temel yenilikleri arasında Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) yer alıyor.

  • Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
  • Organizasyon: Institute of Information Science, Academia Sinica, Tayvan
  • Tarih: 21 Şubat 2024
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

İleri besleme sürecinde kritik özellik verilerini koruyarak YOLOv9, geri yayılım sırasında ağırlıkları güncellemek için kullanılan gradyanların doğru kalmasını sağlar. Bu mimari, özellik çıkarma konusunda üstündür ve bu sayede hava görüntüleri ve detaylı tıbbi taramalar gibi karmaşık ortamlarda küçük nesneleri tespit etmede oldukça yeteneklidir.

YOLOv9 hakkında daha fazla bilgi edin

YOLOX: Araştırma ve Endüstri Arasında Bir Köprü

2021 ortasında yayınlanan YOLOX, YOLO serisini çapa tabanlı olmayan (anchor-free) bir tasarıma taşıdı. Sınıflandırma ve yerelleştirme görevlerini ayıran ayrıştırılmış bir başlık (decoupled head) tanıttı ve eğitim yakınsamayı iyileştirmek için SimOTA etiket atama stratejisini kullandı.

YOLOX kendi döneminde çığır açıcı olup mükemmel bir ortalama hassasiyet (mAP) elde etse ve çapa kutusu hiperparametre ayarını ortadan kaldırsa da, temel mimarisi o zamandan beri parametre sayısı ile özellik tutma arasında daha iyi denge kuran modern ağlar tarafından geride bırakıldı.

YOLOX hakkında daha fazla bilgi edin

Çapa Tabanlı Olmayan (Anchor-Free) Evrim

Hem YOLOX hem de daha yeni Ultralytics modelleri, çapa tabanlı olmayan tasarımları benimseyerek hiperparametre ayarı karmaşıklığını azaltmakta ve çeşitli veri kümeleri genelinde genelleştirmeyi iyileştirmektedir.

Performans Analizi

Bu modelleri MS COCO karşılaştırması üzerinde kıyasladığında, YOLOv9'daki ilerlemeler belirginleşiyor. YOLOv9, doğruluk ve FLOPs arasında tutarlı bir şekilde daha iyi bir denge sağlar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOX, uç durumlar için YOLOX-Nano gibi hafif varyantlar sunsa da, YOLOv9 varyantları saf doğruluk konusunda benzer boyuttaki YOLOX modellerinden sürekli olarak daha iyi performans gösterir. Örneğin, YOLOv9m, yarıdan az parametreye (20.0M'ye karşı 54.2M) sahip olmasına rağmen YOLOXl'in 49.7% mAP değerine kıyasla 51.4% mAP değerine ulaşır.

Ultralytics Avantajı

Bir model seçmek sadece mimari teoriden ibaret değildir; etrafındaki ekosistem, geliştirme hızını ve dağıtım başarısını belirler. YOLOv9'u Ultralytics ekosistemi içinde kullanmak, benzersiz bir kullanım kolaylığı ve sağlam bir topluluk desteği sağlar.

Eski orijinal araştırma depolarının aksine, Ultralytics çerçevesi karmaşık işlem hatlarını basitleştiren birleşik bir Python API sunar. Eğitim, birçok alternatife göre çok daha düşük GPU belleği gerektirir ve inanılmaz bir eğitim verimliliği sunar.

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

Nesne tespiti, örnek bölümleme ve poz tahmini dahil olmak üzere birçok görev için yerleşik destekle, tüm kod tabanını değiştirmeden bilgisayarlı görü çözümlerini hızla değiştirebilirsin.

Kesintisiz Dışa Aktarım

Uç cihazlara mı dağıtım yapıyorsun? Ultralytics, eğitilmiş modellerini sadece tek bir komutla ONNX, TensorRT ve OpenVINO gibi yüksek düzeyde optimize edilmiş formatlara aktarmanı kolaylaştırır.

Gerçek Dünya Uygulamaları

Bu modellerin özel güçlü yönleri, onları farklı gerçek dünya uygulamaları için uygun hale getirir:

Yüksek Hızlı Perakende Analitiği

Gerçek zamanlı ürün tanıma gerektiren modern perakende ortamları için YOLOv9 öne çıkar. Karmaşık özellik detaylarını koruma yeteneği, kalabalık bir rafta görsel olarak benzer ürünleri birbirinden ayırmanın gerekli olduğu perakendede yapay zeka dağıtımları için onu mükemmel kılar.

Eski Nesil Uç Dağıtımları

Sıkı donanım sınırlamalarının veya daha yeni birleştirme bloklarıyla sorun yaşayan özel NPU'ların olduğu senaryolarda YOLOX-Nano bazen bir niş bulabilir. Saf, basitleştirilmiş konvolüsyon modelleri, kaynak açısından son derece kısıtlı mikrodenetleyiciler için bazen tercih edilir.

Otonom Robotik

Robotik navigasyon için küçük nesneleri kaçırmak felaketle sonuçlanabilir. YOLOv9 içindeki GELAN mimarisi, uzak ve küçük engellerin özelliklerinin ağın derin katmanlarında kaybolmamasını sağlar ve otomotivde yapay zeka uygulamaları gibi kritik güvenlik ortamlarında eski modellerden daha iyi performans gösterir.

Kullanım Durumları ve Öneriler

YOLOv9 ve YOLOX arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

Ne Zaman YOLOv9 Seçilmeli

YOLOv9 şunlar için güçlü bir tercihtir:

  • Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) mimarilerini inceleyen akademik projeler.
  • Gradyan Akışı Optimizasyon Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlama ve azaltmaya odaklanan araştırmalar.
  • Yüksek Doğruluklu Algılama Kıyaslaması: YOLOv9'un güçlü COCO kıyaslama performansının mimari karşılaştırmalar için referans noktası olarak gerektiği senaryolar.

YOLOX ne zaman seçilmeli?

YOLOX şunlar için önerilir:

  • Çapasız Algılama Araştırması: Yeni algılama başlıkları veya kayıp işlevleri denemek için YOLOX'un temiz, çapasız mimarisini temel olarak kullanan akademik araştırma.
  • Ultra Hafif Uç Cihazlar: YOLOX-Nano varyantının son derece küçük ayak izinin (0.91M parametre) kritik olduğu mikrodenetleyicilerde veya eski mobil donanımlarda dağıtım yapılması.
  • SimOTA Etiket Atama Çalışmaları: Optimum taşıma tabanlı etiket atama stratejilerini ve bunların eğitim yakınsaması üzerindeki etkisini araştıran araştırma projeleri.

Ne Zaman Ultralytics (YOLO26) Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Gelecek: YOLO26 ile Tanışın

YOLOv9 etkileyici bir kilometre taşını temsil etse de, üretim ortamlarının talepleri sürekli olarak sınırları zorluyor. Yeni piyasaya sürülen YOLO26, modern görü yapay zekası için kesin standardı temsil ediyor.

YOLO26, yerel bir Uçtan Uca NMS-Free (NMS'siz) Tasarım ile dağıtım hattını tamamen yeniliyor. İşleme sonrası süreçte karmaşık NMS (Non-Maximum Suppression) ihtiyacını ortadan kaldırarak, önemli ölçüde daha düşük çıkarım gecikmesi sağlar.

Dahası, YOLO26, son derece kararlı ve hızlı bir yakınsama sağlamak için LLM eğitimindeki yeniliklerden ödünç alınan, SGD ve Muon'un bir melezi olan çığır açıcı MuSGD Optimize Edici'yi içerir. Distribution Focal Loss (DFL) özelliğini kaldırarak YOLO26, öncekilere kıyasla 43% daha hızlı CPU çıkarımı sağlar ve bu da onu uç cihazlar ve kurumsal dağıtımlar için kesinlikle en iyi seçenek haline getirir. ProgLoss ve STAL aracılığıyla küçük nesne tanımadaki önemli iyileştirmelerle, YOLO26 hem YOLOX hem de YOLOv9'un yerini etkili bir şekilde almıştır.

Modern mimarileri keşfeden mühendisler için, Ultralytics paketi içindeki güçlü alternatifler olarak YOLO11 ve RT-DETR modellerine de göz atmalarını öneririz. En son modellerin Ultralytics Platform üzerindeki benzersiz performansından yararlanarak projeni geleceğe hazır hale getir.

Yorumlar