YOLOv9 ve YOLOv10: Gerçek Zamanlı Nesne Algılama Evrimine Teknik Bir Bakış

Gerçek zamanlı bilgisayarlı görü alanı, büyük ölçüde performans-verimlilik sınırlarını sürekli zorlayan araştırmacıların katkılarıyla muazzam ilerlemelere sahne oldu. En güncel görü modellerinin evrimini analiz ederken, YOLOv9 ve YOLOv10 iki kritik dönüm noktasını temsil ediyor. 2024 başında yayınlanan her iki model, bilgi darboğazlarından işlem sonrası gecikmelere kadar derin sinir ağlarındaki uzun süreli zorlukları aşmak için paradigma değiştiren mimari tasarımlar sundu.

Bu kapsamlı teknik karşılaştırma, mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını inceleyerek modern nesne algılama ekosistemlerinin karmaşıklığında yolunu bulmana yardımcı olur.

Model Kökenleri ve Mimari Atılımlar

Bu modellerin geçmişini ve teorik temellerini anlamak, belirli bilgisayarlı görü projen için doğru mimariyi seçmen açısından kritiktir.

YOLOv9: Bilgi Akışında Uzmanlık

21 Şubat 2024'te tanıtılan YOLOv9, veriler derin sinir ağlarından geçerken oluşan bilgi kaybı gibi teorik bir sorunu ele alıyor.

YOLOv9, CSPNet ve ELAN'ın güçlü yönlerini birleştirerek parametre kullanımını en üst düzeye çıkaran Genelleştirilmiş Verimli Katman Birleştirme Ağı'nı (GELAN) tanıtır. Ayrıca, derin katmanların kritik uzamsal bilgileri korumasını sağlayan bir yardımcı denetim mekanizması olan Programlanabilir Gradyan Bilgisi'ni (PGI) kullanır. Bu, YOLOv9'u tıbbi görüntü analizi veya uzak mesafe gözetimi gibi yüksek özellik sadakati gerektiren görevler için olağanüstü derecede güçlü kılar.

YOLOv9 hakkında daha fazla bilgi edin

YOLOv10: Gerçek Zamanlı Uçtan Uca Verimlilik

Kısa bir süre sonra 23 Mayıs 2024'te yayınlanan YOLOv10, nesne algılamadaki en bilinen gecikme darboğazlarından biri olan Maksimum Olmayan Baskılama'yı (NMS) ortadan kaldırarak dağıtım sürecini yeniden tasarlıyor.

YOLOv10, eğitim sırasında tutarlı çift atamalar kullanarak yerel bir NMS-free (NMS'siz) tasarıma olanak tanır. Bu, çıkarım sırasında işlem sonrası yükünü kaldırarak gecikmeyi önemli ölçüde azaltır. Bütünsel bir verimlilik-doğruluk odaklı model tasarımıyla birleştiğinde, YOLOv10 mükemmel bir denge elde eder; hesaplama yükünü (FLOPs) düşürürken rekabetçi hassasiyeti korur ve bu da onu uç bilişim uygulamaları için oldukça çekici kılar.

YOLOv10 hakkında daha fazla bilgi edinin

Performans ve Metrik Karşılaştırması

Bu iki güçlü modeli standart MS COCO veri kümesinde kıyaslarken, saf doğruluk ile çıkarım gecikmesi arasında belirgin ödünleşimler ortaya çıkar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Verileri Analiz Etmek

  1. Gecikme vs. Doğruluk: YOLOv10 modelleri genellikle daha üstün çıkarım hızları sunar. Örneğin, YOLOv10s TensorRT üzerinde 2,66ms'de %46,7 mAP elde ederken, YOLOv9s neredeyse aynı olan %46,8 mAP için 3,54ms gerektirir.
  2. Üst Düzey Hassasiyet: Maksimum algılama doğruluğu gerektiren araştırma senaryoları için YOLOv9e, %55,6 mAP gibi etkileyici bir seviyeye ulaşan güçlü bir seçenek olmaya devam etmektedir. PGI mimarisi, ince özelliklerin güvenilir bir şekilde çıkarılmasını sağlar.
  3. Verimlilik: YOLOv10, FLOPs verimliliği konusunda mükemmeldir. Bu, görüntü yapay zekası modellerini çalıştıran pille çalışan cihazlar için kritik bir metrik olan daha düşük güç tüketimine doğrudan yansır.
Dağıtım İpucu

Eğer CPU'lara veya Raspberry Pi gibi kaynakları kısıtlı uç donanımlara dağıtım yapıyorsan, YOLOv10'un NMS'siz mimarisi genellikle deterministik olmayan işlem sonrası adımlarını ortadan kaldırarak daha akıcı bir süreç sağlayacaktır.

Ultralytics Avantajı: Eğitim ve Ekosistem

Mimari farklılıklar kritik olsa da, çevredeki yazılım ekosistemi bir projenin başarısını büyük ölçüde belirler. Hem YOLOv9 hem de YOLOv10, rakipsiz bir geliştirici deneyimi sunarak Ultralytics ekosistemine tam entegredir.

Kullanım Kolaylığı ve Bellek Verimliliği

Devasa bellek şişkinliğinden muzdarip karmaşık Transformer tabanlı mimarilerin aksine, Ultralytics YOLO modelleri optimum GPU belleği kullanımı için tasarlanmıştır. Bu, araştırmacıların tüketici sınıfı donanımlarda daha büyük yığın boyutları kullanmalarına olanak tanıyarak en güncel yapay zekayı erişilebilir kılar.

Birleştirilmiş Python API'si, veri artırma ve hiperparametre ayarlama karmaşıklıklarını soyutlar. Sadece ağırlık dosyası dizisini değiştirerek mimariler arasında sorunsuz bir şekilde geçiş yapabilirsin.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Metrikleri MLflow üzerinde günlüğe kaydetmen veya yüksek hızlı donanım dağıtımı için TensorRT formatına dışa aktarman gerekse de, Ultralytics platformu bunu yerel olarak halleder.

İdeal Kullanım Durumları

Bu modeller arasında seçim yapmak, dağıtım kısıtlamalarına bağlıdır:

Geleceğe Hazırlık: YOLO26'ya Geçiş

YOLOv8, YOLOv9 ve YOLOv10 mükemmel modeller olsa da, modern yapay zeka çözümleri geliştirmek isteyen geliştiriciler, Ocak 2026'da yayınlanan Ultralytics YOLO26'yı değerlendirmelidir.

YOLO26, YOLOv9'un doğruluk özelliklerini ve YOLOv10'un verimlilik yönlerini birleştirerek önceki nesillerin nihai sentezini temsil eder.

Önemli YOLO26 Yenilikleri

  • Uçtan Uca NMS'siz Tasarım: YOLOv10 tarafından atılan temeller üzerine inşa edilen YOLO26, daha basit bir dağıtım için NMS sonrası işlemini yerel olarak ortadan kaldırır.
  • MuSGD Optimize Edici: SGD ve Muon'un bir melezi olan bu yapı, inanılmaz derecede kararlı ve hızlı yakınsama için gelişmiş LLM eğitim yeniliklerini bilgisayarlı görüye getiriyor.
  • %43'e kadar daha hızlı CPU çıkarımı: Özellikle uç bilişim ve özel GPU'ları olmayan cihazlar için optimize edilmiştir.
  • DFL Kaldırıldı: Model dışa aktarımını basitleştirmek ve düşük güç tüketen cihaz uyumluluğunu artırmak için Distribution Focal Loss kaldırıldı.
  • ProgLoss + STAL: Bu geliştirilmiş kayıp fonksiyonları, küçük nesne tanımada kayda değer iyileştirmeler getirerek YOLOv9'un yeteneklerine denk gelir veya onları aşar.

Eski mimarileri değerlendiren araştırmacılar için RT-DETR ve YOLO11 de Ultralytics ekosistemi içinde iyi belgelenmiş alternatiflerdir. Ancak, tüm görü görevlerinde maksimum çok yönlülük için Ultralytics Platform üzerinde YOLO26'ya geçiş yapmak, açık kaynaklı görü yapay zekasının zirvesinden yararlandığından emin olmanı sağlar.

Yorumlar