YOLOv9 ve YOLOv10: Gerçek Zamanlı Nesne Algılama Evrimine Teknik Bir Bakış
Gerçek zamanlı bilgisayarlı görü alanı, büyük ölçüde performans-verimlilik sınırlarını sürekli zorlayan araştırmacıların katkılarıyla muazzam ilerlemelere sahne oldu. En güncel görü modellerinin evrimini analiz ederken, YOLOv9 ve YOLOv10 iki kritik dönüm noktasını temsil ediyor. 2024 başında yayınlanan her iki model, bilgi darboğazlarından işlem sonrası gecikmelere kadar derin sinir ağlarındaki uzun süreli zorlukları aşmak için paradigma değiştiren mimari tasarımlar sundu.
Bu kapsamlı teknik karşılaştırma, mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını inceleyerek modern nesne algılama ekosistemlerinin karmaşıklığında yolunu bulmana yardımcı olur.
Model Kökenleri ve Mimari Atılımlar
Bu modellerin geçmişini ve teorik temellerini anlamak, belirli bilgisayarlı görü projen için doğru mimariyi seçmen açısından kritiktir.
YOLOv9: Bilgi Akışında Uzmanlık
21 Şubat 2024'te tanıtılan YOLOv9, veriler derin sinir ağlarından geçerken oluşan bilgi kaybı gibi teorik bir sorunu ele alıyor.
- Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
- Kuruluş:Institute of Information Science, Academia Sinica, Tayvan
- Referans:YOLOv9 arXiv Makalesi
- Depo:YOLOv9 GitHub
YOLOv9, CSPNet ve ELAN'ın güçlü yönlerini birleştirerek parametre kullanımını en üst düzeye çıkaran Genelleştirilmiş Verimli Katman Birleştirme Ağı'nı (GELAN) tanıtır. Ayrıca, derin katmanların kritik uzamsal bilgileri korumasını sağlayan bir yardımcı denetim mekanizması olan Programlanabilir Gradyan Bilgisi'ni (PGI) kullanır. Bu, YOLOv9'u tıbbi görüntü analizi veya uzak mesafe gözetimi gibi yüksek özellik sadakati gerektiren görevler için olağanüstü derecede güçlü kılar.
YOLOv9 hakkında daha fazla bilgi edin
YOLOv10: Gerçek Zamanlı Uçtan Uca Verimlilik
Kısa bir süre sonra 23 Mayıs 2024'te yayınlanan YOLOv10, nesne algılamadaki en bilinen gecikme darboğazlarından biri olan Maksimum Olmayan Baskılama'yı (NMS) ortadan kaldırarak dağıtım sürecini yeniden tasarlıyor.
- Yazarlar: Ao Wang, Hui Chen, Lihao Liu ve diğerleri.
- Kuruluş:Tsinghua Üniversitesi
- Referans:YOLOv10 arXiv Makalesi
- Depo:YOLOv10 GitHub
YOLOv10, eğitim sırasında tutarlı çift atamalar kullanarak yerel bir NMS-free (NMS'siz) tasarıma olanak tanır. Bu, çıkarım sırasında işlem sonrası yükünü kaldırarak gecikmeyi önemli ölçüde azaltır. Bütünsel bir verimlilik-doğruluk odaklı model tasarımıyla birleştiğinde, YOLOv10 mükemmel bir denge elde eder; hesaplama yükünü (FLOPs) düşürürken rekabetçi hassasiyeti korur ve bu da onu uç bilişim uygulamaları için oldukça çekici kılar.
YOLOv10 hakkında daha fazla bilgi edinin
Performans ve Metrik Karşılaştırması
Bu iki güçlü modeli standart MS COCO veri kümesinde kıyaslarken, saf doğruluk ile çıkarım gecikmesi arasında belirgin ödünleşimler ortaya çıkar.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Verileri Analiz Etmek
- Gecikme vs. Doğruluk: YOLOv10 modelleri genellikle daha üstün çıkarım hızları sunar. Örneğin, YOLOv10s TensorRT üzerinde 2,66ms'de %46,7 mAP elde ederken, YOLOv9s neredeyse aynı olan %46,8 mAP için 3,54ms gerektirir.
- Üst Düzey Hassasiyet: Maksimum algılama doğruluğu gerektiren araştırma senaryoları için YOLOv9e, %55,6 mAP gibi etkileyici bir seviyeye ulaşan güçlü bir seçenek olmaya devam etmektedir. PGI mimarisi, ince özelliklerin güvenilir bir şekilde çıkarılmasını sağlar.
- Verimlilik: YOLOv10, FLOPs verimliliği konusunda mükemmeldir. Bu, görüntü yapay zekası modellerini çalıştıran pille çalışan cihazlar için kritik bir metrik olan daha düşük güç tüketimine doğrudan yansır.
Eğer CPU'lara veya Raspberry Pi gibi kaynakları kısıtlı uç donanımlara dağıtım yapıyorsan, YOLOv10'un NMS'siz mimarisi genellikle deterministik olmayan işlem sonrası adımlarını ortadan kaldırarak daha akıcı bir süreç sağlayacaktır.
Ultralytics Avantajı: Eğitim ve Ekosistem
Mimari farklılıklar kritik olsa da, çevredeki yazılım ekosistemi bir projenin başarısını büyük ölçüde belirler. Hem YOLOv9 hem de YOLOv10, rakipsiz bir geliştirici deneyimi sunarak Ultralytics ekosistemine tam entegredir.
Kullanım Kolaylığı ve Bellek Verimliliği
Devasa bellek şişkinliğinden muzdarip karmaşık Transformer tabanlı mimarilerin aksine, Ultralytics YOLO modelleri optimum GPU belleği kullanımı için tasarlanmıştır. Bu, araştırmacıların tüketici sınıfı donanımlarda daha büyük yığın boyutları kullanmalarına olanak tanıyarak en güncel yapay zekayı erişilebilir kılar.
Birleştirilmiş Python API'si, veri artırma ve hiperparametre ayarlama karmaşıklıklarını soyutlar. Sadece ağırlık dosyası dizisini değiştirerek mimariler arasında sorunsuz bir şekilde geçiş yapabilirsin.
from ultralytics import YOLO
# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Validate the model's performance
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")Metrikleri MLflow üzerinde günlüğe kaydetmen veya yüksek hızlı donanım dağıtımı için TensorRT formatına dışa aktarman gerekse de, Ultralytics platformu bunu yerel olarak halleder.
İdeal Kullanım Durumları
Bu modeller arasında seçim yapmak, dağıtım kısıtlamalarına bağlıdır:
- Choose YOLOv9 if: You are working on small object detection tasks, such as aerial drone imagery or detecting small tumors, where the GELAN architecture's feature retention provides the highest fidelity.
- YOLOv10'u seç: Birincil hedefin uç cihazlarda gerçek zamanlı çıkarım ise tercih et. NMS'siz tasarımı, onu otonom robotik, gerçek zamanlı trafik izleme ve akıllı gözetim için mükemmel kılar.
Geleceğe Hazırlık: YOLO26'ya Geçiş
YOLOv8, YOLOv9 ve YOLOv10 mükemmel modeller olsa da, modern yapay zeka çözümleri geliştirmek isteyen geliştiriciler, Ocak 2026'da yayınlanan Ultralytics YOLO26'yı değerlendirmelidir.
YOLO26, YOLOv9'un doğruluk özelliklerini ve YOLOv10'un verimlilik yönlerini birleştirerek önceki nesillerin nihai sentezini temsil eder.
Önemli YOLO26 Yenilikleri
- Uçtan Uca NMS'siz Tasarım: YOLOv10 tarafından atılan temeller üzerine inşa edilen YOLO26, daha basit bir dağıtım için NMS sonrası işlemini yerel olarak ortadan kaldırır.
- MuSGD Optimize Edici: SGD ve Muon'un bir melezi olan bu yapı, inanılmaz derecede kararlı ve hızlı yakınsama için gelişmiş LLM eğitim yeniliklerini bilgisayarlı görüye getiriyor.
- %43'e kadar daha hızlı CPU çıkarımı: Özellikle uç bilişim ve özel GPU'ları olmayan cihazlar için optimize edilmiştir.
- DFL Kaldırıldı: Model dışa aktarımını basitleştirmek ve düşük güç tüketen cihaz uyumluluğunu artırmak için Distribution Focal Loss kaldırıldı.
- ProgLoss + STAL: Bu geliştirilmiş kayıp fonksiyonları, küçük nesne tanımada kayda değer iyileştirmeler getirerek YOLOv9'un yeteneklerine denk gelir veya onları aşar.
Eski mimarileri değerlendiren araştırmacılar için RT-DETR ve YOLO11 de Ultralytics ekosistemi içinde iyi belgelenmiş alternatiflerdir. Ancak, tüm görü görevlerinde maksimum çok yönlülük için Ultralytics Platform üzerinde YOLO26'ya geçiş yapmak, açık kaynaklı görü yapay zekasının zirvesinden yararlandığından emin olmanı sağlar.