İçeriğe geç

YOLOv9 ve YOLOv10: Gerçek Zamanlı Nesne Tespiti Evrimine Teknik Bir Derinlemesine Bakış

Gerçek zamanlı bilgisayar görüşü alanı, büyük ölçüde performans-verimlilik sınırlarını sürekli zorlayan araştırmacılar tarafından yönlendirilen büyük ilerlemeler kaydetti. Son teknoloji görüş modellerinin evrimini analiz ederken, YOLOv9 ve YOLOv10 iki kritik dönüm noktasını temsil etmektedir. 2024'ün başlarında piyasaya sürülen her iki model de, bilgi darboğazlarından işlem sonrası gecikmeye kadar derin sinir ağlarındaki uzun süredir devam eden zorlukları ele almak için paradigma değiştiren mimari tasarımlar sundu.

Bu kapsamlı teknik karşılaştırma, modern nesne tespiti ekosistemlerinin karmaşıklıklarında gezinmenize yardımcı olmak için mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını inceler.

Model Kökenleri ve Mimari Atılımlar

Bu modellerin soy ağacını ve teorik temellerini anlamak, belirli bilgisayar görüşü projeniz için doğru mimariyi seçmek açısından çok önemlidir.

YOLOv9: Bilgi Akışında Uzmanlaşmak

21 Şubat 2024'te tanıtılan YOLOv9, veriler derin sinir ağlarından geçerken ortaya çıkan bilgi kaybı teorik sorununu ele alır.

YOLOv9, CSPNet ve ELAN'ın güçlü yönlerini birleştirerek parametre kullanımını en üst düzeye çıkaran Genelleştirilmiş Verimli Katman Agregasyon Ağı (GELAN)'nı tanıtır. Ayrıca, derin katmanların kritik uzamsal bilgileri korumasını sağlayan yardımcı bir denetim mekanizması olan Programlanabilir Gradyan Bilgisi (PGI)'ni kullanır. Bu, YOLOv9'u tıbbi görüntü analizi veya uzaktan gözetim gibi yüksek özellik doğruluğu gerektiren görevler için son derece güçlü kılar.

YOLOv9 hakkında daha fazla bilgi edinin.

YOLOv10: Gerçek Zamanlı Uçtan Uca Verimlilik

Kısa bir süre sonra, 23 Mayıs 2024'te piyasaya sürülen YOLOv10, nesne tespitindeki en kötü şöhretli gecikme darboğazlarından biri olan Non-Maximum Suppression (NMS)'yi ortadan kaldırarak dağıtım hattını yeniden tasarlar.

YOLOv10, eğitim sırasında tutarlı ikili atamalar kullanır ve bu da doğal olarak NMS içermeyen bir tasarım sağlar. Bu, çıkarım sırasında işlem sonrası yükü ortadan kaldırarak gecikmeyi önemli ölçüde azaltır. Bütünsel bir verimlilik-doğruluk odaklı model tasarımıyla birleştiğinde, YOLOv10 üstün bir denge sağlayarak, rekabetçi hassasiyeti korurken hesaplama yükünü (FLOPs) düşürür ve bu da onu uç bilişim uygulamaları için oldukça cazip hale getirir.

YOLOv10 hakkında daha fazla bilgi edinin.

Performans ve Metrik Karşılaştırması

Bu iki güçlü modeli standart MS COCO veri kümesi üzerinde kıyaslarken, saf doğruluk ve çıkarım gecikmesi arasında belirgin ödünleşimler ortaya çıkar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Verileri Analiz Etme

  1. Gecikme Süresi ve Doğruluk: YOLOv10 modelleri genellikle üstün çıkarım hızları sunar. Örneğin, YOLOv10s, TensorRT üzerinde sadece 2.66 ms'de %46.7 mAP elde ederken, YOLOv9s neredeyse aynı olan %46.8 mAP için 3.54 ms gerektirir.
  2. Üst Düzey Hassasiyet: Maksimum detection doğruluğu gerektiren araştırma senaryoları için, YOLOv9e, etkileyici %55.6 mAP'ye ulaşarak zorlu bir seçenek olmaya devam etmektedir. PGI mimarisi, ince özelliklerin güvenilir bir şekilde çıkarılmasını sağlar.
  3. Verimlilik: YOLOv10, FLOPs verimliliğinde üstündür. Bu, doğrudan daha düşük güç tüketimine dönüşür ve görsel yapay zeka modelleri çalıştıran pille çalışan cihazlar için kritik bir metriktir.

Dağıtım İpucu

CPU'lara veya Raspberry Pi gibi kaynak kısıtlı uç donanımlara dağıtım yapıyorsanız, YOLOv10'un NMS içermeyen mimarisi, deterministik olmayan işlem sonrası adımları ortadan kaldırarak genellikle daha sorunsuz bir iş akışı sağlayacaktır.

Ultralytics Avantajı: Eğitim ve Ekosistem

Mimari farklılıklar kritik olsa da, çevreleyen yazılım ekosistemi bir projenin başarısını büyük ölçüde belirler. Hem YOLOv9 hem de YOLOv10, Ultralytics ekosistemine tamamen entegre edilmiştir ve benzersiz bir geliştirici deneyimi sunar.

Kullanım Kolaylığı ve Bellek Verimliliği

Büyük bellek şişkinliğinden muzdarip karmaşık transformatör tabanlı mimarilerin aksine, Ultralytics YOLO modelleri, optimum GPU bellek kullanımı için tasarlanmıştır. Bu, araştırmacıların tüketici sınıfı donanımlarda daha büyük toplu iş boyutları kullanmasına olanak tanıyarak, son teknoloji yapay zekayı erişilebilir kılar.

Birleşik python API'si, veri artırma ve hiperparametre ayarlama karmaşıklıklarını soyutlar. Ağırlık dosyası dizesini değiştirerek mimariler arasında sorunsuz bir şekilde geçiş yapabilirsiniz.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

MLflow'a metrikleri kaydetmeniz veya yüksek hızlı donanım dağıtımı için TensorRT'ye dışa aktarmanız gereksin, Ultralytics platformu bunu yerel olarak yönetir.

İdeal Kullanım Senaryoları

Bu modeller arasında seçim yapmak, dağıtım kısıtlamalarınıza bağlıdır:

Geleceğe Hazırlık: YOLO26'ya Geçiş

YOLOv8, YOLOv9 ve YOLOv10 mükemmel modeller olsa da, modern yapay zeka çözümleri geliştirmek isteyen geliştiriciler, Ocak 2026'da piyasaya sürülen Ultralytics YOLO26'yı göz önünde bulundurmalıdır.

YOLO26, önceki nesillerin nihai sentezini temsil eder; YOLOv9'un doğruluğu ile YOLOv10'un verimliliğinin en iyi yönlerini birleştirir.

Temel YOLO26 Yenilikleri

  • Uçtan Uca NMS İçermeyen Tasarım: YOLOv10'un attığı temeller üzerine inşa edilen YOLO26, daha basit dağıtım için NMS son işlemeyi yerel olarak ortadan kaldırır.
  • MuSGD Optimizatörü: SGD ve Muon'un bir hibriti olup, inanılmaz derecede kararlı ve hızlı yakınsama için gelişmiş LLM eğitim yeniliklerini bilgisayar görüşüne getirir.
  • %43'e Kadar Daha Hızlı CPU Çıkarımı: Kenar bilişim ve özel GPU'ları olmayan cihazlar için özel olarak optimize edilmiştir.
  • DFL Kaldırılması: Dağıtım Odak Kaybı (Distribution Focal Loss), model dışa aktarımını basitleştirmek ve düşük güçlü cihaz uyumluluğunu artırmak için kaldırıldı.
  • ProgLoss + STAL: Bu geliştirilmiş kayıp fonksiyonları, küçük nesne tanımada önemli iyileştirmeler sağlayarak YOLOv9'un yeteneklerini eşleştirir veya aşar.

Eski mimarileri değerlendiren araştırmacılar için, RT-DETR ve YOLO11 de Ultralytics ekosisteminde iyi belgelenmiş alternatiflerdir. Ancak, tüm görme görevlerinde maksimum çok yönlülük için, Ultralytics Platformu üzerinde YOLO26'ya geçiş yapmak, açık kaynaklı görme yapay zekasının zirvesinden yararlandığınızı garanti eder.


Yorumlar