YOLOv9 ve PP-YOLOE+: Modern Nesne Tespiti Üzerine Teknik Bir İnceleme

Gerçek zamanlı nesne tespiti alanı hızla ilerlemeye devam ediyor ve bilgisayarlı görü mühendislerine, modelleri uç cihazlarda ve bulut altyapısında yüksek doğrulukla dağıtmak için geniş bir seçenek yelpazesi sunuyor. Bu alandaki iki önemli model YOLOv9 ve PP-YOLOE+'tur. Her ikisi de doğruluk ve hız sınırlarını zorlasa da, farklı araştırma geçmişlerinden ve yazılım ekosistemlerinden gelmektedirler.

Bu kapsamlı teknik karşılaştırma; mimarilerini, eğitim metodolojilerini, performans metriklerini ve ideal gerçek dünya uygulamalarını inceliyor. Ayrıca, kullanım kolaylığına, bellek verimliliğine ve çok yönlü dağıtıma öncelik veren geliştiriciler için daha geniş Ultralytics ekosisteminin nasıl önemli avantajlar sağladığını da keşfedeceğiz.

Model Kökenleri ve Teknik Özellikler

Bu modellerin geçmişini anlamak, mimari kararlarını ve çerçeve bağımlılıklarını bağlama oturtmana yardımcı olur.

YOLOv9: Bilgi Darboğazını Çözmek

2024'ün başlarında tanıtılan YOLOv9, bilginin derin sinir ağları boyunca akışı sırasında meydana gelen veri kaybını ele alır. Parametre verimliliğini en üst düzeye çıkarmak için tasarlanmış, oldukça optimize edilmiş bir evrişimli sinir ağıdır.

YOLOv9 hakkında daha fazla bilgi edin

PP-YOLOE+: Paddle Ekosistemini İlerletmek

Baidu tarafından 2022'de yayınlanan PP-YOLOE+, PP-YOLOv2'nin yinelemeli bir iyileştirmesidir. Çapasız (anchor-free) bir paradigma kullanır ve PaddlePaddle çerçevesi içindeki yakınsamayı ve doğruluğu iyileştirmek için dinamik bir etiket atama stratejisi sunar.

PP-YOLOE+ hakkında daha fazla bilgi edin

Mimari Karşılaştırma

Programmable Gradient Information (PGI) vs. CSPRepResStage

YOLOv9'daki temel yenilik Programmable Gradient Information (PGI)'dır. PGI, eğitim sırasında hayati önem taşıyan gradyan bilgisinin korunmasını ve sığ katmanlara doğru bir şekilde aktarılmasını sağlayan yardımcı bir denetim çerçevesi görevi görür. Bu, CSPNet ve ELAN'ın güçlü yönlerini birleştirerek, hesaplama maliyetini (FLOPs) önemli ölçüde düşürürken yüksek doğruluk sağlayan Generalized Efficient Layer Aggregation Network (GELAN) ile eşleştirilmiştir.

PP-YOLOE+, CSPRepResStage adında özel bir omurgaya dayanır. Dağıtım sırasında evrişimli katmanları birleştirerek çıkarımı hızlandırmak için (RepVGG'de görülenlere benzer) yeniden parametrelendirme tekniklerinden yararlanır. Ayrıca, sınıflandırma ve regresyon görevlerini dengelemek için Efficient Task-aligned head (ET-head) kullanır.

PP-YOLOE+ sağlam olsa da, YOLOv9'un GELAN mimarisi genellikle hem eğitim hem de çıkarım sırasında daha küçük bir bellek ayak izine ihtiyaç duyar, bu da onu uç yapay zeka cihazları için son derece uygun kılar.

Performans Karşılaştırması

Üretim için modelleri değerlendirirken, mAP (ortalama Hassasiyet), çıkarım hızı ve model boyutu arasındaki denge çok önemlidir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analiz

  • Parametre Verimliliği: YOLOv9, belirgin şekilde daha yüksek verimlilik sağlar. Örneğin, YOLOv9c sadece 25,3 milyon parametre kullanarak %53,0 mAP değerine ulaşırken, PP-YOLOE+l %52,9'luk daha düşük bir mAP elde etmek için iki katından fazla parametreye (52,2 milyon) ihtiyaç duyar. Bu, YOLOv9'un bellek gereksinimlerini önemli ölçüde düşürür.
  • Çıkarım Hızı: YOLOv9 modelleri, TensorRT gibi donanım hızlandırıcıları için mükemmel optimizasyon sergiler ve NVIDIA T4 GPU'larında gerçek zamanlı çıkarım için kritik olan rekabetçi çıkarım hızları sağlar.

Eğitim Metodolojileri ve Ekosistem

Bu modeller arasındaki seçim genellikle yazılım ekosistemine bağlıdır.

PP-YOLOE+ ve PaddlePaddle

PP-YOLOE+, PaddleDetection paketiyle sıkı bir şekilde bağlantılıdır. Güçlü olsa da, kullanıcıların yapılandırma odaklı, komut satırı tabanlı bir ortamda gezinmesini gerektirir. PyTorch veya TensorFlow ekosistemlerine derinden entegre olmuş ekipler için PaddlePaddle'a geçiş, önemli bir sürtünme ve daha dik bir öğrenme eğrisi yaratır.

Ultralytics Avantajı: Modernize Edilmiş İş Akışları

Buna karşılık, YOLOv9 oldukça geliştirilmiş Ultralytics ekosistemi içinde çalışır. Geliştiriciler ve araştırmacılar için tasarlanan Ultralytics, olağanüstü kullanım kolaylığına öncelik verir. Python API, karmaşık ortak kodları (boilerplate) tamamen soyutlar.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

Bu iş akışı, Ultralytics modellerinin üstün Eğitim Verimliliğini öne çıkarır. Veri artırma (augmentation), dağıtık eğitim ve Weights & Biases veya MLflow gibi platformlara otomatik günlük kaydı için yerel destek standart olarak gelir.

Yapay Zeka Görüsündeki Yenilikleri Keşfet

YOLOv9 olağanüstü performans sunsa da, yeni projeler için yakın zamanda piyasaya sürülen Ultralytics YOLO26'yı değerlendirmeni şiddetle tavsiye ederiz. YOLO26, dağıtımı büyük ölçüde basitleştiren yerel bir Uçtan Uca NMS-Free Tasarım içerir. DFL Removal (basitleştirilmiş dışa aktarma ve daha iyi uç/düşük güçlü cihaz uyumluluğu için kaldırılan Distribution Focal Loss) ile uç bilişim için %43'e kadar daha hızlı CPU çıkarımı sağlar. MuSGD Optimizer tarafından desteklenen model, istikrarlı bir eğitim ve hızlı yakınsama sağlar. Ek olarak, ProgLoss + STAL, IoT, robotik ve hava görüntüleri için kritik olan küçük nesne tanımada kayda değer iyileştirmelerle geliştirilmiş kayıp fonksiyonları sunar.

Çok Yönlülük ve Görev Desteği

Modern bilgisayarlı görü projeleri nadiren sadece basit sınırlayıcı kutularla sınırlı kalır.

PP-YOLOE+ öncelikli olarak standart nesne tespiti için tasarlanmıştır. Mimarisini diğer görevlere uyarlamak, kapsamlı özel mühendislik çalışmaları gerektirir.

Buna karşılık, Ultralytics çerçevesi çok görevli bir güç merkezidir. Birleşik bir API kullanarak, geliştiriciler standart nesne tespitinden karmaşık Örnek Bölütleme'ye, yüksek doğruluklu Poz Tahmini'ne, hava görüntüleri için Yönlendirilmiş Sınırlayıcı Kutu (OBB) tespitine ve Görüntü Sınıflandırmasına zahmetsizce geçiş yapabilirler. Bu eşsiz çok yönlülük, kurumsal ekiplerin neden tutarlı bir şekilde YOLOv9, YOLO11 ve YOLO26 gibi Ultralytics modellerini seçtiğinin nedenidir.

İdeal Kullanım Durumları ve Uygulamalar

  • Akıllı Şehir Analitiği ve Trafik Yönetimi: YOLOv9'un (ve sonraki YOLO26'nın) yüksek parametre verimliliği ve düşük gecikme süresi, onları trafik akışını ve kentsel güvenliği izlemek amacıyla kısıtlı uç donanımlarda (NVIDIA Jetson cihazları gibi) dağıtım için ideal kılar.
  • Perakende Stok Sistemleri: Raflardaki küçük ürünlerin yoğun konfigürasyonlarını tespit etmek için YOLOv9'un PGI'sı, ince detaylı mekansal ayrıntıları etkili bir şekilde koruyarak küçük nesne tespiti görevlerinde PP-YOLOE+'tan daha iyi performans gösterir.
  • Eski (Legacy) Dağıtımlar: PP-YOLOE+, yalnızca mevcut eski altyapıda Baidu/PaddlePaddle yazılım yığınını kullanması zorunlu olan ekipler için geçerli bir seçenek olarak kalır.

Transformer tabanlı mimarileri araştıran araştırmacılar için Ultralytics, aynı kullanımı kolay API içinde RT-DETR desteği de sunar, böylece özel dağıtım gereksinimlerin için her zaman en uygun modele erişimin olur.

Yorumlar