YOLOv6-3.0 ve YOLOv7: Gerçek Zamanlı Nesne Algılama Mimarilerinde Gezinme

Gerçek zamanlı bilgisayarlı görü dünyasının evrimi, mimari verimlilik ve eğitim metodolojilerindeki hızlı ilerlemelerle şekillendi. Bu alanda önemli etkiler yaratan iki öne çıkan model YOLOv6-3.0 ve YOLOv7'dir. Her iki çerçeve de, yüksek performanslı sunucu GPU'larından uç cihazlara kadar uzanan dağıtımları hedefleyerek çıkarım hızı ile algılama doğruluğu arasında bir denge kurmak için yeni teknikler getirdi.

Bu kapsamlı teknik karşılaştırma; mimarilerini, performans metriklerini ve ideal kullanım durumlarını incelerken, modern Ultralytics Platform'un ve en yeni YOLO26 modelinin, benzersiz bir geliştirici deneyimi sunmak için bu temel kavramların üzerine nasıl inşa edildiğini vurguluyor.

YOLOv6-3.0: Endüstriyel İş Hacmi Optimizasyonu

Meituan'daki Vizyon Yapay Zeka Departmanı tarafından geliştirilen YOLOv6-3.0, yüksek hacimli endüstriyel uygulamalar için özel olarak tasarlanmıştır. Donanım hızlandırıcıları üzerindeki performansı maksimize etmeye yoğun bir şekilde odaklanır, bu da onu özel GPU'larda toplu işlemenin mümkün olduğu ortamlar için güçlü bir aday yapar.

  • Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
  • Kuruluş: Meituan
  • Tarih: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Mimari Yenilikler

YOLOv6-3.0, GPU'lardaki bellek erişim maliyetlerini optimize etmek için tasarlanmış, donanım dostu bir mimari olan EfficientRep omurgasına dayanır. Farklı ölçeklerde özellik füzyonunu geliştirmek için model, boyun kısmında Çift Yönlü Birleştirme (BiC) modülünü sunar. Bu, ağın karmaşık uzamsal hiyerarşileri önceki yinelemelerden daha etkili bir şekilde yakalamasını sağlar.

Ayrıca YOLOv6-3.0, bir Çapa Destekli Eğitim (AAT) stratejisi uygular. Bu yaklaşım, çapa tabanlı eğitimin zengin gradyan sinyallerini, çapa gerektirmeyen çıkarımın kolay dağıtım avantajlarıyla birleştirerek, işlem sonrası hızı feda etmeden modelin daha istikrarlı bir şekilde yakınsamasını sağlar.

YOLOv6 hakkında daha fazla bilgi edinin

Donanım Hususları

YOLOv6-3.0, sunucu sınıfı GPU'larda (NVIDIA T4 gibi) üstünlük sağlasa da, belirli yapısal yeniden parametrelendirmeye olan yoğun bağımlılığı, daha yeni mimarilere kıyasla CPU'ya bağımlı uç cihazlarda bazen düşük gecikme performansına yol açabilir.

YOLOv7: Bag-of-Freebies Öncüsü

Academia Sinica'daki araştırmacılar tarafından yayınlanan YOLOv7, çıkarım maliyetini artırmayan gradyan yolu analizi ve eğitim zamanı optimizasyonlarına yoğun bir şekilde odaklanarak farklı bir yaklaşım benimsedi; yazarların "eğitilebilir ücretsiz hediyeler torbası" olarak adlandırdığı bir kavram.

  • Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
  • Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica, Tayvan
  • Tarih: 2022-07-06
  • Arxiv: 2207.02696
  • GitHub: WongKinYiu/yolov7

Mimari Yenilikler

YOLOv7'nin kalbi Genişletilmiş Verimli Katman Birleştirme Ağı (E-ELAN)'dır. E-ELAN, farklı katmanların orijinal ağ topolojisini bozmadan daha çeşitli özellikleri öğrenmesine izin vererek gradyan yolunu optimize eder. Bu, en üst düzey ortalama ortalama hassasiyete (mAP) ulaşabilen son derece ifade edici bir modelle sonuçlanır.

YOLOv7 ayrıca model yeniden parametrelendirmesini yoğun bir şekilde kullanır ve çıkarım sırasında evrişimli katmanları toplu normalleştirme ile birleştirir. Bu, parametre sayısını azaltır ve NVIDIA TensorRT veya ONNX gibi çerçeveler kullanılarak dağıtıldığında ileri geçişi hızlandırır.

YOLOv7 hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Bu modelleri MS COCO veri setinde değerlendirdiğimizde, YOLOv6'nın ultra hafif varyantları ile yoğun parametreli, doğruluk odaklı YOLOv7 mimarileri arasında belirgin bir ödünleşim gözlemliyoruz.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Veriler, YOLOv6-3.0n'nin olağanüstü çıkarım hızı sunduğunu ve bu sayede yüksek frekanslı video analitiği için uygun olduğunu ortaya koyuyor. Buna karşılık, YOLOv7x en yüksek mAP'yi elde ederek, algılama doğruluğunun ham kare hızlarından daha önemli olduğu görevlerde baskınlık kuruyor.

Kullanım Durumları ve Öneriler

YOLOv6 ile YOLOv7 arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

YOLOv6 Ne Zaman Seçilmeli?

YOLOv6 şunlar için güçlü bir tercihtir:

  • Endüstriyel Donanım Odaklı Dağıtım: Modelin donanım odaklı tasarımının ve verimli yeniden parametrelendirmenin belirli hedef donanımlarda optimize edilmiş performans sağladığı senaryolar.
  • Hızlı Tek Aşamalı Algılama: Kontrollü ortamlarda gerçek zamanlı video işleme için GPU'da ham çıkarım hızına öncelik veren uygulamalar.
  • Meituan Ekosistem Entegrasyonu: Hali hazırda Meituan'ın teknoloji yığını ve dağıtım altyapısı içinde çalışan ekipler.

Ne Zaman YOLOv7 Seçilmeli

YOLOv7 şunlar için önerilir:

  • Akademik Kıyaslama: 2022 dönemi en iyi sonuçlarını yeniden üretmek veya E-ELAN ve trainable bag-of-freebies tekniklerinin etkilerini incelemek.
  • Yeniden Parametrelendirme Araştırması: Planlanmış yeniden parametrelendirilmiş konvolüsyonları ve bileşik model ölçeklendirme stratejilerini araştırmak.
  • Mevcut Özel Hatlar: Kolayca yeniden düzenlenemeyen, YOLOv7'nin özel mimarisi üzerine kurulu yoğun özelleştirilmiş hatlara sahip projeler.

Ne Zaman Ultralytics (YOLO26) Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Ultralytics Avantajı: Geleceğe Adım Atmak

YOLOv6-3.0 ve YOLOv7 önemli kilometre taşlarını temsil etse de, farklı depoları üretim hatlarına entegre etmek genellikle model dağıtımı ve hiperparametre ayarı konularında zorluklar yaratır. Ultralytics ekosistemi, akıcı ve birleşik bir arayüz sunarak bu sorunları çözer.

Neden Ultralytics Seçmelisin?

  • Kullanım Kolaylığı: Ultralytics Python API, geliştiricilerin sadece birkaç satır kodla modelleri yüklemesine, eğitmesine ve dışa aktarmasına olanak tanır. Eski bir modelden en yeni mimariye geçmek sadece tek bir dizeyi değiştirmeyi gerektirir.
  • İyi Bakımlı Ekosistem: Ultralytics sık güncellemeler, aktif topluluk desteği ve güçlü dokümantasyon sağlar.
  • Çok Yönlülük: Temelde sınırlayıcı kutulara odaklanan önceki modellerin aksine, Ultralytics modelleri örnek segmentasyonu, poz tahmini ve yönlendirilmiş sınırlayıcı kutular (OBB) dahil olmak üzere çok görevli öğrenmeyi yerel olarak destekler.
  • Bellek Gereksinimleri: Ultralytics YOLO modelleri, eğitim sırasında RT-DETR gibi transformer tabanlı mimarilere kıyasla daha düşük bellek kullanımı sağlayarak araştırmacıların tüketici sınıfı donanımlarda etkili bir şekilde eğitim yapmasına olanak tanır.

YOLO26'ya Yükseltme

Performansın zirvesini arayan geliştiriciler için (Ocak 2026'da yayınlanan) YOLO26, nesne algılama paradigmasını temelden değiştirir. Tamamen Uçtan Uca NMS'siz Tasarım sunarak, karmaşık işlem sonrası mantığını ortadan kaldırır ve uç cihazlardaki gecikme değişkenliğini ciddi oranda azaltır.

YOLO26'daki temel yenilikler şunlardır:

  • MuSGD Optimize Edici: İnanılmaz derecede kararlı eğitim dinamikleri ve daha hızlı yakınsama sağlayan, SGD ve Muon'un gelişmiş bir hibriti.
  • DFL Kaldırma: Dağılımsal Odak Kaybı'nı (Distribution Focal Loss) çıkararak, YOLO26 dışa aktarma uyumluluğunu basitleştirir ve düşük güç tüketen cihazlarda performansı artırır.
  • ProgLoss + STAL: Küçük nesne tanımada kayda değer iyileştirmeler sağlayan gelişmiş kayıp fonksiyonları.
  • Rakipsiz Hız: Önceki nesillere kıyasla %43'e kadar daha hızlı CPU çıkarımı sağlayarak, Raspberry Pi veya Apple CoreML dağıtımları gibi gömülü sistemler için mükemmel hale gelir.

Ekosistem içindeki diğer yüksek yetenekli modeller arasında, her ikisi de eski donanım entegrasyonları için mükemmel performans dengesi sunan YOLO11 ve YOLOv8 yer alır.

Hattını Geleceğe Hazırla

Bilgisayarlı görü uygulamalarını Ultralytics Platform üzerine inşa ederek, veri seti yükleyicilerini veya dağıtım betiklerini yeniden yazmadan gelecekteki en son teknoloji modellere anında erişim sağlarsın.

Kod Örneği: Optimize Edilmiş Eğitim

Aşağıdaki kod parçası, Ultralytics API'sini kullanarak son teknoloji bir YOLO26 modelini ne kadar zahmetsizce eğitebileceğini gösterir. Bu tam iş akışı, eski depoların genellikle gerektirdiği hazır kodları soyutlayarak YOLO11 veya YOLOv8 için de sorunsuz bir şekilde geçerlidir.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model for rapid training
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The API handles dataset downloading, augmentation, and hyperparameter configuration
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cuda:0",  # Automatically utilizes PyTorch GPU acceleration
)

# Run an end-to-end, NMS-free inference on a test image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for cross-platform deployment
model.export(format="onnx")

Sonuç

YOLOv6-3.0 ve YOLOv7, gerçek zamanlı algılama zorluğunun farklı yönlerini başarıyla ele aldı. YOLOv6-3.0, özel endüstriyel GPU ortamları için bir güç merkezidir; YOLOv7 ise titiz gradyan yolu optimizasyonu ile yüksek doğruluk sağlar.

Ancak, benzersiz çok yönlülük, minimum dağıtım sürtünmesi ve son teknoloji performans gerektiren modern uygulamalar için Ultralytics YOLO26 kesin tercih olarak öne çıkıyor. NMS'siz mimarisi, gelişmiş MuSGD optimize edicisi ve Ultralytics Platform ile derin entegrasyonu, geliştiricilerin güçlü ve ölçeklenebilir yapay zeka vizyon çözümlerini her zamankinden daha hızlı dağıtabilmelerini sağlar.

Yorumlar