İçeriğe geç

YOLO . YOLOv8: Nesne Algılamada Mimari Evrim

Gerçek zamanlı nesne algılama arayışı, sinir ağı tasarımında önemli yeniliklere yol açmıştır. Bu alandaki gelişmeleri şekillendiren iki önemli mimari, Alibaba'nın araştırma ekibi tarafından geliştirilenYOLO ve Ultralytics tarafından oluşturulan YOLOv8. Bu karşılaştırma, bu modellerin teknik farklılıklarını inceleyerek, eğitim stratejilerini, mimari verimliliklerini ve dağıtım için uygunluklarını ele almaktadır.

DAMO-YOLO Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO

YOLOv8 Yazarlar: Glenn Jocher, Ayush Chaurasia ve Jing Qiu
Kuruluş: Ultralytics
Tarih: 2023-01-10
GitHub: ultralytics
Belgeler: yolov8

Mimari Felsefeler

Bu iki model arasındaki temel fark, tasarımlarının kökeninde yatmaktadır.YOLO büyük ölçüde otomatik arama stratejilerineYOLO , YOLOv8 kapsamlı deneysel testler yoluyla manuel mimari tasarımı YOLOv8 .

YOLO: Sinir Mimarisi Arama (NAS)

YOLO MAE-NAS (Method-Automated Efficiency Neural Architecture Search) adlı teknoloji odaklı bir yaklaşımYOLO . Yazarlar, blokları manuel olarak tasarlamak yerine, Neural Architecture Search'ü kullanarak belirli gecikme kısıtlamaları backbone verimli bir backbone keşfettiler.

Temel mimari bileşenler şunlardır:

  • MAE-NAS Backbone: Algılama doğruluğu ile çıkarım hızı arasında denge sağlamak için otomatik olarak optimize edilmiş bir yapı.
  • Verimli RepGFPN: Çıkarım maliyetini artırmadan özellik birleştirmeyi iyileştirmek için yeniden parametreleştirme kullanan genelleştirilmiş bir Özellik Piramidi Ağı (FPN).
  • ZeroHead: Son çıktı katmanlarındaki hesaplama yükünü azaltmak için tasarlanmış hafif bir algılama kafası.
  • AlignedOTA: Sınıflandırma ve regresyon görevleri arasındaki uyumsuzluğu çözen dinamik bir etiket atama stratejisi.

YOLOv8: İyileştirilmiş Manuel Tasarım

YOLOv8 , YOLO mirasını YOLOv8 C2f modülünü (iki konvolüsyonlu Çapraz Aşama Kısmi Darboğaz) sunar. Bu modül, gradyan akış bilgisini iyileştirmek için tasarlanmıştır ve ağın hafif kalırken daha karmaşık özellikleri öğrenmesini sağlar.

Temel mimari özellikler şunları içerir:

  • Anchor-Free Detection (Anchor'sız Algılama): YOLOv8 , anchor kutularını YOLOv8 nesnelerin merkezlerini doğrudan tahmin eder. Bu, NMS basitleştirir ve kullanıcıların ayarlaması gereken hiperparametrelerin sayısını azaltır.
  • Ayrıştırılmış Başlık: Sınıflandırma ve regresyon dallarını ayırarak, her birinin daha etkili bir şekilde yakınsamasına olanak tanır.
  • Mozaik Artırma: Dört görüntüyü tek bir görüntüde birleştiren ve modeli bağlam ve ölçek değişmezliğini öğrenmeye zorlayan gelişmiş bir eğitim tekniği.

Performans Metrikleri

Aşağıdaki tablo, COCO YOLO YOLOv8 performansını karşılaştırmaktadır.YOLO , yoğun damıtma mAP etkileyici mAP YOLO ederken, YOLOv8 üstün çıkarım hızları ve daha düşük dağıtım karmaşıklığı sunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Eğitim Verimliliği ve Karmaşıklığı

Geliştiriciler için kritik bir ayrım, eğitim süreci.YOLO , sofistike bir damıtma stratejisiYOLO . En üst düzey sonuçları elde etmek için, önce daha küçük "öğrenci" modellerine rehberlik edecek büyük bir "öğretmen" modelinin eğitilmesi gerekiyor. Bu, yüksek doğruluk sağlasa da, eğitim iş akışını önemli ölçüde karmaşıklaştırıyor, GPU gereksinimlerini artırıyor ve eğitim süresini uzatıyor.

Buna karşılık, Ultralytics eğitim verimliliğine öncelik verir. YOLOv8 , mimari seçimler ve artırma stratejileri ( MixUp Mosaic gibi) çok aşamalı damıtma boru hattı gerektirmeden doğruluk artışı sağlayan "Bag of Freebies" yaklaşımını YOLOv8 . Bu, YOLOv8 tüketici sınıfı donanımlarda YOLOv8 hızlı eğitilmesini sağlayarak, özel veri kümelerine giriş engelini azaltır.

Kaynak Verimliliği

Ultralytics YOLO , karmaşık Transformer tabanlı modeller veya damıtma boru hatlarına kıyasla, hem eğitim hem de çıkarım sırasında genellikle daha düşük bellek gereksinimleri sergiler. Bu, standart GPU'larda daha büyük parti boyutları ve daha hızlı denemeler yapılmasına olanak tanır.

Ultralytics Ekosisteminin Avantajı

YOLO yeni akademik katkılarYOLO , Ultralytics gerçek dünya uygulama geliştirme için belirgin bir avantaj sağlar.

Algılamanın Ötesinde Çok Yönlülük

YOLO öncelikle sınırlayıcı kutu algılama içinYOLO . Buna karşılık, Ultralytics doğal olarak çok görevlidir. Tek bir API, geliştiricilerin aşağıdakileri gerçekleştirmesine olanak tanır:

Kullanım Kolaylığı ve Dağıtım

Ultralytics , kullanıcı deneyimini Ultralytics . Python , beş satırdan az kodla eğitim, doğrulama ve dağıtım imkanı sunar. Ayrıca, kapsamlı dışa aktarma seçenekleri ONNX, TensorRT, CoreML, TFLite ve OpenVINO sorunsuz bir şekilde dönüştürme imkanı sunarak modellerin bulut sunucularından Raspberry Pi'lere kadar her şeye dağıtılabilmesini sağlar.

Görme Yapay Zekasının Geleceği: YOLO26

2026 yılı için en son teknolojiyi arayan geliştiriciler için Ultralytics , YOLO26'yı Ultralytics . YOLOv8 YOLO11'nin başarılarına dayanan YOLO26, hız ve kararlılık açısından mimaride temel değişiklikler getiriyor.

YOLO26 hakkında daha fazla bilgi edinin

Uçtan Uca NMS'siz Tasarım

Çakışan kutuları filtrelemek için Non-Maximum Suppression (NMS) son işleme gerektirenYOLO YOLOv8 farklı olarak, YOLO26 doğal olarak uçtan uca bir sistemdir. Bu çığır açan gelişme, YOLOv10tarafından başlatılan bu çığır açan gelişme, NMS ortadan kaldırır. Bu, özellikle çok sayıda nesnenin algılandığı senaryolarda, dağıtım süreçlerinin basitleştirilmesini ve gecikme süresinin azalmasını sağlar.

Gelişmiş Optimizasyon ve Kayıp Fonksiyonları

YOLO26, SGD Muon'un bir melezi olan MuSGD Optimizer'ı entegre eder (Moonshot AI'nın Kimi K2'sinden LLM eğitim yeniliklerinden esinlenmiştir). Bu, büyük dil modeli eğitiminin istikrarını bilgisayar görüşüne getirerek daha hızlı yakınsama sağlar. Ek olarak, Dağıtım Odaklı Kayıp (DFL) özelliğinin kaldırılması ve ProgLoss ve STAL (Yumuşak Görev Uyumlu Kayıp) özelliklerinin eklenmesi, robotik ve IoT'de sık karşılaşılan bir sorun olan küçük nesneler üzerinde performansı önemli ölçüde artırır.

Performans Dengesi

YOLO26, uç bilgi işlem için optimize edilmiştir ve önceki nesillere kıyasla %43'e kadar daha hızlı CPU sağlar. Bu, özel GPU'lar bulunmayan cihazlarda çalışan uygulamalar için ideal bir seçimdir ve eski NAS tabanlı yaklaşımların verimliliğini aşar.

Kod Örneği: Ultralytics

Aşağıdaki örnek, bir geliştiricinin Ultralytics kullanarak model nesilleri arasında ne kadar kolay geçiş yapabileceğini göstermektedir. Bu esneklik, özel bir veri setinde YOLOv8 daha yeni olan YOLO26 YOLOv8 hızlı bir şekilde karşılaştırılmasını sağlar.

from ultralytics import YOLO

# Load the models
model_v8 = YOLO("yolov8n.pt")
model_v26 = YOLO("yolo26n.pt")  # Recommended for new projects

# Train YOLO26 on a custom dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model_v26.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the NMS-free architecture
# No post-processing tuning required
prediction = model_v26("https://ultralytics.com/images/bus.jpg")
prediction[0].show()

Özet

HemYOLO YOLOv8 , bilgisayar görüşünde önemli kilometre YOLOv8 .YOLO , yüksek doğruluk elde etmek için Sinir Mimarisi Arama ve damıtmanın gücünüYOLO . Ancak çoğu geliştirici, araştırmacı ve işletme için Ultralytics YOLOv8—ve özellikle de daha yeni olan YOLO26—üstün bir denge sunmaktadır.

İyi bakımlı bir ekosistem, kullanım kolaylığı, çok yönlü görev desteği ve NMS algılama gibi son teknoloji özelliklerin birleşimi, Ultralytics ölçeklenebilir ve geleceğe dönük AI çözümleri için tercih edilen Ultralytics getirir. Diğer yüksek performanslı seçenekler arayan geliştiriciler ayrıca şunu da keşfedebilirler RT-DETR 'yi inceleyebilirler. YOLO11 'yi keşfedebilirler.


Yorumlar