İçeriğe geç

YOLOv5 YOLOX: Nesne Algılama Mimarilerinin Teknik Karşılaştırması

Hızla gelişen bilgisayar görme alanında, ankraj tabanlı ve ankrajsız dedektörler arasındaki tartışma merkezi bir tema olmuştur. Bu karşılaştırma, teknik farklılıkları incelemektedir. YOLOv5, kullanılabilirlik ve hız açısından endüstri standardı olan YOLOv5 ile yüksek performanslı ankarsız dedektör YOLOX arasındaki teknik farklılıkları incelemektedir.

Modelin Kökenleri ve Genel Bakışı

YOLOv5
Yazar: Glenn Jocher
Kuruluş: Ultralytics
Tarih: 2020-06-26
GitHub: yolov5

YOLOX
Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 2021-07-18
GitHub: Megvii-BaseDetection/YOLOX

YOLOv5 sadece mimari değişikliklerle değil, aynı zamanda sorunsuz bir kullanıcı deneyimi yaratarak da bu alanda devrim yarattı. Eğitim kolaylığı, dışa aktarılabilirlik ve dağıtım hızına öncelik vererek, işletmeler ve geliştiriciler için vazgeçilmez bir seçim haline geldi. Bir yıl sonra piyasaya sürülen YOLOX, YOLO ile çapa içermeyen algılama akademik trendi arasındaki boşluğu doldurmayı amaçlayarak, ayrıştırılmış bir başlık ve yeni bir etiket atama stratejisi sundu.

Performans Metrikleri

Aşağıdaki tablo, her iki modelin performansını karşılaştırmaktadır. YOLOX, mAP açısından biraz daha yüksek bir performans elde ederken mAP elde ederken, YOLOv5 , özellikle CPU, daha üstün çıkarım hızları ve önemli ölçüde daha düşük dağıtım karmaşıklığı sergilemektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Mimari Farklılıklar

Temel teknik farklılık, her modelin sınırlayıcı kutu tahminini nasıl ele aldığına bağlıdır.

YOLOv5: Anchor Tabanlı Standart

YOLOv5 , çapa tabanlı bir mekanizma YOLOv5 . Önceden tanımlanmış çapa kutularından ofsetleri tahmin eder, bu da bilinen ölçeklere sahip nesneler için eğitimi stabilize etmeye yardımcı olur.

  • Backbone: Değiştirilmiş CSPDarknet53 kullanır, gradyan akışını geliştirir ve hesaplama darboğazlarını azaltır.
  • Veri Artırma: Eğitim MixUp Mosaic artırma ve MixUp yaygın kullanımına öncülük ederek, modelin oklüzyona karşı dayanıklılığını önemli ölçüde artırdı.
  • Odak noktası: Mimari, gerçek dünya uygulamaları için büyük ölçüde optimize edilmiştir ve katmanların Edge TPU gibi donanım hızlandırıcılarına verimli bir şekilde eşlenmesini sağlar.

YOLOX: Çapa Kullanmayan Meydan Okuyan

YOLOX, nesnenin merkezini doğrudan tahmin ederek çapa içermeyen bir yaklaşıma geçer.

  • Ayrıştırılmış Başlık: Önceki YOLO farklı olarak, YOLOX sınıflandırma ve konum belirleme görevlerini farklı "başlıklar" olarak ayırır ve bu sayede yakınsama sırasında bu iki hedef arasındaki çelişkiyi çözdüğünü savunur.
  • SimOTA: Eğitim sürecini Optimal Transport problemi olarak gören gelişmiş bir dinamik etiket atama stratejisi.
  • Referans: Teknik ayrıntılar için YOLOX arXiv makalesine bakınız.

Ayrılmış Kafaların Avantajları ve Dezavantajları

YOLOX'taki ayrılmış kafa, yakınsama hızını ve doğruluğunu artırırken, genellikle ek hesaplama yükü getirir ve bu da YOLOv5 YOLOv8'de bulunan bağlı kafa tasarımına kıyasla biraz daha yavaş bir çıkarımla sonuçlanır.

Ekosistem ve Kullanım Kolaylığı

Üretim için modelleri değerlendirirken, çevredeki ekosistem mimari kadar önemlidir. İşte burada Ultralytics modellerinin belirgin bir avantaj sağladığı noktadır.

YOLOv5 olgun ve iyi bakımlı bir ekosisteme entegre edilmiştir. Kullanıcılar, veri seti açıklaması, eğitimi ve dağıtımını kolaylaştıran Ultralytics (eski adıyla HUB) yararlanır. Platform, altyapının karmaşıklığını yöneterek geliştiricilerin verilere ve sonuçlara odaklanmasını sağlar.

Buna karşılık, YOLOX güçlü akademik performans sunarken, genellikle dağıtım için daha fazla manuel yapılandırma gerektirir. Ultralytics , Eğitim Verimliliğine öncelik verir, hazır önceden eğitilmiş ağırlıklar ve eğitim sırasında daha düşük bellek kullanımı sunar. Bu bellek verimliliği, özellikle RT-DETRgibi daha yeni transformatör tabanlı modellerle karşılaştırıldığında özellikle dikkat çekicidir.

YOLOv5 hakkında daha fazla bilgi edinin.

Evrim: YOLO26'ya giriş

YOLOv5 YOLOX hala mükemmel seçenekler olsa da, bu alanda gelişmeler kaydedilmiştir. 2026 yılında yeni projeler başlatan geliştiriciler için YOLO26, YOLOv5 kullanılabilirliğini YOLOX'un çapa içermeyen YOLOv5 birleştirerek ve her ikisini de geride bırakarak bu evrimin zirvesini temsil etmektedir.

YOLO26, uç bilgi işlem ve gerçek zamanlı analiz için en üst düzey performans dengesi sağlayacak şekilde tasarlanmıştır.

Neden YOLO26'ya yükseltmelisiniz?

  • Uçtan Uca NMS: YOLOX gibi, YOLO26 da ankrajlardan uzaklaşır, ancak daha da ileri giderek doğal olarak uçtan uca hale gelir. Bu, NMS veya CoreMLgibi cihazlarda dağıtımı genellikle karmaşıklaştıran bir son işlem adımı olan Maksimum Baskıl
  • MuSGD Optimizer: Büyük Dil Modeli (LLM) eğitim tekniklerinden (özellikle Moonshot AI'nın Kimi K2'sinden) esinlenerek geliştirilen bu hibrit optimizer, istikrarlı bir eğitim dinamiği sağlayarak LLM istikrarını görme görevlerine etkili bir şekilde taşır.
  • Hız: YOLO26, Dağıtım Odak Kaybı (DFL) ve mimari budamanın kaldırılmasıyla önceki nesillere kıyasla %43'e kadar daha hızlı CPU olanak tanır.
  • ProgLoss + STAL: Bu geliştirilmiş kayıp fonksiyonları, özellikle küçük nesnelerin tanınmasını hedefleyerek, önceki dedektörlerdeki yaygın bir zayıflığı gidermektedir.

YOLO26 hakkında daha fazla bilgi edinin

Görevler Arası Çok Yönlülük

Öncelikle algılamaya odaklanan YOLOX'un aksine, Ultralytics , Poz Tahmini, Örnek Segmentasyonu ve Yönlendirilmiş Nesne Algılama (OBB) dahil olmak üzere kullanıma hazır bir dizi görevi destekler.

Gerçek Dünya Uygulamaları

Bu modeller arasında seçim genellikle dağıtım senaryosuna bağlıdır.

  • Endüstriyel Denetim (YOLOv5): Yüksek verim gerektiren üretim hatları için, birleştirilmiş kafa tasarımı ve TensorRTUltralytics optimizasyonu, minimum gecikme süresi sağlar.
  • Hava Gözetimi (YOLO26): Yeni ProgLoss + STAL işlevleriyle YOLO26, drone görüntülerinde araçlar veya çiftlik hayvanları gibi küçük nesneleri algılamada üstün performans gösterir. Bu, eski çapa tabanlı modellerin bazen zorlandığı bir görevdir.
  • Akademik Araştırma (YOLOX): Etiket atama stratejilerini araştıran araştırmacılar, SimOTA'nın net bir şekilde uygulanması nedeniyle genellikle YOLOX'u temel referans olarak kullanırlar.

Kod Örneği

Ultralytics modeller arasında geçiş yapmak sorunsuzdur. Aşağıdaki kod, YOLOv5, YOLO11 ve önerilen YOLO26 için çalışan birleşik API'yi göstererek, çıkarımın nasıl yükleneceğini ve çalıştırılacağını göstermektedir.

from ultralytics import YOLO

# Load a model (YOLOv5 or the recommended YOLO26)
# The API unifies usage, making it easy to swap models for comparison
model = YOLO("yolo26n.pt")  # Loading the latest Nano model

# Run inference on a local image
results = model("path/to/image.jpg")

# Process the results
for result in results:
    result.show()  # Display prediction
    result.save(filename="result.jpg")  # Save to disk

Sonuç

Hem YOLOv5 YOLOX, bilgisayar görme tarihinde yerlerini almıştır. YOLOv5 , kullanım kolaylığı ve dağıtım konusunda çıtayı YOLOv5 , YOLOX ise ankrajsız algılama sınırlarını zorlamıştır.

Ancak, en yüksek verimlilik gerektiren modern uygulamalar için Ultralytics en üstün seçimdir. NMS tasarım, devrim niteliğindeki MuSGD optimizasyon aracı ve kenar optimizasyonlu mimariyi bir araya getiren bu ürün, kapsamlı destekle sağlam ve geleceğe dönük bir çözüm sunar. Ultralytics ekosistemi tarafından desteklenen sağlam, geleceğe dönük bir çözüm sunar.


Yorumlar