YOLOX ve YOLOv5: Derinlemesine Mimari ve Performans Karşılaştırması

Doğru nesne algılama modelini seçmek, herhangi bir bilgisayarlı görü projesinin başarısını belirleyen kritik bir karardır. Bu rehber, yapay zeka dünyasının iki önemli modeli olan Megvii'ye ait YOLOX ve Ultralytics YOLOv5 arasında kapsamlı bir teknik karşılaştırma sunmaktadır. Mimarilerini, performans metriklerini ve eğitim ekosistemlerini analiz ederek, geliştiricilerin ve araştırmacıların kendi özel dağıtım ortamları için bilinçli bir seçim yapmalarına yardımcı olmayı amaçlıyoruz.

Modellere Giriş

Her iki model de gerçek zamanlı nesne algılamada hızlı ilerlemenin yaşandığı bir dönemde ortaya çıktı, ancak performanslarına ulaşmak için farklı mimari felsefeleri benimsediler.

YOLOX: Çapasız (Anchor-Free) Bir Yaklaşım

Araştırmacılar Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun tarafından 18 Temmuz 2021'de Megvii bünyesinde yayınlanan YOLOX, geleneksel çapa kutularından (anchor boxes) uzaklaşarak önemli bir değişim başlattı. Arxiv teknik raporlarında belgelendiği üzere YOLOX, ayrıştırılmış bir başlık (decoupled head) ve SimOTA etiket atama stratejisi ile çapasız bir tasarımı bütünleştirdi. Bu tasarım, akademik araştırmalar ile endüstriyel uygulama arasındaki boşluğu doldurmayı ve standart veri setlerinde güçlü bir performans sunmayı amaçlıyordu.

YOLOX hakkında daha fazla bilgi edin

YOLOv5: Üretim Seviyesi Görüntü Yapay Zekası için Standart

Glenn Jocher tarafından yazılan ve Ultralytics tarafından 26 Haziran 2020'de yayınlanan YOLOv5, konuşlandırılmış bilgisayarlı görü için hızla endüstri standardı haline geldi. Doğrudan PyTorch çerçevesi üzerine inşa edilmiş olup, sunduğu benzersiz kullanım kolaylığı, son derece hızlı eğitim ve oldukça optimize edilmiş deposu ile son teknoloji yapay zekayı demokratikleştirdi. YOLOv5'in mimarisi hız, doğruluk ve dağıtım kolaylığı arasındaki mükemmel dengeye odaklanarak, onu uç cihazlardan devasa bulut dağıtımlarına kadar her şey için favori haline getirdi.

YOLOv5 hakkında daha fazla bilgi edin

Mimari Farklılıklar

Bu ağlar arasındaki temel mekanik farkları anlamak, neden farklı görevlerde farklı performans gösterdiklerini açıklar.

Çapasız (Anchor-Free) ve Çapalı (Anchor-Based) Yaklaşım

En belirgin karşıtlık, YOLOX'un çapasız mekanizmasıdır. YOLOv5 gibi geleneksel modeller, sınırlayıcı kutuları tahmin etmek için önceden tanımlanmış çapa kutularına güvenir; bu da optimal çapa boyutlarını belirlemek için eğitim verisi üzerinde kümeleme analizi yapılmasını gerektirir. YOLOX bunu ortadan kaldırarak sınırlayıcı kutu koordinatlarını doğrudan her uzamsal konumda tahmin eder. Çapasız yaklaşım tasarım parametrelerinin sayısını ve sezgisel ayar ihtiyacını azaltsa da, YOLOv5'in otomatik çapa (auto-anchor) işleviyle desteklenen rafine çapalı yaklaşımı, kutudan çıktığı andan itibaren inanılmaz derecede kararlı ve tahmin edilebilir bir eğitim yakınsaması sağlar.

Ayrıştırılmış Başlık (Decoupled Head) ve Birleşik Başlık (Coupled Head)

YOLOX, sınıflandırma ve regresyon görevlerinin ayrı sinir ağı dallarına ayrıldığı ayrıştırılmış bir başlık kullanır. Yazarlar, bunun uzamsal ve anlamsal özellik öğrenimi arasındaki çatışmaları çözdüğünü savunmuşlardır. Buna karşılık YOLOv5, hesaplama verimliliğini maksimize eden ve gerçek zamanlı uç bilişim için kritik olan çıkarım gecikmesini azaltan, oldukça optimize edilmiş (ilk sürümlerinde) birleşik bir başlık kullanmıştır.

Mimari Evrim

YOLOX 2021'de ayrıştırılmış başlığın öncülüğünü yaparken, Ultralytics daha sonra YOLOv8 ve son teknoloji YOLO26 gibi sonraki modellerde ayrıştırılmış mimarileri benimsemiş ve mükemmelleştirerek her iki dünyanın en iyi yanlarını birleştirmiştir.

Etiket Atama Stratejisi

YOLOX, gerçek nesnelerin tahminlerle eşleştirilmesini bir Optimal Taşıma problemi olarak formüle eden etiket atama için SimOTA'yı kullanır. Bu dinamik atama, kalabalık sahnelerdeki performansı iyileştirir. YOLOv5 ise yüksek kaliteli pozitif örneklerin sürekli olarak kayıp fonksiyonuna beslenmesini sağlayan sağlam bir şekil kuralı tabanlı atama kullanır; bu da onun efsanevi eğitim kararlılığına katkıda bulunur.

Performans ve Kıyaslamalar

Hız ve doğruluk arasındaki ödünleşim, bu mimariler için en büyük sınavdır. Aşağıdaki tablo, standart kıyaslamalarda çeşitli model boyutlarının performansını göstermektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOX, özellikle daha büyük varyantlarında rekabetçi mAP skorlarına ulaşsa da, YOLOv5 genel olarak TensorRT çıkarım hızında kayda değer bir avantajı korur. Örneğin YOLOv5s modeli, olağanüstü hız-doğruluk oranları sunarak, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için onu son derece cazip kılar.

Ultralytics Avantajı: Eğitim ve Kullanılabilirlik

Araştırmadan üretime geçerken, bir modelin etrafındaki ekosistem genellikle modelin kendisi kadar önemlidir. İşte burada, Ultralytics ekosisteminin avantajları bariz bir şekilde ortaya çıkmaktadır.

Kolaylaştırılmış Kullanıcı Deneyimi

YOLOv5, "sıfırdan kahramana" geliştirici deneyimiyle evrensel olarak övülür. Ultralytics Python API ve CLI, modelleri tek satırlık kodlarla yüklemenize, eğitmenize ve dağıtmanıza olanak tanır. Buna karşılık, YOLOX'u Megvii GitHub deposundan çalıştırmak, ortam değişkenlerinin daha fazla manuel yapılandırılmasını, karmaşık Python yol kurulumlarını ve akademik araştırma kod tabanlarına özgü daha dik bir öğrenme eğrisini gerektirir.

Eğitim Verimliliği ve Bellek Gereksinimleri

Ultralytics modelleri, eğitim sırasında bellek kullanımını en aza indirmek için titizlikle tasarlanmıştır. YOLOv5, RT-DETR gibi yoğun parametreli Transformer modellerine veya optimize edilmemiş araştırma modellerine kıyasla önemli ölçüde daha az CUDA belleği gerektirir. Bu durum geliştiricilerin tüketici sınıfı donanımlarda daha büyük toplu iş boyutlarıyla (batch size) eğitim yapmalarına olanak tanıyarak yinelemeli geliştirme döngüsünü hızlandırır.

Görevler Arasında Çok Yönlülük

YOLOX kesinlikle bir nesne algılama çerçevesi olsa da, Ultralytics ekosistemi YOLOv5'i birden fazla görü görevini destekleyecek şekilde geliştirmiştir. Kutudan çıktığı haliyle, tam olarak aynı API sözdizimini kullanarak Görüntü Sınıflandırma, Örnek Segmentasyonu ve nesne algılama gerçekleştirebilirsin.

Sürekli İnovasyon

Poz Tahmini veya Yönelimli Sınırlayıcı Kutu (OBB) algılama gibi daha gelişmiş görevlere ihtiyacın varsa, tüm bunları son teknoloji doğrulukla yerel olarak destekleyen en güncel Ultralytics YOLO26 mimarisine yükseltmeni şiddetle tavsiye ederiz.

Kod Karşılaştırması

Kullanılabilirlikteki fark, en iyi kod ile gösterilir.

YOLOv5 ile Eğitim:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

YOLOX ile Eğitim: (Manuel depo klonlama, setup.py kurulumu ve karmaşık CLI argümanları gerektirir)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Ultralytics yaklaşımı sürtünmeyi ortadan kaldırarak yapılandırma dosyalarında hata ayıklamak yerine veri setine ve uygulama mantığına odaklanmanı sağlar. Ayrıca, Weights & Biases ve Comet ML için yerleşik entegrasyonlarla deneylerini takip etmek sorunsuzdur.

İdeal Kullanım Durumları ve Gerçek Dünya Uygulamaları

Bu modeller arasında seçim yapmak, projenin operasyonel ortamına bağlıdır.

YOLOX'un Öne Çıktığı Noktalar

YOLOX, araştırmacıların çapasız paradigmaları veya etiket atama stratejilerini açıkça incelediği akademik ortamlarda güçlü bir aday olmaya devam etmektedir. Ayrıca, kalabalık sahne algılamanın mutlak birincil metrik olduğu ve uç dağıtım hızlarının ikincil planda kaldığı senaryolarda da kullanışlıdır.

YOLOv5'in Üstün Olduğu Noktalar

YOLOv5, pratik dağıtımın tartışmasız şampiyonudur.

  • Yüksek Hızlı Üretim: Montaj hattı kusur algılama için, YOLOv5'in uç GPU'lardaki minimum çıkarım gecikmesi, ürünlerin bant hızını yavaşlatmadan denetlenmesini sağlar.
  • Drone ve Hava Görüntüleme: Verimli bellek ayak izi, tarım izleme ve yaban hayatı takibi gibi görevler için dronlardaki hafif yardımcı bilgisayarlarda çalışmasını sağlar.
  • Akıllı Perakende: Otomatik ödeme sistemlerinden envanter yönetimine kadar YOLOv5, binlerce mağaza kamerasında kitlesel dağıtım için TensorRT ve ONNX formatlarına kolayca aktarılabilir.

İleriye Bakış: YOLO26 Avantajı

YOLOv5 efsanevi bir model olsa da, yapay zeka alanı hızla ilerlemektedir. Bugün yeni bir projeye başlıyorsan, en son nesil Ultralytics modellerine bakmanı şiddetle tavsiye ederiz.

2026'da yayınlanan Ultralytics YOLO26 devasa bir ileri atılımı temsil eder. Dağıtım mantığını önemli ölçüde basitleştiren ve Non-Maximum Suppression (NMS) sonrası işlem ihtiyacını tamamen ortadan kaldıran Uçtan Uca NMS'siz Tasarım özelliğine sahiptir. Distribution Focal Loss (DFL) bileşenini kaldırarak ve en son teknoloji MuSGD Optimizer kullanarak YOLO26, yeni ProgLoss + STAL kayıp fonksiyonları sayesinde, özellikle küçük nesnelerde daha yüksek doğruluğu korurken önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sağlar.

İster YOLOv5'in savaşta test edilmiş güvenilirliğini, ister YOLO26'nın en ileri performansını seç, Ultralytics Platformu bilgisayarlı görü çözümlerini kavram aşamasından üretime sorunsuz bir şekilde taşımak için elindeki en iyi araçlara sahip olmanı sağlar. Yapay zeka hattının tam potansiyelini ortaya çıkarmak için kapsamlı Ultralytics belgelerini keşfettiğinden emin ol.

Yorumlar