YOLOX ve YOLOv5: Derinlemesine Mimari ve Performans Karşılaştırması
Doğru nesne algılama modelini seçmek, herhangi bir bilgisayarlı görü projesinin başarısını belirleyen kritik bir karardır. Bu rehber, yapay zeka dünyasının iki önemli modeli olan Megvii'ye ait YOLOX ve Ultralytics YOLOv5 arasında kapsamlı bir teknik karşılaştırma sunmaktadır. Mimarilerini, performans metriklerini ve eğitim ekosistemlerini analiz ederek, geliştiricilerin ve araştırmacıların kendi özel dağıtım ortamları için bilinçli bir seçim yapmalarına yardımcı olmayı amaçlıyoruz.
Modellere Giriş
Her iki model de gerçek zamanlı nesne algılamada hızlı ilerlemenin yaşandığı bir dönemde ortaya çıktı, ancak performanslarına ulaşmak için farklı mimari felsefeleri benimsediler.
YOLOX: Çapasız (Anchor-Free) Bir Yaklaşım
Araştırmacılar Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun tarafından 18 Temmuz 2021'de Megvii bünyesinde yayınlanan YOLOX, geleneksel çapa kutularından (anchor boxes) uzaklaşarak önemli bir değişim başlattı. Arxiv teknik raporlarında belgelendiği üzere YOLOX, ayrıştırılmış bir başlık (decoupled head) ve SimOTA etiket atama stratejisi ile çapasız bir tasarımı bütünleştirdi. Bu tasarım, akademik araştırmalar ile endüstriyel uygulama arasındaki boşluğu doldurmayı ve standart veri setlerinde güçlü bir performans sunmayı amaçlıyordu.
YOLOX hakkında daha fazla bilgi edin
YOLOv5: Üretim Seviyesi Görüntü Yapay Zekası için Standart
Glenn Jocher tarafından yazılan ve Ultralytics tarafından 26 Haziran 2020'de yayınlanan YOLOv5, konuşlandırılmış bilgisayarlı görü için hızla endüstri standardı haline geldi. Doğrudan PyTorch çerçevesi üzerine inşa edilmiş olup, sunduğu benzersiz kullanım kolaylığı, son derece hızlı eğitim ve oldukça optimize edilmiş deposu ile son teknoloji yapay zekayı demokratikleştirdi. YOLOv5'in mimarisi hız, doğruluk ve dağıtım kolaylığı arasındaki mükemmel dengeye odaklanarak, onu uç cihazlardan devasa bulut dağıtımlarına kadar her şey için favori haline getirdi.
YOLOv5 hakkında daha fazla bilgi edin
Mimari Farklılıklar
Bu ağlar arasındaki temel mekanik farkları anlamak, neden farklı görevlerde farklı performans gösterdiklerini açıklar.
Çapasız (Anchor-Free) ve Çapalı (Anchor-Based) Yaklaşım
En belirgin karşıtlık, YOLOX'un çapasız mekanizmasıdır. YOLOv5 gibi geleneksel modeller, sınırlayıcı kutuları tahmin etmek için önceden tanımlanmış çapa kutularına güvenir; bu da optimal çapa boyutlarını belirlemek için eğitim verisi üzerinde kümeleme analizi yapılmasını gerektirir. YOLOX bunu ortadan kaldırarak sınırlayıcı kutu koordinatlarını doğrudan her uzamsal konumda tahmin eder. Çapasız yaklaşım tasarım parametrelerinin sayısını ve sezgisel ayar ihtiyacını azaltsa da, YOLOv5'in otomatik çapa (auto-anchor) işleviyle desteklenen rafine çapalı yaklaşımı, kutudan çıktığı andan itibaren inanılmaz derecede kararlı ve tahmin edilebilir bir eğitim yakınsaması sağlar.
Ayrıştırılmış Başlık (Decoupled Head) ve Birleşik Başlık (Coupled Head)
YOLOX, sınıflandırma ve regresyon görevlerinin ayrı sinir ağı dallarına ayrıldığı ayrıştırılmış bir başlık kullanır. Yazarlar, bunun uzamsal ve anlamsal özellik öğrenimi arasındaki çatışmaları çözdüğünü savunmuşlardır. Buna karşılık YOLOv5, hesaplama verimliliğini maksimize eden ve gerçek zamanlı uç bilişim için kritik olan çıkarım gecikmesini azaltan, oldukça optimize edilmiş (ilk sürümlerinde) birleşik bir başlık kullanmıştır.
Etiket Atama Stratejisi
YOLOX, gerçek nesnelerin tahminlerle eşleştirilmesini bir Optimal Taşıma problemi olarak formüle eden etiket atama için SimOTA'yı kullanır. Bu dinamik atama, kalabalık sahnelerdeki performansı iyileştirir. YOLOv5 ise yüksek kaliteli pozitif örneklerin sürekli olarak kayıp fonksiyonuna beslenmesini sağlayan sağlam bir şekil kuralı tabanlı atama kullanır; bu da onun efsanevi eğitim kararlılığına katkıda bulunur.
Performans ve Kıyaslamalar
Hız ve doğruluk arasındaki ödünleşim, bu mimariler için en büyük sınavdır. Aşağıdaki tablo, standart kıyaslamalarda çeşitli model boyutlarının performansını göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOX, özellikle daha büyük varyantlarında rekabetçi mAP skorlarına ulaşsa da, YOLOv5 genel olarak TensorRT çıkarım hızında kayda değer bir avantajı korur. Örneğin YOLOv5s modeli, olağanüstü hız-doğruluk oranları sunarak, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için onu son derece cazip kılar.
Ultralytics Avantajı: Eğitim ve Kullanılabilirlik
Araştırmadan üretime geçerken, bir modelin etrafındaki ekosistem genellikle modelin kendisi kadar önemlidir. İşte burada, Ultralytics ekosisteminin avantajları bariz bir şekilde ortaya çıkmaktadır.
Kolaylaştırılmış Kullanıcı Deneyimi
YOLOv5, "sıfırdan kahramana" geliştirici deneyimiyle evrensel olarak övülür. Ultralytics Python API ve CLI, modelleri tek satırlık kodlarla yüklemenize, eğitmenize ve dağıtmanıza olanak tanır. Buna karşılık, YOLOX'u Megvii GitHub deposundan çalıştırmak, ortam değişkenlerinin daha fazla manuel yapılandırılmasını, karmaşık Python yol kurulumlarını ve akademik araştırma kod tabanlarına özgü daha dik bir öğrenme eğrisini gerektirir.
Eğitim Verimliliği ve Bellek Gereksinimleri
Ultralytics modelleri, eğitim sırasında bellek kullanımını en aza indirmek için titizlikle tasarlanmıştır. YOLOv5, RT-DETR gibi yoğun parametreli Transformer modellerine veya optimize edilmemiş araştırma modellerine kıyasla önemli ölçüde daha az CUDA belleği gerektirir. Bu durum geliştiricilerin tüketici sınıfı donanımlarda daha büyük toplu iş boyutlarıyla (batch size) eğitim yapmalarına olanak tanıyarak yinelemeli geliştirme döngüsünü hızlandırır.
Görevler Arasında Çok Yönlülük
YOLOX kesinlikle bir nesne algılama çerçevesi olsa da, Ultralytics ekosistemi YOLOv5'i birden fazla görü görevini destekleyecek şekilde geliştirmiştir. Kutudan çıktığı haliyle, tam olarak aynı API sözdizimini kullanarak Görüntü Sınıflandırma, Örnek Segmentasyonu ve nesne algılama gerçekleştirebilirsin.
Poz Tahmini veya Yönelimli Sınırlayıcı Kutu (OBB) algılama gibi daha gelişmiş görevlere ihtiyacın varsa, tüm bunları son teknoloji doğrulukla yerel olarak destekleyen en güncel Ultralytics YOLO26 mimarisine yükseltmeni şiddetle tavsiye ederiz.
Kod Karşılaştırması
Kullanılabilirlikteki fark, en iyi kod ile gösterilir.
YOLOv5 ile Eğitim:
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display results
results[0].show()YOLOX ile Eğitim: (Manuel depo klonlama, setup.py kurulumu ve karmaşık CLI argümanları gerektirir)
# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -oUltralytics yaklaşımı sürtünmeyi ortadan kaldırarak yapılandırma dosyalarında hata ayıklamak yerine veri setine ve uygulama mantığına odaklanmanı sağlar. Ayrıca, Weights & Biases ve Comet ML için yerleşik entegrasyonlarla deneylerini takip etmek sorunsuzdur.
İdeal Kullanım Durumları ve Gerçek Dünya Uygulamaları
Bu modeller arasında seçim yapmak, projenin operasyonel ortamına bağlıdır.
YOLOX'un Öne Çıktığı Noktalar
YOLOX, araştırmacıların çapasız paradigmaları veya etiket atama stratejilerini açıkça incelediği akademik ortamlarda güçlü bir aday olmaya devam etmektedir. Ayrıca, kalabalık sahne algılamanın mutlak birincil metrik olduğu ve uç dağıtım hızlarının ikincil planda kaldığı senaryolarda da kullanışlıdır.
YOLOv5'in Üstün Olduğu Noktalar
YOLOv5, pratik dağıtımın tartışmasız şampiyonudur.
- Yüksek Hızlı Üretim: Montaj hattı kusur algılama için, YOLOv5'in uç GPU'lardaki minimum çıkarım gecikmesi, ürünlerin bant hızını yavaşlatmadan denetlenmesini sağlar.
- Drone ve Hava Görüntüleme: Verimli bellek ayak izi, tarım izleme ve yaban hayatı takibi gibi görevler için dronlardaki hafif yardımcı bilgisayarlarda çalışmasını sağlar.
- Akıllı Perakende: Otomatik ödeme sistemlerinden envanter yönetimine kadar YOLOv5, binlerce mağaza kamerasında kitlesel dağıtım için TensorRT ve ONNX formatlarına kolayca aktarılabilir.
İleriye Bakış: YOLO26 Avantajı
YOLOv5 efsanevi bir model olsa da, yapay zeka alanı hızla ilerlemektedir. Bugün yeni bir projeye başlıyorsan, en son nesil Ultralytics modellerine bakmanı şiddetle tavsiye ederiz.
2026'da yayınlanan Ultralytics YOLO26 devasa bir ileri atılımı temsil eder. Dağıtım mantığını önemli ölçüde basitleştiren ve Non-Maximum Suppression (NMS) sonrası işlem ihtiyacını tamamen ortadan kaldıran Uçtan Uca NMS'siz Tasarım özelliğine sahiptir. Distribution Focal Loss (DFL) bileşenini kaldırarak ve en son teknoloji MuSGD Optimizer kullanarak YOLO26, yeni ProgLoss + STAL kayıp fonksiyonları sayesinde, özellikle küçük nesnelerde daha yüksek doğruluğu korurken önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sağlar.
İster YOLOv5'in savaşta test edilmiş güvenilirliğini, ister YOLO26'nın en ileri performansını seç, Ultralytics Platformu bilgisayarlı görü çözümlerini kavram aşamasından üretime sorunsuz bir şekilde taşımak için elindeki en iyi araçlara sahip olmanı sağlar. Yapay zeka hattının tam potansiyelini ortaya çıkarmak için kapsamlı Ultralytics belgelerini keşfettiğinden emin ol.