YOLOv5 YOLOX: Nesne Algılama Mimarilerinin Teknik Karşılaştırması
Hızla gelişen bilgisayar görme alanında, ankraj tabanlı ve ankrajsız dedektörler arasındaki tartışma merkezi bir tema olmuştur. Bu karşılaştırma, teknik farklılıkları incelemektedir. YOLOv5, kullanılabilirlik ve hız açısından endüstri standardı olan YOLOv5 ile yüksek performanslı ankarsız dedektör YOLOX arasındaki teknik farklılıkları incelemektedir.
Modelin Kökenleri ve Genel Bakışı
YOLOv5
Yazar: Glenn Jocher
Kuruluş: Ultralytics
Tarih: 2020-06-26
GitHub: yolov5
YOLOX
Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 2021-07-18
GitHub: Megvii-BaseDetection/YOLOX
YOLOv5 sadece mimari değişikliklerle değil, aynı zamanda sorunsuz bir kullanıcı deneyimi yaratarak da bu alanda devrim yarattı. Eğitim kolaylığı, dışa aktarılabilirlik ve dağıtım hızına öncelik vererek, işletmeler ve geliştiriciler için vazgeçilmez bir seçim haline geldi. Bir yıl sonra piyasaya sürülen YOLOX, YOLO ile çapa içermeyen algılama akademik trendi arasındaki boşluğu doldurmayı amaçlayarak, ayrıştırılmış bir başlık ve yeni bir etiket atama stratejisi sundu.
Performans Metrikleri
Aşağıdaki tablo, her iki modelin performansını karşılaştırmaktadır. YOLOX, mAP açısından biraz daha yüksek bir performans elde ederken mAP elde ederken, YOLOv5 , özellikle CPU, daha üstün çıkarım hızları ve önemli ölçüde daha düşük dağıtım karmaşıklığı sergilemektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Mimari Farklılıklar
Temel teknik farklılık, her modelin sınırlayıcı kutu tahminini nasıl ele aldığına bağlıdır.
YOLOv5: Anchor Tabanlı Standart
YOLOv5 , çapa tabanlı bir mekanizma YOLOv5 . Önceden tanımlanmış çapa kutularından ofsetleri tahmin eder, bu da bilinen ölçeklere sahip nesneler için eğitimi stabilize etmeye yardımcı olur.
- Backbone: Değiştirilmiş CSPDarknet53 kullanır, gradyan akışını geliştirir ve hesaplama darboğazlarını azaltır.
- Veri Artırma: Eğitim MixUp Mosaic artırma ve MixUp yaygın kullanımına öncülük ederek, modelin oklüzyona karşı dayanıklılığını önemli ölçüde artırdı.
- Odak noktası: Mimari, gerçek dünya uygulamaları için büyük ölçüde optimize edilmiştir ve katmanların Edge TPU gibi donanım hızlandırıcılarına verimli bir şekilde eşlenmesini sağlar.
YOLOX: Çapa Kullanmayan Meydan Okuyan
YOLOX, nesnenin merkezini doğrudan tahmin ederek çapa içermeyen bir yaklaşıma geçer.
- Ayrıştırılmış Başlık: Önceki YOLO farklı olarak, YOLOX sınıflandırma ve konum belirleme görevlerini farklı "başlıklar" olarak ayırır ve bu sayede yakınsama sırasında bu iki hedef arasındaki çelişkiyi çözdüğünü savunur.
- SimOTA: Eğitim sürecini Optimal Transport problemi olarak gören gelişmiş bir dinamik etiket atama stratejisi.
- Referans: Teknik ayrıntılar için YOLOX arXiv makalesine bakınız.
Ayrılmış Kafaların Avantajları ve Dezavantajları
YOLOX'taki ayrılmış kafa, yakınsama hızını ve doğruluğunu artırırken, genellikle ek hesaplama yükü getirir ve bu da YOLOv5 YOLOv8'de bulunan bağlı kafa tasarımına kıyasla biraz daha yavaş bir çıkarımla sonuçlanır.
Ekosistem ve Kullanım Kolaylığı
Üretim için modelleri değerlendirirken, çevredeki ekosistem mimari kadar önemlidir. İşte burada Ultralytics modellerinin belirgin bir avantaj sağladığı noktadır.
YOLOv5 olgun ve iyi bakımlı bir ekosisteme entegre edilmiştir. Kullanıcılar, veri seti açıklaması, eğitimi ve dağıtımını kolaylaştıran Ultralytics (eski adıyla HUB) yararlanır. Platform, altyapının karmaşıklığını yöneterek geliştiricilerin verilere ve sonuçlara odaklanmasını sağlar.
Buna karşılık, YOLOX güçlü akademik performans sunarken, genellikle dağıtım için daha fazla manuel yapılandırma gerektirir. Ultralytics , Eğitim Verimliliğine öncelik verir, hazır önceden eğitilmiş ağırlıklar ve eğitim sırasında daha düşük bellek kullanımı sunar. Bu bellek verimliliği, özellikle RT-DETRgibi daha yeni transformatör tabanlı modellerle karşılaştırıldığında özellikle dikkat çekicidir.
YOLOv5 hakkında daha fazla bilgi edinin.
Evrim: YOLO26'ya giriş
YOLOv5 YOLOX hala mükemmel seçenekler olsa da, bu alanda gelişmeler kaydedilmiştir. 2026 yılında yeni projeler başlatan geliştiriciler için YOLO26, YOLOv5 kullanılabilirliğini YOLOX'un çapa içermeyen YOLOv5 birleştirerek ve her ikisini de geride bırakarak bu evrimin zirvesini temsil etmektedir.
YOLO26, uç bilgi işlem ve gerçek zamanlı analiz için en üst düzey performans dengesi sağlayacak şekilde tasarlanmıştır.
Neden YOLO26'ya yükseltmelisiniz?
- Uçtan Uca NMS: YOLOX gibi, YOLO26 da ankrajlardan uzaklaşır, ancak daha da ileri giderek doğal olarak uçtan uca hale gelir. Bu, NMS veya CoreMLgibi cihazlarda dağıtımı genellikle karmaşıklaştıran bir son işlem adımı olan Maksimum Baskıl
- MuSGD Optimizer: Büyük Dil Modeli (LLM) eğitim tekniklerinden (özellikle Moonshot AI'nın Kimi K2'sinden) esinlenerek geliştirilen bu hibrit optimizer, istikrarlı bir eğitim dinamiği sağlayarak LLM istikrarını görme görevlerine etkili bir şekilde taşır.
- Hız: YOLO26, Dağıtım Odak Kaybı (DFL) ve mimari budamanın kaldırılmasıyla önceki nesillere kıyasla %43'e kadar daha hızlı CPU olanak tanır.
- ProgLoss + STAL: Bu geliştirilmiş kayıp fonksiyonları, özellikle küçük nesnelerin tanınmasını hedefleyerek, önceki dedektörlerdeki yaygın bir zayıflığı gidermektedir.
YOLO26 hakkında daha fazla bilgi edinin
Görevler Arası Çok Yönlülük
Öncelikle algılamaya odaklanan YOLOX'un aksine, Ultralytics , Poz Tahmini, Örnek Segmentasyonu ve Yönlendirilmiş Nesne Algılama (OBB) dahil olmak üzere kullanıma hazır bir dizi görevi destekler.
Gerçek Dünya Uygulamaları
Bu modeller arasında seçim genellikle dağıtım senaryosuna bağlıdır.
- Endüstriyel Denetim (YOLOv5): Yüksek verim gerektiren üretim hatları için, birleştirilmiş kafa tasarımı ve TensorRTUltralytics optimizasyonu, minimum gecikme süresi sağlar.
- Hava Gözetimi (YOLO26): Yeni ProgLoss + STAL işlevleriyle YOLO26, drone görüntülerinde araçlar veya çiftlik hayvanları gibi küçük nesneleri algılamada üstün performans gösterir. Bu, eski çapa tabanlı modellerin bazen zorlandığı bir görevdir.
- Akademik Araştırma (YOLOX): Etiket atama stratejilerini araştıran araştırmacılar, SimOTA'nın net bir şekilde uygulanması nedeniyle genellikle YOLOX'u temel referans olarak kullanırlar.
Kod Örneği
Ultralytics modeller arasında geçiş yapmak sorunsuzdur. Aşağıdaki kod, YOLOv5, YOLO11 ve önerilen YOLO26 için çalışan birleşik API'yi göstererek, çıkarımın nasıl yükleneceğini ve çalıştırılacağını göstermektedir.
from ultralytics import YOLO
# Load a model (YOLOv5 or the recommended YOLO26)
# The API unifies usage, making it easy to swap models for comparison
model = YOLO("yolo26n.pt") # Loading the latest Nano model
# Run inference on a local image
results = model("path/to/image.jpg")
# Process the results
for result in results:
result.show() # Display prediction
result.save(filename="result.jpg") # Save to disk
Sonuç
Hem YOLOv5 YOLOX, bilgisayar görme tarihinde yerlerini almıştır. YOLOv5 , kullanım kolaylığı ve dağıtım konusunda çıtayı YOLOv5 , YOLOX ise ankrajsız algılama sınırlarını zorlamıştır.
Ancak, en yüksek verimlilik gerektiren modern uygulamalar için Ultralytics en üstün seçimdir. NMS tasarım, devrim niteliğindeki MuSGD optimizasyon aracı ve kenar optimizasyonlu mimariyi bir araya getiren bu ürün, kapsamlı destekle sağlam ve geleceğe dönük bir çözüm sunar. Ultralytics ekosistemi tarafından desteklenen sağlam, geleceğe dönük bir çözüm sunar.