İçeriğe geç

YOLOv6-3.0 - YOLOX: Endüstriyel Hız ve Anchor'suz Hassasiyete Derinlemesine Bir Bakış

Optimal nesne algılama mimarisini seçmek, bilgisayar görüşü sistemlerinin verimliliğini ve yeteneğini etkileyen kritik bir karardır. Bu teknik karşılaştırma, gerçek zamanlı algılama ortamını şekillendiren iki etkili model olan YOLOv6-3.0 ve YOLOX'u incelemektedir. Mimari yeniliklerini, kıyaslama performans metriklerini ve çeşitli dağıtım senaryolarına uygunluğunu analiz ediyoruz.

YOLOv6-3.0: Endüstriyel Verimlilik için Tasarlandı

Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Kuruluş: Meituan
Tarih: 2023-01-13
Arxiv: YOLOv6 v3.0: Tam Ölçekli Yeniden Yükleme
GitHub: meituan/YOLOv6
Belgeler: Ultralytics YOLOv6 Belgeleri

Meituan'daki Vision AI Department tarafından geliştirilen YOLOv6-3.0, donanım kaynaklarının genellikle kısıtlı olduğu ancak gerçek zamanlı hızın pazarlık konusu olmadığı endüstriyel uygulamalar için açıkça tasarlanmıştır. Standart GPU donanımında nesne algılama işlem hatlarının verimini en üst düzeye çıkarmaya odaklanır.

Mimari ve Temel Özellikler

YOLOv6-3.0, çıkarım maliyetini artırmadan doğruluğu artırmak için bir dizi "bedava hediyeler" sunar.

  • Yeniden Parametreleştirilebilir Backbone: Eğitim sırasında karmaşık, çok dallı bir yapıya (zengin özellikleri yakalayan) izin veren ve çıkarım sırasında basit, hızlı, tek yollu bir yapıya ayrılan bir EfficientRep backbone kullanır.
  • Ankraj Destekli Eğitim (AAT): Model, çıkarım sırasında ankraj içermeyen bir dedektör olarak çalışırken, yakınsamayı stabilize etmek ve performansı artırmak için eğitim sırasında ankraj tabanlı yardımcı dallar kullanır.
  • Kendiliğinden Damıtma: Öğrenci modelinin kendi öğretmen modelinin tahminlerinden öğrendiği ve harici bağımlılıklar olmadan doğruluğunu iyileştirdiği bir bilgi damıtma tekniği.

Güçlü ve Zayıf Yönler

YOLOv6-3.0'ın temel gücü, gecikme optimizasyonunda yatmaktadır. TensorRT ile optimize edildiğinde NVIDIA GPU'larda olağanüstü çıkarım hızlarına ulaşır ve bu da onu yüksek verimli fabrika otomasyonu ve akıllı şehir gözetimi için güçlü bir aday yapar. Ayrıca, niceleme farkındalıklı eğitim (QAT) desteği, azaltılmış hassasiyet gereksinimleri olan uç cihazlara dağıtıma yardımcı olur.

Ancak, model biraz uzmanlaşmıştır. Daha geniş çerçevelerde bulunan yerel çoklu görev çok yönlülüğünden yoksundur ve neredeyse yalnızca algılamaya odaklanır. Ek olarak, ekosistemi sağlam olmasına rağmen, Ultralytics modellerini çevreleyen topluluktan daha küçüktür ve bu da niş veri kümeleri için üçüncü taraf eğitimlerinin ve önceden eğitilmiş ağırlıkların kullanılabilirliğini potansiyel olarak sınırlar.

YOLOv6 hakkında daha fazla bilgi edinin

YOLOX: Basitlik ve Bağlantısız İnovasyon

Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 2021-07-18
Arxiv: YOLOX: 2021'de YOLO Serisini Aşıyor
GitHub: Megvii-BaseDetection/YOLOX
Belgeler: YOLOX Belgeleri

YOLOX, bağlantısız (anchor-free) detectörleri ana YOLO soyuna getirerek bir paradigma değişimini temsil etti. Önceden tanımlanmış bağlantı kutularına olan ihtiyacı ortadan kaldırarak, tasarım sürecini basitleştirdi ve çeşitli nesne şekillerinde genelleştirmeyi geliştirdi.

Mimari ve Temel Özellikler

YOLOX, temiz bir mimariyi korurken performansı artırmak için çeşitli gelişmiş teknikleri entegre eder:

  • Ayrıştırılmış Kafa (Decoupled Head): Birleşik bir kafa (sınıflandırma ve yerelleştirme için özellikleri paylaşan) kullanan önceki YOLO sürümlerinin aksine, YOLOX bu görevleri ayırarak daha hızlı yakınsamaya ve daha iyi doğruluğa yol açar.
  • SimOTA Etiket Ataması: Eğitim sürecini bir optimal taşıma problemi olarak ele alan, maliyeti en aza indirecek şekilde pozitif örnekleri otomatik olarak yer doğruluklarına atayan gelişmiş bir dinamik etiket atama stratejisidir.
  • Güçlü Artırma: Önceden eğitilmiş backbonelar olmadan bile modelin sağlam özellikler öğrenmesini sağlayan MixUp ve Mozaik artırmaları yoğun bir şekilde kullanır.

Güçlü ve Zayıf Yönler

YOLOX, kesinlik ve araştırma esnekliği konusunda mükemmeldir. Anchor'suz yapısı, özellikle sıra dışı en boy oranlarına sahip nesneleri detect etmek için etkilidir ve genellikle bu senaryolarda anchor tabanlı eşdeğerlerinden daha iyi performans gösterir. YOLOX-Nano modeli de özellikle hafiftir (1M'den az parametre), bu da onu son derece düşük güçlü mikrodenetleyiciler için ideal hale getirir.

Olumsuz tarafı ise, YOLOX, aynı doğruluk seviyesi için YOLOv6 veya YOLO11 gibi daha yeni modellere kıyasla FLOPs açısından daha fazla işlem gücü gerektirebilir. Eğitim hattı etkili olmasına rağmen, karmaşık dinamik etiket atama hesaplamaları nedeniyle daha yavaş olabilir ve genellikle yüksek düzeyde optimize edilmiş Ultralytics uygulamalarına kıyasla eğitim sırasında daha fazla GPU belleği gerektirir.

YOLOX hakkında daha fazla bilgi edinin

Performans Karşılaştırması: Metrikler ve Analiz

Aşağıdaki tablo, COCO veri kümesi üzerindeki temel performans metriklerinin doğrudan bir karşılaştırmasını sunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Analiz

Veriler, tasarım felsefesindeki açık bir ayrımı vurgulamaktadır. YOLOv6-3.0 donanım odaklı verimlilikte baskındır. Örneğin, YOLOv6-3.0n T4 GPU'larda 1.17ms'lik inanılmaz bir çıkarım süresine ulaşıyor ve bu, sınıfındaki modeller için tipik ölçütlerden önemli ölçüde daha hızlı. Şunun YOLOv6-3.0l aynı zamanda en büyük YOLOX modelini (YOLOXx) doğrulukta (52.8'e karşı 51.1 mAP) neredeyse yarısı kadar kullanırken FLOPs.

YOLOX, tersine, ultra hafif kategoride kazanır. Şunun YOLOXnano 1M'nin altında parametreye sahiptir; bu, birkaç modern dedektörün tekrar edebildiği bir başarıdır ve bu da onu, bellek depolamasının hesaplama hızından ziyade birincil darboğaz olduğu belirli IoT uygulamaları için benzersiz bir şekilde uygun hale getirir. Ancak, genel amaçlı algılama için YOLOX, YOLOv6'ya karşı karşılaştırılabilir doğruluk için daha fazla parametre gerektirme eğilimindedir.

Donanım Hususları

Dağıtım hedefiniz modern bir NVIDIA GPU'su (örneğin, Jetson Orin, T4, A100) ise, YOLOv6-3.0, özel backbone'u nedeniyle daha iyi verim sağlayabilir. Çok sıkı depolama sınırlarına sahip genel bir CPU'yu veya eski bir gömülü sistemi hedefliyorsanız, YOLOX Nano daha uygun olabilir.

Ultralytics Avantajı: Neden YOLO11'i Seçmelisiniz?

YOLOv6 ve YOLOX ise belirli nişler için sağlam çözümler sunuyor, Ultralytics YOLO11 geliştiricilerin büyük çoğunluğu için üstün bir hız, doğruluk ve kullanılabilirlik dengesi sunan en son teknolojiye sahip araştırmaların doruk noktasını temsil eder.

Rakipsiz Çok Yönlülük ve Ekosistem

Genellikle yalnızca sınırlayıcı kutu tespiti üzerine odaklanan rakiplerin aksine, YOLO11, Örnek Segmentasyonu, Poz Tahmini, Yönlendirilmiş Nesne Tespiti (OBB) ve Sınıflandırma dahil olmak üzere çok çeşitli bilgisayar görüşü görevleri için yerel destek sağlar. Bu, geliştiricilerin karmaşık, çok aşamalı sorunları tek bir çerçeveyle çözmelerine olanak tanır.

Ayrıca, Ultralytics ekosistemi aktif olarak sürdürülmekte olup, en son Python sürümleri, PyTorch güncellemeleri ve CoreML, OpenVINO ve ONNX gibi dağıtım hedefleriyle uyumluluk sağlanmaktadır.

Verimlilik ve Kullanım Kolaylığı

YOLO11, tipik olarak transformatör tabanlı alternatiflerden (RT-DETR gibi) veya eski YOLO sürümlerinden daha az GPU belleği gerektiren eğitim verimliliği için tasarlanmıştır. Bu, araştırmacıların tüketici sınıfı donanımlarda daha büyük modeller eğitmesine olanak tanır. Python API'si basitlik için tasarlanmıştır ve kullanıcıların yalnızca birkaç satır kodla kurulumdan çıkarıma geçmelerini sağlar:

from ultralytics import YOLO

# Load the YOLO11 model (n, s, m, l, or x)
model = YOLO("yolo11n.pt")

# Perform inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Gerçek Dünya Performans Dengesi

Kıyaslamalar sürekli olarak YOLO11'in hem YOLOv6 hem de YOLOX'tan karşılaştırılabilir veya daha hızlı çıkarım hızlarında daha yüksek mAP puanları elde ettiğini göstermektedir. Bu "Pareto optimal" performans, onu otonom araçlardan tıbbi görüntüleme analizine kadar uzanan uygulamalar için önerilen bir seçim haline getirmektedir.

Sonuç

YOLOv6-3.0 ve YOLOX karşılaştırıldığında, seçim büyük ölçüde özel kısıtlamalarınıza bağlıdır. YOLOv6-3.0, milisaniye düzeyinde gecikmenin kritik olduğu kesinlikle endüstriyel GPU dağıtımları için idealdir. YOLOX, Nano modeli aracılığıyla ankrajsız mimariler üzerine araştırma yapmak ve ultra kısıtlı depolama ortamları için sağlam bir seçim olmaya devam etmektedir.

Ancak, üst düzey performansı, kullanımı kolay, özellik açısından zengin bir platformla birleştiren, geleceğe dönük bir çözüm arayan geliştiriciler için Ultralytics YOLO11 kesin kazanan. Birden fazla görevi sorunsuz bir şekilde yönetme yeteneği, kapsamlı belgeler ve geniş dağıtım desteği ile birleştiğinde, geliştirme yaşam döngüsünü konseptten üretime hızlandırır.

Ultralytics modellerinin RT-DETR veya YOLOv7'ye karşı nasıl performans gösterdiğini görmek için diğer karşılaştırmaları inceleyin.


Yorumlar