İçeriğe geç

YOLOX vs. YOLOv6.0: Teknik Bir Karşılaştırma

Doğru nesne algılama mimarisini seçmek; performans, hız ve hesaplama verimliliğini dengelemeyi amaçlayan geliştiriciler ve araştırmacılar için kritik bir karardır. Bu kapsamlı karşılaştırma, Megvii'nin yüksek performanslı çapasız dedektörü YOLOX ile Meituan tarafından geliştirilen endüstriyel sınıf bir çerçeve olan YOLOv6.0 arasındaki teknik farkları incelemektedir. Mimarilerini, kıyaslama ölçütlerini ve eğitim metodolojilerini analiz ederek, sizi özel bilgisayarla görme uygulamalarınız için en iyi modele yönlendirmeyi amaçlıyoruz.

YOLOX: Araştırma ve Sanayi Arasında Köprü Kuruyor

Yazarlar Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Organization:Megvii
Date: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Docs:https://yolox.readthedocs.io/en/latest/

2021 yılında piyasaya sürülen YOLOX, çapasız bir mekanizma benimseyerek ve daha önce akademik araştırmalar için ayrılmış olan gelişmiş algılama tekniklerini entegre ederek YOLO serisinde önemli bir değişimi temsil etti. Önceden tanımlanmış bağlantı kutularına olan bağımlılığı ortadan kaldıran YOLOX, eğitim sürecini basitleştirdi ve çeşitli nesne şekilleri arasında genelleştirmeyi geliştirdi.

Mimari ve Temel Özellikler

YOLOX, "ayrık kafa" mimarisi ile farklılaşmaktadır. Sınıflandırma ve yerelleştirme görevlerini tek bir dalda birleştiren geleneksel YOLO modellerinin aksine, YOLOX bunları ayırarak yakınsama hızını ve doğruluğunu önemli ölçüde artırır. Pozitif örnekleri dinamik olarak temel gerçek nesnelerine atayan ve eğitim kararsızlığını azaltan bir SimOTA (Basitleştirilmiş Optimal Taşıma Ataması) etiket atama stratejisi kullanır.

Ankrajsız Tasarım

YOLOX, önceki YOLO sürümlerinde yaygın bir adım olan manuel bağlantı kutusu kümeleme ihtiyacını ortadan kaldırır. Bu, eğitimde yer alan sezgisel hiperparametrelerin ve tasarım seçeneklerinin sayısını azaltarak modeli kapsamlı ayarlama yapmadan çeşitli veri kümelerine karşı daha sağlam hale getirir.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Yüksek Hassasiyet: Ayrıştırılmış kafa ve gelişmiş etiket ataması, YOLOX'un özellikle COCO veri setinde rekabetçi Ortalama Hassasiyet (mAP ) puanları elde etmesini sağlar.
  • Araştırma Esnekliği: Basitleştirilmiş tasarımı, yeni algılama başlıkları veya atama stratejileri deneyen araştırmacılar için mükemmel bir temel oluşturur.
  • Küçük Nesne Algılama: Ankrajsız yaklaşım bazen küçük nesnelerde katı ankraj tabanlı sistemlere kıyasla daha iyi performans sunabilir.

Zayıflıklar:

  • Çıkarım Gecikmesi: Doğru olmakla birlikte, ayrıştırılmış kafa hafif bir hesaplama ek yükü getirir ve genellikle YOLOv6 gibi tamamen optimize edilmiş endüstriyel modellere kıyasla daha yavaş çıkarım hızlarına neden olur.
  • Ekosistem Olgunluğu: Kod açık kaynaklı olsa da, üçüncü taraf araçlar, dağıtım kılavuzları ve topluluk desteğinden oluşan ekosistem Ultralytics YOLOv8 ya da YOLOv5.

İdeal Kullanım Senaryoları

YOLOX özellikle akademik araştırmalar ve doğruluğun ham çıkarım hızından daha öncelikli olduğu senaryolar için çok uygundur.

  • Tıbbi Görüntüleme: Hassasiyetin çok önemli olduğu tıbbi görüntü analizinde karmaşık yapıların analiz edilmesi.
  • Hata Tespiti: gözden kaçan tespitlerin maliyetli olduğu üretimde ince anormalliklerin belirlenmesi.
  • Akademik Deneyler: Yeni bilgisayarla görme algoritmaları geliştirmek için temiz, çapasız bir temel görevi görür.

YOLOX hakkında daha fazla bilgi edinin

YOLOv6.0: Endüstriyel Hız için Tasarlandı

Yazarlar Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Organizasyon:Meituan
Tarih: 2023-01-13
ArxivYOLOv6
GitHubYOLOv6
DocsYOLOv6ultralytics

YOLOv6.0, gerçek dünyadaki endüstriyel uygulamalar için tasarlanmış amaca yönelik bir nesne dedektörüdür. "Tam Ölçekli Yeniden Yükleme" olarak bilinen "3.0" güncellemesi, NVIDIA GPU'ları gibi donanımlarda verimi en üst düzeye çıkarmak için önemli mimari iyileştirmeler getirdi.

Mimari ve Temel Özellikler

YOLOv6.0'ın özü, yeniden parametrelendirmeyi yoğun bir şekilde kullanmasıdır. Model bir EfficientRep kullanır backbone ve Rep-PAN boyun, ağın eğitim sırasında karmaşık, çok dallı yapılara sahip olmasına, ancak çıkarım sırasında basit, tek yollu yapılara çökmesine izin verir. Bu "RepVGG tarzı" yaklaşım, karmaşık dallanmanın çalışma zamanı gecikme cezası olmadan yüksek özellik çıkarma kabiliyeti sağlar.

Ayrıca YOLOv6.0, eğitimi stabilize etmek ve yakınsamayı hızlandırmak için çapa tabanlı ve çapasız paradigmaların faydalarını birleştiren Çapa Destekli Eğitim (AAT) kullanmaktadır.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Olağanüstü Hız: Şunlar için optimize edilmiştir TensorRTYOLOv6.0 son derece düşük gecikme süresi sunarak yüksek fps uygulamaları için idealdir.
  • Dağıtıma Hazır: Model niceleme desteği gibi özellikler uç cihazlarda ve sunucularda daha kolay dağıtımı kolaylaştırır.
  • Verimlilik: Yeniden parametrelendirme tekniği, FLOP 'lar ile doğruluk arasında mükemmel bir denge sağlar.

Zayıflıklar:

  • Eğitim Kaynak Yoğunluğu: Karmaşık eğitim zamanı mimarisi (yeniden parametrelendirmeden önce), daha basit modellere kıyasla önemli miktarda GPU belleği gerektirebilir.
  • Sınırlı Görev Kapsamı: YOLOv6 öncelikle tespit üzerine odaklanmıştır. Ultralytics tekliflerinde bulunan aynı sorunsuz API içinde poz tahmini veya Yönlendirilmiş Sınırlayıcı Kutular (OBB ) gibi diğer görevler için yerel, entegre destekten yoksundur.

İdeal Kullanım Senaryoları

YOLOv6.0, gerçek zamanlı çıkarım hızının katı bir gereklilik olduğu ortamlarda parlar.

  • Otonom Robotik: Robotların dinamik ortamlarda anında gezinmesini ve tepki vermesini sağlamak.
  • Üretim Hattı Denetimi: Üretim hızından ödün verilemeyecek üretim bantlarında yüksek hızlı kalite denetimi.
  • Video Analitiği: Güvenlik alarm sistemleri için birden fazla video akışını aynı anda işleme.

YOLOv6 hakkında daha fazla bilgi edinin

Performans Kafa Kafaya

COCO veri setindeki performans metriklerinin karşılaştırılması farklı tasarım felsefelerini ortaya koymaktadır. YOLOX saygın bir doğrulukla basitleştirilmiş bir mimari sunarken, YOLOv6.0 yapısal optimizasyon yoluyla çıkarım hızının sınırlarını zorlamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7

Veriler, YOLOv6.0n 'nin GPU donanımında önemli ölçüde daha hızlı olduğunu (YOLOX'un 2,56 ms'sine karşılık 1,17 ms) ve aynı zamanda güçlü bir mAP'yi koruduğunu vurgulamaktadır. Her megabaytın önemli olduğu kaynak kısıtlı cihazlar için YOLOXnano, doğruluğu daha düşük olsa da 1M altı parametrelerle ilginç bir seçenek olmaya devam ediyor. Üst uçta, YOLOv6.0l, yaklaşık %40 daha az parametre kullanarak hem doğruluk (52,8'e karşı 51,1 mAP) hem de verimlilik açısından YOLOXx'ten daha iyi performans göstermektedir.

Eğitim Metodolojileri ve Ekosistem

Bu modelleri eğitmek için kullanıcı deneyimi önemli ölçüde farklılık gösterir.

YOLOX, önceden eğitilmiş ağırlıklar olmadan sonuçlarını elde etmek için Mosaic ve MixUp gibi güçlü veri artırma tekniklerine dayanır. Eğitim hattı araştırma odaklıdır ve PyTorch konfigürasyonlarına derinlemesine aşina olanlar için esneklik sunar.

YOLOv6.0, daha büyük bir öğretmen modelinin eğitim sırasında öğrenci modeline rehberlik ettiği ve çıkarım maliyetini artırmadan daha küçük modellerin doğruluğunu artırdığı kendi kendine damıtmayı kullanır. Bu metodoloji güçlüdür ancak eğitim kurulumuna karmaşıklık katar.

Bununla birlikte, kolaylaştırılmış bir iş akışına öncelik veren geliştiriciler genellikle Ultralytics ekosistemini daha üstün bulurlar. Genellikle bağımsız araştırma modellerinde bulunan parçalanmış araçların aksine, Ultralytics birleşik bir platform sağlar.

  • Kullanım Kolaylığı: Basit bir Python API'si, sadece birkaç satır kodla eğitim, doğrulama ve çıkarım yapılmasına olanak tanır.
  • Bakımlı Ekosistem: Sık sık yapılan güncellemeler PyTorch, CUDA'nın en son sürümleriyle ve aşağıdaki gibi dışa aktarma formatlarıyla uyumluluğu sağlar ONNX ve OpenVINO.
  • Eğitim Verimliliği: Ultralytics modelleri verimli bellek kullanımı için optimize edilmiştir, genellikle karşılaştırılabilir transformatör tabanlı mimarilere göre daha hızlı ve daha az GPU belleği ile eğitilir.

Ultralytics Kullanım Kolaylığı

Ultralytics ile son teknoloji ürünü bir modeli eğitmek kadar basittir:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Sonuç: Ultralytics Avantajı

YOLOX araştırma için uygun, yenilikçi ve çapasız bir tasarım sunarken, YOLOv6.0 belirli endüstriyel donanımlar için etkileyici bir hız sağlar, Ultralytics YOLO11 mevcut bilgisayarla görme teknolojisinin zirvesini temsil ediyor.

YOLO11 ve kurulan YOLOv8üstün bir performans dengesi sağlar ve hem CPU hem de GPU 'da olağanüstü çıkarım hızları ile son teknoloji mAP puanları elde eder. Öncelikle tespitle sınırlı rakiplerin aksine, Ultralytics modelleri yerel olarak destekleyerek benzersiz bir çok yönlülük sunar:

Aktif geliştirme, kapsamlı dokümantasyon ve gelişen bir topluluk tarafından desteklenen geleceğe dönük bir çözüm arayan geliştiriciler için Ultralytics , projeleri konseptten üretime taşımak için önerilen seçim olmaya devam ediyor.

Daha fazla karşılaştırma keşfetmek için YOLOv5 vs YOLOv6 veya YOLO11 vs RT-DETR hakkında okumayı düşünün.


Yorumlar