İçeriğe geç

YOLOX vs. YOLO: Nesne Algılama Evrimine Derin Bir Bakış

Nesne algılama alanı, araştırmacıların doğruluk, çıkarım hızı ve mimari verimlilik sınırlarını sürekli olarak zorlamasıyla sürekli olarak gelişmektedir. Bu alana yapılan iki önemli katkı YOLOX ve YOLO'dur. YOLOX, çapasız bir mekanizma sunarak YOLO ailesini yeniden canlandırırken, YOLO , özellikle endüstriyel uygulamalar için performansı optimize etmek üzere Sinirsel Mimari Arama'dan (NAS) yararlanmıştır.

Bu kılavuz, geliştiricilerin ve araştırmacıların her bir modelin nüanslarını, ideal kullanım durumlarını ve aşağıdaki gibi modern çözümlere karşı nasıl durduklarını anlamalarına yardımcı olmak için kapsamlı bir teknik karşılaştırma sunar Ultralytics YOLO11.

YOLOX: Çapasız Öncü

Megvii tarafından geliştirilen YOLOX, 2021'de piyasaya sürüldüğünde YOLO serisinde önemli bir değişimi temsil ediyordu. Ankrajsız bir tasarıma geçerek eğitim sürecini basitleştirdi ve YOLOv4 ve YOLOv5 gibi önceki yinelemelerin temelini oluşturan karmaşık ankraj kutusu hesaplamalarına olan ihtiyacı ortadan kaldırdı.

Teknik Detaylar:

YOLOX hakkında daha fazla bilgi edinin

Temel Mimari Özellikler

YOLOX, performansını elde etmek için çeşitli gelişmiş teknikleri entegre eder:

  1. Çapasız Mekanizma: Nesne merkezlerini doğrudan tahmin ederek YOLOX, çapa tabanlı yöntemlerle ilişkili tasarım parametrelerinin ve sezgisel ayarlama adımlarının sayısını azaltır.
  2. Ayrılmış Kafa: Sınıflandırma ve regresyonu birlikte ele alan birleştirilmiş kafaların aksine, YOLOX bu görevleri ayırır. Bu ayrıştırma, yakınsama hızını ve genel doğruluğu artırır.
  3. SimOTA: Basitleştirilmiş Optimal Taşıma Ataması (SimOTA) adı verilen gelişmiş bir etiket atama stratejisi, pozitif örnekleri dinamik olarak temel gerçeklere atayarak eğitim hedefini statik eşleştirmeden daha etkili bir şekilde optimize eder.

Neden Anchor-Free?

Çapasız dedektörler, belirli veri kümeleri için çapa kutusu hiperparametrelerini (boyut ve en-boy oranı gibi) manuel olarak ayarlama ihtiyacını ortadan kaldırarak model tasarımını basitleştirir. Bu genellikle farklı nesne şekilleri arasında daha iyi genelleme sağlar.

YOLO: Nöral Mimari Arama Optimize Edilmiş

Alibaba Group tarafından 2022'nin sonlarında piyasaya sürülen YOLO , yüksek performans ve düşük gecikme süresi arasındaki boşluğu doldurmaya odaklanıyor. Verimli ağ yapılarını keşfetmek için otomatik makine öğrenimi tekniklerini kullanır ve bu da onu gerçek zamanlı işleme gerektiren endüstriyel uygulamalar için güçlü bir rakip haline getirir.

Teknik Detaylar:

DAMO-YOLO hakkında daha fazla bilgi edinin

Temel Mimari Özellikler

YOLO , YOLO ekosistemine birkaç "yeni teknoloji" sunuyor:

  1. MAE-NAS Backbone: Model, Ortalama Mutlak Hata (MAE) metriğine dayalı olarak Nöral Mimari Arama (NAS ) yoluyla oluşturulan bir backbone kullanır. Bu, özellik çıkarıcının tespit görevi için mükemmel şekilde uyarlanmasını sağlar.
  2. RepGFPN: Çıkarım gecikmesini düşük tutarken özellik birleştirme verimliliğini en üst düzeye çıkarmak için yeniden parametrelendirmeyi kullanan Genelleştirilmiş Özellik Piramidi Ağına (GFPN) dayalı ağır bir boyun tasarımı.
  3. ZeroHead: Tahminlerin hassasiyetinden ödün vermeden hesaplama yükünü azaltan basitleştirilmiş bir algılama kafası.
  4. AlignedOTA: Sınıflandırma puanlarını regresyon doğruluğu ile daha iyi hizalayan ve yüksek kaliteli tahminlere öncelik verilmesini sağlayan bir etiket atama evrimi.

Performans Analizi

Bu iki modeli karşılaştırırken, doğrulukmAP) ve çıkarım hızı (gecikme) arasındaki değiş tokuşlara bakmak çok önemlidir. Aşağıdaki tablo, YOLOX rekabetçi olmaya devam ederken, YOLO'nun daha yeni mimarisinin benzer doğruluk seviyeleri için GPU donanımında genellikle daha üstün hız sağladığını vurgulamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Kritik Karşılaştırma Noktaları

  • Hız ve Doğruluk: YOLO(DAMO-YOLOt), YOLOX-Small'dan (40,5) daha yüksek bir mAP (42,0) elde ederken daha hızlı çalışır (2,32 ms'ye karşı 2,56 ms) ve daha az FLOP kullanır. Bu, NAS için optimize edilmiş backbone etkinliğini göstermektedir.
  • Parametre Verimliliği: YOLOX-Nano son derece hafiftir (0,91M parametre), bu da onu her baytın önemli olduğu son derece kısıtlı kaynaklara sahip uç cihazlar için uygun bir seçenek haline getirir, ancak YOLO bu özel ölçekte doğrudan bir rakip sunmamaktadır.
  • Üst Düzey Performans: YOLOX-X doğruluğu 51,1 mAP'ye çıkarırken, bunu büyük bir parametre sayısıyla (99,1M) yapar. YOLO, daha modern ve verimli bir tasarımın altını çizerek, yarıdan daha az parametreyle (42,1 milyon) benzer bir 50,8 mAP değerine ulaşır.

Kullanım Alanları ve Uygulamalar

YOLOX ve YOLO arasında seçim yapmak genellikle belirli dağıtım ortamına bağlıdır.

  • YOLOX, araştırma ortamları ve basit, çapasız bir uygulama gerektiren senaryolar için çok uygundur. Olgunluğu, birçok topluluk kaynağı ve öğreticinin mevcut olduğu anlamına gelir. Eski uyumluluğun gerekli olduğu genel amaçlı nesne algılama görevleri için güçlü bir adaydır.
  • YOLO, GPU donanımında düşük gecikme süresinin kritik öneme sahip olduğu endüstriyel otomasyon ve akıllı şehir uygulamalarında mükemmeldir. Optimize edilmiş mimarisi, yüksek verimli video analitiği ve üretimde gerçek zamanlı kusur tespiti için idealdir.

Ultralytics YOLO11: Üstün Alternatif

YOLOX ve YOLO güçlü tespit yetenekleri sunarken, büyük ölçüde bu tek görevle sınırlıdır ve birleşik, destekleyici bir ekosistemden yoksundur. Kapsamlı bir çözüm arayan geliştiriciler için, Ultralytics YOLO11 görme yapay zekasında en son teknolojiyi temsil etmektedir.

YOLO11 hakkında daha fazla bilgi edinin

Ultralytics modelleri sadece mimariler olarak değil, eksiksiz geliştirici araçları olarak tasarlanmıştır.

Neden Ultralytics YOLO11'i Seçmelisiniz?

  1. Görevler Arasında Çok Yönlülük: Öncelikle sınırlayıcı kutu tespitine odaklanan YOLOX ve YOLO'nun aksine, YOLO11 çok çeşitli bilgisayarla görme görevlerini yerel olarak destekler. Buna örnek segmentasyonu, poz tahmini, yönlendirilmiş nesne algılama (OBB) ve görüntü sınıflandırma dahildir.
  2. Eşsiz Kullanım Kolaylığı: Ultralytics Python API, modelleri yalnızca birkaç satır kodla eğitmenize, doğrulamanıza ve dağıtmanıza olanak tanır. Karmaşık depoları klonlamaya veya ortam yollarını manuel olarak yapılandırmaya gerek yoktur.
  3. Bakımlı Ekosistem: Ultralytics , PyTorch'un en son sürümleriyle uyumluluk sağlayarak sık sık güncellemeler sağlar, ONNXve TensorRT. Aktif topluluk ve kapsamlı dokümantasyon, asla desteksiz kalmayacağınız anlamına gelir.
  4. Antrenman Verimliliği ve Hafıza: YOLO11 verimlilik için tasarlanmıştır. Eski mimarilere veya ağır transformatör tabanlı modellere kıyasla eğitim sırasında genellikle daha az GPU belleği gerektirir, bu da daha hızlı yinelemelere ve daha düşük bulut işlem maliyetlerine olanak tanır.
  5. Performans Dengesi: YOLO11 , önceki YOLO sürümlerinin mirası üzerine inşa edilerek optimum hız ve doğruluk dengesi sunar ve NVIDIA Jetson edge cihazlarından kurumsal sınıf bulut sunucularına kadar her şeyde dağıtıma uygun hale gelir.

Ultralytics ile Kullanım Kolaylığı

Bir YOLO11 modelini eğitmek, geleneksel çerçevelere kıyasla son derece basittir.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Sonuç

Hem YOLOX hem de YOLO bilgisayarla görme tarihinde kendilerine yer edinmişlerdir. YOLOX, çapasız paradigmayı başarıyla popülerleştirirken, YOLO endüstriyel dedektörleri optimize etmek için Sinirsel Mimari Aramanın gücünü göstermiştir. Ancak esneklik, uzun vadeli destek ve çoklu görev yetenekleri gerektiren modern uygulamalar için, Ultralytics YOLO11 önde gelen seçim olarak öne çıkıyor. Sağlam bir ekosisteme entegrasyonu, son teknoloji performansı ve minimum bellek ayak izi ile birleştiğinde, geliştiricilerin kolaylıkla ölçeklenebilir ve verimli yapay zeka çözümleri oluşturmalarını sağlar.

Diğer Modelleri İnceleyin

Bu modellerin diğer son teknoloji mimarilerle nasıl karşılaştırıldığına dair daha geniş bir bakış açısı için ayrıntılı karşılaştırma sayfalarımızı inceleyin:


Yorumlar