İçeriğe geç

RTDETRv2 vs YOLOX: Gerçek Zamanlı Nesne Algılama için Teknik Bir Karşılaştırma

Bilgisayarla görmenin hızla gelişen ortamında, hız ve doğruluk arasındaki optimum denge arayışı yenilikleri yönlendirmeye devam ediyor. Öncü olarak iki farklı yaklaşım ortaya çıkmıştır: Transformatör tabanlı RTDETRv2 ve çapasız CNN tabanlı YOLOX. Bu karşılaştırma, geliştiricilerin özel ihtiyaçları için doğru aracı seçmelerine yardımcı olmak amacıyla mimari farklılıklarını, performans ölçümlerini ve ideal kullanım durumlarını incelemektedir.

Model Genel Bakışları

Teknik ayrıntılara girmeden önce, bu iki etkili modelin kökenlerini ve temel felsefelerini belirleyelim.

RTDETRv2

RTDETRv2 (Real-Time DEtection TRansformer version 2), Transformer mimarilerini gerçek zamanlı uygulamalara taşımada önemli bir adımı temsil etmektedir. Baidu'daki araştırmacılar tarafından geliştirilen RT-DETR , çıkarım gecikmesini artırmadan eğitim kararlılığını ve performansını artıran bir "Bag-of-Freebies" sunarak orijinal RT-DETR 'yi temel alır. Doğruluk açısından geleneksel CNN dedektörlerinden daha iyi performans gösterirken, tipik olarak Görüntü Dönüştürücüleri (ViT'ler) ile ilişkili yüksek hesaplama maliyetini çözmeyi amaçlamaktadır.

RTDETRv2 hakkında daha fazla bilgi edinin

YOLOX

YOLOX, 2021 yılında çapasız bir mekanizmaya geçerek ve ayrık başlıklar ve SimOTA etiket ataması gibi gelişmiş teknikleri dahil ederek YOLO ailesini yeniden canlandırdı. YOLO serisinin Darknet tarzı backbone özelliğini korurken, mimari değişimleri çapa tabanlı dedektörlerin birçok sınırlamasını ele alarak uç cihazlarda olağanüstü iyi performans gösteren son derece verimli ve esnek bir model ortaya çıkardı.

YOLOX hakkında daha fazla bilgi edinin

Performans Analizi

RTDETRv2 ve YOLOX arasındaki performans ödünleşimleri farklıdır. RTDETRv2, karmaşık sahneleri ve tıkalı nesneleri daha iyi anlamak için dönüştürücülerin küresel dikkat mekanizmalarından yararlanarak en yüksek doğruluğamAP) öncelik verir. Ancak bu, özellikle GPU bellek kullanımı açısından daha yüksek hesaplama talepleriyle birlikte gelir.

Buna karşılık, YOLOX hız ve verimlilik için optimize edilmiştir. Çapasız tasarımı, algılama kafasını basitleştirerek tasarım parametrelerinin sayısını azaltır ve işlem sonrası süreciNMS) hızlandırır. YOLOX modelleri, özellikle Nano ve Tiny varyantları, donanım kaynaklarının kısıtlı olduğu uç yapay zeka dağıtımları için sıklıkla tercih edilir.

Aşağıdaki tablo bu farklılıkları vurgulamaktadır. RTDETRv2 daha yüksek mAP puanları elde ederken, YOLOX-s'nin TensorRT'de daha yüksek çıkarım hızları sağladığını ve gecikmeye duyarlı uygulamalar için uygunluğunu gösterdiğini unutmayın.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Mimari Derin Dalış

Yapısal farklılıkların anlaşılması, bu modellerin neden farklı performans gösterdiğinin açıklığa kavuşturulmasına yardımcı olur.

RTDETRv2: Hibrit Kodlayıcı-Kod Çözücü

RTDETRv2, verimli bir hibrit kodlayıcı sunarak standart DETR modellerinin hesaplama darboğazlarını giderir. Bu bileşen, ölçek içi etkileşimi (aynı özellik katmanı içinde) ve ölçekler arası füzyonu (katmanlar arasında) birbirinden ayırarak çok ölçekli özellikleri işler.

  • IoU Sorgu Seçimi: RTDETRv2, statik nesne sorguları seçmek yerine, sınıflandırma puanlarına göre ilk nesne sorguları olarak kullanılmak üzere sabit sayıda görüntü özelliği seçerek başlatmayı iyileştirir.
  • Esnek Kod Çözücü: Kod çözücü, çıkarım sırasında sorgu sayılarının dinamik olarak ayarlanmasını destekleyerek kullanıcıların yeniden eğitim almadan hız ve doğruluktan ödün vermelerini sağlar.

YOLOX: Ankrajsız ve Ayrıştırılmış

YOLOX, YOLOv4 ve YOLOv5'te kullanılan çapa tabanlı paradigmadan uzaklaşmaktadır.

  • Çapasız: Nesne merkezlerini ve boyutlarını doğrudan tahmin ederek, YOLOX manuel çapa kutusu tasarımı ihtiyacını ortadan kaldırır ve hiperparametre ayarının karmaşıklığını azaltır.
  • Ayrılmış Kafa: Sınıflandırma ve regresyon görevlerini ağ kafasının farklı dallarına ayırır. Bu ayırma genellikle daha hızlı yakınsama ve daha iyi doğruluk sağlar.
  • SimOTA: Atama sürecini bir Optimal Taşıma problemi olarak gören, pozitif örnekleri küresel bir optimizasyon maliyetine dayalı olarak temel gerçeklere dinamik olarak atayan gelişmiş bir etiket atama stratejisi.

Ankraj Tabanlı ve Ankrajsız

Geleneksel dedektörler nesne konumlarını tahmin etmek için önceden tanımlanmış kutular (çapalar) kullanır. YOLOX bu bağımlılığı ortadan kaldırarak mimariyi basitleştirir ve modeli çeşitli nesne şekillerine karşı daha dayanıklı hale getirir. Bir dönüştürücü olan RTDETRv2, çapalar yerine tamamen nesne sorgularını kullanır ve ilgili görüntü bölgelerine dinamik olarak katılmayı öğrenir.

Güçlü ve Zayıf Yönler

RTDETRv2

  • Güçlü Yönler:
    • Yüksek Doğruluk: COCO kıyaslamalarında en son teknoloji mAP 'ye ulaşır.
    • Küresel Bağlam: Dönüştürücü dikkat mekanizmaları uzun menzilli bağımlılıkları etkili bir şekilde yakalar.
    • Uyarlanabilirlik: Ayarlanabilir sorgu seçimi, çıkarım zamanında esneklik sağlar.
  • Zayıflıklar:
    • Kaynak Yoğun: CNN'lere kıyasla eğitim ve çıkarım için önemli miktarda GPU belleği gerektirir.
    • Daha Yavaş Eğitim: Transformatörlerin yakınsaması genellikle CNN tabanlı mimarilere göre daha uzun sürer.

YOLOX

  • Güçlü Yönler:
    • Çıkarım Hızı: Son derece hızlı, özellikle daha küçük varyantlar (Nano, Tiny, S).
    • Dağıtım Dostu: Daha düşük FLOP'lar ve parametre sayıları nedeniyle uç cihazlara ve CPUS'a dağıtımı daha kolaydır.
    • Basitlik: Ankrajsız tasarım mühendislik karmaşıklığını azaltır.
  • Zayıflıklar:
    • Düşük Tepe Doğruluğu: RTDETRv2-x gibi büyük transformatör modellerinin üst düzey doğruluğunu yakalamakta zorlanır.
    • Özellik Evrimi: Daha yeni çerçevelerde bulunan bazı çok modlu yeteneklerden yoksundur.

Ultralytics Avantajı: Neden YOLO11'i Seçmelisiniz?

RTDETRv2 ve YOLOX zorlu modeller olsa da Ultralytics YOLO ekosistemi - en son teknolojinin öncülüğünde YOLO11-Genellikle bireysel modellerin faydalarından daha ağır basan kapsamlı bir çözüm sunar.

  • Performans Dengesi: YOLO11 , hız ve doğruluk arasında optimum bir denge sağlamak üzere tasarlanmıştır. YOLO ailesinin çıkarım hızı özelliğini korurken, genellikle transformatör tabanlı modellerin doğruluğuyla eşleşir veya aşar.
  • Kullanım Kolaylığı: Ultralytics , geliştirici deneyimine öncelik verir. Birleşik bir Python API ve CLI ile, modelleri yalnızca birkaç satır kodla eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
  • Bellek Verimliliği: GPU VRAM'i üzerinde ağır olabilen RTDETRv2'nin aksine, YOLO11 hem eğitim hem de çıkarım sırasında yüksek bellek verimliliğine sahiptir. Bu da onu tüketici sınıfı donanıma sahip araştırmacılar ve geliştiriciler için erişilebilir kılmaktadır.
  • İyi Korunan Ekosistem: Ultralytics modelleri sık güncellemeler, canlı bir topluluk ve kapsamlı dokümantasyon ile desteklenmektedir. Ultralytics HUB gibi özellikler, sorunsuz model yönetimi ve bulut eğitimini kolaylaştırır.
  • Çok yönlülük: Basit nesne algılamanın ötesinde, YOLO11 doğal olarak örnek segmentasyonu, poz tahmini, OBB ve sınıflandırmayı desteklerken, YOLOX ve RTDETRv2 öncelikle algılamaya odaklanır.
  • Eğitim Verimliliği: Çeşitli görevler için önceden eğitilmiş ağırlıklar ve gelişmiş transfer öğrenme özellikleri ile YOLO11 , yüksek performanslı modelleri eğitmek için gereken zamanı ve enerjiyi büyük ölçüde azaltır.

YOLO11 hakkında daha fazla bilgi edinin

Kod Örneği

Ultralytics , bu gelişmiş modelleri kullanmayı inanılmaz derecede kolaylaştırır. Aşağıda, YOLO11 kullanılarak çıkarımın nasıl çalıştırılacağına dair bir örnek yer almaktadır ve özellikle Ultralytics , RT-DETR 'yi doğrudan destekleyerek orijinal depoya kıyasla kullanımını önemli ölçüde basitleştirmektedir.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLO11 model (Recommended)
model_yolo = YOLO("yolo11n.pt")

# Run inference on an image
results_yolo = model_yolo("path/to/image.jpg")

# Load an RT-DETR model via Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run inference with RT-DETR
results_rtdetr = model_rtdetr("path/to/image.jpg")

Sonuç

RTDETRv2 ve YOLOX arasındaki seçim nihayetinde sizin özel kısıtlamalarınıza bağlıdır.

  • Uygulamanız akademik araştırma veya yüksek hassasiyetli endüstriyel denetim gibi mutlak en yüksek doğruluğu gerektiriyorsa ve güçlü GPU kaynaklarına erişiminiz varsa RTDETRv2 'yi seçin.
  • Raspberry Pi veya mobil cihazlar gibi her milisaniyelik gecikmenin önemli olduğu kaynak kısıtlı ortamlara dağıtım yapıyorsanız YOLOX 'u seçin.

Ancak, gerçek dünya uygulamalarının büyük çoğunluğu için, Ultralytics YOLO11 her yönüyle üstün bir seçim olarak ortaya çıkıyor. Modern mimarilerin doğruluk avantajlarını CNN'lerin hızı ve verimliliği ile birleştiriyor ve tüm bunları kullanıcı dostu, üretime hazır bir ekosistemde sunuyor. İster uç ister bulut için geliştiriyor olun, YOLO11 başarılı olmanız için gereken araçları ve performansı sağlar.

Diğer Karşılaştırmaları İnceleyin

Kararınızı daha iyi bilgilendirmek için, diğer model karşılaştırmalarını keşfetmeyi düşünün:


Yorumlar