YOLOX vs. RTDETRv2: Nesne Algılama için Teknik Bir Karşılaştırma
Bilgisayarla görmenin hızla gelişen ortamında, projeniz için doğru mimariyi seçmek genellikle çıkarım hızı, doğruluk ve hesaplama kaynağı verimliliği arasında karmaşık bir dengede gezinmeyi gerektirir. Bu karşılaştırma, nesne algılamaya yönelik iki farklı yaklaşımı incelemektedir: Yüksek performanslı, çapasız bir CNN olan YOLOX ve son teknoloji ürünü bir Gerçek Zamanlı Algılama Dönüştürücüsü olan RTDETRv2.
YOLOX, YOLO ailesinde çapasız metodolojilere doğru önemli bir değişimi temsil ederken RTDETRv2, küresel bağlamı yakalamak için Görüntü Dönüştürücülerinin (ViT'ler) gücünden yararlanarak geleneksel Evrişimsel Sinir Ağlarına (CNN'ler) meydan okuyor. Bu kılavuz, bilinçli bir karar vermenize yardımcı olmak için mimarilerini, performans metriklerini ve ideal kullanım durumlarını analiz eder.
Performans Analizi: Hız - Doğruluk Karşılaştırması
Aşağıdaki performans ölçümleri bu iki modelin temel tasarım felsefelerini göstermektedir. RTDETRv2, karmaşık sahneleri anlamak için dikkat mekanizmalarını kullanarak genellikle daha yüksek Ortalama Ortalama Kesinlik (mAP) elde eder. Ancak, bu doğruluk genellikle artan hesaplama maliyetiyle birlikte gelir. YOLOX, özellikle daha küçük varyantlarında, düşük çıkarım gecikmesine ve standart donanım üzerinde verimli yürütmeye öncelik verir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Tabloda gösterildiği gibi, RTDETRv2-x 54,3 mAP ile en yüksek doğruluğa ulaşarak en büyük YOLOX varyantından daha iyi performans göstermiştir. Buna karşılık, YOLOX-s GPU donanımında üstün hız göstererek gecikmeye duyarlı uygulamalar için oldukça etkili hale gelir.
YOLOX: Çapasız Verimlilik
YOLOX, çapasız bir mekanizmaya geçerek ve algılama kafasını ayırarak YOLO serisini geliştirir. Önceden tanımlanmış çapa kutularına olan ihtiyacı ortadan kaldıran YOLOX, eğitim sürecini basitleştirir ve farklı nesne şekilleri arasında genelleştirmeyi geliştirir.
Yazarlar Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Organizasyon:Megvii
Tarih: 2021-07-18
Arxiv:YOLOX: 2021'de YOLO Serisini Aşmak
Temel Güçlü Yönler
- Çapasız Tasarım: Çapa hiperparametrelerinin manuel olarak ayarlanmasını ortadan kaldırarak tasarım karmaşıklığını azaltır.
- Ayrıştırılmış Kafa: Sınıflandırma ve regresyon görevlerini ayırarak modelin daha hızlı yakınsamasına ve daha iyi doğruluk elde etmesine yardımcı olur.
- SimOTA: Pozitif örnekleri dinamik olarak atayan ve eğitim kararlılığını artıran gelişmiş bir etiket atama stratejisi.
Zayıflıklar
- Yaşlanan Mimari: 2021 yılında piyasaya sürüldüğünden, daha yeni yinelemelerde bulunan bazı modern optimizasyonlardan yoksundur. YOLO11.
- Sınırlı Görev Desteği: Öncelikle algılamaya odaklanmıştır, aynı çerçeve içinde segmentasyon veya poz tahmini için yerel destekten yoksundur.
YOLOX hakkında daha fazla bilgi edinin
RTDETRv2: Transformatör Güç Merkezi
RTDETRv2 (Gerçek Zamanlı Algılama Transformatörü sürüm 2), Transformatör mimarilerinin gerçek zamanlı nesne algılamaya uygulanmasında bir sıçramayı temsil eder. Verimli bir hibrit kodlayıcı sunarak tipik olarak Transformatörlerle ilişkili yüksek hesaplama maliyetini ele alır.
Yazarlar Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Organizasyon:Baidu
Tarih: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Bag-of-Freebies ile Geliştirilmiş Temel
Temel Güçlü Yönler
- Küresel Bağlam: Kendi kendine dikkat mekanizması, modelin bir görüntüdeki uzak nesneler arasındaki ilişkileri anlamasını sağlayarak karmaşık sahnelerde yanlış pozitifleri azaltır.
- Yüksek Doğruluk: Benzer ölçekteki CNN tabanlı modellere kıyasla tutarlı bir şekilde daha yüksek mAP puanları elde eder.
- NMS Gerekmez: Transformatör mimarisi doğal olarak mükerrer tespitleri ortadan kaldırarak Maksimum Olmayan Bastırma (NMS) sonrası işleme ihtiyacını ortadan kaldırır.
Zayıflıklar
- Bellek Yoğunluğu: CNN'lere kıyasla eğitim sırasında önemli ölçüde daha fazla GPU VRAM gerektirir, bu da tüketici sınıfı donanımlarda eğitilmesini zorlaştırır.
- CPU Gecikmesi: GPU için optimize edilmiş olsa da Transformer işlemleri, YOLOX-Nano gibi hafif CNN'lere kıyasla CPU kullanan uç cihazlarda daha yavaş olabilir.
RTDETRv2 hakkında daha fazla bilgi edinin
İdeal Kullanım Senaryoları
Bu modeller arasındaki seçim genellikle dağıtım ortamının özel kısıtlamalarına bağlıdır.
- Aşağıdaki durumlarda YOLOX'u seçin: Raspberry Pi veya cep telefonları gibi her milisaniyelik gecikmenin önemli olduğu kaynak kısıtlı uç cihazlara dağıtım yapıyorsanız. Ayrıca nesnelerin katı ve öngörülebilir olduğu endüstriyel denetim hatları için de mükemmeldir.
- Aşağıdaki durumlarda RTDETRv2'yi seçin: Güçlü GPU'lara ( NVIDIA T4 veya A100 gibi) erişiminiz varsa ve doğruluk çok önemliyse. Bağlam ve nesne ilişkilerinin kritik olduğu kalabalık sahnelerde, otonom sürüşte veya havadan gözetlemede mükemmeldir.
Dağıtım Optimizasyonu
Seçilen modelden bağımsız olarak, aşağıdaki gibi optimizasyon çerçevelerinin kullanılması TensorRT veya OpenVINO üretim ortamlarında gerçek zamanlı hızlara ulaşmak için gereklidir. Her iki model de FP16 veya INT8'e kuantizasyondan önemli ölçüde faydalanır.
Ultralytics YOLO Modelleri Neden Üstün Seçimdir?
YOLOX ve RTDETRv2 etkileyici olsa da, Ultralytics YOLO ekosistemi, öncülüğünü YOLO11geliştiriciler ve araştırmacılar için daha bütünsel bir çözüm sunar. Ultralytics , kullanıcı deneyimine öncelik vererek son teknoloji yapay zekanın erişilebilir, verimli ve çok yönlü olmasını sağlar.
1. Eşsiz Çok Yönlülük ve Ekosistem
Öncelikle bir tespit modeli olan YOLOX'un aksine, Ultralytics YOLO11Örnek Segmentasyonu, Poz Tahmini, Sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) tespiti dahil olmak üzere çok çeşitli bilgisayarla görme görevlerini yerel olarak destekler. Bu, tek ve birleşik bir API ile birden fazla sorunu çözmenize olanak tanır.
2. Kullanım ve Bakım Kolaylığı
Ultralytics paketi, MLOps'un karmaşık dünyasını basitleştirir. Bakımlı bir kod tabanı, sık güncellemeler ve kapsamlı dokümantasyon ile kullanıcılar kurulumdan eğitime dakikalar içinde geçebilir.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3. Eğitim Verimliliği ve Bellek Ayak İzi
Ultralytics YOLO modellerinin kritik avantajlarından biri de verimlilikleridir. RTDETRv2 gibi transformatör tabanlı modellerin veriye aç ve bellek yoğun olduğu bilinmektedir ve genellikle eğitim için büyük VRAM'e sahip üst düzey GPU'lar gerektirir. Buna karşılık Ultralytics YOLO modelleri, daha az CUDA belleği kullanırken tüketici GPU'ları da dahil olmak üzere daha geniş bir donanım yelpazesinde etkili bir şekilde eğitilecek şekilde optimize edilmiştir. Bu eğitim verimliliği, yüksek performanslı yapay zekaya erişimi demokratikleştirir.
4. Performans Dengesi
Ultralytics modelleri, hız ve doğruluk arasındaki "tatlı noktaya" ulaşmak için tasarlanmıştır. Perakende analitiğinden güvenlik izlemesine kadar çoğu gerçek dünya uygulaması için YOLO11 , canlı video akışları için gereken son derece yüksek çıkarım hızlarını korurken Transformers ile karşılaştırılabilir doğruluk sağlar.
Sonuç
Hem YOLOX hem de RTDETRv2 bilgisayarla görme alanına önemli katkılarda bulunmuştur. YOLOX, kısıtlı eski gömülü sistemler için sağlam bir seçim olmaya devam ederken RTDETRv2, üst düzey donanım için doğruluk sınırlarını zorlamaktadır.
Ancak, geleceğe dönük, çok yönlü ve kullanımı kolay bir çözüm arayan geliştiricilerin çoğunluğu için, Ultralytics YOLO11 önde gelen seçim olarak öne çıkıyor. Düşük bellek gereksinimleri, kapsamlı görev desteği ve gelişen bir topluluğun birleşimi, projenizin güvenilirlik ve performans temeli üzerine inşa edilmesini sağlar.
Diğer Karşılaştırmaları İnceleyin
Model seçiminizi daha da hassaslaştırmak için bu ilgili teknik karşılaştırmaları incelemeyi düşünün:
- YOLO11 vs. YOLOv10
- RT-DETR - YOLOv8 Karşılaştırması
- YOLO11 - EfficientDet Karşılaştırması
- YOLOv8 - YOLOX karşılaştırması
- YOLO11 vs. MobileNet SSD