İçeriğe geç

RTDETRv2 ve YOLOX: Gerçek Zamanlı Nesne Algılama Evrimine Derinlemesine Bir Bakış

Nesne algılama alanı son birkaç yılda hızla gelişerek, çapa tabanlı mimarilerden çapa içermeyen tasarımlara ve daha yakın zamanda dönüştürücü tabanlı hibrit modellere geçiş yaptı. Bu yolculuktaki iki önemli dönüm noktası RTDETRv2 ve YOLOX'tur. YOLOX, 2021 yılında çapa ve NMS ortadan kaldırarak YOLO yeteneklerini yeniden tanımlarken, RTDETRv2 (2024 yılında piyasaya sürüldü) karmaşık sahnelerde üstün doğruluk için Vision Transformers (ViT) entegre ederek sınırları daha da genişletti.

Bu kılavuz, bilgisayar görme projeleriniz için doğru aracı seçmenize yardımcı olmak amacıyla, bu iki etkili modelin mimarilerini, performans ölçütlerini ve ideal kullanım örneklerini analiz ederek kapsamlı bir teknik karşılaştırma sunmaktadır.

RTDETRv2: Transformatör Tabanlı Rakip

RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), dönüştürücü mimarilerinin gerçek zamanlı senaryolara uygulanmasında önemli bir sıçrama temsil etmektedir. Geleneksel dönüştürücüler güçlü ancak yavaşken, RTDETRv2 bu ödünleşmeyi optimize ederek rekabetçi hızlarda en son teknolojiye sahip doğruluk sunar.

Temel Mimari Özellikler

RTDETRv2, orijinal RT-DETR temel alarak hibrit bir kodlayıcı-kod çözücü yapısı kullanır. Özellikleri verimli bir şekilde çıkarmak için bir CNN backbone genellikle ResNet veya HGNetv2) kullanır, ardından görüntüdeki uzun menzilli bağımlılıkları yakalamak için bir dönüştürücü kodlayıcı kullanır.

  • Vision Transformer Entegrasyonu: Tamamen CNN tabanlı modellerden farklı olarak, RTDETRv2, görüntünün uzak kısımları arasındaki ilişkiyi anlamak için kendi kendine dikkat mekanizmaları kullanır, bu da onu örtülme ve kalabalık sahneleri işlemekte olağanüstü derecede başarılı kılar.
  • Uçtan Uca Tahmin: Algılama sürecini kolaylaştırmayı amaçlamaktadır, ancak bazı uygulamalar hala optimizasyondan faydalanmaktadır.
  • Dinamik Ölçeklendirme: Mimari, önceki sürümlerden daha etkili bir şekilde çok ölçekli özellikleri işleyebilecek şekilde tasarlanmıştır.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş:Baidu
Tarih: 17 Nisan 2023 (v1), Temmuz 2024 (v2)
Bağlantılar:Arxiv | GitHub

RT-DETR hakkında daha fazla bilgi edinin

YOLOX: Bağlantısız Öncü

2021 yılında piyasaya sürülen YOLOX, çapa içermeyen bir mekanizma ve ayrıştırılmış bir başlık benimseyerek geleneksel YOLO (YOLOv3, v4, v5) ayrılan, oyunun kurallarını değiştiren bir oyuncuydu.

Temel Mimari Özellikler

YOLOX, belirli veri kümeleri için genellikle sezgisel ayarlamalar gerektiren önceden tanımlanmış bağlantı kutularına olan ihtiyacı ortadan kaldırarak algılama sürecini basitleştirdi.

  • Anchor-Free Mekanizma: Nesnelerin merkezlerini ve boyutlarını doğrudan tahmin ederek, YOLOX tasarımın karmaşıklığını azalttı ve çeşitli veri kümelerinde genellemeyi iyileştirdi.
  • Ayrıştırılmış Başlık: Sınıflandırma ve regresyon görevlerini ağ başlığının farklı dallarına ayırmak, daha iyi yakınsama ve doğruluk sağladı.
  • SimOTA Etiket Atama: Bu gelişmiş etiket atama stratejisi, eğitim sürecini Optimal Transport problemi olarak ele alarak daha hızlı yakınsama ve daha iyi dinamik etiket ataması sağladı.

Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş:Megvii
Tarih: 18 Temmuz 2021
Bağlantılar:Arxiv | GitHub

Teknik Performans Karşılaştırması

Üretim için bir model seçerken, ham metrikler çok önemlidir. Aşağıda COCO setindeki performansın ayrıntılı bir karşılaştırması yer almaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Metriklerin Analizi

Veriler, nesiller arası açık bir fark olduğunu ortaya koymaktadır. RTDETRv2, benzer model boyutlarında YOLOX'tan tutarlı bir şekilde daha yüksek doğruluk (mAP) performansı göstermektedir. Örneğin, RTDETRv2-l, GPU benzer çıkarım hızlarını korurken, YOLOX-l'nin %49,7'sinden önemli ölçüde daha yüksek olan %53,4 mAP ulaşmaktadır.

Ancak YOLOX, ultra hafif kategoride avantajını korumaktadır. YOLOX-Nano ve Tiny varyantları son derece küçüktür (0,91M parametreden başlar), bu da her kilobayt belleğin önemli olduğu eski kenar bilgi işlem donanımları için uygun olmalarını sağlar.

Transformatör Bellek Kullanımı

RTDETRv2 daha yüksek doğruluk sunarken, transformatör tabanlı modeller genellikle YOLOX gibi saf CNN mimarilerine kıyasla eğitim ve çıkarım sırasında önemli ölçüde daha fazla VRAM tüketir. Bu yüksek bellek gereksinimi, sınırlı CUDA sahip tüketici sınıfı GPU'larda eğitim sırasında bir darboğaz oluşturabilir.

Ultralytics'in Avantajı

YOLOX ve RTDETRv2 gibi tarihsel modelleri analiz etmek araştırma açısından değerli olsa da, modern geliştirme, kullanım kolaylığı, iyi bakımlı bir ekosistem ve üstün verimlilik sunan araçlar gerektirir.

Ultralytics , aşağıdakiler dahil YOLOv8 ve son teknoloji ürünü YOLO26 dahil olmak üzere, yüksek performans ile geliştirici deneyimi arasındaki boşluğu doldurmak üzere tasarlanmıştır.

  1. Optimize edilmiş API: Modeller arasında geçiş yapmak için tek bir satır kod yeterlidir.
  2. Çok yönlülük: Yalnızca algılamaya odaklanan YOLOX'un aksine, Ultralytics segmentasyon, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) algılamayı yerel olarak Ultralytics .
  3. Eğitim Verimliliği: Ultralytics , daha düşük bellek yüküyle daha hızlı eğitim için optimize edilmiştir, böylece endüstriyel düzeyde donanım olmadan da üst düzey yapay zeka erişilebilir hale gelir.

Yeni Nesil Performans: YOLO26

2026 yılında en iyi performansı arayan geliştiriciler için YOLO26'yı öneriyoruz. Bu model, CNN'lerin ve Transformer'ların en iyi özelliklerini bir araya getirirken, zayıflıklarını ortadan kaldırıyor.

  • Uçtan Uca NMS: YOLO26, doğal olarak uçtan uca çalışır ve Maksimum Baskılama (NMS) ihtiyacını ortadan kaldırır. Bu, YOLOX'a kıyasla dağıtım süreçlerini önemli ölçüde basitleştirir.
  • MuSGD Optimizer: LLM eğitimindeki yeniliklerden (Moonshot AI'dan esinlenerek) yararlanan YOLO26, istikrarlı ve hızlı yakınsama için MuSGD optimizer'ı kullanır.
  • Kenar Optimizasyonu: Dağıtım Odak Kaybı (DFL) kaldırıldığında, YOLO26 CPU %43'e kadar daha hızlıdır, bu da onu güçlü GPU'lara sahip olmayan kenar cihazları için RTDETRv2'den çok daha üstün kılar.

YOLO26 hakkında daha fazla bilgi edinin

Gerçek Dünya Kullanım Durumları

Bu mimariler arasında seçim yapmak, büyük ölçüde özel dağıtım ortamınıza bağlıdır.

RTDETRv2 için ideal olarak uygundur

  • Kalabalık Gözetim: Dönüştürücü dikkat mekanizması, nesnelerin (insanların) yoğun bir şekilde üst üste bindiği kalabalık yönetimi senaryolarında üstün performans gösterir.
  • Karmaşık Sahne Anlayışı: Otonom araç navigasyonu gibi bağlam farkındalığı gerektiren uygulamalar, dönüştürücünün küresel alıcı alanından yararlanır.

YOLOX için ideal

  • Eski Kenar Cihazları: Eski Raspberry Pi'ler veya mikrodenetleyiciler gibi son derece kısıtlı cihazlar için YOLOX-Nano, transformatörlerin sığamayacağı yerlere sığan hafif bir seçenektir.
  • Akademik Temel Standartlar: Ayrı başlığı ve ankrajsız tasarımı sayesinde YOLOX, araştırmalarda temel nesne algılama mekanizmalarını incelemek için popüler bir temel standart olmaya devam etmektedir.

Kod Örneği: Ultralytics

Ultralytics kullanmanın en güçlü argümanlarından biri, birleşik arayüzüdür. RT-DETR gibi transformatör tabanlı bir model RT-DETR CNN tabanlı YOLO kullanıyor olursanız olun, kod tutarlı kalır.

Ultralytics Python kullanarak çıkarım yükleyip çalıştırmak için aşağıdaki adımları izleyin:

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display results
results_yolo[0].show()

Deney Takibi

Ultralytics , MLflow ve Weights & Biasesgibi araçlarla sorunsuz bir şekilde entegre olur ve eğitim komut dosyalarınızı değiştirmeden farklı modellerden gelen track yan yana track etmenizi sağlar.

Sonuç

Hem RTDETRv2 hem de YOLOX, bilgisayar görme alanına önemli katkılarda bulunmuştur. YOLOX, ankarsız tasarımların oldukça etkili olabileceğini kanıtlarken, RTDETRv2 ise transformatörlerin gerçek zamanlı olarak çalışabileceğini göstermiştir.

Ancak, 2026 yılında çoğu pratik uygulama için Ultralytics modeli en dengeli çözümü sunmaktadır. NMS tasarımı, küçük nesneler için ProgLoss işlevleri ve CPU , "her iki dünyanın en iyisi" senaryosunu sunar: transformatörlerin yüksek hesaplama maliyetleri olmadan yüksek doğruluk. Akıllı üretim veya tarımsal izleme için geliştirme yapıyor olsanız da, iyi bakımlı Ultralytics projenizin geleceğe hazır olmasını sağlar.

Daha fazla araştırma yapmak için, RT-DETR YOLO11 karşılaştırmak veya YOLO26 ile YOLOv10 belirli avantajlarını incelemek de ilginizi çekebilir.


Yorumlar