İçeriğe geç

RTDETRv2 vs. YOLO26: Yeni Nesil Nesne Dedektörlerinin Teknik Karşılaştırması

Bilgisayar görüşü projeniz için doğru nesne algılama modelini seçmek, genellikle mimari seçimler, hız-doğruluk dengeleri ve dağıtım kısıtlamalarından oluşan karmaşık bir ortamda gezinmeyi gerektirir. Bu kılavuz, Baidu'dan gerçek zamanlı bir algılama transformeri olan RTDETRv2 ile Ultralytics'in YOLO serisindeki en son evrimi olan YOLO26 arasında derinlemesine bir teknik karşılaştırma sunmaktadır. Bilgilendirilmiş bir karar vermenize yardımcı olmak için mimarilerini, performans kıyaslamalarını ve ideal kullanım senaryolarını analiz edeceğiz.

Yönetici Özeti

Her iki model de 2026 itibarıyla gerçek zamanlı algılamanın en ileri noktasını temsil etmektedir. RTDETRv2, özellikle karmaşık sahnelerde dikkat mekanizmaları aracılığıyla mükemmel doğruluk sunarak Transformer tabanlı algılamanın sınırlarını zorlamaya devam etmektedir. Ocak 2026'da piyasaya sürülen YOLO26, yerel olarak uçtan uca NMS içermeyen bir tasarım benimseyerek YOLO soyunu devrim niteliğinde değiştirmiş, CPU'larda çıkarım hızını önemli ölçüde artırmış ve dağıtımı basitleştirirken en son teknoloji doğruluğu korumuştur.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

RTDETRv2: Gerçek Zamanlı Transformer'ın İyileştirilmesi

RTDETRv2, gerçek zamanlı senaryolarda YOLO modellerine gerçekten meydan okuyan ilk transformer tabanlı dedektör olan orijinal RT-DETR'nin başarısı üzerine inşa edilmiştir. Baidu tarafından geliştirilen bu model, pratik hız ve doğruluk için Vision Transformer (ViT) mimarisini optimize etmeye odaklanmaktadır.

Mimari Öne Çıkanlar

RTDETRv2'nin temel yeniliği, esnek hibrit kodlayıcısı ve verimli sorgu seçiminde yatmaktadır. Geleneksel CNN tabanlı dedektörlerin aksine, küresel bağlamı yakalamak için öz-dikkat mekanizmalarını kullanır; bu, karmaşık ilişkilere veya örtüşmelere sahip nesneleri algılamak için özellikle faydalıdır. v2 güncellemesi, çıkarım maliyetini artırmadan eğitim stabilitesini ve performansını iyileştiren bir "Bag-of-Freebies" sunmaktadır. Sorgular için ayrık bir örnekleme stratejisi kullanır ve modelin en alakalı görüntü bölgelerine odaklanmasını sağlar.

Performans ve Eğitim

RTDETRv2, yüksek hassasiyet gerektiren senaryolarda önceki nesil YOLO'ları genellikle geride bırakarak doğruluk konusunda üstünlük sağlar. Ancak, bunun bir maliyeti vardır. Transformer mimarileri, genellikle CNN'lere kıyasla eğitim sırasında önemli ölçüde daha fazla GPU belleği ve hesaplama gücü gerektirir. Çıkarım hızı güçlü GPU'larda (NVIDIA T4 gibi) "gerçek zamanlı" olsa da, transformer operasyonlarının evrişimlerden daha az optimize edildiği yalnızca CPU'lu cihazlarda veya kenar donanımlarında zorlanabilir.

Başlıca Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş:Baidu
Tarih: Temmuz 2024 (Arxiv v2)
Bağlantılar:Arxiv | GitHub

RT-DETR hakkında daha fazla bilgi edinin

YOLO26: Uçtan Uca Kenar Cihaz Güç Santrali

YOLO26, Ultralytics için büyük bir mimari değişimi temsil etmektedir. Geleneksel NMS (Non-Maximum Suppression) bağımlılığını terk ederek yerel olarak uçtan uca bir mimariyi benimsemektedir. Bu tasarım seçimi, nesne algılama dağıtımındaki en uzun süreli darboğazlardan birini, yani işlem sonrası gecikme ve karmaşıklığını ele almaktadır.

Mimari Yenilikler

YOLO26'nın mimarisi, verimlilik ve çok yönlülük için optimize edilmiştir:

  • Uçtan Uca NMS İçermeyen: Eğitim sırasında bire bir eşleşmeleri tahmin ederek, YOLO26 NMS çıkarım adımlarına olan ihtiyacı ortadan kaldırır. Bu, gecikme belirsizliğini azaltır ve özellikle FPGA'lar veya NPU'lar gibi standart dışı donanımlarda dağıtım süreçlerini basitleştirir.
  • DFL Kaldırılması: Distribution Focal Loss (DFL)'un kaldırılması, çıktı başlığını basitleştirerek modelin ONNX ve CoreML gibi formatlara aktarılmasını kolaylaştırırken, 8-bit niceleme ile uyumluluğu artırır.
  • MuSGD Optimize Edici: Moonshot AI'nin Kimi K2'si gibi Büyük Dil Modeli (LLM) eğitimindeki yeniliklerden esinlenerek, YOLO26 SGD ve Muon'u birleştiren hibrit bir optimize edici kullanır. Bu, daha hızlı yakınsama ve daha kararlı eğitim süreçleri sağlar.
  • ProgLoss + STAL: Yeni kayıp fonksiyonları—Aşamalı Kayıp Dengeleme ve Küçük Hedef Farkındalıklı Etiket Ataması—özellikle tek aşamalı dedektörlerin geleneksel bir zayıflığı olan küçük nesne algılamayı hedefler.

Performans ve Çok Yönlülük

YOLO26, hız ve doğruluk arasında etkileyici bir denge sunar. YOLO26n (nano) modeli, önceki iterasyonlara kıyasla CPU'larda %43'e kadar daha hızlı çalışarak mobil ve IoT uygulamaları için en iyi seçenek haline gelir. Ayrıca, YOLO26 birleşik bir model ailesidir; kullanıcılar aynı API'yi kullanarak Nesne Algılama, Örnek Segmentasyon, Poz Tahmini, Sınıflandırma ve Yönlendirilmiş Nesne Algılama (OBB) görevleri arasında sorunsuz bir şekilde geçiş yapabilirler.

Başlıca Yazarlar: Glenn Jocher ve Jing Qiu
Kuruluş:Ultralytics
Tarih: 14 Ocak 2026
Bağlantılar:Ultralytics Dokümanları | GitHub

YOLO26 hakkında daha fazla bilgi edinin

Detaylı Karşılaştırma

1. Kenar Cihazlarda Hız ve Verimlilik

Bu, en belirgin farklılaştırıcı özelliktir. RTDETRv2, GPU'larda iyi ölçeklenen ancak CPU'ları darboğaza sokabilen matris çarpımlarına büyük ölçüde güvenir. YOLO26, CNN tabanlı backbone'u ve NMS içermeyen başlığı ile kaynak kısıtlı cihazlarda önemli ölçüde daha verimlidir. Örneğin, YOLO26n modeli standart bir CPU'da 38.9 ms gecikme süresi elde ederken, transformer tabanlı modeller genellikle özel hızlandırma olmadan gerçek zamanlı performans elde etmekte zorlanır.

Uç Nokta Dağıtımı

Raspberry Pi, Jetson Nano veya mobil cihazlarda dağıtım için, optimize edilmiş işlem seti ve daha düşük bellek ayak izi nedeniyle YOLO26 genellikle üstün bir seçimdir. DFL'nin kaldırılması, TFLite ve CoreML'e dışa aktarma sürecini daha da basitleştirir.

2. Eğitim Kaynak Gereksinimleri

Ultralytics modelleri, verimli eğitim döngüleriyle tanınır. YOLO26, RTDETRv2'ye kıyasla eğitim için önemli ölçüde daha az VRAM gerektirir. Transformer'lar genellikle yakınsamak için büyük yığın boyutlarına ve kapsamlı eğitim programlarına ihtiyaç duyar, bu da daha yüksek bulut bilişim maliyetlerine yol açar. YOLO26'nın MuSGD optimize edicisi bu süreci daha da hızlandırarak araştırmacıların tek GPU kurulumlarında bile daha hızlı yineleme yapmasına olanak tanır.

3. Görev Çok Yönlülüğü

RTDETRv2 öncelikli olarak nesne algılamaya odaklanırken, YOLO26 ekosistemi doğası gereği çok görevlidir.

  • RTDETRv2: Sınırlayıcı kutu algılama için mükemmeldir.
  • YOLO26: Yerel olarak detect, segment, Poz, obb ve Sınıflandırmayı destekler. Bu durum, YOLO26'yı, sınırlayıcı kutuları algılamaktan maskeleri bölütlemeye veya anahtar noktaları tahmin etmeye geçiş yapması gerekebilecek geliştiriciler için tüm yazılım yığınlarını değiştirmeden kullanabilecekleri bir "İsviçre Çakısı" haline getirir.

4. Ekosistem ve Kullanım Kolaylığı

Ultralytics ekosistemi, geliştirici deneyiminde önemli bir avantaj sağlar. Birleşik bir python paketi, kapsamlı belgeler ve Weights & Biases ile Roboflow gibi araçlarla sorunsuz entegrasyonlar sayesinde, bir YOLO26 modelini veri setinden dağıtıma almak kolaydır. RTDETRv2, güçlü olmasına rağmen, genellikle daha fazla manuel yapılandırma gerektirir ve transformer mimarilerine daha az aşina olan kullanıcılar için daha dik bir öğrenme eğrisine sahiptir.

Kod Örneği: YOLO26'yı Çalıştırma

Ultralytics API'sinin basitliği, anında test ve entegrasyona olanak tanır.

from ultralytics import YOLO

# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Sonuç

Her iki model de bilgisayar görüşünde olağanüstü başarılardır. RTDETRv2, karmaşık sahnelerde maksimum doğruluğun çok önemli olduğu ve transformer'ların hesaplama maliyetinin kabul edilebilir olduğu üst düzey GPU dağıtımları için güçlü bir adaydır.

Ancak, YOLO26, gerçek dünya uygulamalarının büyük çoğunluğu için önerilen çok yönlü bir modeldir. NMS içermeyen uçtan uca tasarımı, üstün CPU performansı, daha düşük bellek gereksinimleri ve birden fazla görme görevi desteği, onu ölçeklenebilir, verimli ve çok yönlü yapay zeka sistemleri geliştiren mühendisler için pragmatik bir seçim haline getirir. İster bir sunucu çiftliğine ister akıllı bir kameraya dağıtım yapıyor olun, YOLO26 rakipsiz dengeli bir performans profili sunar.

Dikkate Alınması Gereken Diğer Modeller

  • YOLO11: YOLO26'nın güvenilir öncülü, hala yaygın olarak kullanılmakta ve tam olarak desteklenmektedir.
  • YOLO-World: Eğitim setinizde bulunmayan nesneleri detect etmeniz gereken açık kelime dağarcıklı algılama için idealdir.
  • FastSAM: Gerçek zamanlı hızda özellikle segment-anything yeteneklerine ihtiyacınız varsa.

Yorumlar