İçeriğe geç

RTDETRv2 ve YOLO26: Gerçek Zamanlı Nesne Algılamada Dönüştürücüler ve Yeni Nesil CNN'ler

Gerçek zamanlı nesne algılama alanı sürekli gelişmekte olup, şu anda iki ana mimari hakimiyet için rekabet etmektedir: transformatör tabanlı RTDETRv2 ve CNN tabanlı YOLO26. Her iki model de nesneleri hızlı ve doğru bir şekilde algılamanın temel zorluğunu çözmeyi amaçlasa da, bu soruna tamamen farklı felsefeler ve mimari seçimlerle yaklaşmaktadır.

Bu kılavuz, her iki modelin teknik özellikleri, performans ölçütleri ve ideal kullanım örnekleri hakkında ayrıntılı bilgi sunarak, dağıtım ihtiyaçlarınıza en uygun mimariyi seçmenize yardımcı olur.

RTDETRv2 Genel Bakış

RTDETRv2 (Real-Time DEtection TRansformer v2), DETR (DEtection TRansformer) ailesinin evrimini temsil eder ve görme dönüştürücülerinin gücünü gerçek zamanlı uygulamalara taşımayı amaçlar. Orijinal RT-DETR temel alan bu yineleme, esneklik ve eğitim yakınsamasına odaklanır.

RTDETRv2, CNN backbone bir dönüştürücü kodlayıcı-kod çözücü backbone birleştiren hibrit bir mimari kullanır. Önemli bir özelliği, geleneksel dönüştürücülere kıyasla yakınsama hızını artırmak için geliştirilmiş eğitim stratejileri ve mimari ayarlamaları içeren "Bag-of-Freebies"dir. Ancak, öncülleri gibi, dikkat mekanizmalarının doğasında bulunan verimli matris çarpımları için büyük ölçüde GPU dayanır.

RT-DETR hakkında daha fazla bilgi edinin

YOLO26'ya Genel Bakış

YOLO26, Ultralytics tarafından uç cihazlarda verimlilik sınırlarını zorlamak Ultralytics tasarlanan You Only Look Once serisinin en son atılımını temsil ediyor. Convolutional Neural Networks (CNN) hız avantajlarını korurken, yerel olarak uçtan uca NMS bir tasarım benimsemek suretiyle önceki nesillerden önemli bir ayrılık gösteriyor.

YOLO26, "kenar öncelikli" dağıtım için tasarlanmıştır. LLM eğitiminin kararlılığından esinlenerek MuSGD optimizasyon aracını sunar ve model dışa aktarımını kolaylaştırmak için Dağıtım Odaklı Kayıp (DFL) özelliğini kaldırır. Bu değişiklikler, transformatörlerin genellikle zorlandığı CPU cihazlarda sadece yüksek doğrulukta değil, aynı zamanda olağanüstü hızlı bir model ortaya çıkarır.

YOLO26 hakkında daha fazla bilgi edinin

Teknik Karşılaştırma

Aşağıdaki tablo, RTDETRv2 ve YOLO26 arasındaki performans farklarını göstermektedir. CPU hızları ve parametre verimliliğindeki önemli farklara dikkat edin.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Mimari ve Tasarım

Temel fark, bu modellerin görsel verileri işleme biçimlerinde yatmaktadır.

RTDETRv2, dikkat mekanizmasına dayanır. Bu, modelin küresel bağlamı yakalamasına (uzak pikseller arasındaki ilişkileri anlamasına) olanak sağlarken, görüntü boyutuna göre ikinci dereceden bir hesaplama maliyeti getirir. Bu da yüksek çözünürlüklü çıkarımları pahalı hale getirir. Eğitim sırasında iki parçalı eşleştirme kullanarak Maksimum Olmayan Bastırma (NMS) ihtiyacını ortadan kaldırır; bu özelliği yeni YOLO26 ile ortaktır.

YOLO26, gelişmiş bir CNN mimarisini kullanır, ancak çığır açan bir Uçtan Uca NMS Tasarım sunar. Tarihsel olarak, YOLO'lar yinelenen sınırlayıcı kutuları kaldırmak için NMS gerektiriyordu. YOLO26, DETR'lere benzer şekilde bu adımı doğal olarak ortadan kaldırır, ancak dönüştürücülerin ağır hesaplama yükü olmadan. Ayrıca, Dağıtım Odak Kaybı (DFL) özelliğinin kaldırılması, ONNX TensorRT gibi formatlara aktarım için mimariyi basitleştirerek düşük güçlü kenar hızlandırıcılarla daha geniş uyumluluk sağlar.

Eğitim Verimliliği ve Optimizasyonu

Eğitim verimliliği, özel veri kümeleri üzerinde yineleme yapan ekipler için kritik bir faktördür.

  • YOLO26, SGD Muon'un bir karışımı olan MuSGD Optimizer'ı sunar. Büyük Dil Modellerinin (Moonshot AI'nın Kimi K2 gibi) eğitimindeki yeniliklerden esinlenen bu optimizer, görme görevlerine gelişmiş stabilite ve daha hızlı yakınsama sağlar. ProgLoss (Progressive Loss) ve STAL (Self-Taught Anchor Learning) ile birleştirilen YOLO26, hızlı eğitim süreleri ve daha düşük bellek kullanımı sunarak tüketici sınıfı GPU'larda daha büyük parti boyutlarına olanak tanır.
  • RTDETRv2, dikkat katmanlarını stabilize etmek için genellikle daha fazla GPU (VRAM) ve daha uzun eğitim programları gerektirir. Dönüştürücüler, veriye çok ihtiyaç duymalarıyla bilinir ve CNN muadillerine kıyasla daha yavaş yakınsama gösterebilirler.

Bellek Verimliliği

YOLO26'nın CNN tabanlı mimarisi, transformatör tabanlı alternatiflere göre önemli ölçüde daha fazla bellek verimliliği sağlar. Bu sayede, sınırlı VRAM'e sahip GPU'larda (RTX 3060 veya 4060 gibi) daha büyük modeller eğitebilir veya daha istikrarlı gradyanlar için daha büyük parti boyutları kullanabilirsiniz.

Gerçek Dünya Uygulama Analizi

Bu modeller arasında seçim yapmak, büyük ölçüde donanım kısıtlamalarınıza ve doğruluk gereksinimlerinize bağlıdır.

YOLO26'nın Üstün Olduğu Alanlar

1. Edge AI ve IoT: CPU %43'e varan hız artışı ile YOLO26, edge alanında tartışmasız liderdir. Raspberry Pi, NVIDIA Nano veya mobil telefonlarda çalışan uygulamalar için RTDETRv2'nin transformatör bloklarının ek yükü genellikle çok yüksektir. YOLO26n (Nano), transformatörlerin gecikmeyi milisaniye değil saniye cinsinden ölçtüğü CPU'larda gerçek zamanlı hızlar sunar.

2. Robotik ve Navigasyon: YOLO26'nın NMS tasarımı robotik için çok önemlidir. NMS adımını ortadan kaldırarak, YOLO26 gecikme varyansını azaltır ve yüksek hızlı navigasyon ve manipülasyon görevleri için gereken tutarlı, deterministik çıkarım süreleri sağlar.

3. Çeşitli Görme Görevleri: YOLO26 sadece bir dedektör değildir. Ultralytics , bir dizi görevi yerel olarak destekler:

RTDETRv2'nin Yeri

RTDETRv2, öncelikle araştırma odaklı bir mimaridir. Aşağıdaki senaryolar için en uygun seçenektir:

  • Küresel bağlam, yerel özelliklerden (örneğin, belirli tıbbi görüntüleme görevleri) daha önemlidir.
  • Donanım kısıtlamaları yoktur ve yüksek kaliteli sunucu sınıfı GPU'lar ( NVIDIA veya H100 gibi) kullanıma hazırdır.
  • Transformatörlerin spesifik endüktif önyargıları, niş bir araştırma problemi için gereklidir.

Ancak, üretim ortamları için, Ultralytics ile karşılaştırıldığında olgun bir dağıtım ekosisteminin olmaması Ultralytics sürtüşmelere neden olur.

Ultralytics'in Avantajı

Ham metriklerin ötesinde, yazılım ekosistemi projenin başarısında hayati bir rol oynar. YOLO26, tüm MLOps yaşam döngüsünü kolaylaştıran sağlam Ultralytics yararlanır.

  • Kullanım Kolaylığı: "Sıfırdan kahramana" deneyimi, 10 satırdan az Python ile bir modeli yükleyebileceğiniz, eğitebileceğiniz ve dağıtabileceğiniz anlamına gelir.
  • İyi Bakımlı Ekosistem: Aylarca güncelleme yapılmayan araştırma depolarının aksine, Ultralytics sık sık yamalar, aktif topluluk desteği ve kapsamlı belgeler Ultralytics .
  • Dağıtım Esnekliği: CoreMLiOS , TF.js ile bir web tarayıcısında veya bir kenar TPUda çalıştırmanız gerekse de, yerleşik dışa aktarma modları geçişi sorunsuz hale getirir.

Kod Örneği: YOLO26 ile Başlarken

Aşağıdaki örnek, Ultralytics Python kullanarak bir YOLO26 modelini eğitmenin ne kadar basit olduğunu göstermektedir. Bu basitlik, araştırma tabanlı dönüştürücü modeller için genellikle gerekli olan karmaşık yapılandırma dosyalarıyla tezat oluşturmaktadır.

from ultralytics import YOLO

# Load the YOLO26 Nano model (efficient for edge devices)
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free prediction ensures low latency
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for broad deployment compatibility
path = model.export(format="onnx")

Sonuç

RTDETRv2, transformatörlerin algılama alanındaki akademik potansiyelini gösterirken, Ultralytics gerçek dünyadaki uygulamaların büyük çoğunluğu için daha pratik, verimli ve çok yönlü bir çözüm sunar.

Uçtan uca NMS mimari, MuSGD optimizasyonu ve üstün kenar performansı gibi benzersiz özellikleri bir araya getiren YOLO26, 2026 yılı için geleceğe dönük bir seçimdir. Akıllı kamera sistemi, otonom drone veya yüksek verimli video analizi boru hattı geliştiriyor olun, YOLO26 prototipten üretime güvenle geçmek için gereken hız ve doğruluk dengesini sağlar.

Diğer son teknoloji seçeneklerle ilgilenen geliştiriciler için Ultralytics ayrıca şunları da desteklemektedir YOLO11 ve orijinal RT-DETR'yi de destekleyerek, birleşik bir API içinde kolay karşılaştırma yapma imkanı sunar.


Yorumlar