İçeriğe geç

RTDETRv2 ve YOLOv10: NMS İçermeyen Gerçek Zamanlı Nesne Algılamada Gelişmeler

Bilgisayar görüşünün evrimi, büyük ölçüde hız ve doğruluk arasındaki dengeyi sağlama arayışıyla şekillenmiştir. Geleneksel olarak, gerçek zamanlı nesne algılama işlem hatları, çakışan sınırlayıcı kutuları filtrelemek için bir son işleme adımı olarak Maksimum Olmayan Bastırma (NMS) yöntemine dayanmıştır. Ancak, NMS gecikme darboğazları ve karmaşık hiperparametre ayarlamaları getirir. Son zamanlarda, bu sorunu doğal olarak çözmek için iki farklı mimari yaklaşım ortaya çıkmıştır: RTDETRv2 gibi Transformer tabanlı modeller ve YOLOv10 gibi CNN tabanlı modeller.

Bu kılavuz, bu iki modelin mimarilerini, performans metriklerini ve ideal kullanım durumlarını analiz ederek kapsamlı bir teknik karşılaştırma sunar; aynı zamanda Ultralytics ekosistemindeki en son yeniliklerin modern dağıtım için nihai çözümü nasıl sunduğunu da vurgular.

RTDETRv2: Gerçek Zamanlı Algılama Transformatörleri

RTDETRv2, orijinal RT-DETR mimarisi üzerine inşa edilmiştir ve Vision Transformer'ların küresel bağlam anlama yeteneğini, geleneksel olarak YOLO modellerinin hakim olduğu gerçek zamanlı hız gereksinimleriyle birleştirmeyi amaçlar.

Temel Özellikler:

Mimari ve Eğitim Metodolojileri

RTDETRv2, doğası gereği NMS'den kaçınan uçtan uca bir transformer mimarisi kullanır. Öncülünü, bir "Bag-of-Freebies" yaklaşımı sunarak, eğitim stratejisini optimize ederek ve çok ölçekli algılama yeteneklerini dahil ederek geliştirir. Model, özellik haritalarını (kenarlar ve dokular gibi görsel detaylar) çıkarmak için bir CNN backbone kullanır ve bunlar daha sonra bir transformer kodlayıcı-kod çözücü yapısı tarafından işlenir. Bu, modelin tüm görüntü bağlamını eş zamanlı olarak analiz etmesine olanak tanır, bu da nesnelerin yoğun bir şekilde bir arada bulunduğu veya çakıştığı karmaşık sahneleri anlamada oldukça etkili olmasını sağlar.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Küresel Bağlam: Dikkat mekanizması, modelin karmaşık, dağınık ortamlarda üstün performans göstermesini sağlar.
  • NMS İçermeyen: Nesne koordinatlarını doğrudan tahmin ederek dağıtım hattını basitleştirir.
  • Yüksek Doğruluk: COCO veri kümesinde mükemmel ortalama hassasiyet (mAP) elde eder.

Zayıflıklar:

  • Kaynak Yoğun: Transformer mimarileri, CNN'lere kıyasla eğitim sırasında tipik olarak önemli ölçüde daha fazla CUDA belleği gerektirir, bu da onları standart donanımda ince ayar yapmak için pahalı hale getirir.
  • Çıkarım Hızı Değişkenliği: Hızlı olmasına rağmen, yoğun dikkat hesaplamaları, özel yapay zeka hızlandırıcıları olmayan kenar cihazlarda bilgisayar görüşünde daha düşük FPS'ye yol açabilir.

RTDETRv2 hakkında daha fazla bilgi edinin

YOLOv10: Gerçek Zamanlı Uçtan Uca Nesne Algılama

YOLOv10, uzun süredir devam eden NMS darboğazını doğrudan bir CNN çerçevesi içinde ele alarak YOLO nesne algılama soyunda önemli bir değişimi temsil etmektedir.

Temel Özellikler:

Mimari ve Eğitim Metodolojileri

YOLOv10'un temel yeniliği, NMS içermeyen eğitim için tutarlı ikili atamalarıdır. Eğitim sırasında iki algılama başlığı kullanır: biri zengin denetim sinyalleri sağlamak için bire çok atama (geleneksel YOLO'lar gibi), diğeri ise NMS ihtiyacını ortadan kaldırmak için bire bir atama ile. Çıkarım sırasında yalnızca bire bir başlık kullanılır, bu da uçtan uca bir süreçle sonuçlanır. Ayrıca, yazarlar, hesaplama fazlalığını azaltmak için çeşitli bileşenleri kapsamlı bir şekilde optimize eden bütünsel bir verimlilik-doğruluk odaklı model tasarım stratejisi uygulamışlardır.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Olağanüstü Hız: NMS'yi kaldırarak ve mimariyi optimize ederek, YOLOv10 inanılmaz derecede düşük çıkarım gecikmesi elde eder.
  • Verimlilik: Diğer modellere benzer doğruluk elde etmek için daha az parametre ve FLOPs gerektirir, bu da onu kısıtlı ortamlar için oldukça uygun hale getirir.
  • NMS-Serbest Dağıtımlar: Akıllı gözetim gibi uç uygulamalara entegrasyonu kolaylaştırır.

Zayıflıklar:

  • İlk Nesil Konsept: Bu özel NMS-serbest mimariyi uygulayan ilk YOLO modeli olarak temelini atmış, ancak YOLO11 ve YOLO26 gibi sonraki modellerde görülen çok görevli çok yönlülük ve optimizasyon için yer bırakmıştır.

YOLOv10 hakkında daha fazla bilgi edinin.

Performans Karşılaştırması

Üretim için modelleri değerlendirirken, doğruluk ile hesaplama maliyetini dengelemek kritik öneme sahiptir. Aşağıdaki tablo, RTDETRv2 ve YOLOv10'un çeşitli boyutları arasındaki performans ödünleşimlerini vurgulamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

RTDETRv2 sağlam doğruluk sunarken, YOLOv10 özellikle daha küçük varyantlarında (Nano ve Small) gecikme ve parametre verimliliğinde dikkat çekici bir avantaj sergileyerek uç bilişim ve AIoT uygulamaları için oldukça cazip hale gelmektedir.

Doğru Ölçeği Seçmek

Sunucu sınıfı GPU'larda dağıtım yapıyorsanız, burada yığın boyutu ve VRAM daha az kısıtlıysa, daha büyük modeller (örneğin -x veya -l) doğruluğu en üst düzeye çıkarır. Raspberry Pi veya cep telefonları gibi uç cihazlar için nano (-n) veya küçük (-s) varyantlarını gerçek zamanlı kare hızlarını korumak için önceliklendirin.

Kullanım Durumları ve Öneriler

RT-DETR ve YOLOv10 arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.

RT-DETR Ne Zaman Seçilmeli

RT-DETR, aşağıdaki durumlar için güçlü bir seçenektir:

  • Transformer Tabanlı Tespit Araştırması: NMS olmadan uçtan uca nesne tespiti için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
  • Esnek Gecikmeli Yüksek Doğruluk Senaryoları: Tespit doğruluğunun en yüksek öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
  • Büyük Nesne Tespiti: Transformer'ların global dikkat mekanizmasının doğal bir avantaj sağladığı, öncelikli olarak orta ila büyük nesnelerin bulunduğu sahneler.

YOLOv10 Ne Zaman Tercih Edilmeli?

YOLOv10 şunlar için önerilir:

  • NMS-Serbest Gerçek Zamanlı Algılama: Non-Maximum Suppression olmadan uçtan uca algılamadan faydalanan, dağıtım karmaşıklığını azaltan uygulamalar.
  • Dengeli Hız-Doğruluk Dengelemeleri: Çeşitli model ölçeklerinde çıkarım hızı ve algılama doğruluğu arasında güçlü bir denge gerektiren projeler.
  • Tutarlı Gecikme Süreli Uygulamalar: Tahmin edilebilir çıkarım sürelerinin kritik olduğu dağıtım senaryoları, örneğin robotik veya otonom sistemler.

Ultralytics (YOLO26) Ne Zaman Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Ultralytics Avantajı: YOLO26'yı Tanıtıyoruz

Hem RTDETRv2 hem de YOLOv10 ilgi çekici akademik gelişmeler sunsa da, bunları gerçek dünya senaryolarında dağıtmak sağlam, iyi bakımlı bir yazılım ekosistemi gerektirir. Ultralytics Platformu, kullanım kolaylığı, kapsamlı dokümantasyon ve veri etiketleme ve dağıtım için güçlü araçları birleştirerek eşsiz bir geliştirici deneyimi sunar.

2026'da mutlak en son teknolojiyi arayan geliştiriciler için Ultralytics YOLO26 nihai öneridir. Her iki mimarinin en iyi fikirlerini sentezlerken çığır açan iyileştirmeler sunar:

  • Uçtan Uca NMS-Serbest Tasarım: YOLOv10 tarafından öncülük edilen konsept üzerine inşa edilen YOLO26, NMS son işleme adımını doğal olarak ortadan kaldırarak daha hızlı, daha basit dağıtım mantığı ve sıfır gecikme varyansı sağlar.
  • DFL Kaldırma: Distribution Focal Loss'u kaldırarak, YOLO26 model dışa aktarımını basitleştirir ve uç ve düşük güçlü cihazlarla uyumluluğu önemli ölçüde artırır.
  • MuSGD Optimizatörü: SGD ve Muon'un (LLM eğitim yeniliklerinden esinlenilmiştir) bir hibriti olan bu yeni optimizatör, geleneksel yöntemlere kıyasla daha kararlı eğitim ve önemli ölçüde daha hızlı yakınsama sağlar.
  • Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Özel GPU'ları olmayan ortamlar için dikkatlice optimize edilerek yüksek performanslı yapay zeka görüşünü demokratikleştirir.
  • ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, drone kullanan uygulamalar ve IoT sensörleri için kritik olan küçük nesne tanımada önemli iyileştirmeler sağlar.
  • Eşsiz Çok Yönlülük: Sınır kutularıyla sınırlı modellere kıyasla, YOLO26; örnek segmentasyon, poz tahmini, görüntü sınıflandırma ve OBB detect dahil olmak üzere eksiksiz bir görev paketini destekler ve Poz için Residual Log-Likelihood Estimation (RLE) gibi göreve özel iyileştirmelerle tamamlanır.

YOLO26 hakkında daha fazla bilgi edinin

Python ile Sorunsuz Uygulama

Bu modelleri Ultralytics Python API'si kullanarak eğitmek ve dağıtmak sorunsuz olacak şekilde tasarlanmıştır. Eğitim sırasında bellek gereksinimleri, transformer tabanlı mimarilere kıyasla belirgin şekilde daha düşüktür, bu da güçlü modelleri standart donanımlarda eğitmenize olanak tanır.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

İster güvenlik alarm sistemleri uyguluyor olun, ister tıbbi görüntü analizi yapıyor olun, aktif Ultralytics topluluğu tarafından desteklenen bir model seçmek, başarılı olmak için gereken araçlara, hiperparametre ayarlama kılavuzlarına ve sürekli güncellemelere sahip olmanızı sağlar. YOLOv10 ve RTDETRv2 NMS-serbest mimarilerin yolunu açmış olsa da, YOLO26 formülü mükemmelleştirerek performans, çok yönlülük ve üretime hazır olma arasında en iyi dengeyi sunar.


Yorumlar