RTDETRv2 ve YOLOv8: Gerçek Zamanlı Nesne Algılamayı Dönüştürmek

Bilgisayar görüşü alanı, geleneksel Evrişimli Sinir Ağları (CNN) modelinden Transformer'ları içeren hibrit mimarilere doğru hızla gelişmiştir. Bu geçişte öne çıkan iki model, RTDETRv2 (Gerçek Zamanlı Algılama Transformer sürüm 2) ve Ultralytics YOLOv8'dir. Her ikisi de gerçek zamanlı nesne algılama sorununu çözmeyi amaçlasa da, bu soruna temelde farklı felsefeler ve mimari tasarımlarla yaklaşmaktadırlar.

Bu kılavuz, geliştiricilerin, araştırmacıların ve mühendislerin, çıkarım hızı, doğruluk ve eğitim verimliliği gibi faktörleri değerlendirerek, özel dağıtım ihtiyaçlarına uygun modeli seçmelerine yardımcı olmak için teknik bir karşılaştırma sunmaktadır.

Model Genel Bakışları

Metriklere dalmadan önce, her modelin kökenini ve mimari hedeflerini anlamak çok önemlidir.

RTDETRv2

RTDETRv2, gerçek zamanlı senaryolarda YOLO gerçek anlamda rakip olan ilk transformatör tabanlı dedektör olan orijinal RT-DETR başarısını temel almaktadır. Baidu araştırmacıları tarafından geliştirilen bu model, saf CNN'lerde genellikle eksik olan bir özellik olan küresel bağlamı yakalamak backbone bir görme dönüştürücü backbone yararlanır. Bu modelin belirleyici özelliği, Non-Maximum Suppression (NMS) son işlemine gerek kalmayan uçtan uca tahmin yeteneğidir.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
Kuruluş:Baidu
Tarih: Temmuz 2024 (v2 kağıt)
Arxiv:RT-DETRv2: Ücretsiz Ekstralarla Geliştirilmiş Temel Çizgi
GitHub:RT-DETR Deposu

Ultralytics YOLOv8

YOLOv8, Ultralytics tarafından piyasaya sürülen, CNN tabanlı nesne algılama verimliliğinin zirvesini temsil eder. Ankrajsız algılama başlığı ve yenilenmiş CSPDarknet backbone sunar. Çok yönlülük için tasarlanan YOLOv8 , sadece bir algılayıcı YOLOv8 ; örnek segmentasyonu, poz tahmini ve sınıflandırma gibi görevleri de doğal olarak destekler. Veri kümesi yönetiminden dağıtımına kadar her şeyi basitleştiren sağlam bir yazılım ekosistemi ile desteklenir.

Yazarlar: Glenn Jocher, Ayush Chaurasia ve Jing Qiu
Kuruluş:Ultralytics
Tarih: 10 Ocak 2023
Belgeler:YOLOv8 Belgeleri

YOLOv8 hakkında daha fazla bilgi edinin.

Teknik Mimari Karşılaştırması

Temel fark, bu modellerin görsel bilgileri işleme biçimlerinde yatmaktadır.

Görsel Dönüştürücüler ve CNN'ler

RTDETRv2, dikkat mekanizmalarını kullanarak görüntü özelliklerini işleyen hibrit bir kodlayıcı kullanır. Bu, modelin tüm görüntüyü bir kerede "görmesini" ve uzak nesneler arasındaki ilişkiyi etkili bir şekilde anlamasını sağlar. Bu küresel bağlam, kalabalık sahnelerde veya nesnelerin örtüldüğü durumlarda özellikle yararlıdır. Ancak bunun bir bedeli vardır: dönüştürücüler genellikle eğitim sırasında önemli ölçüde daha fazla GPU (VRAM) gerektirir ve CNN muadillerine göre daha yavaş yakınsama gösterebilir.

Buna karşılık, YOLOv8 derin evrişimli ağlara YOLOv8 . CNN'ler kenarlar ve dokular gibi yerel özellikleri çıkarmada olağanüstüdür. YOLOv8 bunu, çıkarım maliyetini artırmadan doğruluğu artıran mimari ayarlamalar olan "Bag of Freebies" ile YOLOv8 . Sonuç, inanılmaz derecede hafif, tüketici sınıfı donanımlarda daha hızlı eğitilen ve Raspberry Pi gibi uç cihazlara verimli bir şekilde dağıtılan bir modeldir.

NMS Mimari

RTDETRv2'nin ün kazanmasının nedenlerinden biri, NMS tasarımıdır. YOLOv8 gibi geleneksel dedektörler, birçok örtüşen sınırlayıcı kutu YOLOv8 ve bunları filtrelemek için Non-Maximum Suppression (NMS) kullanır. RTDETRv2 ise nesnelerin tam kümesini doğrudan tahmin eder.

Not: Yeni YOLO26 da NMS uçtan uca tasarımı benimsiyor ve bu mimari avantajı Ultralytics kendine özgü hızıyla birleştiriyor.

Performans Metrikleri

Aşağıdaki tablo, çeşitli model boyutlarının performanslarını karşılaştırmaktadır. RTDETRv2 etkileyici bir doğruluk (mAP) sergilerken, YOLOv8 parametre sayısı ve hesaplama yükü (FLOP) açısından üstün bir verimlilik YOLOv8 . Bu da kısıtlı cihazlarda doğrudan hıza dönüşmektedir.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Temel Çıkarımlar

Düşük Gecikmeli Kenar AI: YOLOv8n Nano), T4 GPU ~1,47 ms'lik hızıyla GPU CPU'larda gerçek zamanlı performansı sürdürmesiyle, aşırı hız konusunda kendi sınıfında benzersizdir. RTDETRv2, kaynakların son derece kısıtlı olduğu ortamlar için benzer bir "nano" modele sahip değildir.
Doğruluk Tavanı: RTDETRv2-x, YOLOv8x 53,9) ile karşılaştırıldığında biraz daha yüksek bir mAP 54,3) elde ederek, aşağıdaki gibi karmaşık doğrulamalarda transformatör dikkat mekanizmasının gücünü ortaya koymaktadır COCOgibi karmaşık doğrulamalarda transformatör dikkat mekanizmasının gücünü ortaya koymaktadır.
Hesaplama Verimliliği: YOLOv8 , benzer performans seviyeleri için YOLOv8 daha az FLOP gerektirir, bu da onu mobil uygulamalar için daha pil dostu hale getirir.

Ekosistem ve Kullanım Kolaylığı

Performans ölçütleri hikayenin sadece yarısını anlatır. Mühendislik ekipleri için, entegrasyon ve bakım kolaylığı genellikle belirleyici faktördür.

Ultralytics Avantajı: YOLOv8 , sorunsuz bir "kullanıma hazır" deneyim sunan olgun Ultralytics YOLOv8 .

Birleştirilmiş API: YOLOv8, YOLO11ve hatta RT-DETR tek bir kod satırı RT-DETR geçiş yapabilirsiniz.
Platform Desteği: Ultralytics , standart kod yazmadan eğitim, sonuçları görselleştirme ve veri kümelerini yönetme için web tabanlı araçlar sunar.
Geniş Kapsamlı Dağıtım: Yerleşik dışa aktarım modları, ONNX, TensorRT, CoreML ve TFLite gibi formatlara anında dönüştürme imkanı sunar.

RTDETRv2 Bağımsız ve Entegrasyon: Resmi RTDETRv2 deposu araştırma odaklı bir kod tabanı olsa da, Ultralytics RT-DETR doğrudan paketine entegre Ultralytics . Bu, kullanıcı dostu Ultralytics yararlanırken RTDETRv2'nin mimari avantajlarından da faydalanabileceğiniz anlamına gelir.

Kod Örneği: Eğitim ve Tahmin

Aşağıda, Ultralytics içinde her iki mimarinin nasıl kullanılacağını gösteren bir Python bulunmaktadır. Bu örnek, kütüphanenin modüler yapısını vurgulamaktadır.

from ultralytics import RTDETR, YOLO

# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")

# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the results
results[0].show()

Gerçek Dünya Uygulamaları

RTDETRv2'nin Üstün Olduğu Alanlar

Transformatör tabanlı mimari, RTDETRv2'yi doğruluğun çok önemli olduğu ve donanım kaynaklarının bol olduğu senaryolar için ideal hale getirir (örneğin, güçlü GPU'larla sunucu tarafında işleme).

Tıbbi Görüntüleme: Benzer dokuları ayırt etmede genel bağlamın yardımcı olduğu röntgen filmlerinde ince anomalileri tespit etme.
Kalabalık Analizi: Standart CNN'leri genellikle karıştıran yoğun kalabalıklarda bireyleri takip etme.
Hava Gözetimi: Yer özellikleri arasındaki ilişkinin önemli olduğu yüksek çözünürlüklü drone görüntülerinde küçük nesneleri tanımlama.

YOLOv8'in Üstün Olduğu Alanlar

YOLOv8 , hız ve güvenilirlik arasında denge gerektiren , çeşitli ve kaynakları sınırlı uygulamalar için en uygun çözüm YOLOv8 .

Gömülü IoT: Akıllı şehir trafik izleme için NVIDIA Orin Nano gibi cihazlarda çalışır.
Robotik: Çarpışmaları önlemek için her milisaniyenin önemli olduğu gerçek zamanlı engel önleme.
Üretim: Modelin hızlı konveyör bantlarına ayak uydurması gereken yüksek hızlı montaj hattı denetimi.
Çoklu Görev: İşçi güvenliği izleme için döndürülmüş nesneler veya poz tahmini için OBB gerektiren uygulamalar.

Gelecek Beklentileri: YOLO26 ile Her İki Dünyanın En İyisi

RTDETRv2, NMS algılamayı ön plana çıkarırken, bu alan gelişmeye devam etti. Yakın zamanda piyasaya sürülen YOLO26 , bu iki mimari arasındaki boşluğu etkili bir şekilde doldurmaktadır.

YOLO26, transformatörler tarafından öncülüğünü yaptığı Uçtan Uca NMS tasarımını içerir, ancak bunu son derece optimize edilmiş, CPU bir mimari içinde uygular. MuSGD Optimizer ve Distribution Focal Loss (DFL) kaldırma gibi özelliklerle YOLO26, YOLO olağanüstü hızı ve düşük bellek ayak izi ile transformatörlerin eğitim kararlılığını ve küresel bağlam farkındalığını sunar. 2026'da başlayacak yeni projeler için YOLO26'yı incelemek, RTDETRv2 ve YOLOv8 güçlü yönlerini bir araya getiren, geleceğe dönük bir çözüm sağlar.

Sonuç

RTDETRv2 ve YOLOv8 , bilgisayar görme mühendislerinin cephaneliğinde YOLOv8 olağanüstü YOLOv8 . RTDETRv2, VRAM'ın bir kısıtlama olmadığı ve genel bağlamın kritik öneme sahip olduğu araştırma ve üst düzey sunucu dağıtımları için sağlam bir seçimdir. YOLOv8ise benzersiz bir çok yönlülük, ekosistem desteği ve verimlilik sunarak ticari ve uç AI dağıtımlarının büyük çoğunluğu için pratik bir seçimdir.

Bu felsefelerin nihai kombinasyonunu arayan geliştiriciler için — dönüştürücü yükü olmadan uçtan uca işleme hızı — YOLO26 belgelerini inceleyerek yeni nesil görsel yapay zekanın iş akışınızı nasıl hızlandırabileceğini keşfetmenizi öneririz.

Daha Fazla Okuma

YOLO Metriklerini keşfederek mAP anlayın.
iOS, Android ve Edge cihazlara dağıtım için Model Dışa Aktarma hakkında bilgi edinin.
Diğer desteklenen modeller gibi YOLO11 ve SAM gibi diğer desteklenen modellere göz atın.