RTDETRv2 ve YOLOv8: Gerçek Zamanlı Nesne Algılamayı Dönüştürmek
Bilgisayar görüşü alanı, geleneksel Evrişimli Sinir Ağları (CNN) modelinden Transformer'ları içeren hibrit mimarilere doğru hızla gelişmiştir. Bu geçişte öne çıkan iki model, RTDETRv2 (Gerçek Zamanlı Algılama Transformer sürüm 2) ve Ultralytics YOLOv8'dir. Her ikisi de gerçek zamanlı nesne algılama sorununu çözmeyi amaçlasa da, bu soruna temelde farklı felsefeler ve mimari tasarımlarla yaklaşmaktadırlar.
Bu kılavuz, geliştiricilerin, araştırmacıların ve mühendislerin, çıkarım hızı, doğruluk ve eğitim verimliliği gibi faktörleri değerlendirerek, özel dağıtım ihtiyaçlarına uygun modeli seçmelerine yardımcı olmak için teknik bir karşılaştırma sunmaktadır.
Model Genel Bakışları
Metriklere dalmadan önce, her modelin kökenini ve mimari hedeflerini anlamak çok önemlidir.
RTDETRv2
RTDETRv2, gerçek zamanlı senaryolarda YOLO gerçek anlamda rakip olan ilk transformatör tabanlı dedektör olan orijinal RT-DETR başarısını temel almaktadır. Baidu araştırmacıları tarafından geliştirilen bu model, saf CNN'lerde genellikle eksik olan bir özellik olan küresel bağlamı yakalamak backbone bir görme dönüştürücü backbone yararlanır. Bu modelin belirleyici özelliği, Non-Maximum Suppression (NMS) son işlemine gerek kalmayan uçtan uca tahmin yeteneğidir.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
- Kuruluş:Baidu
- Tarih: Temmuz 2024 (v2 kağıt)
- Arxiv:RT-DETRv2: Ücretsiz Ekstralarla Geliştirilmiş Temel Çizgi
- GitHub:RT-DETR Deposu
Ultralytics YOLOv8
YOLOv8, Ultralytics tarafından piyasaya sürülen, CNN tabanlı nesne algılama verimliliğinin zirvesini temsil eder. Ankrajsız algılama başlığı ve yenilenmiş CSPDarknet backbone sunar. Çok yönlülük için tasarlanan YOLOv8 , sadece bir algılayıcı YOLOv8 ; örnek segmentasyonu, poz tahmini ve sınıflandırma gibi görevleri de doğal olarak destekler. Veri kümesi yönetiminden dağıtımına kadar her şeyi basitleştiren sağlam bir yazılım ekosistemi ile desteklenir.
- Yazarlar: Glenn Jocher, Ayush Chaurasia ve Jing Qiu
- Kuruluş:Ultralytics
- Tarih: 10 Ocak 2023
- Belgeler:YOLOv8 Belgeleri
YOLOv8 hakkında daha fazla bilgi edinin.
Teknik Mimari Karşılaştırması
Temel fark, bu modellerin görsel bilgileri işleme biçimlerinde yatmaktadır.
Görsel Dönüştürücüler ve CNN'ler
RTDETRv2, dikkat mekanizmalarını kullanarak görüntü özelliklerini işleyen hibrit bir kodlayıcı kullanır. Bu, modelin tüm görüntüyü bir kerede "görmesini" ve uzak nesneler arasındaki ilişkiyi etkili bir şekilde anlamasını sağlar. Bu küresel bağlam, kalabalık sahnelerde veya nesnelerin örtüldüğü durumlarda özellikle yararlıdır. Ancak bunun bir bedeli vardır: dönüştürücüler genellikle eğitim sırasında önemli ölçüde daha fazla GPU (VRAM) gerektirir ve CNN muadillerine göre daha yavaş yakınsama gösterebilir.
Buna karşılık, YOLOv8 derin evrişimli ağlara YOLOv8 . CNN'ler kenarlar ve dokular gibi yerel özellikleri çıkarmada olağanüstüdür. YOLOv8 bunu, çıkarım maliyetini artırmadan doğruluğu artıran mimari ayarlamalar olan "Bag of Freebies" ile YOLOv8 . Sonuç, inanılmaz derecede hafif, tüketici sınıfı donanımlarda daha hızlı eğitilen ve Raspberry Pi gibi uç cihazlara verimli bir şekilde dağıtılan bir modeldir.
NMS Mimari
RTDETRv2'nin ün kazanmasının nedenlerinden biri, NMS tasarımıdır. YOLOv8 gibi geleneksel dedektörler, birçok örtüşen sınırlayıcı kutu YOLOv8 ve bunları filtrelemek için Non-Maximum Suppression (NMS) kullanır. RTDETRv2 ise nesnelerin tam kümesini doğrudan tahmin eder.
Not: Yeni YOLO26 da NMS uçtan uca tasarımı benimsiyor ve bu mimari avantajı Ultralytics kendine özgü hızıyla birleştiriyor.
Performans Metrikleri
Aşağıdaki tablo, çeşitli model boyutlarının performanslarını karşılaştırmaktadır. RTDETRv2 etkileyici bir doğruluk (mAP) sergilerken, YOLOv8 parametre sayısı ve hesaplama yükü (FLOP) açısından üstün bir verimlilik YOLOv8 . Bu da kısıtlı cihazlarda doğrudan hıza dönüşmektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Temel Çıkarımlar
- Düşük Gecikmeli Kenar AI: YOLOv8n Nano), T4 GPU ~1,47 ms'lik hızıyla GPU CPU'larda gerçek zamanlı performansı sürdürmesiyle, aşırı hız konusunda kendi sınıfında benzersizdir. RTDETRv2, kaynakların son derece kısıtlı olduğu ortamlar için benzer bir "nano" modele sahip değildir.
- Doğruluk Tavanı: RTDETRv2-x, YOLOv8x 53,9) ile karşılaştırıldığında biraz daha yüksek bir mAP 54,3) elde ederek, aşağıdaki gibi karmaşık doğrulamalarda transformatör dikkat mekanizmasının gücünü ortaya koymaktadır COCOgibi karmaşık doğrulamalarda transformatör dikkat mekanizmasının gücünü ortaya koymaktadır.
- Hesaplama Verimliliği: YOLOv8 , benzer performans seviyeleri için YOLOv8 daha az FLOP gerektirir, bu da onu mobil uygulamalar için daha pil dostu hale getirir.
Ekosistem ve Kullanım Kolaylığı
Performans ölçütleri hikayenin sadece yarısını anlatır. Mühendislik ekipleri için, entegrasyon ve bakım kolaylığı genellikle belirleyici faktördür.
Ultralytics Avantajı: YOLOv8 , sorunsuz bir "kullanıma hazır" deneyim sunan olgun Ultralytics YOLOv8 .
- Birleştirilmiş API: YOLOv8, YOLO11ve hatta RT-DETR tek bir kod satırı RT-DETR geçiş yapabilirsiniz.
- Platform Desteği: Ultralytics , standart kod yazmadan eğitim, sonuçları görselleştirme ve veri kümelerini yönetme için web tabanlı araçlar sunar.
- Geniş Kapsamlı Dağıtım: Yerleşik dışa aktarım modları, ONNX, TensorRT, CoreML ve TFLite gibi formatlara anında dönüştürme imkanı sunar.
RTDETRv2 Bağımsız ve Entegrasyon: Resmi RTDETRv2 deposu araştırma odaklı bir kod tabanı olsa da, Ultralytics RT-DETR doğrudan paketine entegre Ultralytics . Bu, kullanıcı dostu Ultralytics yararlanırken RTDETRv2'nin mimari avantajlarından da faydalanabileceğiniz anlamına gelir.
Kod Örneği: Eğitim ve Tahmin
Aşağıda, Ultralytics içinde her iki mimarinin nasıl kullanılacağını gösteren bir Python bulunmaktadır. Bu örnek, kütüphanenin modüler yapısını vurgulamaktadır.
from ultralytics import RTDETR, YOLO
# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")
# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the results
results[0].show()
Gerçek Dünya Uygulamaları
RTDETRv2'nin Üstün Olduğu Alanlar
Transformatör tabanlı mimari, RTDETRv2'yi doğruluğun çok önemli olduğu ve donanım kaynaklarının bol olduğu senaryolar için ideal hale getirir (örneğin, güçlü GPU'larla sunucu tarafında işleme).
- Tıbbi Görüntüleme: Benzer dokuları ayırt etmede genel bağlamın yardımcı olduğu röntgen filmlerinde ince anomalileri tespit etme.
- Kalabalık Analizi: Standart CNN'leri genellikle karıştıran yoğun kalabalıklarda bireyleri takip etme.
- Hava Gözetimi: Yer özellikleri arasındaki ilişkinin önemli olduğu yüksek çözünürlüklü drone görüntülerinde küçük nesneleri tanımlama.
YOLOv8'in Üstün Olduğu Alanlar
YOLOv8 , hız ve güvenilirlik arasında denge gerektiren , çeşitli ve kaynakları sınırlı uygulamalar için en uygun çözüm YOLOv8 .
- Gömülü IoT: Akıllı şehir trafik izleme için NVIDIA Orin Nano gibi cihazlarda çalışır.
- Robotik: Çarpışmaları önlemek için her milisaniyenin önemli olduğu gerçek zamanlı engel önleme.
- Üretim: Modelin hızlı konveyör bantlarına ayak uydurması gereken yüksek hızlı montaj hattı denetimi.
- Çoklu Görev: İşçi güvenliği izleme için döndürülmüş nesneler veya poz tahmini için OBB gerektiren uygulamalar.
Gelecek Beklentileri: YOLO26 ile Her İki Dünyanın En İyisi
RTDETRv2, NMS algılamayı ön plana çıkarırken, bu alan gelişmeye devam etti. Yakın zamanda piyasaya sürülen YOLO26 , bu iki mimari arasındaki boşluğu etkili bir şekilde doldurmaktadır.
YOLO26, transformatörler tarafından öncülüğünü yaptığı Uçtan Uca NMS tasarımını içerir, ancak bunu son derece optimize edilmiş, CPU bir mimari içinde uygular. MuSGD Optimizer ve Distribution Focal Loss (DFL) kaldırma gibi özelliklerle YOLO26, YOLO olağanüstü hızı ve düşük bellek ayak izi ile transformatörlerin eğitim kararlılığını ve küresel bağlam farkındalığını sunar. 2026'da başlayacak yeni projeler için YOLO26'yı incelemek, RTDETRv2 ve YOLOv8 güçlü yönlerini bir araya getiren, geleceğe dönük bir çözüm sağlar.
Sonuç
RTDETRv2 ve YOLOv8 , bilgisayar görme mühendislerinin cephaneliğinde YOLOv8 olağanüstü YOLOv8 . RTDETRv2, VRAM'ın bir kısıtlama olmadığı ve genel bağlamın kritik öneme sahip olduğu araştırma ve üst düzey sunucu dağıtımları için sağlam bir seçimdir. YOLOv8ise benzersiz bir çok yönlülük, ekosistem desteği ve verimlilik sunarak ticari ve uç AI dağıtımlarının büyük çoğunluğu için pratik bir seçimdir.
Bu felsefelerin nihai kombinasyonunu arayan geliştiriciler için — dönüştürücü yükü olmadan uçtan uca işleme hızı — YOLO26 belgelerini inceleyerek yeni nesil görsel yapay zekanın iş akışınızı nasıl hızlandırabileceğini keşfetmenizi öneririz.
Daha Fazla Okuma
- YOLO Metriklerini keşfederek mAP anlayın.
- iOS, Android ve Edge cihazlara dağıtım için Model Dışa Aktarma hakkında bilgi edinin.
- Diğer desteklenen modeller gibi YOLO11 ve SAM gibi diğer desteklenen modellere göz atın.