YOLOv10 vs. RTDETRv2: Gerçek Zamanlı Algılamada Mimari ve Performans

Nesne algılama için doğru mimariyi seçmek, bilgisayar görüşü uygulamaları geliştiren geliştiriciler için kritik bir karardır. Bu kılavuz, gerçek zamanlı algılamaya yönelik iki farklı yaklaşıma derinlemesine bir bakış sunmaktadır: uçtan uca yetenekler sunan CNN tabanlı YOLO ailesinin bir evrimi olan YOLOv10 ve CNN hakimiyetine meydan okumak üzere tasarlanmış transformatör tabanlı bir model olan RTDETRv2. Bu modellerin mimarilerini, kıyaslama sonuçlarını ve çeşitli dağıtım senaryolarına uygunluklarını analiz ediyoruz.

Modele Genel Bakış ve Kökenleri

Bu modellerin kökenini anlamak, tasarım felsefelerini ve amaçlanan kullanım durumlarını netleştirmeye yardımcı olur.

YOLOv10: NMS-Serbest CNN

Tsinghua Üniversitesi araştırmacıları tarafından Mayıs 2024'te piyasaya sürülen YOLOv10, YOLO soy ağacında önemli bir değişime işaret ediyor. Gerçek zamanlı dedektörlerde uzun süredir devam eden bir darboğazı, yani Non-Maximum Suppression (NMS)'i ele alıyor. NMS'siz eğitim için tutarlı ikili atamalar kullanarak, YOLOv10, YOLOv9 veya YOLOv8 gibi önceki nesillere kıyasla daha düşük gecikme süresi elde eder ve dağıtım süreçlerini basitleştirir.

Yazarlar: Ao Wang, Hui Chen, Lihao Liu, ve diğerleri.
Kuruluş:Tsinghua Üniversitesi
Tarih: 2024-05-23
Bağlantılar:Arxiv Makalesi | GitHub Deposu

YOLOv10 hakkında daha fazla bilgi edinin.

RTDETRv2: Transformer Meydan Okuyucusu

RT-DETR (Real-Time Detection Transformer), YOLO hızlarıyla gerçekten rekabet eden ilk transformatör tabanlı modeldi. Baidu tarafından geliştirilen RTDETRv2, bu mimariyi "Bag of Freebies" yaklaşımıyla iyileştirerek, daha iyi yakınsama ve esneklik için eğitim stratejisini ve mimarisini optimize eder. Görsel transformatörlerin (ViT'ler) gücünden yararlanarak küresel bağlamı yakalar ve genellikle karmaşık, tıkanıklık içeren sahnelerde CNN'lerden daha iyi performans gösterir, ancak daha yüksek bir hesaplama maliyetiyle.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
Kuruluş:Baidu
Tarih: 2023-04-17 (Orijinal RT-DETR), 2024 Güncellemeleri
Bağlantılar:Arxiv Makalesi | GitHub Deposu

Teknik Mimari Karşılaştırması

Temel fark, bu modellerin özellikleri nasıl işlediği ve tahminleri nasıl ürettiğidir.

YOLOv10 Mimarisi

YOLOv10, bir Evrişimsel Sinir Ağı (CNN) backbone'unu korurken, baş ve eğitim sürecinde devrim yaratır.

Tutarlı İkili Atamalar: Eğitim sırasında zengin denetim için çoktan-bire atama ve çıkarım için bire-bir atama kullanır. Bu, modelin her nesne için tek bir en iyi kutuyu tahmin etmesini sağlayarak NMS ihtiyacını ortadan kaldırır.
Bütünsel Verimlilik Tasarımı: Mimari, hesaplama fazlalığını azaltmak için hafif sınıflandırma başlıkları ve uzamsal-kanal ayrık örnekleme özelliklerine sahiptir.
Büyük Çekirdekli Evrişimler: Son gelişmelerde olduğu gibi, kendi kendine dikkat mekanizmalarının yüksek maliyeti olmadan doğruluğu artırmak için geniş alıcı alanlar kullanır.

RTDETRv2 Mimarisi

RTDETRv2, transformatör kodlayıcı-kod çözücü yapısını temel alır.

Hibrit Kodlayıcı: Özellikleri çıkarmak için bir CNN backbone'u (tipik olarak ResNet veya HGNetv2) kullanır ve bu özellikler daha sonra bir transformatör kodlayıcı tarafından işlenir. Bu, görüntülerdeki uzun menzilli bağımlılıkları modellemesini sağlar.
Belirsizliği Minimum Sorgu Seçimi: Bu mekanizma, kod çözücü için yüksek kaliteli başlangıç sorguları seçerek başlatmayı ve yakınsama hızını iyileştirir.
Esnek Ayırma: RTDETRv2, ayrık örneklemeyi destekleyerek kullanıcıların hız ve doğruluk arasında katı CNN yapılarından daha dinamik bir şekilde denge kurmasına olanak tanır.

Ekosistem Neden Önemlidir?

RTDETRv2 gibi akademik modeller yeni mimariler sunsa da, genellikle üretim için gereken sağlam araçlardan yoksundur. YOLO26 ve YOLO11 gibi Ultralytics modelleri, eksiksiz bir ekosisteme entegre edilmiştir. Bu ekosistem, kolay veri seti yönetimi, tek tıklamayla eğitim ve uç cihazlara sorunsuz dağıtım için Ultralytics Platformu'nu içerir.

Performans Metrikleri

Aşağıdaki tablo, her iki modelin COCO veri seti üzerindeki performansını karşılaştırmaktadır.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Karşılaştırma Analizi

Gecikme Üstünlüğü: YOLOv10, tüm model boyutlarında önemli ölçüde daha düşük gecikme süresi sergiler. Örneğin, YOLOv10s, T4 GPU'larda RTDETRv2-s'den yaklaşık 2 kat daha hızlıdır ve rekabetçi bir doğruluk (46.7% vs 48.1% mAP) korur.
Parametre Verimliliği: YOLOv10, parametreler ve FLOPs açısından oldukça verimlidir. YOLOv10m, RTDETRv2-m ile benzer doğruluk elde eder ancak parametrelerin yarısından daha azını (15.4M vs 36M) gerektirir, bu da onu mobil ve uç yapay zeka uygulamaları için çok daha üstün kılar.
Doğruluk Tavanı: RTDETRv2, transformatörün küresel bağlamı görme yeteneğinden yararlanarak "Küçük" ve "Orta" kategorilerinde ham doğruluk (mAP) açısından öne çıkar. Ancak, en büyük ölçeklerde (X-large), YOLOv10, RTDETRv2'yi yakalar ve hatta geçerken daha hızlı kalır.

Eğitim ve Dağıtım Hususları

Araştırmadan üretime geçiş yaparken, eğitim verimliliği ve bellek kullanımı gibi faktörler büyük önem kazanır.

Bellek Gereksinimleri

RTDETRv2 gibi transformatör tabanlı modeller, kendi kendine dikkat mekanizmalarının karesel karmaşıklığı nedeniyle eğitim sırasında genellikle önemli ölçüde daha fazla CUDA belleği tüketir. Bu durum, eğitim için pahalı üst düzey GPU'ları gerektirir. Buna karşılık, Ultralytics YOLO modelleri bellek verimlilikleriyle tanınır. YOLOv10 ve daha yeni YOLO26 gibi modeller, genellikle tüketici sınıfı donanımlarda veya standart bulut örneklerinde ince ayar yapılabilir, bu da giriş engelini düşürür.

Kullanım Kolaylığı ve Ekosistem

Ultralytics kütüphanesi aracılığıyla YOLOv10 kullanmanın en önemli avantajlarından biri, kolaylaştırılmış kullanıcı deneyimidir.

Ultralytics API: YOLOv10'u, YOLOv8 veya YOLO11 iş akışıyla aynı şekilde, birkaç satır python koduyla yükleyebilir, eğitebilir ve dağıtabilirsiniz.
Dışa Aktarma Seçenekleri: Ultralytics, ONNX, TensorRT, CoreML ve OpenVINO gibi formatlara anında dışa aktarımı destekler. RTDETRv2 dağıtım desteğini geliştirmiş olsa da, transformatörlerle ilişkili dinamik şekilleri yönetmek için genellikle daha karmaşık yapılandırma gerektirir.
Dokümantasyon: Kapsamlı dokümantasyon, geliştiricilerin eğitimlere, hiperparametre kılavuzlarına ve sorun giderme kaynaklarına erişimini sağlar.

from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

İdeal Kullanım Senaryoları

YOLOv10 Ne Zaman Tercih Edilmeli?

YOLOv10, hız ve kaynak kısıtlamalarının kritik olduğu senaryolar için tercih edilen seçimdir.

Mobil Uygulamalar: Pil tüketmeden gerçek zamanlı çıkarım gerektiren Android/iOS uygulamaları.
Gömülü Sistemler: Belleğin (RAM) sınırlı olduğu Raspberry Pi veya NVIDIA Jetson gibi cihazlarda çalıştırılması.
Yüksek FPS Video İşleme: Hareket bulanıklığını veya kaçırılan olayları önlemek için yüksek kare hızını korumanın esas olduğu trafik izleme veya spor analizi gibi uygulamalar.

Ne Zaman RTDETRv2 Seçmeli

RTDETRv2, doğruluğun öncelikli olduğu ve donanım kaynaklarının bol olduğu durumlarda uygundur.

Karmaşık Sahneler: Küresel dikkat mekanizmasının örtüşen nesneleri ayırt etmeye yardımcı olduğu yoğun örtüşme veya dağınıklık içeren ortamlar.
Sunucu Tarafı Çıkarım: Modellerin güçlü bulut GPU'larında çalıştığı, daha yüksek gecikme ve bellek maliyetinin mAP'de hafif bir artış için kabul edilebilir olduğu senaryolar.

Gelecek: Ultralytics

YOLOv10 NMS-free konseptini tanıtmış olsa da, alan hızla ilerlemektedir. Ocak 2026'da piyasaya sürülen Ultralytics YOLO26, bu evrimin zirvesini temsil etmektedir.

YOLO26, YOLOv10 tarafından öncülük edilen uçtan uca NMS-free tasarımını benimser ancak bunu MuSGD optimize edici (LLM eğitiminden ilham alınarak) ve ProgLoss gibi geliştirilmiş kayıp fonksiyonlarıyla zenginleştirir. Bu, yalnızca eğitilmesi daha kolay olmakla kalmayıp, aynı zamanda önceki nesillere göre CPU'da %43'e kadar daha hızlı olan modellerle sonuçlanır. Ayrıca, YOLO26, segmentation, poz tahmini ve OBB dahil olmak üzere tam bir görev yelpazesini doğal olarak destekleyerek, RTDETRv2 gibi tespit odaklı modellerin eşleşemeyeceği bir çok yönlülük sunar.

Hız, doğruluk ve dağıtım kolaylığının en iyi dengesini arayan geliştiriciler için, YOLO26'ya geçiş şiddetle tavsiye edilir.

YOLO26 hakkında daha fazla bilgi edinin

Özet

Hem YOLOv10 hem de RTDETRv2, gerçek zamanlı nesne tespitinin sınırlarını zorlamaktadır. YOLOv10, NMS darboğazını başarıyla ortadan kaldırarak inanılmaz hızlı ve verimli saf bir CNN mimarisi sunar. RTDETRv2, transformatörlerin karmaşık özellik çıkarımında üstün başarı göstererek gerçek zamanlı rakipler olabileceğini kanıtlar. Ancak, hız, verimlilik ve geliştirici dostu araçların birleşimini gerektiren gerçek dünya uygulamalarının büyük çoğunluğu için, YOLOv10, YOLO11 ve en son teknoloji YOLO26'yı destekleyen Ultralytics ekosistemi endüstri standardı olmaya devam etmektedir.

Daha fazla karşılaştırma için, YOLOv8 ve YOLOv10 karşılaştırmamızı inceleyebilir veya dışa aktarma kılavuzumuzla modellerinizi nasıl optimize edeceğinizi öğrenebilirsiniz.