RTDETRv2 veYOLO: Gerçek Zamanlı Hassasiyet Savaşı

Optimum nesne algılama mimarisi arayışı, genellikle dönüştürücülerin küresel bağlam modellemesi ile Evrişimli Sinir Ağlarının (CNN) hızı arasında bir denge kurmayı gerektirir. Bu alanda önde gelen iki rakip RTDETRv2 ve YOLO. Baidu'nun Gerçek Zamanlı Algılama Dönüştürücüsünün ikinci versiyonu olan RTDETRv2, dikkat mekanizmalarını kullanarak Maksimum Olmayan Bastırma (NMS) ihtiyacını ortadan kaldırır. Buna karşılık, AlibabaYOLO , geleneksel CNN yapılarından maksimum performansı elde etmek için Sinir Mimarisi Arama (NAS) ve verimli yeniden parametreleştirmeye odaklanır.

Bu kılavuz, mimarileri, karşılaştırmalı değerlendirmeleri ve ideal dağıtım senaryoları hakkında derinlemesine bilgi vererek, geliştiricilere bilgisayar görme projeleri için doğru aracı seçmeleri için gerekli bilgileri sunar.

Yönetici Özeti

RTDETRv2, nesnelerin önemli ölçüde üst üste gelebileceği karmaşık ortamlarda yüksek hassasiyet gerektiren uygulamalar için mükemmel bir seçimdir. Transformatör tabanlı tasarımı, genel bağlamı doğal bir şekilde işleyerek, örtülmelere karşı dayanıklı hale getirir. Ancak bunun bedeli, özellikle uç cihazlarda daha yüksek hesaplama gereksinimleri olmasıdır.

YOLO, standart donanımda düşük gecikmeyi önceliklendiren endüstriyel senaryolarda mükemmeldir. NAS kullanımı ve verimli backbone , onu gerçek zamanlı üretim ve denetim görevleri için oldukça etkili kılar. Hızlı olmasına rağmen, transformatörlerin uçtan uca doğasına kıyasla hiperparametre ayarlamasına duyarlı olabilen geleneksel çapa tabanlı metodolojilere dayanır.

En iyi hız, uçtan uca NMS çıkarım ve kullanım kolaylığı gibi iki dünyanın en iyisini arayanlar için Ultralytics modeli, kayıp fonksiyonlarındaki en son optimizasyonları ve geliştirilmiş CPU bir araya getiren üstün bir alternatif sunar.

RTDETRv2: Gerçek Zamanlı Transformer'ın İyileştirilmesi

RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü v2), orijinal RT-DETR'nin başarısını temel alarak, hibrit kodlayıcıyı ve belirsizliği dikkate alan sorgu seçimini daha da geliştirmiştir. Transformatör modellerinin üstün doğruluğunu korurken, bu modellerde tipik olarak görülen gecikme darboğazını çözmeyi amaçlamaktadır.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş:Baidu
Tarih: 17 Nisan 2023
Arxiv:RTDETRv2 Makale
GitHub:RT-DETR

RT-DETR hakkında daha fazla bilgi edinin

Temel Mimari Yenilikler

Hibrit Kodlayıcı: Ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayırarak çok ölçekli özellikleri verimli bir şekilde işler ve standart Deformable DETR kodlayıcılara kıyasla hesaplama maliyetini önemli ölçüde azaltır.
Belirsizlik-Minimal Sorgu Seçimi: En yüksek sınıflandırma puanlarına sahip özellikleri seçerek nesne sorgularının başlatılmasını iyileştirir, böylece daha hızlı yakınsama ve daha iyi ilk algılamalar sağlanır.
NMS Çıkarım: Transformatör tabanlı bir model olan RTDETRv2, sabit bir nesne kümesini doğrudan tahmin ederek Non-Maximum Suppression (NMS) ihtiyacını ortadan kaldırır. Bu, dağıtım süreçlerini basitleştirir ve yoğun tahminlerin son işlemleriyle ilişkili gecikme değişkenliğini ortadan kaldırır.
Esnek Backbone : Mimari, ResNet ve HGNetv2 dahil olmak üzere çeşitli omurgaları destekler ve kullanıcıların mevcut hesaplama kaynaklarına göre modeli ölçeklendirmelerine olanak tanır.

Transformatör Avantajı

Piksellerin yerel komşuluklarını işleyen CNN'lerden farklı olarak, RTDETRv2'deki öz-dikkat mekanizması, görüntünün her parçasının diğer tüm parçalara dikkat etmesini sağlar. Bu "küresel alıcı alan", büyük nesneleri algılamak veya bir sahnenin uzak parçaları arasındaki ilişkileri anlamak için özellikle yararlıdır.

YOLO: Endüstriyel Sınıf Verimlilik

YOLO , titiz Sinir Mimarisi Arama (NAS) ve yeni özellik birleştirme teknikleri aracılığıyla "You Only Look Once" paradigmasının verimliliğini en üst düzeye çıkarmayaYOLO . Endüstriyel uygulamalar için hız ve doğruluk arasında denge kuran, sağlam ve genel amaçlı bir dedektör olarak tasarlanmıştır.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:YOLO
GitHub:YOLO

Temel Mimari Özellikler

MAE-NAS Backbone: Sınıflandırma proxy'leri yerine, algılama görevleri için özel olarak optimize edilmiş omurgaları keşfetmek için Sinir Mimarisi Arama için Yardımcı Özdeğerler Yöntemini kullanır.
Verimli RepGFPN: Yeniden parametrelendirme (Rep) teknikleriyle optimize edilmiş Genelleştirilmiş Özellik Piramidi Ağı (GFPN). Bu, eğitim sırasında karmaşık özelliklerin birleştirilmesini sağlar ve bu özellikler, çıkarım sırasında basit ve hızlı bir yapıya dönüşür.
ZeroHead: Ortalama Hassasiyet (mAP) değerinden ödün vermeden parametre sayısını ve FLOP'ları önemli ölçüde azaltan hafif bir algılama başlığı.
AlignedOTA: Sınıflandırma ve regresyon görevleri arasındaki uyumsuzluğu çözen ve eğitim sırasında yüksek kaliteli bağlantı noktalarının seçilmesini sağlayan, geliştirilmiş bir etiket atama stratejisi.

Teknik Performans Karşılaştırması

Bu mimarileri karşılaştırırken, saf çıkarım hızı ile algılama doğruluğu (mAP) arasındaki dengeleri göz önünde bulundurmak çok önemlidir. Aşağıdaki tablo, RTDETRv2'nin genel olarak daha yüksek doğruluk elde ettiğini, özellikle zorlu COCO ,YOLO ise belirli donanım yapılandırmalarında potansiyel olarak daha düşük gecikme süresiyle rekabetçi bir performansYOLO göstermektedir.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Dağıtım ve Kullanım Örnekleri

RTDETRv2 için İdeal Senaryolar

Karmaşık Kentsel Sahneleri: Küresel dikkat mekanizması, kalabalık caddelerdeki engelleri mükemmel bir şekilde işleyerek, otonom sürüş veya trafik izleme için ideal hale getirir.
Tıbbi Görüntüleme: Tümör tespiti gibi hassasiyetin çok önemli olduğu ve yanlış negatif sonuçların maliyetli olduğu durumlarda, RTDETRv2'nin yüksek doğruluğu avantaj sağlar.
Kalabalık Sayımı: NMS olmadan üst üste binen kişileri ayırt etme özelliği, kalabalık yönetimi uygulamaları için üstün bir avantaj sağlar.

DAMO-YOLO için İdeal Senaryolar

Yüksek Hızlı Üretim: Hata tespiti için milisaniye gecikme süresi gerektiren montaj hatlarında,YOLO düşük gecikme süresi, verimin darboğazlanmamasını sağlar.
Gömülü IoT: Dönüştürücü işlemlerinin çok ağır olduğu sınırlı hesaplama kapasitesine sahip cihazlar için,YOLO 'nun CNN tabanlı verimliliğiYOLO .
Perakende Analitiği: Raflardaki ürünleri takip etmek veya envanter yönetimi için, önemli ölçüde daha hızlı işlem için orta düzeyde doğruluğun kabul edilebilir olduğu durumlarda.

Ultralytics Avantajı: YOLO26

RTDETRv2 veYOLO her ikisi de güçlü özelliklerYOLO , Ultralytics modeli verimlilik ve kullanılabilirlik açısından zirveyi temsil ediyor. Ocak 2026'da piyasaya sürülen YOLO26, transformatörlerin NMS tasarımını yüksek düzeyde optimize edilmiş, kenar dostu bir mimariye entegre ederek bu iki felsefe arasındaki boşluğu dolduruyor.

YOLO26 hakkında daha fazla bilgi edinin

Geliştiriciler Neden Ultralytics'i Seçiyor?

Birleşik Platform: Genellikle bakımdan yoksun olan araştırma depolarının aksine, Ultralytics modellerin eğitimi, dağıtımı ve yönetimi için kapsamlı bir platform Ultralytics . Poz tahmini, segmentasyon veya OBB'ye ihtiyacınız olsun, hepsi tek bir kütüphanede mevcuttur.

Kullanım Kolaylığı: Son teknoloji ürünü bir modeli eğitmek için minimum düzeyde kod gerekir. Bu erişilebilirlik, araştırmacıların karmaşık eğitim döngülerinde hata ayıklama yerine verilere odaklanmalarını sağlar.

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free by design)
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Uçtan Uca Verimlilik: YOLO26, YOLOv10 ilk kez kullanılan YOLOv10 üretim için geliştirilen Uçtan Uca NMS Tasarım özelliğini sunar. Bu özellik,YOLO da bulunan son işlem yükünü ortadanYOLO RTDETRv2'nin tam dikkat katmanlarının ağır hesaplama maliyetini de önler.
Kenar Optimizasyonu: Dağıtım Odak Kaybı (DFL) ve CPU yönelik özel optimizasyonların kaldırılmasıyla YOLO26, önceki nesillere göre kenar cihazlarda %43'e kadar daha hızlıdır ve bu da onu mobil dağıtım için üstün bir seçim haline getirir.
Gelişmiş Eğitim: MuSGD Optimizer (LLM eğitiminden esinlenerek geliştirilmiştir) ve ProgLoss gibi özellikler, istikrarlı bir eğitim ve daha hızlı yakınsama sağlayarak model geliştirmeyle ilgili zaman ve maliyetleri azaltır.

Sonuç

Saf araştırma veya üst düzey GPU'larda maksimum teorik doğruluk gerektiren senaryolar için RTDETRv2 güçlü bir rakiptir. Mutlak en küçük CNN ayak izi gerektiren sıkı kısıtlamalara tabi eski sistemler için YOLO hala geçerlidir. Ancak, hız, doğruluk, çok yönlülük ve dağıtım kolaylığı arasında denge gerektiren gerçek dünya uygulamalarının büyük çoğunluğu için Ultralytics önerilen çözümdür.

Ultralytics diğer modellerle karşılaştırmasını görmek için diğer karşılaştırmaları inceleyin YOLOv8 ve EfficientDet ile nasıl karşılaştırıldığını görmek için diğer karşılaştırmaları inceleyin.