YOLOX ve RT-DETRv2: Eski Mimari ile Dönüştürücü Yenilik Arasındaki Denge

Optimum nesne algılama mimarisini seçmek, bilgisayar görme projelerinizin gecikme süresini, doğruluğunu ve ölçeklenebilirliğini etkileyen kritik bir karardır. Bu teknik analiz, 2021'den itibaren sağlam bir çapa içermeyen CNN temel modeli olan YOLOX'uRT-DETRv2ile karşılaştırmaktadır.

Her iki model de piyasaya çıktıkları dönemde önemli bir ilerlemeyi temsil etseler de, modern iş akışları giderek yüksek performansı ve kolay dağıtımı bir araya getiren çözümler talep etmektedir. Bu karşılaştırma boyunca, son teknoloji ürünü Ultralytics NMS çıkarım gibi bu mimarilerin en iyi özelliklerini tek bir verimli çerçeve içinde nasıl bir araya getirdiğini de inceleyeceğiz.

Performans Kıyaslamaları

Aşağıdaki tablo, temel ölçütlerin doğrudan karşılaştırmasını göstermektedir. RT-DETRv2 daha yüksek ortalama hassasiyet (mAP) sunarken, FLOP sayısı ile kanıtlandığı üzere, önemli ölçüde daha fazla hesaplama kaynağı gerektirdiğine dikkat edin.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOX: Bağlantısız Öncü

YOLOX, 2021 yılında Megvii araştırmacıları tarafından tanıtıldı ve önceki YOLO (YOLOv4 ve YOLOv5 gibi) hakim olan çapa tabanlı mekanizmalardan uzaklaşıldı. Çapa kutularını kaldırarak ve daha iyi yakınsama için sınıflandırma ve yerelleştirme görevlerini ayıran ayrıştırılmış bir başlık ekleyerek tasarımı sadeleştirdi.

Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 18 Temmuz 2021
Arxiv:YOLOX: 2021'de YOLO Serisini Aşmak
GitHub:Megvii-BaseDetection/YOLOX

Mimari ve Güçlü Yönler

YOLOX, pozitif örnekleri gerçek nesnelere dinamik olarak atayan SimOTA (Basitleştirilmiş Optimal Taşıma Atama) etiket atama stratejisini kullanır. Bu, modelin örtülmeleri ve değişen nesne ölçeklerini katı IoU eşiklerden daha etkili bir şekilde işlemesini sağlar.

Mimarinin sadeliği, onu akademik araştırmalarda en çok tercih edilen temel model haline getirir. Sınıflandırma ve regresyon özelliklerini ayrı dallarda işleyen "ayrıştırılmış başlık" tasarımı, eğitim istikrarını ve doğruluğunu artırır.

Eski Sistem Uyumluluğu

YOLOX, 2021 dönemi kod tabanları etrafında oluşturulmuş eski sistemler veya yeni teorik bileşenleri test etmek için temiz, bağlantısız bir CNN temel modeli gerektiren araştırmacılar için güçlü bir seçenek olmaya devam ediyor.

Ancak, modern versiyonlarla karşılaştırıldığında, YOLOX son işlem için Non-Maximum Suppression (NMS) yöntemini kullanır. Bu adım gecikme değişkenliği yaratır ve yeni uçtan uca modellere kıyasla, gerçek zamanlı endüstriyel uygulamalar için daha az öngörülebilir hale getirir.

YOLOX hakkında daha fazla bilgi edinin

RT-DETRv2: Gerçek Zamanlı Dönüştürücüler

RT-DETRv2 (Gerçek Zamanlı Algılama Dönüştürücü v2), Baidu tarafından geliştirilen orijinal RT-DETR geliştirilmiş versiyonudur. Çok ölçekli özellikleri hızlı bir şekilde işleyen verimli bir hibrit kodlayıcı kullanarak, genellikle Görsel Dönüştürücüler (ViT'ler) ile ilişkili yüksek hesaplama maliyetini ele alır.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
Kuruluş: Baidu
Tarih: 17 Nisan 2023 (v1), 24 Temmuz 2024 (v2)
Arxiv:RT-DETRv2: Ücretsiz Ekstralarla Geliştirilmiş Temel Çizgi
GitHub:lyuwenyu/RT-DETR

Mimari ve Yenilikler

RT-DETRv2 belirleyici özelliği RT-DETRv2 NMS çıkarımdır. Nesne sorguları ile bir dönüştürücü kod çözücü kullanarak, model sabit bir sınırlayıcı kutu setini doğrudan tahmin eder. Bu, NMS ihtiyacını ortadan kaldırarak dağıtım süreçlerini basitleştirir ve sahnedeki nesne sayısına bakılmaksızın tutarlı çıkarım süreleri sağlar.

RT-DETRv2 , esnek bir hibrit kodlayıcı ve optimize edilmiş belirsizlik ölçümü ile önceki sürümünü RT-DETRv2 COCO inde daha yüksek doğruluk ( 54,3% mAP kadar) elde etmesini sağlar.

Kaynak Yoğunluğu

RT-DETRv2 transformatör blokları doğru olmakla birlikte, bellek yoğun bir yapıya sahiptir. Eğitim, genellikle CNN tabanlı modellerden çok daha fazla CUDA gerektirir ve dikkat mekanizmalarının karmaşıklığı nedeniyleGPU (standart CPU'lar gibi) çıkarım hızları yavaşlayabilir.

RT-DETR hakkında daha fazla bilgi edinin

Ultralytics Avantajı: Neden YOLO26'yı Seçmelisiniz?

YOLOX güvenilir bir araştırma temeli görevi görürken, RT-DETRv2 transformatör doğruluğunun sınırlarını RT-DETRv2 . Ultralytics ise her iki dünyanın en iyi özelliklerini dengeleyen bir çözüm sunuyor. Ultralytics , deneysel depoların karmaşıklığı olmadan en son teknoloji performansa ihtiyaç duyan geliştiriciler için tasarlanmıştır.

Yerel Olarak Uçtan Uca ve NMS

YOLO26, YOLOv10 tarafından öncülüğünü yaptığı uçtan uca NMS tasarım felsefesini benimser. YOLOv10 ve RT-DETR bunu yüksek verimli bir CNN mimarisi içinde uygular. Bu, RT-DETRv2nin basitleştirilmiş dağıtımını (karmaşık son işlem mantığı olmadan) CNN'nin ham hızıyla birleştirerek elde ettiğiniz anlamına gelir.

Edge Computing için Eşsiz Verimlilik

RT-DETRv2'deki ağır transformatör bloklarının aksine, YOLO26 çeşitli donanımlar için optimize edilmiştir.

DFL Kaldırma: Dağıtım Odak Kaybını kaldırarak model yapısı basitleştirilir ve kenar hızlandırıcılar ve düşük güç tüketen cihazlarla uyumluluk artırılır.
CPU : YOLO26, önceki nesillere kıyasla CPU'larda %43'e kadar daha hızlı çıkarım sağlar, bu da onu GPU'ların kullanılamadığı Edge AI dağıtımları için üstün bir seçim haline getirir.

İleri Düzey Eğitim Dinamikleri

YOLO26, LLM eğitiminden esinlenerek geliştirilen SGD Muon optimizer'ın bir karışımı olan MuSGD Optimizer'ı entegre eder. Bu yenilik, büyük dil modeli eğitiminin istikrarını bilgisayar görüşüne taşıyarak daha hızlı yakınsama ve daha sağlam ağırlıklar sağlar. Ayrıca, ProgLoss ve STAL gibi geliştirilmiş kayıp fonksiyonları, YOLOX gibi eski modellerde sıkça görülen bir zayıflık olan küçük nesneler üzerinde performansı önemli ölçüde artırır.

Ultralytics ile Kesintisiz İş Akışı

Belki de en büyük avantajı Ultralytics . YOLOX ve RT-DETRv2 parçalanmış GitHub kod tabanlarında gezinmeyi gerektirirken, Ultralytics birleşik bir arayüz Ultralytics . Model adını değiştirerekalgılama, segmentasyon, poz tahmini, sınıflandırma ve OBBgibi görevler arasında geçiş yapabilirsiniz.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

YOLO26 hakkında daha fazla bilgi edinin

Sonuç

Saf CNN temelini gerektiren akademik araştırmalar için YOLOX geçerli bir seçenek olmaya devam etmektedir. Maksimum doğruluğun tek ölçüt olduğu, yeterli GPU sahip senaryolar için RT-DETRv2 güçlü bir rakip olarak öne çıkmaktadır. Ancak, hız, doğruluk ve bakım kolaylığı arasında bir denge gerektiren gerçek dünya üretim sistemleri için Ultralytics , modern dağıtım için gerekli verimlilikle yeni nesil uçtan uca yetenekler sunan en iyi seçenek olarak öne çıkmaktadır.

Daha Fazla Okuma

Ultralytics ailesindeki diğer yüksek performanslı modelleri keşfetmek için şuraya bakın:

YOLO11: Çok çeşitli görme görevlerini destekleyen sağlam, genel amaçlı bir model.
YOLOv10: Gerçek zamanlı uçtan uca nesne algılama özelliğini sunan ilk YOLO .
RT-DETR: Transformatör tabanlı mimarileri tercih edenler için Gerçek Zamanlı Algılama Transformatörünün uygulaması.