YOLOX ve RT-DETRv2: Eski Mimari ile Dönüştürücü Yenilik Arasındaki Denge
Optimum nesne algılama mimarisini seçmek, bilgisayar görme projelerinizin gecikme süresini, doğruluğunu ve ölçeklenebilirliğini etkileyen kritik bir karardır. Bu teknik analiz, 2021'den itibaren sağlam bir çapa içermeyen CNN temel modeli olan YOLOX'uRT-DETRv2ile karşılaştırmaktadır.
Her iki model de piyasaya çıktıkları dönemde önemli bir ilerlemeyi temsil etseler de, modern iş akışları giderek yüksek performansı ve kolay dağıtımı bir araya getiren çözümler talep etmektedir. Bu karşılaştırma boyunca, son teknoloji ürünü Ultralytics NMS çıkarım gibi bu mimarilerin en iyi özelliklerini tek bir verimli çerçeve içinde nasıl bir araya getirdiğini de inceleyeceğiz.
Performans Kıyaslamaları
Aşağıdaki tablo, temel ölçütlerin doğrudan karşılaştırmasını göstermektedir. RT-DETRv2 daha yüksek ortalama hassasiyet (mAP) sunarken, FLOP sayısı ile kanıtlandığı üzere, önemli ölçüde daha fazla hesaplama kaynağı gerektirdiğine dikkat edin.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: Bağlantısız Öncü
YOLOX, 2021 yılında Megvii araştırmacıları tarafından tanıtıldı ve önceki YOLO (YOLOv4 ve YOLOv5 gibi) hakim olan çapa tabanlı mekanizmalardan uzaklaşıldı. Çapa kutularını kaldırarak ve daha iyi yakınsama için sınıflandırma ve yerelleştirme görevlerini ayıran ayrıştırılmış bir başlık ekleyerek tasarımı sadeleştirdi.
- Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
- Kuruluş: Megvii
- Tarih: 18 Temmuz 2021
- Arxiv:YOLOX: 2021'de YOLO Serisini Aşmak
- GitHub:Megvii-BaseDetection/YOLOX
Mimari ve Güçlü Yönler
YOLOX, pozitif örnekleri gerçek nesnelere dinamik olarak atayan SimOTA (Basitleştirilmiş Optimal Taşıma Atama) etiket atama stratejisini kullanır. Bu, modelin örtülmeleri ve değişen nesne ölçeklerini katı IoU eşiklerden daha etkili bir şekilde işlemesini sağlar.
Mimarinin sadeliği, onu akademik araştırmalarda en çok tercih edilen temel model haline getirir. Sınıflandırma ve regresyon özelliklerini ayrı dallarda işleyen "ayrıştırılmış başlık" tasarımı, eğitim istikrarını ve doğruluğunu artırır.
Eski Sistem Uyumluluğu
YOLOX, 2021 dönemi kod tabanları etrafında oluşturulmuş eski sistemler veya yeni teorik bileşenleri test etmek için temiz, bağlantısız bir CNN temel modeli gerektiren araştırmacılar için güçlü bir seçenek olmaya devam ediyor.
Ancak, modern versiyonlarla karşılaştırıldığında, YOLOX son işlem için Non-Maximum Suppression (NMS) yöntemini kullanır. Bu adım gecikme değişkenliği yaratır ve yeni uçtan uca modellere kıyasla, gerçek zamanlı endüstriyel uygulamalar için daha az öngörülebilir hale getirir.
YOLOX hakkında daha fazla bilgi edinin
RT-DETRv2: Gerçek Zamanlı Dönüştürücüler
RT-DETRv2 (Gerçek Zamanlı Algılama Dönüştürücü v2), Baidu tarafından geliştirilen orijinal RT-DETR geliştirilmiş versiyonudur. Çok ölçekli özellikleri hızlı bir şekilde işleyen verimli bir hibrit kodlayıcı kullanarak, genellikle Görsel Dönüştürücüler (ViT'ler) ile ilişkili yüksek hesaplama maliyetini ele alır.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
- Kuruluş: Baidu
- Tarih: 17 Nisan 2023 (v1), 24 Temmuz 2024 (v2)
- Arxiv:RT-DETRv2: Ücretsiz Ekstralarla Geliştirilmiş Temel Çizgi
- GitHub:lyuwenyu/RT-DETR
Mimari ve Yenilikler
RT-DETRv2 belirleyici özelliği RT-DETRv2 NMS çıkarımdır. Nesne sorguları ile bir dönüştürücü kod çözücü kullanarak, model sabit bir sınırlayıcı kutu setini doğrudan tahmin eder. Bu, NMS ihtiyacını ortadan kaldırarak dağıtım süreçlerini basitleştirir ve sahnedeki nesne sayısına bakılmaksızın tutarlı çıkarım süreleri sağlar.
RT-DETRv2 , esnek bir hibrit kodlayıcı ve optimize edilmiş belirsizlik ölçümü ile önceki sürümünü RT-DETRv2 COCO inde daha yüksek doğruluk ( 54,3% mAP kadar) elde etmesini sağlar.
Kaynak Yoğunluğu
RT-DETRv2 transformatör blokları doğru olmakla birlikte, bellek yoğun bir yapıya sahiptir. Eğitim, genellikle CNN tabanlı modellerden çok daha fazla CUDA gerektirir ve dikkat mekanizmalarının karmaşıklığı nedeniyleGPU (standart CPU'lar gibi) çıkarım hızları yavaşlayabilir.
RT-DETR hakkında daha fazla bilgi edinin
Ultralytics Avantajı: Neden YOLO26'yı Seçmelisiniz?
YOLOX güvenilir bir araştırma temeli görevi görürken, RT-DETRv2 transformatör doğruluğunun sınırlarını RT-DETRv2 . Ultralytics ise her iki dünyanın en iyi özelliklerini dengeleyen bir çözüm sunuyor. Ultralytics , deneysel depoların karmaşıklığı olmadan en son teknoloji performansa ihtiyaç duyan geliştiriciler için tasarlanmıştır.
Yerel Olarak Uçtan Uca ve NMS
YOLO26, YOLOv10 tarafından öncülüğünü yaptığı uçtan uca NMS tasarım felsefesini benimser. YOLOv10 ve RT-DETR bunu yüksek verimli bir CNN mimarisi içinde uygular. Bu, RT-DETRv2nin basitleştirilmiş dağıtımını (karmaşık son işlem mantığı olmadan) CNN'nin ham hızıyla birleştirerek elde ettiğiniz anlamına gelir.
Edge Computing için Eşsiz Verimlilik
RT-DETRv2'deki ağır transformatör bloklarının aksine, YOLO26 çeşitli donanımlar için optimize edilmiştir.
- DFL Kaldırma: Dağıtım Odak Kaybını kaldırarak model yapısı basitleştirilir ve kenar hızlandırıcılar ve düşük güç tüketen cihazlarla uyumluluk artırılır.
- CPU : YOLO26, önceki nesillere kıyasla CPU'larda %43'e kadar daha hızlı çıkarım sağlar, bu da onu GPU'ların kullanılamadığı Edge AI dağıtımları için üstün bir seçim haline getirir.
İleri Düzey Eğitim Dinamikleri
YOLO26, LLM eğitiminden esinlenerek geliştirilen SGD Muon optimizer'ın bir karışımı olan MuSGD Optimizer'ı entegre eder. Bu yenilik, büyük dil modeli eğitiminin istikrarını bilgisayar görüşüne taşıyarak daha hızlı yakınsama ve daha sağlam ağırlıklar sağlar. Ayrıca, ProgLoss ve STAL gibi geliştirilmiş kayıp fonksiyonları, YOLOX gibi eski modellerde sıkça görülen bir zayıflık olan küçük nesneler üzerinde performansı önemli ölçüde artırır.
Ultralytics ile Kesintisiz İş Akışı
Belki de en büyük avantajı Ultralytics . YOLOX ve RT-DETRv2 parçalanmış GitHub kod tabanlarında gezinmeyi gerektirirken, Ultralytics birleşik bir arayüz Ultralytics . Model adını değiştirerekalgılama, segmentasyon, poz tahmini, sınıflandırma ve OBBgibi görevler arasında geçiş yapabilirsiniz.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
YOLO26 hakkında daha fazla bilgi edinin
Sonuç
Saf CNN temelini gerektiren akademik araştırmalar için YOLOX geçerli bir seçenek olmaya devam etmektedir. Maksimum doğruluğun tek ölçüt olduğu, yeterli GPU sahip senaryolar için RT-DETRv2 güçlü bir rakip olarak öne çıkmaktadır. Ancak, hız, doğruluk ve bakım kolaylığı arasında bir denge gerektiren gerçek dünya üretim sistemleri için Ultralytics , modern dağıtım için gerekli verimlilikle yeni nesil uçtan uca yetenekler sunan en iyi seçenek olarak öne çıkmaktadır.
Daha Fazla Okuma
Ultralytics ailesindeki diğer yüksek performanslı modelleri keşfetmek için şuraya bakın:
- YOLO11: Çok çeşitli görme görevlerini destekleyen sağlam, genel amaçlı bir model.
- YOLOv10: Gerçek zamanlı uçtan uca nesne algılama özelliğini sunan ilk YOLO .
- RT-DETR: Transformatör tabanlı mimarileri tercih edenler için Gerçek Zamanlı Algılama Transformatörünün uygulaması.