YOLOX ve RTDETRv2: Gerçek Zamanlı Nesne Algılama Modellerinin Evrimini Değerlendirme
Bilgisayarlı görü uygulamaları için en uygun mimariyi seçmek; doğruluk, çıkarım hızı ve dağıtım yapılabilirliği arasında dikkatli bir denge gerektirir. Bu kapsamlı teknik analizde, oldukça başarılı bir çapasız (anchor-free) CNN mimarisi olan YOLOX ile en güncel gerçek zamanlı algılama Transformer modeli olan RTDETRv2 arasındaki temel farkları inceliyoruz.
Her iki model de nesne algılama alanına önemli katkılarda bulunmuş olsa da, üretime hazır uygulamalar geliştiren yazılımcılar genellikle Ultralytics YOLO26 gibi modern alternatiflerin daha üstün eğitim verimliliği, daha düşük bellek gereksinimleri ve daha sağlam bir dağıtım ekosistemi sunduğunu fark etmektedir.
YOLOX: Araştırma ve Endüstri Arasındaki Boşluğu Kapatmak
YOLOX, YOLO serisinin oldukça popüler, çapasız bir adaptasyonu olarak ortaya çıktı ve piyasaya sürüldüğü dönemde etkileyici performans iyileştirmeleri sağlayan basitleştirilmiş bir tasarım sundu.
- Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
- Kuruluş: Megvii
- Tarih: 18 Temmuz 2021
- Bağlantılar: Arxiv, GitHub, Dokümanlar
Mimari Yenilikler
YOLOX, ayrıştırılmış bir başlık (decoupled head) ve gelişmiş SimOTA etiket atama stratejisini entegre ederek YOLO ailesini çapasız bir paradigmaya taşıdı. Çapa kutularını (anchor boxes) ortadan kaldırarak mimari, tasarım parametrelerinin sayısını önemli ölçüde azalttı ve çeşitli kıyaslama veri setlerinde genelleme yeteneğini geliştirdi. YOLOX-Nano ve YOLOX-Tiny gibi hafif sürümleri, uç cihazlarda görüntü tabanlı yapay zeka uygulamaları dağıtmak için popüler tercihler haline geldi.
YOLOX önemli ilerlemeler sağlasa da, ağır veri artırma hatlarına ve geleneksel NMS gibi eski işleme sonrası rutinlerine olan bağımlılığı, yerel olarak uçtan uca (end-to-end) modellerle karşılaştırıldığında daha yüksek gecikmelere yol açabilir.
YOLOX hakkında daha fazla bilgi edin
RTDETRv2: Gerçek Zamanlı Görüntü Transformer'larını İlerletmek
Selefinin temelleri üzerine inşa edilen RTDETRv2, gerçek zamanlı çıkarım hızlarından ödün vermeden son derece rekabetçi bir doğruluk elde etmek için Görüntü Transformer'larının (ViT) gücünden yararlanır.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon: Baidu
- Tarih: 2024-07-24
- Bağlantılar: Arxiv, GitHub
Mimari Yenilikler
RTDETRv2, Non-Maximum Suppression (NMS) yöntemini yerel olarak devre dışı bırakan Transformer tabanlı bir mimari kullanarak algılama hattını temelden yeniden tasarlar. Bu, nesne sorgularının başlatılmasını iyileştiren hibrit bir kodlayıcı ve IoU farkındalıklı sorgu seçimi ile elde edilir. Model, çok ölçekli özellikleri etkili bir şekilde işleyerek gece vakti trafik videosu algılama gibi karmaşık ortamlardaki ince detayları yakalamasına olanak tanır.
Ancak, Transformer'lar doğası gereği kaynak yoğunlukludur. RTDETRv2'yi eğitmek, genellikle CNN tabanlı alternatiflerden çok daha fazla GPU belleği ve hesaplama döngüsü gerektirir; bu da katı bütçe kısıtlamaları dahilinde çalışan veya sık model ayarı gerektiren ekipler için bir engel olabilir.
RTDETR hakkında daha fazla bilgi edin
Performans Karşılaştırma Tablosu
Bu mimarileri objektif olarak değerlendirmek için COCO veri seti üzerindeki performanslarını inceliyoruz. Aşağıdaki tablo, doğruluk (mAP), parametre sayısı ve hesaplama karmaşıklığı arasındaki ödünleşimleri göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2 etkileyici bir doğruluk elde etse de, YOLOX, özellikle Nano ve Tiny varyantlarıyla hafif parametre profillerinde avantajını koruyor.
Kullanım Durumları ve Öneriler
YOLOX ve RT-DETR arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
YOLOX ne zaman seçilmeli?
YOLOX şunlar için güçlü bir seçimdir:
- Çapasız Algılama Araştırması: Yeni algılama başlıkları veya kayıp işlevleri denemek için YOLOX'un temiz, çapasız mimarisini temel olarak kullanan akademik araştırma.
- Ultra Hafif Uç Cihazlar: YOLOX-Nano varyantının son derece küçük ayak izinin (0.91M parametre) kritik olduğu mikrodenetleyicilerde veya eski mobil donanımlarda dağıtım yapılması.
- SimOTA Etiket Atama Çalışmaları: Optimum taşıma tabanlı etiket atama stratejilerini ve bunların eğitim yakınsaması üzerindeki etkisini araştıran araştırma projeleri.
Ne Zaman RT-DETR Seçilmeli?
RT-DETR şunlar için önerilir:
- Transformer Tabanlı Algılama Araştırmaları: NMS gerektirmeyen uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini araştıran projeler.
- Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük ölçekli nesnelerin bulunduğu sahneler.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics Avantajı: YOLO26
YOLOX ve RTDETRv2'nin her ikisi de kendine özgü güçlü yönler sunsa da, yeni çıkan Ultralytics YOLO26 hız, doğruluk ve dağıtım kolaylığı arasındaki tarihsel ödünleşimleri çözerek görüntü tabanlı yapay zeka alanında en güncel durumu (state-of-the-art) yeniden tanımlıyor.
Uçtan Uca NMS'siz Mimari
Transformer modellerinden ilham alırken CNN'lerin verimliliğini koruyan YOLO26, yerel olarak uçtan uca NMS'siz bir tasarım sunar. Non-Maximum Suppression yöntemini bir işlem sonrası adımı olarak ortadan kaldıran YOLO26, dağıtım hatlarını önemli ölçüde basitleştirir ve karmaşık eşik ayarı yükü olmadan çeşitli uç cihazlarda tutarlı çıkarım gecikmesi sağlar.
%43'e Varan Daha Hızlı CPU Çıkarımı
RTDETRv2 gibi üst düzey GPU'lara yoğun şekilde dayanan Transformer mimarilerinin aksine, YOLO26 uç bilişim ortamları için özel olarak optimize edilmiştir. Distribution Focal Loss (DFL) yönteminin kaldırılmasıyla YOLO26, model dışa aktarımını kolaylaştırır ve %43'e varan daha hızlı CPU çıkarımı sağlayarak Raspberry Pi veya standart mobil cihazlar gibi donanımlara entegrasyon için ideal bir seçenek haline gelir.
MuSGD ile Eğitim Verimliliği
Transformer modellerini eğitmek genellikle aşırı CUDA bellek tüketimine ve uzun eğitim sürelerine yol açar. YOLO26, Stochastic Gradient Descent ile LLM'den esinlenen Muon iyileştiricisinin bir hibriti olan yenilikçi MuSGD Optimizer özelliğini sunar. Bu yenilik, olağanüstü kararlı bir eğitim ve daha hızlı yakınsama sağlayarak donanım gereksinimlerini RTDETRv2'ye kıyasla önemli ölçüde düşürür.
Eşsiz Ekosistem ve Çok Yönlülük
Ultralytics ekosistemi, sezgisel ve modern bir yazılımcı deneyimi sağlar. Kapsamlı dokümantasyon, aktif topluluk desteği ve bulut tabanlı Ultralytics Platform ile tüm yapay zeka yaşam döngüsünü yönetmek hiç bu kadar kolay olmamıştı. Ayrıca YOLO26 son derece çok yönlüdür. RTDETRv2 nesne algılamaya odaklansa da, YOLO26; örnek segmentasyonu, poz tahmini, görüntü sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) görevlerini yerel olarak sorunsuz bir şekilde destekler. Yeni ProgLoss + STAL kayıp fonksiyonlarıyla geliştirilen YOLO26, hava görüntüleri ve endüstriyel kusur tespiti için kritik bir özellik olan küçük nesne tanıma konusunda da mükemmeldir.
Ultralytics ile Sorunsuz Entegrasyon
Modelleri dağıtmak, karmaşık ve parçalı kod tabanlarıyla uğraşmanı gerektirmemelidir. Ultralytics Python API, sadece birkaç satır kodla en gelişmiş modelleri yüklemeni, eğitmeni ve dışa aktarmanı sağlar.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)Ultralytics'ten yararlanarak, araştırma depolarıyla genellikle ilişkilendirilen karmaşık ortam yapılandırmalarını atlar ve pazara çıkış süreni hızlandırırsın.
Sonuç
YOLOX ve RTDETRv2, gerçek zamanlı nesne algılama ilerlemesinde önemli kilometre taşlarını temsil eder. YOLOX, son derece verimli çapasız CNN'lerin uygulanabilirliğini kanıtlarken, RTDETRv2 Transformer'ları gerçek zamanlı kısıtlamalar için başarıyla uyarladı.
Akıllı perakende analitiğinden gömülü robotik sistemlere kadar modern uygulamalar için Ultralytics YOLO26, kesin çözümü sunar. NMS'siz çıkarımı benzersiz CPU hızları, azaltılmış bellek ayak izleri ve Ultralytics Platform'un sağlam desteğiyle birleştiren YOLO26, güvenilir ve yüksek performanslı yeni nesil bilgisayarlı görü sistemleri inşa etmen için sana güç katar.