YOLOX ve RTDETRv2: Gerçek Zamanlı Nesne Algılama Modellerinin Evrimini Değerlendirme
Bilgisayar görüşü uygulamaları için en uygun mimariyi seçmek, doğruluk, çıkarım hızı ve dağıtım fizibilitesi arasında dikkatli bir denge gerektirir. Bu kapsamlı teknik analizde, oldukça başarılı bir anchor-free CNN mimarisi olan YOLOX ile son teknoloji gerçek zamanlı bir detect transformatörü olan RTDETRv2 arasındaki temel farklılıkları inceliyoruz.
Her iki model de nesne algılama alanına önemli katkılar sağlamış olsa da, üretime hazır uygulamalar geliştiren geliştiriciler genellikle Ultralytics YOLO26 gibi modern alternatiflerin üstün eğitim verimliliği, daha düşük bellek gereksinimleri ve daha sağlam bir dağıtım ekosistemi sunduğunu fark ederler.
YOLOX: Araştırma ve Endüstri Arasındaki Köprüyü Kurmak
YOLOX, YOLO serisinin oldukça popüler bir anchor-free uyarlaması olarak ortaya çıktı ve piyasaya sürüldüğü dönemde etkileyici performans iyileştirmeleri sağlayan basitleştirilmiş bir tasarım sundu.
- Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
- Kuruluş:Megvii
- Tarih: 18 Temmuz 2021
- Bağlantılar:Arxiv, GitHub, Belgeler
Mimari Yenilikler
YOLOX, YOLO ailesini anchor-free bir paradigmaya geçirdi, ayrık bir başlık ve gelişmiş SimOTA etiket atama stratejisini entegre etti. Anchor kutularını ortadan kaldırarak, mimari tasarım parametrelerinin sayısını önemli ölçüde azalttı ve çeşitli benchmark veri kümeleri arasında genelleme yeteneğini geliştirdi. Hafif sürümleri olan YOLOX-Nano ve YOLOX-Tiny, kenar cihazlarda görsel yapay zeka uygulamaları dağıtmak için popüler seçimler haline geldi.
Eski Sistem Değerlendirmeleri
YOLOX önemli ilerlemeler sağlamış olsa da, ağır artırma işlem hatlarına ve eski son işleme rutinlerine (geleneksel NMS gibi) bağımlılığı, doğal olarak uçtan uca modellere kıyasla daha yüksek gecikmeye yol açabilir.
YOLOX hakkında daha fazla bilgi edinin
RTDETRv2: Gerçek Zamanlı Görsel Transformatörleri Geliştirmek
Selefinin temeli üzerine inşa edilen RTDETRv2, gerçek zamanlı çıkarım hızlarından ödün vermeden oldukça rekabetçi doğruluk elde etmek için Görsel Transformatörlerin (ViT'ler) gücünden yararlanır.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 2024-07-24
- Bağlantılar:Arxiv, GitHub
Mimari Yenilikler
RTDETRv2, Non-Maximum Suppression (NMS) işlemini doğal olarak atlayan transformatör tabanlı bir mimari kullanarak detect işlem hattını temelden yeniden tasarlar. Bu, hibrit bir kodlayıcı ve IoU-aware sorgu seçimi aracılığıyla başarılır, bu da nesne sorgularının başlatılmasını iyileştirir. Model, çok ölçekli özellikleri etkili bir şekilde işleyerek, gece trafik videosu algılama gibi karmaşık ortamlardaki karmaşık ayrıntıları yakalamasına olanak tanır.
Ancak, transformer'lar doğası gereği kaynak yoğundur. RTDETRv2 eğitimi, genellikle CNN tabanlı alternatiflerden önemli ölçüde daha fazla GPU belleği ve hesaplama döngüsü gerektirir; bu da sıkı bütçe kısıtlamalarıyla çalışan veya sık sık model ayarlaması gerektiren ekipler için bir engel olabilir.
RTDETR hakkında daha fazla bilgi edinin
Performans Karşılaştırma Tablosu
Bu mimarileri objektif olarak değerlendirmek için, COCO veri kümesi üzerindeki performanslarını inceliyoruz. Aşağıdaki tablo, doğruluk (mAP), parametre sayısı ve hesaplama karmaşıklığı arasındaki dengeyi göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2 etkileyici bir doğruluk elde etse de, YOLOX, özellikle Nano ve Tiny varyantlarıyla hafif parametre profillerinde bir avantaj sağlamaktadır.
Kullanım Durumları ve Öneriler
YOLOX ve RT-DETR arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.
Ne Zaman YOLOX Seçmeli
YOLOX, aşağıdakiler için güçlü bir seçenektir:
- Anchor-Free Algılama Araştırması: YOLOX'un temiz, anchor-free mimarisini yeni algılama başlıkları veya kayıp fonksiyonları denemek için bir temel olarak kullanan akademik araştırmalar.
- Ultra Hafif Kenar Cihazları: YOLOX-Nano varyantının son derece küçük ayak izinin (0.91M parametre) kritik olduğu mikrodenetleyicilerde veya eski mobil donanımlarda dağıtım.
- SimOTA Etiket Atama Çalışmaları: Optimal taşıma tabanlı etiket atama stratejilerini ve bunların eğitim yakınsaması üzerindeki etkilerini araştıran projeler.
RT-DETR Ne Zaman Seçilmeli
RT-DETR şunlar için önerilir:
- Transformer Tabanlı Tespit Araştırması: NMS olmadan uçtan uca nesne tespiti için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
- Esnek Gecikmeli Yüksek Doğruluk Senaryoları: Tespit doğruluğunun en yüksek öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Tespiti: Transformer'ların global dikkat mekanizmasının doğal bir avantaj sağladığı, öncelikli olarak orta ila büyük nesnelerin bulunduğu sahneler.
Ultralytics (YOLO26) Ne Zaman Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics Avantajı: YOLO26
Hem YOLOX hem de RTDETRv2 farklı güçlü yönler sunarken, yeni çıkan Ultralytics YOLO26, hız, doğruluk ve dağıtım kolaylığı arasındaki tarihsel dengeyi çözerek yapay görme için en son teknolojiyi yeniden tanımlıyor.
1. Uçtan Uca NMS-Free Mimari
Transformer modellerinden ilham alırken CNN'lerin verimliliğini koruyan YOLO26, yerel olarak uçtan uca NMS içermeyen bir tasarıma sahiptir. YOLO26, NMS'yi (Non-Maximum Suppression) bir son işleme adımı olarak ortadan kaldırarak dağıtım hatlarını önemli ölçüde basitleştirir ve karmaşık eşik ayarlama yükü olmadan çeşitli uç cihazlarda tutarlı çıkarım gecikmesi sağlar.
2. %43'e Kadar Daha Hızlı CPU Çıkarımı
RTDETRv2 gibi yüksek performanslı GPU'lara büyük ölçüde bağımlı olan transformer mimarilerinin aksine, YOLO26, uç bilişim ortamları için özel olarak optimize edilmiştir. Distribution Focal Loss (DFL) kaldırılmasıyla YOLO26, model dışa aktarımını kolaylaştırır ve %43'e kadar daha hızlı CPU çıkarımı elde eder; bu da onu Raspberry Pi veya standart mobil cihazlar gibi donanımlara entegrasyon için ideal bir seçim haline getirir.
3. MuSGD ile Eğitim Verimliliği
Transformer modellerini eğitmek genellikle aşırı CUDA bellek tüketimine ve uzun eğitim sürelerine yol açar. YOLO26, Stokastik Gradyan İnişi ile LLM'den ilham alan Muon optimize edicisinin bir hibriti olan yeni MuSGD Optimizer'ı sunar. Bu yenilik, olağanüstü kararlı eğitim ve daha hızlı yakınsama sağlayarak RTDETRv2'ye kıyasla donanım gereksinimlerini önemli ölçüde düşürür.
4. Eşsiz Ekosistem ve Çok Yönlülük
Ultralytics ekosistemi, sezgisel ve kolaylaştırılmış bir geliştirici deneyimi sunar. Kapsamlı belgeler, aktif topluluk desteği ve bulut tabanlı Ultralytics Platformu ile tüm yapay zeka yaşam döngüsünü yönetmek hiç bu kadar kolay olmamıştı. Ayrıca, YOLO26 son derece çok yönlüdür. RTDETRv2 nesne algılamaya odaklanırken, YOLO26 instance segmentation, pose estimation, image classification ve Oriented Bounding Box (OBB) görevlerini sorunsuz bir şekilde yerel olarak destekler. Yeni ProgLoss + STAL kayıp fonksiyonları ile geliştirilen YOLO26, aynı zamanda hava görüntüleme ve endüstriyel kusur tespiti için kritik bir özellik olan küçük nesne tanımada da üstündür.
Desteklenen Diğer Modeller
Ultralytics çerçevesi, önceki nesil YOLO11 ve YOLOv8'i de destekleyerek, kullanıcıların eski işlem hatlarını kolayca karşılaştırmasına ve geçiş yapmasına olanak tanır.
Ultralytics ile Sorunsuz Entegrasyon
Modelleri dağıtmak, karmaşık, parçalanmış kod tabanlarıyla uğraşmayı gerektirmemelidir. Ultralytics python API'si, en son teknolojiye sahip modelleri yalnızca birkaç satır kodla yüklemenize, eğitmenize ve dışa aktarmanıza olanak tanır.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)
Ultralytics'i kullanarak, araştırma depolarıyla tipik olarak ilişkilendirilen karmaşık ortam yapılandırmalarını atlatır ve pazara çıkış sürenizi hızlandırırsınız.
Sonuç
YOLOX ve RTDETRv2, gerçek zamanlı nesne algılama gelişiminde önemli kilometre taşlarını temsil etmektedir. YOLOX, yüksek verimli anchor-free CNN'lerin uygulanabilirliğini kanıtlarken, RTDETRv2 transformer'ları gerçek zamanlı kısıtlamalara başarıyla uyarladı.
Ancak, akıllı perakende analizinden gömülü robotik sistemlere kadar uzanan modern uygulamalar için, Ultralytics YOLO26 kesin çözümü sunar. NMS içermeyen çıkarımı eşsiz CPU hızları, azaltılmış bellek ayak izleri ve Ultralytics Platformu'nun sağlam desteğiyle birleştiren YOLO26, geliştiricileri yeni nesil güvenilir, yüksek performanslı bilgisayar görüş sistemleri oluşturmaya hazırlar.