YOLOv5 vs RTDETRv2: Detaylı Bir Model Karşılaştırması
Doğru nesne algılama modelini seçmek, bilgisayarla görme projeleri için çok önemlidir. Ultralytics , yüksek verimlilik de dahil olmak üzere çeşitli ihtiyaçlara göre uyarlanmış bir model paketi sunar Ultralytics YOLOv5 ve RTDETRv2 gibi diğer mimarilerle karşılaştırılması. Bu sayfa, YOLOv5 ve RTDETRv2 arasında mimari farklılıkları, performans ölçümleri, eğitim metodolojileri ve ideal uygulamaları vurgulayan teknik bir karşılaştırma sunmaktadır.
YOLOv5: Hız ve Verimlilik
Yazar Glenn Jocher
Organizasyon: Ultralytics
Tarih: 2020-06-26
GitHub: https:yolov5
Dokümanlar: https:yolov5
Ultralytics YOLOv5 , olağanüstü çıkarım hızı ve operasyonel verimliliği ile ünlü, yaygın olarak benimsenen tek aşamalı bir nesne dedektörüdür. Ultralytics tarafından geliştirilen bu ürün, gerçek zamanlı nesne algılama görevleri için bir ölçüt haline gelmiştir.
Mimarlık
YOLOv5 , hız için optimize edilmiş CNN tabanlı bir mimari kullanır:
- Omurga: Verimli özellik çıkarımı için CSPDarknet53.
- Boyun: Ölçekler arasında etkili özellik füzyonu için PANet.
- Kafa: Sınırlayıcı kutu tahmini ve sınıflandırması için YOLOv5 algılama kafası. Birden fazla boyutta (n, s, m, l, x) mevcuttur ve kullanıcıların özel ihtiyaçları için hız ve doğruluk arasında en iyi dengeyi seçmelerine olanak tanır.
Güçlü Yönler
YOLOv5 , özellikle pratik dağıtım arayan geliştiriciler için önemli avantajlar sunmaktadır:
- Kullanım Kolaylığı: Basit bir API, kapsamlı belgeler ve çok sayıda öğretici ile kolaylaştırılmış bir kullanıcı deneyimi sunar.
- Bakımlı Ekosistem: Aktif geliştirme, GitHub ve Discord aracılığıyla güçlü topluluk desteği, sık güncellemeler ve kodsuz eğitim ve dağıtım için Ultralytics HUB gibi platformlar dahil olmak üzere entegre Ultralytics ekosisteminden yararlanır.
- Performans Dengesi: Çıkarım hızı ve doğruluk arasında güçlü bir denge kurarak çeşitli gerçek dünya senaryoları için uygun hale getirir.
- Bellek Gereksinimleri: RTDETRv2 gibi dönüştürücü tabanlı modellere kıyasla tipik olarak daha düşük bellek (özellikle eğitim sırasında CUDA belleği) gerektirir.
- Eğitim Verimliliği: COCO gibi veri kümelerinde verimli eğitim süreçleri, daha hızlı yakınsama ve önceden eğitilmiş hazır ağırlıklar sunar.
- Çok yönlülük: Öncelikle algılamaya odaklanmış olsa da, YOLOv5 deposu örnek segmentasyonu ve görüntü sınıflandırma görevlerini de destekler.
Zayıf Yönler
- Doğruluk: RTDETRv2-x gibi daha büyük ve daha karmaşık modeller yüksek doğruluğa sahip olsa da, hız ve kaynaklar pahasına da olsa zorlu veri kümelerinde biraz daha yüksek mAP elde edebilir.
İdeal Kullanım Örnekleri
YOLOv5 üstünlük sağlar:
- Gerçek zamanlı nesne algılama: Video gözetimi, güvenlik alarm sistemleri ve trafik yönetiminde yapay zeka.
- Uç bilişim: Raspberry Pi ve NVIDIA Jetson gibi kaynak kısıtlı cihazlarda dağıtım.
- Mobil uygulamalar: Mobil dağıtım için uygun hafif modeller.
- Hızlı prototipleme: Çeşitli bilgisayarla görme görevleri için hızlı kurulum ve eğitim.
YOLOv5 hakkında daha fazla bilgi edinin
RTDETRv2: Yüksek Doğruluklu Gerçek Zamanlı Algılama
Yazarlar Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Organizasyon: Baidu
Tarih: 2023-04-17 (İlk RT-DETR), 2024-07-24 (RT-DETRv2 iyileştirmeleri)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Dokümanlar: https:RT-DETR
RTDETRv2 (Gerçek Zamanlı Algılama Transformatörü v2), gerçek zamanlı performansı korurken yüksek doğruluk elde etmek için Görüntü Transformatörlerinin (ViT) gücünden yararlanan son teknoloji ürünü bir nesne algılayıcısıdır.
Mimarlık
RTDETRv2 hibrit bir yaklaşım kullanır:
- Omurga: İlk özellik çıkarımı için tipik olarak bir CNN (ResNet varyantları gibi).
- Kodlayıcı-Kod Çözücü: Görüntü özellikleri içindeki küresel bağlamı yakalamak için kendi kendine dikkat mekanizmalarını kullanan Transformatör tabanlı bir kodlayıcı-kod çözücü yapısı. Bu, modelin uzaktaki nesneler ve karmaşık sahneler arasındaki ilişkileri daha iyi anlamasını sağlar.
Güçlü Yönler
- Yüksek Doğruluk: Dönüştürücü mimarisi RTDETRv2'nin özellikle yoğun veya küçük nesneler içeren karmaşık veri kümelerinde mükemmel mAP skorları elde etmesini sağlar.
- Gerçek Zamanlı Yetenek: Özellikle aşağıdaki gibi araçlar kullanılarak hızlandırıldığında rekabetçi çıkarım hızları sağlamak için optimize edilmiştir NVIDIA TensorRT.
- Sağlam Özellik Çıkarımı: Küresel bağlamı etkili bir şekilde yakalayarak oklüzyon gibi zorlu senaryolarda daha iyi performans sağlar.
Zayıf Yönler
- Hesaplama Maliyeti: Genel olarak YOLOv5'e kıyasla daha yüksek parametre sayısı ve FLOP'lara sahiptir ve daha önemli hesaplama kaynaklarıGPU belleği, işlem gücü) gerektirir.
- Eğitim Karmaşıklığı: Transformatör tabanlı modellerin eğitimi, YOLOv5 gibi CNN tabanlı modellerin eğitiminden daha yoğun kaynak gerektirebilir ve potansiyel olarak daha yavaş olabilir.
- Çıkarım Hızı: Güçlü donanımlarda gerçek zamanlı yetenekli olsa da, özellikle CPU'larda veya daha az güçlü uç cihazlarda en hızlı YOLOv5 varyantlarından daha yavaş olabilir.
- Ekosistem: YOLO modelleri için Ultralytics tarafından sağlanan kapsamlı, birleşik ekosistem, araç ( Ultralytics HUB gibi) ve geniş topluluk desteğinden yoksundur.
İdeal Kullanım Örnekleri
RTDETRv2, doğruluğun çok önemli olduğu ve yeterli hesaplama kaynaklarının mevcut olduğu uygulamalar için en uygunudur:
- Otonom sürüş: Kendi kendine giden araçlarda yapay zeka için hassas algılama.
- Tıbbi görüntüleme: Sağlık Hizmetlerinde Yapay Zeka'da ayrıntılı anomali tespiti.
- Yüksek çözünürlüklü görüntü analizi: Uydu görüntülerini veya endüstriyel denetim verilerini analiz etme(bilgisayarlı görü ile üretimi iyileştirme).
- Karmaşık sahne anlayışı: Yoğun oklüzyon veya çok sayıda küçük nesne içeren senaryolar.
RTDETRv2 hakkında daha fazla bilgi edinin
Performans Karşılaştırması: YOLOv5 vs RTDETRv2
Model | boyut (piksel) |
mAPval 50-95 |
Hız CPU ONNX (ms) |
Hız T4TensorRT10 (ms) |
params (M) |
FLOP'lar (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Tablo, değiş tokuşları vurgulamaktadır:
- YOLOv5 modelleri (özellikle n/s/m) hem CPU hem de GPU 'daTensorRT) çok daha düşük parametre sayıları ve FLOP'larla önemli ölçüde daha yüksek çıkarım hızları sunarak kaynak kısıtlı ortamlar için idealdir.
- RTDETRv2 modelleri daha yüksek en yüksek mAP skorları (özellikle l/x varyantları) elde etmekte ancak daha yüksek gecikme süresi ve hesaplama gereksinimleri ile birlikte gelmektedir. Özellikle RTDETRv2-s/m, potansiyel olarak daha hızlı TensorRT hızları ile YOLOv5l/x ile rekabetçi doğruluk sunar, ancak bildirilen CPU performansından yoksundur.
Eğitim ve Ekosistem
Ultralytics YOLOv5 eğitim kolaylığı ve kapsamlı ekosistemi ile öne çıkmaktadır. Eğitim, kapsamlı dokümantasyon ve öğreticilerle desteklenen sağlanan CLI veya Python API kullanılarak basittir. Ultralytics ekosistemi, basitleştirilmiş eğitim ve dağıtım için Ultralytics HUB gibi araçlar, aktif topluluk desteği ve aşağıdaki gibi araçlarla sorunsuz entegrasyonlar sunar Weights & Biases ve ClearML. Ayrıca, YOLOv5'in CNN mimarisi genellikle daha az GPU belleği gerektirir ve dönüştürücü modellerden daha hızlı çalışır.
RTDETRv2 güçlü olmakla birlikte daha karmaşık bir dönüştürücü mimarisinin eğitilmesini gerektirir. Bu genellikle daha önemli hesaplama kaynakları (özellikle yüksek GPU belleği) ve potansiyel olarak daha uzun eğitim süreleri gerektirir. GitHub deposu eğitim komut dosyaları sağlarken, çevredeki ekosistem ve destek yapısı Ultralytics tarafından sunulanlardan daha az kapsamlıdır.
Sonuç
Hem YOLOv5 hem de RTDETRv2 yetenekli nesne algılama modelleridir, ancak farklı önceliklere hitap ederler.
- Ultralytics YOLOv5 özellikle uç cihazlarda veya hesaplama kaynaklarının sınırlı olduğu yerlerde yüksek hız, verimlilik, kullanım kolaylığı ve dağıtım çok yönlülüğü gerektiren uygulamalar için önerilen seçimdir. Sağlam ekosistemi ve düşük eğitim gereksinimleri, onu geliştiriciler ve araştırmacılar için son derece erişilebilir kılmaktadır.
- RTDETRv2, maksimum doğruluğun mutlak öncelik olduğu ve yeterli hesaplama kaynaklarının (eğitim ve çıkarım için güçlü GPU'lar dahil) mevcut olduğu durumlarda uygundur.
Çoğu pratik uygulama için YOLOv5 , Ultralytics ekosisteminin güçlü desteği ve araçlarıyla desteklenen mükemmel ve genellikle üstün bir performans, hız ve kullanılabilirlik dengesi sağlar.
Diğer Modelleri Keşfedin
Alternatifleri araştırıyorsanız, Ultralytics ekosistemindeki diğer modelleri göz önünde bulundurun:
- YOLOv8: Algılama, segmentasyon, poz ve izleme gibi çeşitli görevlerde gelişmiş doğruluk ve hız sunan YOLOv5'in halefi.
- YOLOv10: Daha fazla verimlilik artışı için NMS'siz eğitim gibi yenilikler içerir.
- YOLO11: Ultralytics'ten performans ve verimliliğin sınırlarını zorlayan en yeni nesil.
YOLOv8 ile RTDETRv2 veya YOLOv10 ile RTDETRv2 gibi modellerin karşılaştırılması, projeniz için en uygun model hakkında daha fazla bilgi sağlayabilir.