YOLOv5 - RTDETRv2 Karşılaştırması: Detaylı Model Karşılaştırması
Optimum nesne algılama modelini seçmek, herhangi bir bilgisayarla görme projesi için kritik bir karardır. Bu sayfa, iki güçlü model arasında ayrıntılı bir teknik karşılaştırma sunmaktadır: hız ve verimlilik dengesiyle tanınan yerleşik bir endüstri standardı olan Ultralytics YOLOv5 ve yüksek doğruluk için tasarlanmış, transformatör tabanlı bir model olan RTDETRv2. İhtiyaçlarınız için en iyi modeli seçmenize yardımcı olmak için mimari farklılıklarını, performans kıyaslamalarını ve ideal kullanım durumlarını inceleyeceğiz.
Ultralytics YOLOv5: Yerleşik Endüstri Standardı
Yazar: Glenn Jocher
Kuruluş: Ultralytics
Tarih: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Belgeler: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5, piyasaya sürülmesinin ardından gerçek zamanlı nesne algılama için yeni bir ölçüt belirledi ve olağanüstü hız, doğruluk ve kullanıcı dostu olma özelliği sayesinde geliştiriciler ve araştırmacılar arasında hızla favori haline geldi. Tamamen PyTorch ile inşa edilmiş olup, yüksek düzeyde optimize edilmiştir ve eğitilmesi, doğrulanması ve dağıtılması kolaydır.
Mimari
YOLOv5, hem verimli hem de etkili olan klasik bir CNN tabanlı mimari kullanır.
- Backbone: Gradyan akışını iyileştirmek ve hesaplama maliyetini azaltmak için Çapraz Aşamalı Kısmi (CSP) bağlantılarıyla optimize edilmiş bir Darknet varyantı olan bir CSPDarknet53 backbone'u kullanır.
- Neck: Farklı ölçeklerdeki nesnelerin algılanmasını geliştirmek için farklı ölçeklerden özellikleri etkili bir şekilde birleştiren bir Yol Toplama Ağı (PANet), özellik toplama için kullanılır.
- Head: Model, sınırlayıcı kutuları, sınıf olasılıklarını ve nesnellik skorlarını tahmin etmek için çapa tabanlı bir tespit başlığı kullanır.
Güçlü Yönler
- Olağanüstü Hız ve Verimlilik: YOLOv5, hızlı çıkarım hızları için son derece optimize edilmiştir ve bu da onu CPU'lardan uç cihazlara kadar çok çeşitli donanımlarda gerçek zamanlı uygulamalar için en iyi seçenek haline getirir.
- Kullanım Kolaylığı: Kolaylaştırılmış kullanıcı deneyimi ile tanınan YOLOv5, kapsamlı dokümantasyon ile desteklenen basit bir Python API'si ve CLI sunar.
- İyi Yönetilen Ekosistem: Bir Ultralytics modeli olarak, güçlü ve aktif olarak geliştirilen bir ekosistemden yararlanır. Bu, geniş bir topluluk, sık güncellemeler ve kodsuz eğitim ve dağıtım için Ultralytics HUB gibi araçlarla sorunsuz entegrasyonu içerir.
- Performans Dengesi: YOLOv5, hız ve doğruluk arasında mükemmel bir denge sağlar ve bu da onu çeşitli gerçek dünya senaryoları için oldukça pratik hale getirir.
- Bellek Verimliliği: Transformatör tabanlı modellerle karşılaştırıldığında, YOLOv5 modelleri genellikle eğitim sırasında önemli ölçüde daha az CUDA belleği gerektirir ve çıkarım sırasında daha bellek verimlidir.
- Çok Yönlülük: Birleşik bir çerçeve içinde nesne algılama, örnek segmentasyonu ve görüntü sınıflandırması dahil olmak üzere birden fazla görevi destekler.
- Eğitim Verimliliği: Eğitim süreci hızlı ve verimlidir ve geliştirmeyi hızlandırmak için COCO gibi veri kümelerinde önceden eğitilmiş ağırlıklar kolayca bulunur.
Zayıflıklar
- Karmaşık Sahnelerde Doğruluk: Oldukça doğru olmasına rağmen, çok sayıda küçük veya tıkanmış nesnenin bulunduğu veri kümelerinde RTDETRv2 gibi daha yeni, daha karmaşık mimariler tarafından geride bırakılabilir.
- Anchor-Based Design: Önceden tanımlanmış anchor kutularına dayanması, alışılmadık nesne en boy oranlarına sahip veri kümelerinde optimum performans elde etmek için bazen manuel ayarlama gerektirebilir.
İdeal Kullanım Senaryoları
YOLOv5, hız, kaynak verimliliği ve hızlı geliştirmenin kritik olduğu uygulamalarda öne çıkar.
- Gerçek Zamanlı Video Gözetimi: Güvenlik alarm sistemleri ve canlı video akışlarını izlemek için idealdir.
- Edge Computing: Hafif modelleri, Raspberry Pi ve NVIDIA Jetson gibi kaynak kısıtlamalı cihazlarda dağıtım için mükemmeldir.
- Mobil Uygulamalar: Mobil uygulamalarda cihaz üzerinde çıkarım için uygundur.
- Endüstriyel Otomasyon: Kalite kontrolüne ve trafik yönetiminde yapay zekaya güç verir.
YOLOv5 hakkında daha fazla bilgi edinin
RTDETRv2: Yüksek Doğruluklu Gerçek Zamanlı Algılama Transformer'ı
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 2023-04-17 (İlk RT-DETR), 2024-07-24 (RT-DETRv2 iyileştirmeleri)
Arşiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Belgeler: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü v2), yetenekli donanımlar üzerinde gerçek zamanlı performansı korurken yüksek doğruluk elde etmek için Vision Transformer'ların (ViT) gücünden yararlanan, son teknoloji bir nesne algılayıcısıdır.
Mimari
RTDETRv2, CNN'lerin ve Transformer'ların güçlü yönlerini birleştiren hibrit bir yaklaşım kullanır.
- Backbone: Genellikle verimli ilk özellik çıkarımı için bir CNN (ResNet varyantları gibi) kullanır.
- Encoder-Decoder: Transformer tabanlı bir encoder-decoder yapısı, görüntü özelliklerini işler. Global bağlamı yakalamak için self-attention mekanizmaları kullanır ve modelin uzak nesneler ile karmaşık sahneler arasındaki ilişkileri daha iyi anlamasına olanak tanır.
Güçlü Yönler
- Yüksek Doğruluk: Transformer mimarisi, RTDETRv2'nin özellikle mAP skorlarında, yoğun veya küçük nesneler içeren karmaşık veri kümelerinde, örneğin uydu görüntüsü analizindeki veri kümelerinde mükemmel sonuçlar elde etmesini sağlar.
- Gerçek Zamanlı Yetenek: Özellikle NVIDIA TensorRT gibi araçlar kullanılarak güçlü GPU'larda hızlandırıldığında rekabetçi çıkarım hızları sağlamak üzere optimize edilmiştir.
- Güçlü Özellik Çıkarımı: Genel bağlamı yakalayarak, otonom sürüş gibi uygulamalar için faydalı olan oklüzyon gibi zorlu senaryolarda iyi performans gösterir.
Zayıflıklar
- Yüksek Hesaplama Maliyeti: RTDETRv2 genellikle YOLOv5'e kıyasla daha yüksek bir parametre sayısına ve FLOP'a sahiptir ve GPU belleği ve işlem gücü gibi daha önemli hesaplama kaynakları gerektirir.
- Eğitim Karmaşıklığı: Transformer tabanlı modelleri eğitmek genellikle CNN'leri eğitmeye göre daha kaynak yoğundur ve daha yavaştır. Genellikle çok daha fazla CUDA belleği gerektirirler, bu da onları sınırlı donanıma sahip kullanıcılar için daha az erişilebilir kılar.
- CPU/Edge'de Çıkarım Hızı: Güçlü GPU'larda gerçek zamanlı olmasına rağmen, performansı CPU'larda veya daha az güçlü uç cihazlarda YOLOv5'e göre önemli ölçüde daha yavaş olabilir.
- Ekosistem ve Kullanılabilirlik: Ultralytics'in YOLO modelleri için sağladığı kapsamlı, birleşik ekosistem, araçlar ve geniş topluluk desteğinden yoksundur.
RTDETRv2 hakkında daha fazla bilgi edinin
Performans Analizi: Hız - Doğruluk Karşılaştırması
YOLOv5 ve RTDETRv2 arasındaki temel fark, tasarım felsefelerinde yatmaktadır. YOLOv5, çok çeşitli donanımlarda hız ve doğruluk arasında optimum bir denge için tasarlanmıştır, bu da onu inanılmaz derecede çok yönlü hale getirir. Buna karşılık, RTDETRv2, üst düzey GPU'larda en iyi performansı gösteren, daha yoğun işlem gerektiren bir transformatör mimarisinden yararlanarak maksimum doğruluğu elde etmeye öncelik verir.
Aşağıdaki tablo bu farklılıkları vurgulamaktadır. RTDETRv2 modelleri daha yüksek mAP puanları elde ederken, YOLOv5 modelleri, özellikle daha küçük varyantlar, özellikle CPU'da önemli ölçüde daha hızlı çıkarım süreleri sunar. Bu, YOLOv5'i düşük gecikme süresinin ve çeşitli donanımlara dağıtımın gerekli olduğu uygulamalar için daha pratik bir seçim haline getirir.
Model | boyut (piksel) |
mAPval 50-95 |
Hız CPU ONNX (ms) |
Hız T4 TensorRT10 (ms) |
parametreler (M) |
FLOP'lar (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Sonuç ve Öneriler
Hem YOLOv5 hem de RTDETRv2 zorlu nesne algılama modelleridir, ancak farklı ihtiyaçlara hizmet ederler.
RTDETRv2, mümkün olan en yüksek doğruluğu elde etmenin öncelikli hedef olduğu ve hem eğitim hem de dağıtım için önemli miktarda işlem kaynağının (yani, üst düzey GPU'lar) hazır bulunduğu uygulamalar için mükemmel bir seçimdir. Transformer tabanlı mimarisi, karmaşık sahnelerde ona bir avantaj sağlar.
Ancak, gerçek dünya uygulamalarının büyük çoğunluğu için Ultralytics YOLOv5 daha çekici ve pratik bir çözüm sunuyor. Olağanüstü hız ve doğruluk dengesi, düşük kaynak gereksinimleriyle birleştiğinde, onu daha geniş bir dağıtım senaryosu yelpazesi için uygun hale getiriyor. İyi yönetilen Ultralytics ekosisteminin temel avantajları—kullanım kolaylığı, kapsamlı dokümantasyon, aktif topluluk desteği ve Ultralytics HUB gibi araçlar—giriş engelini önemli ölçüde azaltır ve geliştirme süresini hızlandırır.
Modern, çok yönlü ve son derece verimli bir çerçeve arayan geliştiriciler için, YOLOv8 ve YOLO11 gibi daha yeni Ultralytics modelleri, YOLOv5'in güçlü yönleri üzerine inşa edilerek daha da iyi performans ve daha fazla özellik sunar. Bu modeller, kullanıcı dostu, yüksek performanslı bilgisayar görüşünde son teknolojiyi temsil etmektedir.
Diğer Model Karşılaştırmaları
Başka modelleri araştırmakla ilgileniyorsanız, şu karşılaştırmalara göz atın:
- YOLOv5 - YOLOv7 Karşılaştırması
- YOLOv5 - YOLOv8 Karşılaştırması
- YOLOv5 - YOLOv9 Karşılaştırması
- RT-DETR - YOLOv8 Karşılaştırması
- RT-DETR - YOLO11 Karşılaştırması
- EfficientDet - YOLOv5 Karşılaştırması