İçeriğe geç

YOLOv5 vs RTDETRv2: Detaylı Teknik Karşılaştırma

En uygun nesne algılama modelini seçmek, bilgisayarla görme projeleri için kritik bir karardır. Ultralytics , çeşitli proje ihtiyaçlarını karşılamak için çeşitli modeller sunar. Bu sayfa aşağıdakiler arasında teknik bir karşılaştırma sunar Ultralytics YOLOv5 ve RTDETRv2'nin mimari farklılıklarını, performans kıyaslamalarını ve farklı uygulamalar için uygunluklarını vurgulamaktadır.

YOLOv5: Hız ve Verimlilik için Optimize Edildi

Ultralytics YOLOv5 hızlı çıkarım hızı ve operasyonel verimliliği ile ünlü, yaygın olarak benimsenen tek aşamalı bir nesne dedektörüdür. YOLOv5'in mimarisi şunlardan oluşur:

  • Omurga: CSPDarknet53, özellik çıkarma işleminden sorumludur.
  • Boyun: PANet, özellik füzyonu için kullanılır.
  • Kafa: YOLOv5 kafa, algılama görevleri için tasarlanmıştır.

YOLOv5 birden fazla boyutta (n, s, m, l, x) mevcuttur ve kullanıcılara özel gereksinimlerine göre hız ve doğruluğu dengeleme seçenekleri sunar.

Güçlü yönler:

  • Çıkarım Hızı: YOLOv5 hız konusunda üstündür, bu da onu güvenlik alarm sistemleri gibi gerçek zamanlı uygulamalar için mükemmel bir seçim haline getirir.
  • Verimlilik: YOLOv5 modelleri kompakttır, daha az hesaplama kaynağı gerektirir, Raspberry Pi ve NVIDIA Jetson gibi uç dağıtımlar için uygundur.
  • Çok yönlülük: Kaynak kısıtlaması olan cihazlar da dahil olmak üzere çeşitli donanım ortamlarına uyarlanabilir.
  • Kullanıcı Dostu: Ultralytics Python paketi ve Ultralytics HUB kullanılarak uygulanması iyi belgelenmiş ve basittir.

Zayıflıklar:

  • Doğruluk Değişimi: Yüksek doğruluk elde ederken, RTDETRv2 gibi daha büyük modeller, özellikle karmaşık senaryolarda üstün mAP sunabilir.

İdeal Kullanım Durumları:

YOLOv5 hakkında daha fazla bilgi edinin

RTDETRv2: Yüksek Doğruluklu Gerçek Zamanlı Algılama Transformatörü

RTDETRv2(Real-Time Detection Transformer v2), yüksek doğruluk ve gerçek zamanlı performansa öncelik veren son teknoloji ürünü bir nesne algılama modelidir."RT-DETRv2" başlıklı bir makalede tanıtılmıştır:Gerçek Zamanlı Algılama Dönüştürücüsü için Bag-of-Freebies ile Geliştirilmiş Temel" başlıklı makalede 2023-04-17 tarihinde Baidu'dan Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu tarafından tanıtılmıştır. Vision Transformer (ViT) mimarisi üzerine inşa edilen RTDETRv2, hassas nesne konumlandırma ve sınıflandırma gerektiren uygulamalarda üstünlük sağlıyor.

Mimari ve Temel Özellikler:

RTDETRv2, transformatör tabanlı bir mimariden yararlanarak kendi kendine dikkat mekanizmaları aracılığıyla görüntülerdeki küresel bağlamı yakalamasını sağlar. Bu yaklaşım, modelin farklı görüntü bölgelerinin önemini tartmasını sağlayarak, özellikle karmaşık sahnelerde gelişmiş özellik çıkarımı ve gelişmiş doğruluk sağlar.

Güçlü yönler:

  • Üstün Doğruluk: Transformatör mimarisi, özellikle karmaşık ortamlarda, vision-ai-in-crowd-management gibi senaryolarda gösterildiği gibi gelişmiş nesne algılama doğruluğu sağlar.
  • Gerçek Zamanlı Yetenek: Özellikle NVIDIA T4 GPU'lar gibi donanım hızlandırması kullanıldığında rekabetçi çıkarım hızlarına ulaşır.
  • Sağlam Özellik Çıkarımı: Görüntü Dönüştürücüler, küresel bağlamı ve karmaşık ayrıntıları etkili bir şekilde yakalar ve uydu görüntülerini analiz etmek için bilgisayar görüşü kullanmak gibi uygulamalarda faydalıdır.

Zayıflıklar:

  • Daha Büyük Model Boyutu: RTDETRv2 modelleri, özellikle daha büyük varyantlar, YOLOv5'ten daha yüksek parametre sayısına ve FLOP'lara sahiptir, bu da daha fazla hesaplama kaynağı gerektirir.
  • Çıkarım Hızı: Gerçek zamanlı yetenekli olsa da, özellikle daha az güçlü cihazlarda çıkarım hızı en hızlı YOLOv5 modellerine kıyasla daha düşük olabilir.

İdeal Kullanım Durumları:

RTDETRv2, doğruluğun çok önemli olduğu ve hesaplama kaynaklarının yeterli olduğu uygulamalar için en uygunudur. Bunlar şunları içerir:

RTDETRv2 hakkında daha fazla bilgi edinin

Model Karşılaştırma Tablosu

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4TensorRT10
(ms)
params
(M)
FLOP'lar
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Sonuç

Hem RTDETRv2 hem de YOLOv5 , her biri farklı öncelikler için tasarlanmış sağlam nesne algılama modelleridir. RTDETRv2, doğruluğun çok önemli olduğu ve hesaplama kaynaklarının mevcut olduğu durumlarda tercih edilir. Buna karşılık YOLOv5 , özellikle kaynakların sınırlı olduğu platformlarda gerçek zamanlı performans ve verimlilik gerektiren senaryolarda öne çıkar.

Diğer modelleri keşfeden kullanıcılar için Ultralytics , aşağıdakiler de dahil olmak üzere geniş bir model hayvanat bahçesi sunar:

RTDETRv2, YOLOv5 veya diğer Ultralytics modelleri arasında seçim yapmak, doğruluk, hız ve kaynak kullanılabilirliği arasındaki dengeyi dikkatlice göz önünde bulundurarak bilgisayarla görme projenizin özel taleplerine dayanmalıdır. Kapsamlı ayrıntılar ve uygulama kılavuzları için Ultralytics Belgelerine ve GitHub deposuna bakın.

📅1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar