İçeriğe geç

YOLOv5 vs. RTDETRv2: Gerçek Zamanlı Hız ve Transformatör Doğruluğunun Dengelenmesi

Bilgisayarla görmenin hızla gelişen ortamında, doğru nesne algılama modelini seçmek proje başarısı için kritik öneme sahiptir. Bu kapsamlı teknik karşılaştırma iki farklı yaklaşımı incelemektedir: YOLOv5çok yönlülüğü ve hızıyla bilinen efsanevi CNN tabanlı dedektör ve yüksek doğruluğa odaklanan transformatör tabanlı modern bir model olan RTDETRv2.

RTDETRv2 ise küresel bağlamı yakalamak için Görüntü Dönüştürücülerinden (ViT) yararlanır, Ultralytics YOLOv5 düşük kaynak yükü ile sağlam, dağıtıma hazır bir çözüme ihtiyaç duyan geliştiriciler için en iyi seçim olmaya devam ediyor.

Model Özellikleri ve Kökenleri

Performans ölçümlerine geçmeden önce, her bir modelin arka planını ve mimari felsefesini anlamak önemlidir.

ÖzellikUltralytics YOLOv5RTDETRv2
MimariCNN tabanlı (Çapa tabanlı)Hibrit (CNN Backbone + Transformatör)
Birincil OdakGerçek Zamanlı Hız, Çok Yönlülük, Kullanım KolaylığıYüksek Doğruluk, Küresel Bağlam
YazarlarGlenn JocherWenyu Lv, Yian Zhao ve diğerleri.
OrganizasyonUltralyticsBaidu
Çıkış Tarihi2020-06-262023-04-17
GörevlerAlgıla, Segmente Et, SınıflandırAlgılama

YOLOv5 hakkında daha fazla bilgi edinin

Mimarlık ve Tasarım Felsefesi

Bu modeller arasındaki temel fark, görsel verileri nasıl işlediklerinde yatmaktadır.

Ultralytics YOLOv5

YOLOv5 son derece optimize edilmiş bir Evrişimsel Sinir Ağı (CNN) mimarisi kullanır. Özellik haritalarını çıkarmak için değiştirilmiş bir CSPDarknet backbone ve bir Yol Toplama Ağı (PANet) boynu kullanır.

  • Çapa Tabanlı: Nesne konumlarını tahmin etmek için önceden tanımlanmış bağlantı kutularına dayanır, bu da yaygın nesne şekilleri için öğrenme sürecini basitleştirir.
  • Verimlilik: NVIDIA Jetson gibi uç cihazlardan standart CPU'lara kadar çok çeşitli donanımlarda maksimum çıkarım hızı için tasarlanmıştır.
  • Çok yönlülük: Tek bir birleşik çerçeve içinde örnek segmentasyonu ve görüntü sınıflandırması dahil olmak üzere birden fazla görevi destekler.

RTDETRv2

RTDETRv2 (Gerçek Zamanlı Algılama Transformatörü v2) transformatör mimarilerine doğru bir geçişi temsil etmektedir.

  • Hibrit Tasarım: Nesne ilişkilerini işlemek için kendi kendine dikkat mekanizmalarını kullanan bir CNN backbone bir dönüştürücü kodlayıcı-kod çözücü ile birleştirir.
  • Küresel Bağlam: Dönüştürücü bileşeni, modelin tüm görüntüyü aynı anda "görmesini" sağlayarak oklüzyonlu karmaşık sahnelerde performansı artırır.
  • Hesaplama Maliyeti: Bu sofistike mimari, tamamen CNN tabanlı çözümlere kıyasla tipik olarak önemli ölçüde daha fazla GPU belleği ve hesaplama gücü (FLOP) gerektirir.

Performans Analizi

Aşağıdaki tablo, temel performans ölçümlerinin doğrudan bir karşılaştırmasını sunmaktadır. RTDETRv2, COCO veri kümesinde etkileyici bir doğrulukmAP) gösterirken, YOLOv5 , özellikle dönüştürücülerin genellikle zorlandığı CPU donanımında üstün çıkarım hızları göstermektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Verilerin Yorumlanması

RTDETRv2 daha yüksek mAP sayılarına ulaşırken, Hız ve FLOPs sütunlarına dikkat edin. YOLOv5n CPU'da 73,6 ms' de çalışarak hızlandırılmamış donanımlarda gerçek zamanlı uygulamalar için uygun hale gelir. RTDETRv2 modelleri önemli ölçüde daha ağırdır ve gerçek zamanlı kare hızlarını korumak için güçlü GPU'lar gerektirir.

Eğitim Verimliliği ve Bellek Kullanımı

Çok önemli bir avantajı YOLOv5 eğitim verimliliğidir. RTDETRv2 gibi transformatör tabanlı modeller yüksek VRAM tüketimi ve yavaş yakınsama oranlarıyla ünlüdür.

  • Daha Düşük Bellek Ayak İzi: YOLOv5 , mütevazı CUDA belleğine sahip tüketici sınıfı GPU'larda eğitilebilir ve yapay zeka geliştirmeye erişimi demokratikleştirir.
  • Daha Hızlı Yakınsama: Kullanıcılar genellikle daha az sayıda epokta kullanılabilir sonuçlar elde ederek değerli zamandan ve bulut işlem maliyetlerinden tasarruf edebilir.

Ultralytics YOLOv5'in Temel Güçlü Yönleri

Çoğu geliştirici ve ticari uygulama için YOLOv5 daha dengeli ve pratik bir dizi avantaj sunar:

  1. Eşsiz Kullanım Kolaylığı: Ultralytics Python API, basitlik için endüstri standardıdır. Bir model yükleme, çıkarım çalıştırma ve özel veriler üzerinde eğitim sadece birkaç satır kodla yapılabilir.
  2. Zengin Ekosistem: Büyük bir açık kaynak topluluğu tarafından desteklenen YOLOv5 , kodsuz eğitim için Ultralytics HUB, izleme için MLOps araçları ve aşağıdaki gibi çeşitli dışa aktarma formatları ile sorunsuz bir şekilde entegre olur ONNX ve TensorRT.
  3. Dağıtım Esnekliği: YOLOv5'in hafif mimarisi, iOS ve Android mobil uygulamalarından Raspberry Pi ve bulut sunucularına kadar, daha ağır transformatör modellerinin çalışamadığı yerlerde çalışmasına olanak tanır.
  4. Görev Çok Yönlülüğü: Öncelikle bir nesne algılayıcı olan RTDETRv2'nin aksine, YOLOv5 sınıflandırma ve segmentasyonu destekleyerek farklı görme görevleri için birden fazla kod tabanı tutma ihtiyacını azaltır.

Yükseltme Yolu

Bu ekosistem avantajlarını korurken YOLOv5 'ten daha da yüksek doğruluğa ihtiyacınız varsa, yeni YOLO11. YOLO'dan beklediğiniz verimlilikle transformatör doğruluğuna rakip olmak veya onu geçmek için modern mimari iyileştirmeler içerir.

Kod Karşılaştırması: kullanım kolaylığı

Aşağıdaki örnek, YOLOv5 'in Ultralytics paketi ile kullanımının basitliğini göstermektedir.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
for result in results:
    result.show()  # show to screen
    result.save(filename="result.jpg")  # save to disk

İdeal Kullanım Senaryoları

Ultralytics YOLOv5 Ne Zaman Seçilmeli

  • Uç Bilişim: Pille çalışan veya kaynakları kısıtlı cihazlarda (dronlar, cep telefonları, IoT) dağıtım.
  • Gerçek Zamanlı Video Analitiği: Trafik yönetimi veya güvenlik için birden fazla video akışını aynı anda işleme.
  • Hızlı Prototipleme: Veri setinden konuşlandırılmış modele günler değil saatler içinde geçmeniz gerektiğinde.
  • Çoklu Görev Gereksinimleri: Hem nesne algılama hem de görüntü segmentasyonu gerektiren projeler.

RTDETRv2 Ne Zaman Seçilmelidir?

  • Akademik Araştırma: Hızın ikinci planda olduğu statik veri kümelerinde mutlak en son teknolojiye karşı kıyaslama.
  • Üst Düzey GPU Kullanılabilirliği: Hem eğitim hem de çıkarım için özel sunucu sınıfı GPU'ların ( NVIDIA A100'ler gibi) mevcut olduğu ortamlar.
  • Karmaşık Statik Sahneler: Kendi kendine dikkat mekanizmasının doğrulukta kritik bir avantaj sağladığı yoğun oklüzyonlu senaryolar.

Sonuç

RTDETRv2, etkileyici doğruluk rakamlarıyla bilgisayarla görmede dönüştürücülerin potansiyelini ortaya koyarken, donanım kaynakları ve eğitim karmaşıklığı açısından önemli maliyetler getirmektedir. Gerçek dünya uygulamalarının büyük çoğunluğu için, Ultralytics YOLOv5 üstün bir seçim olmaya devam ediyor. Hız, doğruluk ve düşük bellek kullanımının mükemmel karışımı, destekleyici bir ekosistem ve kapsamlı belgelerlebirleştiğinde, geliştiricilerin ölçeklenebilir, verimli ve etkili yapay zeka çözümleri oluşturabilmelerini sağlar.

Ultralytics çerçevesinin kullanılabilirliğinden ödün vermeden performansta mutlak en son teknolojiyi arayanlar için şunları keşfetmenizi şiddetle tavsiye ederiz YOLO11CNN verimliliği ile transformatör düzeyinde doğruluk arasındaki boşluğu doldurur.

Diğer Modelleri İnceleyin


Yorumlar