İçeriğe geç

YOLOv5 - RTDETRv2: Gerçek Zamanlı Hız ve Transformer Doğruluğunu Dengeleme

Bilgisayar görüşü alanındaki hızlı gelişmelerde, doğru nesne algılama modelini seçmek proje başarısı için kritik öneme sahiptir. Bu kapsamlı teknik karşılaştırma, çok yönlülüğü ve hızıyla bilinen efsanevi CNN tabanlı detectör YOLOv5 ile yüksek doğruluğa odaklanan modern bir transformatör tabanlı model olan RTDETRv2 olmak üzere iki farklı yaklaşımı incelemektedir.

RTDETRv2, küresel bağlamı yakalamak için Vision Transformers (ViT)'dan yararlanırken, Ultralytics YOLOv5, düşük kaynak yüküyle sağlam, dağıtıma hazır bir çözüm gerektiren geliştiriciler için en iyi seçim olmaya devam etmektedir.

Model Spesifikasyonları ve Kökenleri

Performans metriklerine dalmadan önce, her modelin arka planını ve mimari felsefesini anlamak önemlidir.

ÖzellikUltralytics YOLOv5RTDETRv2
MimariCNN tabanlı (Ankraj tabanlı)Hibrit (CNN Backbone + Transformer)
Birincil OdakGerçek Zamanlı Hız, Çok Yönlülük, Kullanım KolaylığıYüksek Doğruluk, Küresel Bağlam
YazarlarGlenn JocherWenyu Lv, Yian Zhao ve diğerleri.
OrganizasyonUltralyticsBaidu
Yayın Tarihi2020-06-262023-04-17
GörevlerDetect, Segment, ClassifyAlgılama

YOLOv5 hakkında daha fazla bilgi edinin

Mimari ve Tasarım Felsefesi

Bu modeller arasındaki temel fark, görsel verileri nasıl işledikleridir.

Ultralytics YOLOv5

YOLOv5, yüksek oranda optimize edilmiş bir Evrişimsel Sinir Ağı (CNN) mimarisi kullanır. Özellik haritalarını çıkarmak için değiştirilmiş bir CSPDarknet omurgası ve bir Yol Toplama Ağı (PANet) boynu kullanır.

  • Ankraj Tabanlı: Ortak nesne şekilleri için öğrenme sürecini basitleştiren nesne konumlarını tahmin etmek için önceden tanımlanmış ankraj kutularına dayanır.
  • Verimlilik: NVIDIA Jetson gibi uç cihazlardan standart CPU'lara kadar çok çeşitli donanımlarda maksimum çıkarım hızı için tasarlanmıştır.
  • Çok Yönlülük: Tek bir birleşik çerçeve içinde örnek segmentasyonu ve görüntü sınıflandırması dahil olmak üzere birden fazla görevi destekler.

RTDETRv2

RTDETRv2 (Gerçek Zamanlı Algılama Transformatörü v2) transformatör mimarilerine doğru bir geçişi temsil etmektedir.

  • Hibrit Tasarım: Bir CNN backbone'unu bir transformer kodlayıcı-kod çözücüsüyle birleştirerek, nesne ilişkilerini işlemek için kendinden dikkat mekanizmalarını kullanır.
  • Global Bağlam: Transformer bileşeni, modelin tüm görüntüyü aynı anda "görmesini" sağlayarak, tıkanıklığın olduğu karmaşık sahnelerde performansı artırır.
  • Hesaplama Maliyeti: Bu gelişmiş mimari, tipik olarak tamamen CNN tabanlı çözümlere kıyasla önemli ölçüde daha fazla GPU belleği ve hesaplama gücü (FLOPs) gerektirir.

Performans Analizi

Aşağıdaki tablo, temel performans metriklerinin doğrudan karşılaştırmasını sunmaktadır. RTDETRv2, COCO veri kümesi üzerinde etkileyici bir doğruluk (mAP) gösterirken, YOLOv5 özellikle transformatörlerin genellikle zorlandığı CPU donanımında üstün çıkarım hızları sergilemektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Verileri Yorumlama

RTDETRv2 daha yüksek mAP sayılarına ulaşsa da, Hız ve FLOPs sütunlarına dikkat edin. YOLOv5n bir CPU üzerinde 73.6 ms'de çalışır ve hızlandırılmamış donanımda gerçek zamanlı uygulamalar için uygulanabilir hale gelir. RTDETRv2 modelleri önemli ölçüde daha ağırdır ve gerçek zamanlı kare hızlarını korumak için güçlü GPU'lar gerektirir.

Eğitim Verimliliği ve Bellek Kullanımı

YOLOv5'in çok önemli bir avantajı, eğitim verimliliğidir. RTDETRv2 gibi Transformer tabanlı modeller, yüksek VRAM tüketimi ve yavaş yakınsama oranlarıyla ünlüdür.

  • Daha Düşük Bellek Ayak İzi: YOLOv5, mütevazı CUDA belleğiyle tüketici sınıfı GPU'larda eğitilebilir ve yapay zeka geliştirmeye erişimi demokratikleştirir.
  • Daha Hızlı Yakınsama: Kullanıcılar genellikle daha az epochta kullanılabilir sonuçlar elde edebilir, bu da değerli zamandan ve bulut bilişim maliyetlerinden tasarruf sağlar.

Ultralytics YOLOv5'in Temel Güçlü Yönleri

Çoğu geliştirici ve ticari uygulama için YOLOv5, daha dengeli ve pratik bir avantaj seti sunar:

  1. Rakipsiz Kullanım Kolaylığı: Ultralytics Python API'si, basitlik için endüstri standardıdır. Bir modeli yüklemek, çıkarım çalıştırmak ve özel veriler üzerinde eğitim yapmak yalnızca birkaç satır kodla yapılabilir.
  2. Zengin Ekosistem: Büyük bir açık kaynak topluluğu tarafından desteklenen YOLOv5, kodsuz eğitim için Ultralytics HUB, izleme için MLOps araçları ve ONNX ve TensorRT gibi çeşitli dışa aktarım formatlarıyla sorunsuz bir şekilde entegre olur.
  3. Dağıtım Esnekliği: iOS ve Android mobil uygulamalarından Raspberry Pi ve bulut sunucularına kadar YOLOv5'in hafif mimarisi, daha ağır transformer modellerinin çalışamadığı yerlerde çalışmasına olanak tanır.
  4. Görev Çok Yönlülüğü: Öncelikli olarak bir nesne algılayıcısı olan RTDETRv2'nin aksine, YOLOv5 sınıflandırmayı ve segmentasyonu destekler ve farklı görme görevleri için birden fazla kod tabanı tutma ihtiyacını azaltır.

Yükseltme Yolu

Bu ekosistem avantajlarını korurken YOLOv5'ten daha yüksek bir doğruluğa ihtiyacınız varsa, yeni YOLO11'i değerlendirin. YOLO'dan beklediğiniz verimlilikle transformatör doğruluğuna rakip olmak veya onu geçmek için modern mimari iyileştirmeler içerir.

Kod Karşılaştırması: kullanım kolaylığı

Aşağıdaki örnek, Ultralytics paketiyle YOLOv5 kullanmanın basitliğini göstermektedir.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
for result in results:
    result.show()  # show to screen
    result.save(filename="result.jpg")  # save to disk

İdeal Kullanım Senaryoları

Ne Zaman Ultralytics YOLOv5 Seçmeli

  • Uç Hesaplama: Pille çalışan veya kaynak kısıtlı cihazlarda (drone'lar, cep telefonları, IoT) dağıtım.
  • Gerçek Zamanlı Video Analitiği: Trafik yönetimi veya güvenlik için birden fazla video akışını aynı anda işleme.
  • Hızlı Prototipleme: Veri setinden dağıtılmış modele günler değil, saatler içinde geçmeniz gerektiğinde.
  • Çoklu Görev Gereksinimleri: Hem nesne algılama hem de görüntü segmentasyonu gerektiren projeler.

Ne Zaman RTDETRv2 Seçmeli

  • Akademik Araştırma: Hızın ikincil olduğu statik veri kümelerinde mutlak son teknolojiye karşı kıyaslama.
  • Üst Düzey GPU Erişilebilirliği: Hem eğitim hem de çıkarım için özel sunucu sınıfı GPU'ların (NVIDIA A100'ler gibi) mevcut olduğu ortamlar.
  • Karmaşık Statik Sahneler: Kendine dikkat mekanizmasının doğrulukta kritik bir avantaj sağladığı yoğun tıkanıklık içeren senaryolar.

Sonuç

RTDETRv2 etkileyici doğruluk rakamlarıyla bilgisayar görüşünde transformatörlerin potansiyelini sergilerken, donanım kaynakları ve eğitim karmaşıklığı açısından önemli maliyetlerle birlikte gelir. Gerçek dünya uygulamalarının büyük çoğunluğu için Ultralytics YOLOv5 üstün bir seçim olmaya devam ediyor. Destekleyici bir ekosistem ve kapsamlı belgeleme ile birleştiğinde, hızı, doğruluğu ve düşük bellek kullanımının mükemmel karışımı, geliştiricilerin ölçeklenebilir, verimli ve etkili yapay zeka çözümleri oluşturabilmelerini sağlar.

Ultralytics çerçevesinin kullanılabilirliğinden ödün vermeden en son performansı arayanlar için, CNN verimliliği ve transformatör seviyesindeki doğruluk arasındaki boşluğu dolduran YOLO11'i keşfetmenizi şiddetle tavsiye ederiz.

Diğer Modelleri İnceleyin


Yorumlar