İçeriğe geç

YOLOv7 vs RTDETRv2: Detaylı Bir Model Karşılaştırması

Bilgisayarla görme projeleri için doğru nesne algılama modelini seçmek çok önemlidir. Bu sayfa, bilinçli bir karar vermenize yardımcı olmak için son teknoloji ürünü iki model olan YOLOv7 ve RTDETRv2 arasında teknik bir karşılaştırma sunmaktadır. Mimari farklılıklarını, performans ölçümlerini ve ideal uygulamalarını ele alıyoruz.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4TensorRT10
(ms)
params
(M)
FLOP'lar
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

YOLOv7: Gerçek Zamanlı Verimlilik Uzmanı

Temmuz 2022'de Tayvan, Academia Sinica, Bilgi Bilimi Enstitüsü'nden yazarlar Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao tarafından tanıtılan YOLOv7, nesne algılama görevlerindeki hızı ve verimliliği ile ünlüdür. Önceki YOLO modellerinin mimarisini geliştirerek doğruluktan önemli ölçüde ödün vermeden hızlı çıkarıma öncelik veriyor.

Mimari ve Temel Özellikler

YOLOv7'nin mimarisi Evrişimsel Sinir Ağları (CNN'ler) üzerine inşa edilmiştir ve optimize edilmiş performans için birkaç temel özellik içerir:

  • E-ELAN (Genişletilmiş Verimli Katman Toplama Ağı): Özellik çıkarma verimliliğini artırarak modelin daha etkili bir şekilde öğrenmesini sağlar.
  • Model Ölçeklendirme: Model derinliğini ve genişliğini ayarlamak için bileşik ölçeklendirme teknikleri kullanır ve farklı hesaplama kaynakları ve performans ihtiyaçları için esneklik sağlar.
  • Yardımcı Kafa Eğitimi: Ağ öğrenimini derinleştirmek ve genel doğruluğu artırmak için eğitim sırasında yardımcı kayıp kafaları kullanır.

Bu mimari seçimler YOLOv7'nin hız ve doğruluk arasında güçlü bir denge kurmasını sağlayarak onu gerçek zamanlı uygulamalar için uygun hale getirir. Daha fazla ayrıntı için Arxiv'deki YOLOv7 makalesine ve resmi YOLOv7 GitHub deposuna bakın.

Performans Ölçütleri

YOLOv7, düşük gecikme süresinin kritik olduğu senaryolarda üstünlük sağlamak üzere tasarlanmıştır. Performansı şu özelliklerle karakterize edilir:

  • mAPval50-95: COCO veri setinde %53,1'e kadar mAP elde eder.
  • Çıkarım Hızı (T4 TensorRT10): 6,84 ms kadar hızlıdır ve gerçek zamanlı işlemeye olanak sağlar.
  • Model Boyutu (parametreler): 36,9M parametreden başlar ve verimli dağıtım için kompakt bir model boyutu sunar.

Kullanım Örnekleri ve Güçlü Yönler

YOLOv7, özellikle kaynak kısıtlaması olan cihazlarda gerçek zamanlı nesne algılama gerektiren uygulamalar için çok uygundur:

  • Robotik: Robotik navigasyon ve etkileşim için hızlı algı sağlama.
  • Gözetim: Güvenlik sistemlerinde gerçek zamanlı izleme ve analiz sağlar. YOLOv8 'in güvenlik alarm sistemlerini nasıl geliştirebileceğini görün.
  • Uç Cihazlar: NVIDIA Jetson veya Raspberry Pi gibi sınırlı hesaplama gücüne sahip uç cihazlarda dağıtım.

Birincil gücü, hızı ve nispeten küçük model boyutudur, bu da onu çeşitli donanım platformlarında yüksek oranda dağıtılabilir hale getirir. YOLOv7 Docs'ta YOLOv7'nin mimarisi ve yetenekleri hakkında daha fazla bilgi edinin.

YOLOv7 hakkında daha fazla bilgi edinin

RTDETRv2: Transformatör Verimliliği ile Doğruluk

Baidu'dan Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu tarafından Temmuz 2024'te tanıtılan RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücüsü sürüm 2), nesne algılama için Görüntü Dönüştürücü lerini (ViT) entegre ederek farklı bir yaklaşım benimsiyor. YOLO'nun CNN temelinden farklı olarak RTDETRv2, küresel görüntü bağlamını yakalamak için dönüştürücülerden yararlanıyor ve gerçek zamanlı performansı korurken potansiyel olarak daha yüksek doğruluk sağlıyor.

Mimari ve Temel Özellikler

RTDETRv2'nin mimarisi şu şekilde tanımlanır:

  • Görüntü Dönüştürücüsü (ViT) Omurgası: Tüm görüntüyü işlemek için bir transformatör kodlayıcı kullanır ve karmaşık sahneleri anlamak için çok önemli olan uzun menzilli bağımlılıkları yakalar.
  • Hibrit CNN Özellik Çıkarma: Küresel bağlamı etkili bir şekilde entegre etmek için ilk özellik çıkarımı için CNN'leri dönüştürücü katmanlarla birleştirir.
  • Çapasız Algılama: Önceden tanımlanmış çapa kutularına olan ihtiyacı ortadan kaldırarak tespit sürecini basitleştirir, model esnekliğini artırır ve karmaşıklığı azaltır.

Bu transformatör tabanlı tasarım, RTDETRv2'nin özellikle karmaşık ve dağınık ortamlarda potansiyel olarak üstün doğruluk elde etmesini sağlar. Görme Transformatörleri hakkında daha fazla bilgiyi Görme Transformatörü (ViT) sözlüğü sayfamızdan edinebilirsiniz. RTDETRv2 makalesi Arxiv'de mevcuttur ve resmi GitHub deposu uygulama ayrıntılarını sağlar.

Performans Ölçütleri

RTDETRv2, rekabetçi hızı korurken doğruluğa öncelik verir ve aşağıdaki performans ölçümlerini sunar:

  • mAPval50-95: 54,3'e kadar mAPval50-95 elde ederek nesne algılamada yüksek doğruluk gösterir.
  • Çıkarım Hızı (T4 TensorRT10): 5,03 ms'den başlar ve uygun donanımda gerçek zamanlı yetenek sağlar.
  • Model Boyutu (parametreler): Farklı dağıtım ihtiyaçları için çeşitli model boyutları sunan 20M parametrelerinden başlar.

Kullanım Örnekleri ve Güçlü Yönler

RTDETRv2, yüksek doğruluğun çok önemli olduğu ve hesaplama kaynaklarının mevcut olduğu uygulamalar için idealdir:

  • Otonom Araçlar: Güvenli navigasyon için güvenilir ve hassas çevre algısı sağlamak. İlgili uygulamalar için sürücüsüz araçlarda yapay zekayı keşfedin.
  • Tıbbi Görüntüleme: Teşhis ve tedavi planlamasına yardımcı olmak için tıbbi görüntülerde hassas anomali tespitini mümkün kılmak. Sağlık Hizmetleri uygulamalarında yapay zeka hakkında daha fazlasını keşfedin.
  • Yüksek Çözünürlüklü Görüntü Analizi: Uydu görüntüleri analizi veya endüstriyel denetim gibi büyük görüntülerin ayrıntılı analizini gerektiren görevler.

RTDETRv2'nin gücü, sağlam özellik çıkarımını ve daha yüksek doğruluğu kolaylaştıran ve karmaşık algılama görevleri için mükemmel hale getiren dönüştürücü mimarisinde yatmaktadır. RT-DETR GitHub README'de daha fazla ayrıntı mevcuttur.

RTDETRv2 hakkında daha fazla bilgi edinin

Sonuç

Hem YOLOv7 hem de RTDETRv2, her biri benzersiz güçlü yönlere sahip güçlü nesne algılama modelleridir. YOLOv7 hız ve verimlilik gerektiren gerçek zamanlı uygulamalarda öne çıkarken, RTDETRv2 transformatör tabanlı mimarisi sayesinde doğruluğa öncelik verir. Seçiminiz, projenizin özel gereksinimlerine uygun olmalıdır - zamana duyarlı görevler için hız veya ayrıntılı analiz için doğruluk.

Diğer karşılaştırmalar ve modeller için de ilginizi çekebilir:

📅1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar