İçeriğe geç

RTDETRv2 vs YOLOv8: Teknik Bir Karşılaştırma

Bilgisayarla görmenin hızla gelişen ortamında, doğru nesne algılama modelini seçmek proje başarısı için kritik öneme sahiptir. Şu anda bu alanda iki farklı mimari felsefe hakimdir: RTDETRv2 tarafından temsil edilen transformatör tabanlı yaklaşımlar ve yüksek düzeyde optimize edilmiş Evrişimsel Sinir Ağı (CNN) tasarımları. Ultralytics YOLOv8.

RTDETRv2 görüntü dönüştürücüleri kullanarak doğruluk sınırlarını zorlarken, YOLOv8 hız, hassasiyet ve dağıtım kolaylığı arasındaki dengeyi iyileştirir. Bu karşılaştırma, geliştiricilerin ve araştırmacıların uygulamaları için en uygun çözümü seçmelerine yardımcı olmak amacıyla teknik özellikleri, mimari farklılıkları ve pratik performans ölçümlerini incelemektedir.

Performans Ölçütleri: Hız, Doğruluk ve Verimlilik

Performans manzarası belirgin bir değiş tokuşu vurgulamaktadır. RTDETRv2 karmaşık dikkat mekanizmaları aracılığıyla Ortalama Ortalama HassasiyetimAP) en üst düzeye çıkarmaya odaklanırken, YOLOv8 uç ve bulut dağıtımına uygun gerçek zamanlı çıkarım hızı ve yüksek doğruluk arasında çok yönlü bir dengeye öncelik verir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Sonuçların Analizi

Veriler, dağıtım stratejileri için bazı kritik içgörüleri ortaya koymaktadır:

  • Hesaplama Verimliliği: YOLOv8 üstün verimlilik göstermektedir. Mesela, YOLOv8lGPU'da daha yüksek çıkarım hızlarıyla çalışırken RTDETRv2-l (53,4 mAP) ile neredeyse eşit doğruluk (52,9 mAP) elde eder.
  • CPU Performansı: YOLOv8 , CPU donanımı üzerinde belgelenmiş, sağlam bir performans sunarak özel hızlandırıcılardan yoksun uç yapay zeka cihazları için pratik bir seçimdir. CPU için RTDETRv2 kıyaslamaları, dönüştürücü katmanların ağır hesaplama maliyeti nedeniyle genellikle kullanılamaz.
  • Parametre Verimliliği: YOLOv8 modelleri, rekabetçi sonuçlar elde etmek için sürekli olarak daha az parametre ve Kayan Nokta İşlemi (FLOP) gerektirir, bu da doğrudan daha düşük bellek tüketimi ve daha hızlı eğitim sürelerine dönüşür.

Donanımla İlgili Hususlar

Dağıtım hedefiniz standart CPU'lar ( Intel işlemciler gibi) veya gömülü cihazlar (Raspberry Pi gibi) içeriyorsa, YOLOv8 'in CNN tabanlı mimarisi, RTDETRv2'nin transformatör ağırlıklı işlemlerine göre gecikme süresinde önemli bir avantaj sağlar.

RTDETRv2: Transformer'lar ile Gerçek Zamanlı Algılama

RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücüsü v2), Görme Dönüştürücülerinin (ViT) nesne algılamaya uygulanmasının devam eden evrimini temsil eder. Baidu'daki araştırmacılar tarafından geliştirilen bu model, DETR tabanlı modellerle geleneksel olarak ilişkilendirilen gecikme sorunlarını çözmeyi ve küresel bağlamı anlama yeteneklerini korumayı amaçlamaktadır.

Yazarlar Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Organizasyon:Baidu
Tarih: 2024-07-24 (v2 sürümü)
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR

Mimari

RTDETRv2, bir hibrit mimari kullanır. backbone (tipik olarak ResNet gibi bir CNN) ile verimli bir dönüştürücü kodlayıcı-kod çözücü. Önemli bir özellik, ölçek içi etkileşimin ve ölçekler arası füzyonun ayrıştırılmasıdır, bu da modelin görüntü boyunca uzun menzilli bağımlılıkları yakalamasına yardımcı olur. Bu, modelin bir sahnenin farklı bölümlerine aynı anda "katılmasına" olanak tanıyarak karmaşık ortamlarda performansı potansiyel olarak artırır.

Güçlü ve Zayıf Yönler

RTDETRv2'nin birincil gücü, küresel bağlamın çok önemli olduğu karmaşık veri kümelerinde yüksek doğruluğunda yatmaktadır. Nesne sorguları lehine bağlantı kutularından kaçınarak, Maksimum Olmayan BastırmaNMS) ihtiyacını ortadan kaldırarak işlem sonrası boru hattını basitleştirir.

Ancak bu faydaların bir bedeli vardır:

  • Kaynak Yoğunluğu: Model, CNN'lere kıyasla eğitim için önemli ölçüde daha fazla GPU belleği gerektirir.
  • Daha Yavaş Yakınsama: Transformatör tabanlı modellerin yakınsama için eğitilmesi genellikle daha uzun sürer.
  • Sınırlı Çok Yönlülük: Öncelikle sınırlayıcı kutu tespiti için tasarlanmıştır, segmentasyon veya poz tahmini için yerel destekten yoksundur.

RTDETRv2 hakkında daha fazla bilgi edinin

Ultralytics YOLOv8: Hız, Çok Yönlülük ve Ekosistem

Ultralytics YOLOv8 sektörde çok yönlülük ve kullanım kolaylığı standartlarını belirleyen son teknoloji ürünü, çapasız bir nesne algılama modelidir. YOLO ailesinin mirası üzerine inşa edilmiştir ve YOLO 'yu ünlü yapan gerçek zamanlı hızı korurken performansı artıran mimari iyileştirmeler getirmiştir.

Yazarlar Glenn Jocher, Ayush Chaurasia ve Jing Qiu
Organizasyon:Ultralytics
Tarih: 2023-01-10
GitHubultralytics
Docsultralyticsyolov8

Mimari

YOLOv8 , CSP (Cross Stage Partial) Darknet backbone ve PANet (Path Aggregation Network) boynuna sahiptir ve ayrıştırılmış bir algılama kafasıyla sonuçlanır. Bu mimari çapasızdır, yani nesne merkezlerini doğrudan tahmin eder, bu da tasarımı basitleştirir ve genellemeyi geliştirir. Model, tensor işlem birimleri ve GPU'lar için son derece optimize edilmiştir ve maksimum verim sağlar.

Geliştiriciler için Temel Avantajlar

  • Kullanım Kolaylığı: Pythonic API ve sağlam bir CLI ile kullanıcılar modelleri sadece birkaç satır kodla eğitebilir ve dağıtabilir. Kapsamlı dokümantasyon, hem yeni başlayanlar hem de uzmanlar için giriş engelini azaltır.
  • Bakımlı Ekosistem: Ultralytics tarafından desteklenen YOLOv8 , sık güncellemelerden, topluluk desteğinden ve TensorBoard ve MLFlow gibi araçlarla sorunsuz entegrasyondan yararlanır.
  • Çok yönlülük: RTDETRv2'nin aksine YOLOv8 , örnek segmentasyonu, poz tahmini, sınıflandırma ve yönlendirilmiş nesne algılama (OBB) dahil olmak üzere çok çeşitli görevleri kullanıma hazır olarak destekler.
  • Eğitim Verimliliği: Model, düşük CUDA bellek gereksinimleriyle hızlı bir şekilde eğitilecek şekilde tasarlanmıştır ve bu sayede sınırlı donanım bütçesine sahip araştırmacılar için erişilebilir hale gelir.

YOLOv8 hakkında daha fazla bilgi edinin

Derin Dalış: Mimari ve Kullanım Örnekleri

Bu iki model arasındaki seçim genellikle uygulama ortamının özel gereksinimlerine bağlıdır.

Mimari Felsefe

YOLOv8 , yerel özellikleri ve uzamsal hiyerarşileri verimli bir şekilde işlemede mükemmel olan Evrişimsel Sinir Ağlarına (CNN'ler) dayanır. Bu da onları doğal olarak daha hızlı ve daha az bellek tüketir hale getirir. RTDETRv2'nin Transformatörlere dayanması, küresel ilişkileri etkili bir şekilde modellemesini sağlar, ancak görüntü boyutuna göre ikinci dereceden bir karmaşıklık getirerek, özellikle yüksek çözünürlüklerde daha yüksek gecikme ve bellek kullanımına yol açar.

İdeal Kullanım Senaryoları

Ne zaman YOLOv8 'i seçin:

  • Gerçek Zamanlı Performans Kritiktir: Otonom sürüş, video analizi ve üretim kalite kontrolü gibi uygulamalar düşük gecikme süresi gerektirir.
  • Donanım Kısıtlıdır: NVIDIA Jetson, Raspberry Pi veya mobil cihazlarda dağıtım yapmak YOLOv8 ile sorunsuzdur.
  • Çoklu Görev Gereklidir: Projeniz, algılamanın yanı sıra nesneleri bölümlere ayırmayı veya anahtar noktaları izlemeyi gerektiriyorsa, YOLOv8 birleşik bir çerçeve sunar.
  • Hızlı Geliştirme Döngüleri: Ultralytics ekosistemi veri etiketleme, eğitim ve dağıtımı hızlandırır.

Şu durumlarda RTDETRv2'yi seçin:

  • Maksimum Doğruluk Tek Ölçüttür: Akademik kıyaslamalar veya sonsuz hesaplamanın mevcut olduğu ve mAP 'nin her bir kesrinin önemli olduğu senaryolar için.
  • Karmaşık Oklüzyonlar: Uzaktaki pikseller arasındaki ilişkiyi anlamanın hayati önem taşıdığı son derece karmaşık sahnelerde, küresel dikkat mekanizması hafif bir avantaj sağlayabilir.

Karşılaştırma Özeti

RTDETRv2, transformatörleri algılamaya uygulama konusunda ilginç bir akademik ilerleme sunarken, YOLOv8 çoğu pratik uygulama için üstün bir seçim olmaya devam etmektedir. Hız, doğruluk ve verimlilik dengesi eşsizdir. Ayrıca, tek bir kullanıcı dostu kütüphane içinde birden fazla bilgisayarla görme görevi gerçekleştirme yeteneği, onu modern yapay zeka geliştirme için çok yönlü bir araç haline getirmektedir.

Performans ve özellik setlerinde mutlak en yeniyi arayan geliştiriciler için, aşağıdaki gibi daha yeni yinelemelere bakmak YOLO11 hem YOLOv8 hem de RTDETRv2'ye göre daha fazla verimlilik ve doğruluk kazanımı sağlar.

Kod Örneği: YOLOv8 ile Başlarken

YOLOv8 ' YOLOv8 iş akışınıza entegre etmek kolaydır. Aşağıda, önceden eğitilmiş bir modelin nasıl yükleneceğini, çıkarımın nasıl çalıştırılacağını ve dağıtım için nasıl dışa aktarılacağını gösteren bir Python örneği yer almaktadır.

from ultralytics import YOLO

# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
success = model.export(format="onnx")

Diğer Modelleri İnceleyin

Nesne algılama mimarileri hakkında daha geniş bir bakış açısı için bu ilgili karşılaştırmaları incelemeyi düşünün:


Yorumlar