RTDETRv2 ile YOLOv5 Karşılaştırması: Gerçek Zamanlı Detection Transformer ve CNN Modellerinin Değerlendirilmesi

Bilgisayarlı görü alanındaki evrim, büyük ölçüde doğruluk ile gerçek zamanlı çıkarım hızı arasındaki dengeyi kurma çabasıyla tanımlanmıştır. Geliştiriciler RTDETRv2 ve Ultralytics YOLOv5 modellerini karşılaştırırken, aslında transformer mimarilerinin sunduğu gelişmiş küresel bağlam yeteneklerini, Evrişimli Sinir Ağlarının (CNN) son derece optimize edilmiş ve kanıtlanmış verimliliğiyle tartmaktadır.

Bu kılavuz, bu iki önemli mimarinin derinlemesine teknik analizini sunarak, performans metriklerini, eğitim metodolojilerini, bellek gereksinimlerini ve ideal dağıtım senaryolarını detaylandırır; böylece özel kullanım durumun için en iyi nesne algılama modelini seçmene yardımcı olur.

RTDETRv2: Gerçek Zamanlı Algılamaya Transformer Yaklaşımı

Orijinal Real-Time Detection Transformer (RT-DETR) üzerine inşa edilen RTDETRv2, çıkarım gecikmesini feda etmeden temel mimariyi geliştirmek için bir dizi "bag-of-freebies" yöntemi sunar.

  • Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
  • Organizasyon: Baidu
  • Tarih: 2024-07-24
  • Bağlantılar: Arxiv Makalesi, GitHub Deposu

Mimari ve Yetenekler

RTDETRv2, hibrit bir CNN-Transformer mimarisinden yararlanır. CNN, ince taneli görsel özellikleri çıkarmak için bir backbone görevi görürken, transformer encoder-decoder katmanları küresel bağlamı anlamak için tüm özellik haritasını işler. RTDETRv2'nin en önemli özelliklerinden biri, Non-Maximum Suppression (NMS) son işleme ihtiyacını tamamen ortadan kaldıran uçtan uca yapısıdır.

RTDETRv2, özellikle nesnelerin iç içe geçtiği karmaşık ve yoğun sahnelerde etkileyici bir doğruluk elde etse de, bazı önemli ödünleşimleri beraberinde getirir. Transformer'ların doğasında bulunan dikkat mekanizması, eğitim sırasında standart CNN'lere kıyasla önemli ölçüde daha fazla CUDA belleği gerektirir. Ayrıca, NVIDIA A100 veya T4 gibi üst düzey GPU'larda iyi performans gösterse de, mimarisi standart CPU'larda ve ciddi şekilde kısıtlı uç cihazlarda belirgin şekilde daha yavaştır.

RTDETRv2 hakkında daha fazla bilgi edin

Ultralytics YOLOv5: Verimlilikte Endüstri Standardı

Ultralytics YOLOv5, piyasaya sürüldüğünde uygulamalı makine öğrenimi manzarasını kökten değiştirmiş, yüksek performanslı bilgisayarlı görü teknolojisini son derece sezgisel bir çerçeve aracılığıyla dünya çapındaki geliştiriciler için erişilebilir kılmıştır.

Ekosistem ve Performans Dengesi

YOLOv5 tamamen PyTorch çerçevesi üzerine inşa edilmiştir ve son derece verimli bir CNN mimarisine dayanır. Yapay zeka sektöründeki en kapsamlı dokümantasyonlardan bazılarına ve kolaylaştırılmış bir API'ye sahip olup, kullanım kolaylığı için sıfırdan tasarlanmıştır.

YOLOv5'in en büyük avantajı, benzersiz çok yönlülüğü ve düşük bellek gereksinimleridir. Bir YOLOv5 modelini eğitmek, transformer tabanlı modellere göre çok daha az VRAM gerektirir, bu da onu sınırlı donanım bütçesine sahip araştırmacılar ve mühendisler için erişilebilir kılar. Ayrıca, RTDETRv2 yalnızca sınırlayıcı kutu algılamaya odaklanırken, YOLOv5 örnek segmentasyonu ve görüntü sınıflandırmayı destekleyen çok yönlü bir güç merkezine dönüşmüştür.

Kurumsal Model Yönetimi

En üst düzeyde optimize edilmiş iş akışını deneyimlemek için Ultralytics Platform kullanarak YOLOv5'i doğrudan eğitebilir, doğrulayabilir ve dağıtabilirsin. Platform, bulut eğitimi yetenekleri ve kodsuz dağıtım hatları sağlar.

YOLOv5 hakkında daha fazla bilgi edin

Performans ve Metrik Karşılaştırması

Standart COCO veri kümesi üzerindeki ham performansı analiz ederken, bu modellerin kaynaklara nasıl öncelik verdiğine dair net ayrımlar görebiliriz.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Ödünleşimleri Analiz Etme

Veriler, RTDETRv2-x'in %54,3'lük bir tepe mean Average Precision (mAP) değerine ulaştığını ve YOLOv5x'in %50,7'lik başarısını küçük bir farkla geride bıraktığını ortaya koyuyor. Ancak bu küçük doğruluk kazancı, devasa bir hesaplama maliyetiyle geliyor. YOLOv5x daha düşük gecikme süresiyle (TensorRT üzerinde 15,03 ms yerine 11,89 ms) çalışır ve bellek ayak izinin sadece bir kısmını gerektirir. Ultra düşük güç tüketimli uç dağıtımlar için YOLOv5n (Nano) modeli, sadece 1,12 ms'de çıkarım yaparak ve 2,6M parametrelik minik bir ayak iziyle rakipsizliğini koruyor; bu, RTDETRv2'nin rekabet etmeyi bile denemediği bir seviyedir.

Eğitim Verimliliği ve Kod Basitliği

Ultralytics ekosisteminin temel güçlerinden biri, birleşik API yapısıdır. Belirli bir yoğun hesaplama görevi için RT-DETR'in transformer mimarisini kullanmaya karar versen bile, bunu tamamen Ultralytics Python paketi içinde yapabilir, modelleri tek bir kod satırıyla sorunsuz bir şekilde değiştirebilirsin.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Ultralytics kütüphanesinden yararlanarak, deney izleme entegrasyonlarına (Weights & Biases ve Comet ML gibi) ve ONNX ile OpenVINO gibi dağıtım formatlarına tek tıkla dışa aktarma özelliklerine sahip, iyi korunmuş bir ekosisteme otomatik olarak erişim sağlarsın.

Gerçek Dünya Uygulamaları ve İdeal Kullanım Durumları

RTDETRv2'nin Parladığı Yerler

RTDETRv2, donanım kısıtlamalarının olmadığı ve tek hedefin mümkün olan en yüksek hassasiyet olduğu ortamlar için en uygun seçenektir.

  • Sunucu Tarafı Tıbbi Görüntüleme: Yüksek çözünürlüklü röntgenlerde mikroskobik anormalliklerin tespiti.
  • Uydu Görüntüleme: Güçlü bulut kümeleri üzerinde hava gözetleme görevlerinde yoğun ve üst üste binen nesnelerin takibi.

YOLOv5'in Hakim Olduğu Alanlar

YOLOv5, çeşitli donanımlar üzerinde pratik, gerçek dünya dağıtımları için tartışmasız şampiyondur.

  • Uç Yapay Zeka Cihazları: Belleğin kesin olarak sınırlı olduğu Raspberry Pi veya NVIDIA Jetson cihazlarında güvenlik alarm sistemleri dağıtımı.
  • Mobil Uygulamalar: CoreML veya TFLite aracılığıyla akıllı telefonlarda doğrudan hızlı, gerçek zamanlı sınırlayıcı kutu ve segmentasyon çıkarımı çalıştırma.
  • Yüksek Hızlı Endüstriyel Üretim: Milisaniyelik gecikmenin operasyonel başarı için kritik olduğu hızlı üretim hatlarında parça denetimi.
Diğer Ultralytics Modellerini Keşfet

YOLOv5 efsanevi bir model olsa da, Ultralytics ekosistemi yapay zekanın sınırlarını sürekli zorluyor. 2026'daki yeni bir proje için modelleri karşılaştırıyorsan, en son teknoloji Ultralytics YOLO26 modelini keşfetmeyi düşünmelisin. YOLO26, yerel bir Uçtan Uca NMS-Free Tasarım (transformer benzeri ancak CNN hızında) içerir, inanılmaz derecede kararlı eğitim için devrim niteliğindeki MuSGD Optimizer özelliğine sahiptir ve %43'e kadar daha hızlı CPU çıkarımı sağlar. Alternatif olarak, YOLO11, Poz Tahmini ve OBB algılama gerektiren çok yönlü dağıtımlar için harika ve yüksek düzeyde desteklenen bir seçenek olmaya devam etmektedir.

Sonuç olarak, RTDETRv2 transformer katmanlarını kullanarak doğruluk sınırını yukarı taşısa da, Ultralytics YOLO çerçevesi hız, hafif bellek gereksinimleri ve prototipten üretime geçiş süresini önemli ölçüde azaltan üstün mühendislik ürünü bir geliştirici deneyiminin eşsiz bir dengesini sunar.

Yorumlar