RTDETRv2 ile YOLOv5 Karşılaştırması: Gerçek Zamanlı Detection Transformer ve CNN Modellerinin Değerlendirilmesi
Bilgisayarlı görü alanındaki evrim, büyük ölçüde doğruluk ile gerçek zamanlı çıkarım hızı arasındaki dengeyi kurma çabasıyla tanımlanmıştır. Geliştiriciler RTDETRv2 ve Ultralytics YOLOv5 modellerini karşılaştırırken, aslında transformer mimarilerinin sunduğu gelişmiş küresel bağlam yeteneklerini, Evrişimli Sinir Ağlarının (CNN) son derece optimize edilmiş ve kanıtlanmış verimliliğiyle tartmaktadır.
Bu kılavuz, bu iki önemli mimarinin derinlemesine teknik analizini sunarak, performans metriklerini, eğitim metodolojilerini, bellek gereksinimlerini ve ideal dağıtım senaryolarını detaylandırır; böylece özel kullanım durumun için en iyi nesne algılama modelini seçmene yardımcı olur.
RTDETRv2: Gerçek Zamanlı Algılamaya Transformer Yaklaşımı
Orijinal Real-Time Detection Transformer (RT-DETR) üzerine inşa edilen RTDETRv2, çıkarım gecikmesini feda etmeden temel mimariyi geliştirmek için bir dizi "bag-of-freebies" yöntemi sunar.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon: Baidu
- Tarih: 2024-07-24
- Bağlantılar: Arxiv Makalesi, GitHub Deposu
Mimari ve Yetenekler
RTDETRv2, hibrit bir CNN-Transformer mimarisinden yararlanır. CNN, ince taneli görsel özellikleri çıkarmak için bir backbone görevi görürken, transformer encoder-decoder katmanları küresel bağlamı anlamak için tüm özellik haritasını işler. RTDETRv2'nin en önemli özelliklerinden biri, Non-Maximum Suppression (NMS) son işleme ihtiyacını tamamen ortadan kaldıran uçtan uca yapısıdır.
RTDETRv2, özellikle nesnelerin iç içe geçtiği karmaşık ve yoğun sahnelerde etkileyici bir doğruluk elde etse de, bazı önemli ödünleşimleri beraberinde getirir. Transformer'ların doğasında bulunan dikkat mekanizması, eğitim sırasında standart CNN'lere kıyasla önemli ölçüde daha fazla CUDA belleği gerektirir. Ayrıca, NVIDIA A100 veya T4 gibi üst düzey GPU'larda iyi performans gösterse de, mimarisi standart CPU'larda ve ciddi şekilde kısıtlı uç cihazlarda belirgin şekilde daha yavaştır.
RTDETRv2 hakkında daha fazla bilgi edin
Ultralytics YOLOv5: Verimlilikte Endüstri Standardı
Ultralytics YOLOv5, piyasaya sürüldüğünde uygulamalı makine öğrenimi manzarasını kökten değiştirmiş, yüksek performanslı bilgisayarlı görü teknolojisini son derece sezgisel bir çerçeve aracılığıyla dünya çapındaki geliştiriciler için erişilebilir kılmıştır.
- Yazar: Glenn Jocher
- Kuruluş: Ultralytics
- Tarih: 26 Haziran 2020
- Bağlantılar: Resmi Dokümantasyon, GitHub Deposu
Ekosistem ve Performans Dengesi
YOLOv5 tamamen PyTorch çerçevesi üzerine inşa edilmiştir ve son derece verimli bir CNN mimarisine dayanır. Yapay zeka sektöründeki en kapsamlı dokümantasyonlardan bazılarına ve kolaylaştırılmış bir API'ye sahip olup, kullanım kolaylığı için sıfırdan tasarlanmıştır.
YOLOv5'in en büyük avantajı, benzersiz çok yönlülüğü ve düşük bellek gereksinimleridir. Bir YOLOv5 modelini eğitmek, transformer tabanlı modellere göre çok daha az VRAM gerektirir, bu da onu sınırlı donanım bütçesine sahip araştırmacılar ve mühendisler için erişilebilir kılar. Ayrıca, RTDETRv2 yalnızca sınırlayıcı kutu algılamaya odaklanırken, YOLOv5 örnek segmentasyonu ve görüntü sınıflandırmayı destekleyen çok yönlü bir güç merkezine dönüşmüştür.
En üst düzeyde optimize edilmiş iş akışını deneyimlemek için Ultralytics Platform kullanarak YOLOv5'i doğrudan eğitebilir, doğrulayabilir ve dağıtabilirsin. Platform, bulut eğitimi yetenekleri ve kodsuz dağıtım hatları sağlar.
YOLOv5 hakkında daha fazla bilgi edin
Performans ve Metrik Karşılaştırması
Standart COCO veri kümesi üzerindeki ham performansı analiz ederken, bu modellerin kaynaklara nasıl öncelik verdiğine dair net ayrımlar görebiliriz.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Ödünleşimleri Analiz Etme
Veriler, RTDETRv2-x'in %54,3'lük bir tepe mean Average Precision (mAP) değerine ulaştığını ve YOLOv5x'in %50,7'lik başarısını küçük bir farkla geride bıraktığını ortaya koyuyor. Ancak bu küçük doğruluk kazancı, devasa bir hesaplama maliyetiyle geliyor. YOLOv5x daha düşük gecikme süresiyle (TensorRT üzerinde 15,03 ms yerine 11,89 ms) çalışır ve bellek ayak izinin sadece bir kısmını gerektirir. Ultra düşük güç tüketimli uç dağıtımlar için YOLOv5n (Nano) modeli, sadece 1,12 ms'de çıkarım yaparak ve 2,6M parametrelik minik bir ayak iziyle rakipsizliğini koruyor; bu, RTDETRv2'nin rekabet etmeyi bile denemediği bir seviyedir.
Eğitim Verimliliği ve Kod Basitliği
Ultralytics ekosisteminin temel güçlerinden biri, birleşik API yapısıdır. Belirli bir yoğun hesaplama görevi için RT-DETR'in transformer mimarisini kullanmaya karar versen bile, bunu tamamen Ultralytics Python paketi içinde yapabilir, modelleri tek bir kod satırıyla sorunsuz bir şekilde değiştirebilirsin.
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()Ultralytics kütüphanesinden yararlanarak, deney izleme entegrasyonlarına (Weights & Biases ve Comet ML gibi) ve ONNX ile OpenVINO gibi dağıtım formatlarına tek tıkla dışa aktarma özelliklerine sahip, iyi korunmuş bir ekosisteme otomatik olarak erişim sağlarsın.
Gerçek Dünya Uygulamaları ve İdeal Kullanım Durumları
RTDETRv2'nin Parladığı Yerler
RTDETRv2, donanım kısıtlamalarının olmadığı ve tek hedefin mümkün olan en yüksek hassasiyet olduğu ortamlar için en uygun seçenektir.
- Sunucu Tarafı Tıbbi Görüntüleme: Yüksek çözünürlüklü röntgenlerde mikroskobik anormalliklerin tespiti.
- Uydu Görüntüleme: Güçlü bulut kümeleri üzerinde hava gözetleme görevlerinde yoğun ve üst üste binen nesnelerin takibi.
YOLOv5'in Hakim Olduğu Alanlar
YOLOv5, çeşitli donanımlar üzerinde pratik, gerçek dünya dağıtımları için tartışmasız şampiyondur.
- Uç Yapay Zeka Cihazları: Belleğin kesin olarak sınırlı olduğu Raspberry Pi veya NVIDIA Jetson cihazlarında güvenlik alarm sistemleri dağıtımı.
- Mobil Uygulamalar: CoreML veya TFLite aracılığıyla akıllı telefonlarda doğrudan hızlı, gerçek zamanlı sınırlayıcı kutu ve segmentasyon çıkarımı çalıştırma.
- Yüksek Hızlı Endüstriyel Üretim: Milisaniyelik gecikmenin operasyonel başarı için kritik olduğu hızlı üretim hatlarında parça denetimi.
YOLOv5 efsanevi bir model olsa da, Ultralytics ekosistemi yapay zekanın sınırlarını sürekli zorluyor. 2026'daki yeni bir proje için modelleri karşılaştırıyorsan, en son teknoloji Ultralytics YOLO26 modelini keşfetmeyi düşünmelisin. YOLO26, yerel bir Uçtan Uca NMS-Free Tasarım (transformer benzeri ancak CNN hızında) içerir, inanılmaz derecede kararlı eğitim için devrim niteliğindeki MuSGD Optimizer özelliğine sahiptir ve %43'e kadar daha hızlı CPU çıkarımı sağlar. Alternatif olarak, YOLO11, Poz Tahmini ve OBB algılama gerektiren çok yönlü dağıtımlar için harika ve yüksek düzeyde desteklenen bir seçenek olmaya devam etmektedir.
Sonuç olarak, RTDETRv2 transformer katmanlarını kullanarak doğruluk sınırını yukarı taşısa da, Ultralytics YOLO çerçevesi hız, hafif bellek gereksinimleri ve prototipten üretime geçiş süresini önemli ölçüde azaltan üstün mühendislik ürünü bir geliştirici deneyiminin eşsiz bir dengesini sunar.