RTDETRv2 vs. YOLOv5: Gerçek Zamanlı detect Transformer'ları ve CNN'leri Değerlendirme
Bilgisayar görüşünün evrimi, doğruluk ile gerçek zamanlı çıkarım hızını dengeleme arayışı tarafından büyük ölçüde tanımlanmıştır. RTDETRv2 ve Ultralytics YOLOv5 karşılaştırıldığında, geliştiriciler aslında transformer mimarilerinin gelişmiş global bağlam yeteneklerini, Evrişimsel Sinir Ağlarının (CNN'ler) yüksek düzeyde optimize edilmiş, sahada kanıtlanmış verimliliği karşısında tartmaktadır.
Bu kılavuz, belirli kullanım durumunuz için en iyi nesne algılama modelini seçmenize yardımcı olmak amacıyla, bu iki önde gelen mimarinin performans metriklerini, eğitim metodolojilerini, bellek gereksinimlerini ve ideal dağıtım senaryolarını detaylandıran derinlemesine bir teknik analiz sunmaktadır.
RTDETRv2: Gerçek Zamanlı detect için Transformer Yaklaşımı
Orijinal Gerçek Zamanlı Algılama Transformer'ı (RT-DETR) üzerine inşa edilen RTDETRv2, çıkarım gecikmesini feda etmeden temel mimariyi geliştirmek için bir dizi "bag-of-freebies" sunar.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 2024-07-24
- Bağlantılar:Arxiv Makalesi, GitHub Deposu
Mimari ve Yetenekler
RTDETRv2, hibrit bir CNN-Transformer mimarisinden yararlanır. CNN, ince taneli görsel özellikleri çıkarmak için bir backbone görevi görürken, transformer kodlayıcı-kod çözücü katmanları ise global bağlamı anlamak için tüm özellik haritasını işler. RTDETRv2'nin önemli bir özelliği, Non-Maximum Suppression (NMS) son işlemine olan ihtiyacı tamamen ortadan kaldıran uçtan uca yapısıdır.
RTDETRv2, özellikle nesnelerin üst üste bindiği karmaşık, yoğun sahnelerde etkileyici bir doğruluk elde etse de, önemli ödünleşimlerle birlikte gelir. Transformer'lara özgü dikkat mekanizması, standart CNN'lere kıyasla eğitim sırasında önemli ölçüde daha yüksek CUDA belleği gerektirir. Ayrıca, NVIDIA A100 veya T4 gibi üst düzey GPU'larda iyi performans gösterirken, mimarisinin standart CPU'larda ve ciddi şekilde kısıtlı kenar cihazlarda fark edilir derecede daha yavaş olduğu görülür.
RTDETRv2 hakkında daha fazla bilgi edinin
Ultralytics YOLOv5: Verimlilik için Endüstri Standardı
Ultralytics YOLOv5, piyasaya sürüldüğünde uygulamalı makine öğrenimi manzarasını temelden değiştirdi ve yüksek performanslı bilgisayar görüşünü olağanüstü sezgisel bir çerçeve aracılığıyla dünya çapındaki geliştiriciler için erişilebilir hale getirdi.
- Yazar: Glenn Jocher
- Kuruluş: Ultralytics
- Tarih: 26 Haziran 2020
- Bağlantılar:Resmi Belgeler, GitHub Deposu
Ekosistem ve Performans Dengesi
YOLOv5, tamamen PyTorch çerçevesi üzerine inşa edilmiştir ve son derece verimli bir CNN mimarisine dayanır. Modern bir API ve yapay zeka endüstrisindeki en kapsamlı belgelerden bazılarını sunarak, baştan sona kullanım kolaylığı için tasarlanmıştır.
YOLOv5'in en büyük avantajı, eşsiz çok yönlülüğü ve düşük bellek gereksinimlerinde yatmaktadır. Bir YOLOv5 modelini eğitmek, transformer tabanlı modellere göre önemli ölçüde daha az VRAM gerektirir, bu da sınırlı donanım bütçesine sahip araştırmacılar ve mühendisler için erişilebilir olmasını sağlar. Ayrıca, RTDETRv2 yalnızca sınırlayıcı kutu algılamaya odaklanırken, YOLOv5, örnek segmentasyonunu ve görüntü sınıflandırmasını destekleyen çok yönlü bir güç merkezine dönüşmüştür.
Kurumsal Model Yönetimi
Nihai kolaylaştırılmış iş akışını deneyimlemek için, Ultralytics Platformu'nu kullanarak YOLOv5'i doğrudan eğitebilir, doğrulayabilir ve dağıtabilirsiniz. Platform, bulut eğitim yetenekleri ve sıfır kodlu dağıtım hatları sunar.
YOLOv5 hakkında daha fazla bilgi edinin.
Performans ve Metrik Karşılaştırması
Standart COCO veri kümesi üzerindeki ham performansı analiz ettiğimizde, bu modellerin kaynakları nasıl önceliklendirdiğine dair net ayrımlar görebiliriz.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Ödünleşimleri Analiz Etme
Veriler, RTDETRv2-x'in %54,3'lük bir zirve ortalama Hassasiyet (mAP) elde ettiğini, YOLOv5x'in %50,7'sini hafifçe geride bıraktığını ortaya koymaktadır. Ancak, bu küçük doğruluk kazancı büyük bir hesaplama maliyetiyle gelir. YOLOv5x, daha düşük gecikmeyle (TensorRT üzerinde 11.89 ms'ye karşı 15.03 ms) çalışır ve belleğin çok daha küçük bir kısmını gerektirir. Ultra düşük güçlü kenar dağıtımları için YOLOv5n (Nano) rakipsiz kalır; sadece 1.12 ms'de çıkarımları tamamlayarak ve küçücük bir 2.6M parametre ayak iziyle —RTDETRv2'nin rekabet etmeye bile çalışmadığı bir seviye.
Eğitim Verimliliği ve Kod Basitliği
Ultralytics ekosisteminin temel güçlerinden biri, birleşik API'sidir. Belirli bir yoğun hesaplama görevi için RT-DETR'nin transformer mimarisini kullanmaya karar verseniz bile, bunu tamamen Ultralytics Python paketi içinde yapabilir, tek bir kod satırıyla modelleri sorunsuz bir şekilde değiştirebilirsiniz.
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()
Ultralytics kütüphanesinden yararlanarak, geliştiriciler otomatik olarak deney izleme entegrasyonları (Weights & Biases ve Comet ML gibi) ve ONNX ve OpenVINO gibi dağıtım formatlarına tek tıklamayla dışa aktarma özelliklerine sahip, iyi yönetilen bir ekosisteme erişim sağlar.
Gerçek Dünya Uygulamaları ve İdeal Kullanım Durumları
RTDETRv2'nin Öne Çıktığı Yerler
RTDETRv2, donanım sınırlamalarının olmadığı ve mümkün olan en yüksek hassasiyetin tek amaç olduğu ortamlar için en iyi şekilde uygundur.
- Sunucu Taraflı Tıbbi Görüntüleme: Yüksek çözünürlüklü X-ışınlarında mikroskobik anormallikleri detect etme.
- Uydu Görüntüleri: Güçlü bulut kümelerinde hava gözetimi görevlerinde yoğun, üst üste binen nesneleri track etme.
YOLOv5'in Hakim Olduğu Yerler
YOLOv5, çeşitli donanımlarda pratik, gerçek dünya dağıtımları için tartışmasız şampiyondur.
- Kenar Yapay Zeka Cihazları: Belleğin kesinlikle sınırlı olduğu Raspberry Pi veya NVIDIA Jetson cihazlarına güvenlik alarm sistemleri dağıtma.
- Mobil Uygulamalar: Akıllı telefonlarda CoreML veya TFLite aracılığıyla doğrudan hızlı, gerçek zamanlı sınırlayıcı kutu ve segment çıkarımı çalıştırma.
- Yüksek Hızlı Endüstriyel Üretim: Milisaniye gecikmesinin operasyonel başarı için kritik olduğu hızlı üretim hatlarında parça denetimi.
Diğer Ultralytics Modellerini Keşfetmek
YOLOv5 efsanevi bir model olsa da, Ultralytics ekosistemi yapay zeka sınırlarını sürekli zorlamaktadır. 2026'da yeni bir proje için modelleri karşılaştırıyorsanız, son teknoloji Ultralytics YOLO26'yı keşfetmeyi düşünmelisiniz. YOLO26, yerel bir Uçtan Uca NMS-Free Tasarım (transformatörlere benzer ancak CNN hızıyla) içerir, inanılmaz derecede kararlı eğitim için devrim niteliğindeki MuSGD Optimizer'ı sunar ve %43'e kadar daha hızlı CPU çıkarımı sağlar. Alternatif olarak, YOLO11, Poz Tahmini ve OBB detect gerektiren çok yönlü dağıtımlar için harika, yüksek düzeyde desteklenen bir seçenek olmaya devam etmektedir.
Sonuç olarak, RTDETRv2 transformatör katmanlarını kullanarak doğruluk tavanını zorlasa da, Ultralytics YOLO çerçevesi hız, hafif bellek gereksinimleri ve prototipten üretime geçiş süresini önemli ölçüde azaltan mükemmel tasarlanmış bir geliştirici deneyiminin eşsiz bir dengesini sunar.