YOLOv5 RT-DETRv2: Gerçek Zamanlı Nesne Algılayıcılarının Teknik Karşılaştırması
Gerçek zamanlı nesne algılamanın evrimi, iki ana mimari paradigma ile tanımlanmıştır: Evrişimli Sinir Ağı (CNN) tabanlı YOLO ve Transformer tabanlı algılama modelleri. Bu karşılaştırma, teknik farklılıkları incelemektedir. Ultralytics YOLOv5, endüstri standardı CNN tabanlı algılayıcı ve RT-DETRv2, geleneksel CNN hakimiyetine meydan okumak için tasarlanmış Gerçek Zamanlı Algılama Dönüştürücüsünün son versiyonu.
Her iki model de, yüksek doğruluk ile çıkarım hızı arasında denge kurma gibi kritik bir sorunu çözmeyi amaçlamaktadır, ancak bu hedefe ulaşmak için temelde farklı metodolojiler kullanmaktadırlar.
Ultralytics YOLOv5: Endüstri Standardı
YOLOv5 , hız, doğruluk ve mühendislik pratikliği arasındaki olağanüstü dengesi sayesinde, dünya çapında en yaygın olarak kullanılan bilgisayar görme modellerinden biri YOLOv5 . 2020 ortasında Ultralytics tarafından piyasaya sürülen bu model, AI alanında kullanılabilirliği yeniden tanımlayarak, mühendisler ve araştırmacılar için son teknoloji ürünü algılama özelliğini sorunsuz bir Python aracılığıyla erişilebilir hale getirdi.
- Yazarlar: Glenn Jocher
- Kuruluş:Ultralytics
- Tarih: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Belgeler:https://docs.ultralytics.com/models/yolov5/
YOLOv5 hakkında daha fazla bilgi edinin.
Mimari ve Tasarım
YOLOv5 , gradyan akışını iyileştirmek ve hesaplama maliyetini azaltmak için Cross Stage Partial ağlarını entegre eden CSPDarknet backboneYOLOv5 . Boynu, etkili özellik piramidi toplama için PANet (Path Aggregation Network) kullanır ve farklı ölçeklerden gelen özelliklerin verimli bir şekilde birleştirilmesini sağlar.
Temel mimari özellikler şunları içerir:
- Anchor Tabanlı Algılama: Nesne konumlarını tahmin etmek için önceden tanımlanmış anchor kutuları kullanır; bu, sağlam konum belirleme için kanıtlanmış bir yöntemdir.
- Mozaik Veri Artırma: Dört görüntüyü birleştiren bir eğitim tekniği olup, modele çeşitli bağlamlarda ve ölçeklerde detect öğretir.
- SiLU Aktivasyonu: Geleneksel ReLU'ya kıyasla derin sinir ağlarının yakınsamasını iyileştiren daha yumuşak aktivasyon fonksiyonları.
Dağıtımda Güçlü Yönler
YOLOv5 , kullanım kolaylığı açısındanYOLOv5 . "Sıfırdan kahramana" iş akışı, geliştiricilerin birkaç dakika içinde veri kümesinden dağıtılmış modele geçmelerini sağlar. Ultralytics , veri açıklama, bulut eğitimi ve tek tıklamayla ONNX, TensorRTve CoreML.
Bellek yoğunluğu yüksek olabilen transformatör modellerinden farklı olarak, YOLOv5 eğitim sırasında önemli ölçüde daha düşük bellek gereksinimlerine YOLOv5 . Bu verimlilik, tüketici sınıfı GPU'larda ve hatta NVIDIA gibi uç cihazlarda çalışmasına olanak tanır, bu da onu vahşi yaşamın korunmasından perakende analizine kadar gerçek dünya uygulamaları için son derece çok yönlü hale getirir.
RT-DETRv2: Transformer Challenger
RT-DETRv2 Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), orijinal RT-DETR başarısını temel alarak, dönüştürücülerin doğruluğunu gerçek zamanlı hızlara ulaştırmayı amaçlamaktadır. Kodlayıcı-kod çözücü yapısını optimize ederek, genellikle Görsel Dönüştürücüler (ViT'ler) ile ilişkili yüksek hesaplama maliyetini ele almaktadır.
- Yazarlar: Wenyu Lv, Yian Zhao ve diğerleri.
- Kuruluş: Baidu
- Tarih: 17.04.2023 (v1), 24.07.2024 (v2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:RT-DETR
RT-DETR hakkında daha fazla bilgi edinin
Mimari ve Tasarım
RT-DETRv2 , CNN backbone genellikle ResNet veya HGNet) verimli bir dönüştürücü kodlayıcı-kod çözücü ile birleştiren hibrit bir mimari RT-DETRv2 .
- Hibrit Kodlayıcı: Hesaplama yükünü azaltmak için ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayırır.
- IoU Query Selection: Yüksek güvenilirlikli özelliklere öncelik vererek nesne sorgularının başlatılmasını iyileştirir.
- Anchor-Free: Önceden tanımlanmış bağlantı noktaları olmadan doğrudan sınırlayıcı kutuları tahmin eder, teorik olarak çıktı başlığını basitleştirir.
- NMS: Önemli bir satış noktası, post-processing sırasında gecikme varyansını azaltabilen Non-Maximum Suppression (NMS) özelliğinin kaldırılmasıdır.
Dağıtım Hususları
RT-DETRv2 rekabetçi bir doğruluk RT-DETRv2 , daha yüksek kaynak gereksinimleri ile birlikte gelir. Transformatör tabanlı modellerin eğitimi, YOLOv5 gibi CNN'lere kıyasla genellikle daha fazla GPU ve daha uzun eğitim süreleri gerektirir. Ayrıca, NMS kaldırılması gecikme süresi kararlılığı açısından avantajlı NMS da, dikkat katmanlarındaki ağır matris çarpımları, özel tensor bulunmayan eski donanımlarda veya uç cihazlarda daha yavaş olabilir.
Performans Metrikleri Karşılaştırması
Aşağıdaki tablo, COCO veri RT-DETRv2 YOLOv5 RT-DETRv2 performanslarını karşılaştırmaktadır. RT-DETRv2 yüksek doğruluk (mAP) RT-DETRv2 , YOLOv5 özellikle standart donanımlarda YOLOv5 daha üstün bir parametre başına hız oranı sunmaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Performans Dengesi
RT-DETRv2 daha yüksek tepe mAP RT-DETRv2 da, model boyutu ve hızındaki önemli farka dikkat edin. YOLOv5n, T4 GPU'larda en küçük RT-DETRv2 neredeyse 5 kat daha hızlı çalışır, bu da onu kaynakları son derece kısıtlı uç uygulamalar için üstün bir seçim haline getirir.
Temel Farklılıklar ve Kullanım Durumları
1. Eğitim Verimliliği ve Ekosistem
Ultralytics'in en önemli avantajlarından biri Ultralytics YOLOv5 'nin en önemli avantajlarından biri Eğitim Verimliliğidir. Daha az güçlü donanımlarla daha küçük veri kümeleri üzerinde etkili bir şekilde eğitim yapabilme özelliği, AI'ya erişimi demokratikleştirir. Entegre Ultralytics , kullanıcıların eğitim metriklerini görselleştirmelerine, veri kümelerini yönetmelerine ve modelleri sorunsuz bir şekilde dağıtmalarına olanak tanır.
Buna karşılık, RT-DETRv2 eğitimi, dönüştürücü dikkat mekanizmalarının doğası gereği, RT-DETRv2 daha fazla CUDA ve yakınsama noktasına ulaşmak için daha uzun eğitim dönemleri gerektirir. Hızlı yineleme yapan geliştiriciler için, YOLOv5 hızlı eğitim döngüleri üretkenliği önemli ölçüde YOLOv5 .
2. Çok yönlülük
YOLOv5 sadece bir nesne algılayıcı YOLOv5 . Ultralytics , yeteneklerini şu alanlara genişletir:
- Örnek Segmentasyonu: Nesneleri piksel düzeyinde segmentlere ayırma.
- Görüntü Sınıflandırma: Görüntülerin tamamını verimli bir şekilde kategorilere ayırma.
- Poz Tahmini: İnsan vücutları üzerindeki anahtar noktaları algılama.
Bu çok yönlülük, tek bir kütüphanenin spor analizinden tıbbi görüntülemeye kadar tüm uygulama paketini destekleyebilmesi anlamına gelir ve kod karmaşıklığını ve bakım maliyetlerini azaltır. RT-DETRv2 , öncelikle algılama üzerine RT-DETRv2 ve birleşik bir iş akışında bu yardımcı görevler için daha az olgun bir destek sunar.
3. Kenar ve CPU
CPU'larda (IP kameralarda veya bulut işlevlerinde yaygın olarak kullanılır) veya mobil cihazlarda kullanıma uygun olarak, YOLOv5 CNN mimarisi yüksek düzeyde optimize edilmiştir. Aşağıdakilere aktarımı destekler TFLite ve CoreML 'e dışa aktarmayı destekler. RT-DETRv2 gibi dönüştürücü modeller, standart CPU kolayca hızlandırılamayan karmaşık matris işlemleri nedeniyleGPU gecikmeyle mücadele RT-DETRv2 .
Öneri: Ultralytics
RT-DETRv2 etkileyici akademik sonuçlar RT-DETRv2 , Ultralytics YOLO üretim sistemleri için daha bütünsel bir çözüm sunar. En son Python , donanım sürücüleri ve dışa aktarım formatlarıyla uyumluluğu sağlayan İyi Bakımlı Ekosistem, uzun vadeli projeler için gönül rahatlığı sağlar.
2026 yılında yeni projeler başlatanlar için Ultralytics 'yı incelemenizi şiddetle tavsiye ederiz.
Neden YOLO26'yı Seçmelisiniz?
YOLO26, CNN'lerin ve Transformer'ların en iyi özelliklerini bir araya getirerek verimliliğin zirvesini temsil eder.
- Yerel olarak uçtan uca: RT-DETRv2 gibi, YOLO26 da NMS içermez, bu da dağıtım süreçlerini basitleştirir.
- MuSGD Optimizer: Daha hızlı yakınsama ve kararlılık için çığır açan bir hibrit optimizer.
- Kenar Optimizasyonu: Önceki nesillere kıyasla %43'e kadar daha hızlı CPU için özel olarak tasarlanmıştır.
- DFL Kaldırma: Kenar cihazlara daha iyi aktarılabilirlik için basitleştirilmiş kayıp işlevleri.
YOLO26 hakkında daha fazla bilgi edinin
Kod Örneği: YOLOv5 Çalıştırma
Ultralytics basitliği, yaygın olarak benimsenmesinin başlıca nedenidir. İşte, çıkarımları ne kadar kolay yükleyip çalıştırabileceğiniz.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
Karşılaştırma amacıyla, Ultralytics aynı basit arayüz üzerinden RT-DETR Ultralytics desteklemektedir:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
Sonuç
Hem YOLOv5 RT-DETRv2 yetenekli RT-DETRv2 . RT-DETRv2 , NMS mimarisi ve yüksek doğruluğu ile transformatör tabanlı algılamanın geleceğine bir bakış RT-DETRv2 . Ancak, YOLOv5 , kenar cihazlarda eşsiz bir hız, daha düşük kaynak maliyetleri ve zengin bir araç ekosistemi sunarak pratik, gerçek dünya uygulamaları için güçlü bir seçenek olmaya devam etmektedir.
CNN'lerin hızı ve NMS transformatörlerin rahatlığını bir arada sunan "her iki dünyanın en iyisini" isteyen geliştiriciler içinUltralytics , 2026 ve sonrası için kesin seçimdir.