RTDETRv2 ve YOLOv5: Teknik Karşılaştırma
Doğru nesne algılama mimarisini seçmek, dağıtım maliyetlerinden kullanıcı deneyimine kadar her şeyi etkileyen çok önemli bir karardır. Bu ayrıntılı karşılaştırmada, Baidu'nun son teknoloji ürünü gerçek zamanlı dönüştürücüsü RTDETRv2 ile Ultralytics YOLOv5, bilgisayar görüşünde kullanım kolaylığı ve güvenilirlik konusunda standartları belirleyen efsanevi CNN tabanlı model arasındaki artıları ve eksileri inceliyoruz.
RTDETRv2, heyecan verici transformatör tabanlı yenilikler sunarken, YOLOv5 onun halefleri ( en son teknoloji YOLO26 gibi) çok yönlülük, dağıtım hızı ve geliştirici deneyimi açısından sektörün referans noktası olmaya devam ediyor.
Yönetici Özeti
RTDETRv2 (Real-Time Detection Transformer v2), GPU yüksek doğruluk elde ederken maksimum olmayan bastırmayı (NMS) ortadan kaldırmak için tasarlanmış DETR mimarisinin bir evrimidir. VRAM'in bol olduğu araştırma ortamları ve üst düzey sunucu dağıtımları için idealdir.
YOLOv5 (You Only Look Once v5), olgun ve üretime hazır bir CNN mimarisidir. "Kur ve çalıştır" basitliğiyle tanınan bu mimari, uç bilgi işlem, hızlı eğitim ve geniş donanım uyumluluğu alanlarında mükemmeldir. En yüksek hız ve doğruluğu arayan geliştiriciler için Ultralytics transformatörlerin NMS avantajlarını YOLO hızıyla birleştiren YOLO26'yı önermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Mimari ve Tasarım
Temel fark, bu modellerin görsel bilgileri işleme biçimlerinde yatmaktadır: Dönüştürücüler ve Evrişimli Sinir Ağları (CNN'ler).
RTDETRv2: Transformer Yaklaşımı
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş:Baidu
Tarih: 17 Nisan 2023 (Orijinal RT-DETR), 2024 (v2)
Bağlantılar:ArXiv | GitHub
RTDETRv2, hibrit bir kodlayıcı-kod çözücü mimarisi kullanır. Özellikleri çıkarmak için bir CNN backbone genellikle ResNet veya HGNetv2) kullanır ve bu özellikler daha sonra verimli bir dönüştürücü kodlayıcı tarafından işlenir. En önemli yenilik, hesaplama maliyetlerini azaltmak için ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayıran Hibrit Kodlayıcıdır.
En dikkat çekici özelliği NMS tahmini. Eğitim sırasında iki parçalı eşleştirme kullanarak, model nesne başına tam olarak bir kutu çıkarmayı öğrenir ve Non-Maximum Suppression (NMS) gibi son işlem adımlarına gerek kalmaz. Ancak bunun bedeli, saf CNN'lere kıyasla daha yüksek bellek tüketimi ve daha yavaş eğitim yakınsamasıdır.
YOLOv5: CNN Standardı
Yazar: Glenn Jocher
Kuruluş:Ultralytics
Tarih: 2020-06-26
Bağlantılar:Dokümanlar | GitHub
YOLOv5 , CSPNet backbone PANet boynu temelinde yüksek düzeyde optimize edilmiş bir CNN mimarisi YOLOv5 . Bu tasarım, gradyan akışını ve özelliklerin yeniden kullanımını önceliklendirir, böylece son derece hafif ve hızlı bir model ortaya çıkar. Küresel bağlamı öğrenmek için büyük veri kümelerine ihtiyaç duyan dönüştürücülerden farklı olarak, YOLOv5 tümevarımsal önyargısı, çok daha az hesaplama gücüyle daha küçük veri kümelerinden etkili bir şekilde öğrenmesini sağlar.
YOLOv5 hakkında daha fazla bilgi edinin.
Evrim: YOLO26
YOLOv5 NMS YOLOv5 , yeni Ultralytics , RTDETRv2'ye benzer bir Uçtan Uca NMS tasarım benimserken, YOLO hızını ve eğitim verimliliğini korur. Ayrıca, yakınsamayı önemli ölçüde hızlandıran MuSGD Optimizer'ı da sunar.
Performans Analizi
Çıkarım Hızı ve Gecikme Süresi
Üretime geçildiğinde, gecikme genellikle darboğaz oluşturur. YOLOv5 , CPU ortamlarda ve uç cihazlarda YOLOv5 . CNN'lerin mimari basitliği, standart işlemcilere ve mobil NPU'lara verimli bir şekilde eşlenir.
RTDETRv2, matris çarpma işlemlerinin etkili bir şekilde paralel hale getirildiği modern GPU'larda ( NVIDIA veya A100 gibi) öne çıkmaktadır. Ancak, Raspberry Pi gibi uç cihazlarda, dönüştürücü işlemleri aşırı derecede ağır olabilir ve bu da YOLOv5n veya YOLOv5s'e kıyasla daha düşük FPS'ye yol açabilir.
Doğruluk (mAP)
RTDETRv2, COCO YOLOv5 kıyasla genel olarak daha yüksek ortalama hassasiyet (mAP) elde eder, özellikle de küresel bağlamın çok önemli olduğu büyük nesneler ve karmaşık sahnelerde. Örneğin, RTDETRv2-L, daha az parametre kullanarak YOLOv5x'i (50,7%) geride bırakarak mAP elde eder.
Ultralytics cak, doğruluk tek ölçüt değildir. Küçük nesneler veya hareket bulanıklığı olan video akışlarının bulunduğu gerçek dünya senaryolarında, aradaki fark azalır. Ayrıca, YOLO11 ve YOLO26 gibi yeni Ultralytics modelleri bu farkı kapatarak, daha iyi verimlilikle benzer veya daha üstün doğruluk sunmaktadır.
Eğitim Verimliliği ve Ekosistem
Ultralytics işte bu noktada belirgin bir avantaj sağlar.
Ultralytics YOLOv5 YOLO26:
- Hızlı Yakınsama: CNN'ler genellikle transformatörlerden daha hızlı yakınsamaya sahiptir. Tek bir GPU üzerinde birkaç saat içinde kullanılabilir bir YOLOv5 eğitebilirsiniz.
- Düşük Bellek Ayak İzi: YOLO eğitimi önemli ölçüde daha az VRAM YOLO , bu da onu tüketici sınıfı kartlar (ör. RTX 3060) kullanan araştırmacılar için erişilebilir hale getirir.
- Veri Artırma: Ultralytics , varsayılan olarak etkinleştirilmiş en son teknoloji artırma stratejilerini (Mosaic, MixUp) içerir.
- Platform Entegrasyonu: Veri kümesi yönetimi, bulut eğitimi ve tek tıklamayla dağıtım için Ultralytics ile sorunsuz bir şekilde bağlantı kurun.
RTDETRv2:
- Kaynak Yoğun: Dönüştürücüler, eğitim sırasında veriye ve hesaplamaya yoğun ihtiyaç duymalarıyla bilinirler. Dikkat mekanizmasını stabilize etmek genellikle daha uzun eğitim programları gerektirir ( YOLO daha az sürede YOLO eşleştirmek için genellikle 72+ dönem gerekir).
- Karmaşık Yapılandırma: Araştırma odaklı bir veri deposu olarak, RTDETRv2'yi özel veri kümeleri için kurmak genellikle yapılandırma dosyalarını değiştirmek ve veri yükleyicileri manuel olarak uyarlamak anlamına gelir.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Gerçek Dünya Kullanım Durumları
YOLOv5 YOLO26 için İdeal Senaryolar
Ultralytics , ticari uygulamaların %90'ı için uygun olan bilgisayar görüşünün "İsviçre çakısı"dır.
- Edge AI & IoT: Güç tüketimi ve termal sınırlamaların katı kısıtlamalar olduğu NVIDIA veya mobil uygulamalar için mükemmeldir.
- Üretim: Üretim hızına ayak uydurmak için milisaniyeler içinde sonuç çıkarılması gereken montaj hattı kalite kontrolünde kullanılır.
- Çeşitli Görevler: Algılama ötesinde, Ultralytics doğal olarak Örnek Segmentasyonu, Poz Tahmini, OBB ve Sınıflandırmayı destekler.
- Tarım: YOLOv5n gibi hafif modeller, drone'ların donanımında doğrudan çalıştırılabilen drone tabanlı mahsul izleme için idealdir.
RTDETRv2 için İdeal Senaryolar
- Üst Düzey Gözetim: Kenar gecikmesinden ziyade maksimum doğruluğun tercih edildiği güçlü sunuculara bağlı sabit güvenlik kameraları.
- Akademik Araştırma: Dikkat mekanizmaları ve görme dönüştürücülerini keşfetmek.
- Kalabalık Sahneler: Donanım hesaplama yükünü destekleyebiliyorsa, küresel dikkat mekanizması bazen saf CNN'lerden daha iyi yoğun örtülmeleri işleyebilir.
Sonuç
RTDETRv2 ve YOLOv5 , nesne algılama tarihinde önemli kilometre YOLOv5 . RTDETRv2, dönüştürücülerin üst düzey GPU'larda gerçek zamanlı olarak çalışabileceğini kanıtlayarak yüksek doğruluk ve zarif, NMS bir mimari sunar.
Ancak, geliştiricilerin ve ticari uygulamaların büyük çoğunluğu için Ultralytics hala en iyi seçimdir. Olgunlaşmış YOLOv5 ekosistemi ile YOLO26 'daki en son yeniliklerin birleşimi, her türlü kısıtlama için doğru araca sahip olmanızı sağlar.
Neden YOLO26'ya yükseltmelisiniz? 2026'da yeni bir proje için bu modelleri karşılaştırıyorsanız, YOLO26'yı şiddetle tavsiye ederiz. Bu model, her iki dünyanın en iyi özelliklerini bir araya getirir:
- Yerel olarak uçtan uca: RTDETRv2 gibi, daha basit dağıtım NMS kaldırır.
- %43'e kadar daha hızlı CPU : Ağır dönüştürücülerden farklı olarak, özellikle uç için optimize edilmiştir.
- Görev Çok Yönlülüğü: Tek bir çerçevede algılama, segmentasyon, poz ve OBB'yi destekler.
YOLO26 hakkında daha fazla bilgi edinin
Diğer mimariler hakkında daha fazla bilgi için, RT-DETR YOLO11 ve YOLOv8 EfficientDet karşılaştırmalarımızı inceleyin.