RTDETRv2 vs YOLOv7: Ayrıntılı Teknik Karşılaştırma
Gerçek zamanlı nesne alg ılama alanı, Evrişimsel Sinir Ağları (CNN'ler) ile yeni ortaya çıkan Görüntü Dönüştürücüler (ViT'ler) arasında kıyasıya bir rekabete sahne olmuştur. Bu evrimdeki iki önemli kilometre taşı RTDETRv2 (Real-Time Detection Transformer v2) ve YOLOv7 (You Only Look Once sürüm 7). YOLOv7 , verimli CNN mimarisi optimizasyonunun zirvesini temsil ederken, RTDETRv2, Maksimum Olmayan BastırmaNMS) gibi işlem sonrası adımlara olan ihtiyacı ortadan kaldırmak için transformatörlerin gücünü sunar.
Bu karşılaştırma, geliştiricilerin bilgisayarla görme uygulamaları için doğru aracı seçmelerine yardımcı olmak amacıyla her iki modelin teknik özelliklerini, mimari farklılıklarını ve performans ölçümlerini incelemektedir.
Performans Ölçütleri: Doğruluk ve Hız
Aşağıdaki tabloda temel performans ölçümlerinin doğrudan bir karşılaştırması sunulmaktadır. RTDETRv2-x, büyük ölçüde transformatör tabanlı küresel bağlam anlayışı sayesinde daha yüksek bir mAP ile üstün doğruluk göstermektedir. Ancak, YOLOv7 özellikle daha hafif ve farklı donanımlarda dengeli çıkarım hızlarının gerekli olduğu senaryolarda rekabetçi olmaya devam etmektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: Transformatör Yaklaşımı
RTDETRv2, gerçek zamanlı hızda YOLO modellerine gerçekten rakip olan ilk transformatör tabanlı dedektör olan orijinal RT-DETR'nin başarısı üzerine inşa edilmiştir. Baidu'daki araştırmacılar tarafından geliştirilen bu sistem, standart DETR mimarilerindeki çok ölçekli etkileşimle ilişkili hesaplama darboğazlarını ele almaktadır.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon:Baidu
- Tarih: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Temel Mimari Özellikler
RTDETRv2, ölçek içi etkileşimi ve ölçekler arası füzyonu ayırarak çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanır. Bu tasarım, standart dönüştürücülere kıyasla hesaplama maliyetlerini önemli ölçüde azaltır. Öne çıkan bir özellik de nesne sorgularının başlatılmasını iyileştirerek daha hızlı yakınsama ve daha yüksek doğruluk sağlayan IoU sorgu seçimidir. CNN tabanlı modellerin aksine RTDETRv2 NMS içermez, yani işlem sonrası Maksimum Olmayan Bastırma gerektirmez, dağıtım hattını basitleştirir ve gecikme titreşimini azaltır.
Transformatör Avantajı
RTDETRv2 mimarisinin birincil avantajı, küresel bağlamı yakalama yeteneğidir. CNN'ler yerelleştirilmiş alıcı alanlara bakarken, dönüştürücülerdeki kendi kendine dikkat mekanizması, modelin nesneleri tespit ederken tüm görüntü bağlamını dikkate almasını sağlar; bu da oklüzyonlu karmaşık sahnelerdeki belirsizlikleri çözmek için faydalıdır.
RT-DETR hakkında daha fazla bilgi edinin
YOLOv7: CNN Zirvesi
YOLOv7 , Evrişimsel Sinir Ağları ile mümkün olanın sınırlarını zorluyor. Çıkarım maliyetini artırmadan doğruluğu artıran yöntemler olan "bedava torba" elde etmek için eğitim sürecini ve model mimarisini optimize etmeye odaklanır.
- Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
- Organizasyon: Bilgi Bilimleri Enstitüsü, Academia Sinica
- Tarih: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
Temel Mimari Özellikler
YOLOv7 , gradyan yol uzunluğunu kontrol ederek ağın öğrenme kapasitesini artıran E-ELAN 'ı (Genişletilmiş Verimli Katman Toplama Ağı) sunar. Ayrıca, daha iyi öğrenme için eğitim sırasında model yapısının karmaşık olduğu ancak hız için çıkarım sırasında basitleştirildiği bir teknik olan model yeniden parametrelendirmeyi de kullanır. Bu, YOLOv7 'nin GPU cihazlarında yüksek performansı korumasına ve parametreleri transformatör modellerine kıyasla nispeten düşük tutmasına olanak tanır.
YOLOv7 hakkında daha fazla bilgi edinin
Karşılaştırma Analizi
Mimari ve Çok Yönlülük
Temel fark backbone ve kafa tasarımında yatmaktadır. YOLOv7 , aşağıdakiler için son derece optimize edilmiş derin CNN yapılarına dayanır CUDA ancak bir görüntüdeki uzun menzilli bağımlılıklarla mücadele edebilir. RTDETRv2, uzaktaki pikseller arasındaki ilişkileri anlamak için dikkat mekanizmalarından yararlanır ve bu da onu dağınık ortamlarda sağlam hale getirir. Ancak bu, eğitim sırasında daha yüksek bellek tüketimine mal olur.
Ultralytics modelleri gibi YOLO11 Modern dikkat benzeri modülleri entegre eden CNN tabanlı bir mimari sunarak bu boşluğu doldurur ve genellikle dönüştürücüler için ayrılan doğrulukla CNN'lerin hızını sağlar. Ayrıca, RTDETRv2 öncelikle bir nesne algılayıcı olsa da, yeni Ultralytics modelleri örnek segmentasyonunu, poz tahminini ve sınıflandırmayı yerel olarak desteklemektedir.
Eğitim ve Kullanım Kolaylığı
RTDETRv2 gibi dönüştürücü modellerin eğitimi, YOLOv7 gibi CNN'lere kıyasla genellikle önemli GPU belleği ve daha uzun eğitim dönemleri gerektirir.
Geliştiriciler için Eğitim Verimliliği ve Kullanım KolaylığıUltralytics ekosistemi belirgin bir avantaj sunar. İle ultralytics Python paketi sayesinde kullanıcılar, farklı görevler için önceden eğitilmiş ağırlıklardan oluşan bir pakete erişerek modelleri yalnızca birkaç satır kodla eğitebilir, doğrulayabilir ve dağıtabilir.
from ultralytics import RTDETR, YOLO
# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt") # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)
# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")
Dağıtım ve Ekosistem
YOLOv7 , yaşı nedeniyle yaygın bir desteğe sahiptir, ancak modern MLOps boru hatlarına entegrasyon manuel olabilir. RTDETRv2 daha yenidir ve giderek artan bir desteğe sahiptir. Tam tersine, Ultralytics modeller, sorunsuz ihracat da dahil olmak üzere Bakımlı Bir Ekosistemden yararlanır ONNX, TensorRT ve CoreML ve bulut eğitimi ve veri kümesi yönetimi için Ultralytics HUB gibi araçlarla entegrasyon.
İdeal Kullanım Senaryoları
- Aşağıdaki durumlarda RTDETRv2'yi seçin: Geniş GPU belleğiniz varsa ve NMS 'nin geleneksel olarak başarısız olduğu yoğun tıkanıklık veya kalabalık sahnelerde yüksek hassasiyete ihtiyacınız varsa. Araştırma ve üst düzey gözetim sistemleri için mükemmeldir.
- Aşağıdaki durumlarda YOLOv7 'yi seçin: Genel amaçlı algılama görevleri için standart GPU donanımında verimli bir şekilde çalışan kanıtlanmış, eski bir CNN mimarisine ihtiyacınız varsa.
- Aşağıdaki durumlarda Ultralytics YOLO11 'i seçin: Hız ve doğruluk arasında en iyi Performans Dengesine, daha düşük Bellek gereksinimlerine ve algılama, segmentasyon ve poz tahmini yapabilen çok yönlü bir modele ihtiyacınız varsa. Kolaylaştırılmış bir iş akışına ve kapsamlı belgelere değer veren geliştiriciler için ideal seçimdir.
Neden YOLO11'e Yükseltme?
YOLOv7 ve RTDETRv2 güçlü olsa da, YOLO11 görsel yapay zekadaki en son evrimi temsil ediyor. Dönüştürücülerden daha az CUDA belleği gerektirir, daha hızlı eğitir ve uç cihazlardan bulut sunucularına kadar daha geniş bir donanım yelpazesinde son teknoloji ürünü doğruluk sunar.
Sonuç
Hem RTDETRv2 hem de YOLOv7 bilgisayarla görmenin yönünü şekillendirmiştir. RTDETRv2, dönüştürücülerin gerçek zamanlı uygulamalar için çok yavaş olduğu fikrine başarıyla meydan okurken, YOLOv7 CNN'lerin kalıcı verimliliğini göstermiştir. Bununla birlikte, günümüzde çoğu gerçek dünya uygulaması için Ultralytics YOLO11 modeli, bu öncüllerin en iyi özelliklerini modern ve destekleyici bir ekosistemle birleştirerek üstün bir geliştirici deneyimi sunuyor.
Diğer Karşılaştırmaları İnceleyin
Model ortamını daha iyi anlamak için bu karşılaştırmaları inceleyin:
- YOLO11 - RT-DETR Karşılaştırması
- YOLOv8 - RT-DETR karşılaştırması
- YOLOv7 vs. YOLOv8
- YOLOv10 vs. RT-DETR
- YOLOv9 vs. YOLOv7