RTDETRv2 ve YOLOv7: Ayrıntılı Teknik Karşılaştırma
Gerçek zamanlı nesne tespiti alanı, Evrişimsel Sinir Ağları (CNN'ler) ve yükselen Görüntü Dönüştürücüler (ViT'ler) arasında şiddetli bir rekabete tanık olmuştur. Bu evrimdeki iki önemli kilometre taşı RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü v2) ve YOLOv7 (You Only Look Once sürüm 7)'dir. YOLOv7, verimli CNN mimarisi optimizasyonunun zirvesini temsil ederken, RTDETRv2, Non-Maximum Suppression (NMS) gibi işlem sonrası adımlara olan ihtiyacı ortadan kaldırmak için dönüştürücülerin gücünü sunar.
Bu karşılaştırma, geliştiricilerin bilgisayarlı görü uygulamaları için doğru aracı seçmelerine yardımcı olmak amacıyla her iki modelin teknik özelliklerini, mimari farklılıklarını ve performans metriklerini incelemektedir.
Performans Metrikleri: Doğruluk - Hız Karşılaştırması
Aşağıdaki tablo, temel performans metriklerinin doğrudan bir karşılaştırmasını sunmaktadır. RTDETRv2-x, büyük ölçüde transformer tabanlı global bağlam anlayışı sayesinde daha yüksek bir mAP ile üstün doğruluk göstermektedir. Bununla birlikte, YOLOv7, özellikle değişen donanımlarda daha hafif ağırlık ve dengeli çıkarım hızlarının gerekli olduğu senaryolarda rekabetçi kalmaya devam etmektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: Transformer Yaklaşımı
RTDETRv2, gerçek zamanlı hızda YOLO modelleriyle gerçekten rekabet eden ilk dönüştürücü tabanlı algılayıcı olan orijinal RT-DETR'nin başarısı üzerine kurulmuştur. Baidu'daki araştırmacılar tarafından geliştirilen bu model, standart DETR mimarilerindeki çok ölçekli etkileşimle ilişkili hesaplama darboğazlarını ele alır.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Temel Mimari Özellikler
RTDETRv2, ölçek içi etkileşim ve ölçekler arası füzyonu ayırarak çok ölçekli özellikleri verimli bir şekilde işleyen bir hibrit kodlayıcı kullanır. Bu tasarım, standart transformer'lara kıyasla hesaplama maliyetlerini önemli ölçüde azaltır. Öne çıkan bir özellik, nesne sorgularının başlatılmasını iyileştiren, daha hızlı yakınsamaya ve daha yüksek doğruluğa yol açan IoU-farkındalıklı sorgu seçimidir. CNN tabanlı modellere aksine, RTDETRv2 NMS-sizdir, yani Non-Maximum Suppression (Maksimum Olmayan Bastırma) işlem sonrası gerektirmez, bu da dağıtım hattını basitleştirir ve gecikme titreşimini azaltır.
Transformatör Avantajı
RTDETRv2 mimarisinin temel avantajı, küresel bağlamı yakalama yeteneğidir. CNN'ler yerelleştirilmiş alıcı alanlara bakarken, transformatörlerdeki self-attention mekanizması, modelin nesneleri algılarken tüm görüntü bağlamını dikkate almasına olanak tanır, bu da tıkanıklık olan karmaşık sahnelerdeki belirsizlikleri çözmek için faydalıdır.
RT-DETR hakkında daha fazla bilgi edinin
YOLOv7: CNN Zirvesi
YOLOv7, Evrişimsel Sinir Ağları ile mümkün olanın sınırlarını zorlar. Çıkarım maliyetini artırmadan doğruluğu artıran yöntemler olan "bedava fırsatlar çantası" elde etmek için eğitim sürecini ve model mimarisini optimize etmeye odaklanır.
- Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
- Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica
- Tarih: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
Temel Mimari Özellikler
YOLOv7, gradyan yolu uzunluğunu kontrol ederek ağın öğrenme yeteneğini geliştiren E-ELAN (Genişletilmiş Verimli Katman Toplama Ağı)'nı sunar. Ayrıca, daha iyi öğrenme için eğitim sırasında model yapısının karmaşık olduğu ancak hız için çıkarım sırasında basitleştirildiği bir teknik olan model yeniden parametrelendirmeyi kullanır. Bu, YOLOv7'nin GPU cihazlarında yüksek performansı korurken, parametreleri transformatör modellerine kıyasla nispeten düşük tutmasını sağlar.
YOLOv7 hakkında daha fazla bilgi edinin
Karşılaştırma Analizi
Mimari ve Çok Yönlülük
Temel fark, backbone ve başlık tasarımında yatmaktadır. YOLOv7, CUDA hızlandırması için yüksek oranda optimize edilmiş ancak bir görüntüdeki uzun menzilli bağımlılıklarla mücadele edebilecek derin CNN yapılarına dayanır. RTDETRv2, uzak pikseller arasındaki ilişkileri anlamak için dikkat mekanizmalarından yararlanarak karmaşık ortamlarda sağlam olmasını sağlar. Ancak bu, eğitim sırasında daha yüksek bellek tüketimi pahasına gelir.
YOLO11 gibi Ultralytics modelleri, modern dikkat benzeri modülleri entegre eden bir CNN tabanlı mimari sunarak bu boşluğu doldurur ve CNN'lerin hızını genellikle transformatörlere ayrılmış doğrulukla sağlar. Ayrıca, RTDETRv2 öncelikle bir nesne tespit aracı olsa da, daha yeni Ultralytics modelleri yerel olarak örnek segmentasyonu, poz tahmini ve sınıflandırmayı destekler.
Eğitim ve Kullanım Kolaylığı
RTDETRv2 gibi transformatör modellerini eğitmek, YOLOv7 gibi CNN'lere kıyasla genellikle önemli miktarda GPU belleği ve daha uzun eğitim dönemleri gerektirir.
Arayan geliştiriciler için Eğitim Verimliliği ve Kullanım Kolaylığı, Ultralytics ekosistemi belirgin bir avantaj sunar. İle ultralytics Python paketi sayesinde, kullanıcılar yalnızca birkaç satır kodla modelleri eğitebilir, doğrulayabilir ve dağıtabilir ve çeşitli görevler için önceden eğitilmiş bir dizi ağırlığa erişebilir.
from ultralytics import RTDETR, YOLO
# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt") # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)
# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")
Dağıtım ve Ekosistem
YOLOv7, yaşı nedeniyle yaygın desteğe sahiptir, ancak modern MLOps ardışık düzenlerine entegrasyonu manuel olabilir. RTDETRv2 daha yenidir ve artan desteğe sahiptir. Buna karşılık, Ultralytics modelleri, bulut eğitimi ve veri kümesi yönetimi için ONNX, TensorRT ve CoreML'ye sorunsuz dışa aktarma ve Ultralytics HUB gibi araçlarla entegrasyon dahil olmak üzere İyi Yönetilen bir Ekosistemden yararlanır.
İdeal Kullanım Senaryoları
- RTDETRv2'yi şu durumlarda seçin: Bol miktarda GPU belleğiniz varsa ve NMS'nin geleneksel olarak başarısız olduğu ağır tıkanıklık veya kalabalık sahnelerde yüksek hassasiyet gerektiriyorsa. Araştırma ve üst düzey gözetim sistemleri için mükemmeldir.
- Aşağıdaki durumlarda YOLOv7'yi seçin: Genel amaçlı detect görevleri için standart GPU donanımında verimli bir şekilde çalışan, kanıtlanmış, eski bir CNN mimarisine ihtiyacınız varsa.
- Aşağıdaki durumlarda Ultralytics YOLO11'i Seçin: Hız ve doğruluk arasında en iyi Performans Dengesi'ne, daha düşük Bellek gereksinimlerine ve detect, segmentasyon ve poz tahmini yapabilen çok yönlü bir modele ihtiyacınız var. Kolaylaştırılmış bir iş akışına ve kapsamlı belgelendirmeye değer veren geliştiriciler için ideal seçimdir.
Neden YOLO11'e Yükseltmelisiniz?
YOLOv7 ve RTDETRv2 güçlü olsa da, YOLO11 görüntü yapay zekasındaki en son evrimi temsil ediyor. Dönüştürücülerden daha az CUDA belleği gerektirir, daha hızlı eğitilir ve uç cihazlardan bulut sunucularına kadar daha geniş bir donanım yelpazesinde son teknoloji doğruluğu sunar.
Sonuç
Hem RTDETRv2 hem de YOLOv7, bilgisayar görüşünün yönünü şekillendirdi. RTDETRv2, transformatörlerin gerçek zamanlı uygulamalar için çok yavaş olduğu düşüncesine başarıyla meydan okurken, YOLOv7 CNN'lerin kalıcı verimliliğini gösterdi. Ancak, günümüzdeki çoğu gerçek dünya uygulaması için Ultralytics YOLO11 modeli, bu öncüllerin en iyi özelliklerini modern ve destekleyici bir ekosistemle birleştirerek üstün bir geliştirici deneyimi sunar.
Diğer Karşılaştırmaları İnceleyin
Model yapısını daha iyi anlamak için, bu karşılaştırmaları inceleyin:
- YOLO11 - RT-DETR Karşılaştırması
- YOLOv8 - RT-DETR karşılaştırması
- YOLOv7 - YOLOv8 karşılaştırması
- YOLOv10 - RT-DETR Karşılaştırması
- YOLOv9 - YOLOv7 Karşılaştırması