RTDETRv2 vs. YOLOv9: Son Teknoloji Tespit Modellerinin Teknik Karşılaştırması
Hızla gelişen bilgisayarla görme alanında, doğru nesne algılama mimarisini seçmek doğruluk, hız ve hesaplama kaynaklarını dengelemek için kritik öneme sahiptir. Bu kılavuz, gelişmiş bir transformatör tabanlı model olan RTDETRv2 (Real-Time Detection Transformer v2) ile YOLOv9Ultralytics ekosistemine entegre edilmiş son teknoloji ürünü verimlilik odaklı bir modeldir.
RTDETRv2 transformatör tabanlı algılamanın sınırlarını zorlarken, YOLOv9 parametre verimliliğini en üst düzeye çıkarmak için Programlanabilir Gradyan Bilgisi (PGI) gibi yeni mimari kavramlar sunar. Aşağıda, hangi modelin proje ihtiyaçlarınıza uygun olduğuna karar vermenize yardımcı olmak için mimarilerini, performans ölçümlerini ve ideal dağıtım senaryolarını analiz ediyoruz.
Performans Ölçütleri: Doğruluk ve Hız
Aşağıdaki tabloda COCO veri kümesi üzerinde değerlendirilen temel performans ölçümlerinin bire bir karşılaştırması sunulmaktadır. YOLOv9 'un RTDETRv2'ye kıyasla önemli ölçüde daha düşük hesaplama maliyetleri (FLOP'lar) ve daha yüksek çıkarım hızları ile nasıl rekabetçi veya üstün doğrulukmAP) elde ettiğini vurgulamaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Görüldüğü gibi, YOLOv9e daha az FLOP (189B'ye karşı 259B) kullanırken doğrulukta RTDETRv2-x 'den daha iyi performans göstermektedir (%55,6 'ya karşı %54,3 mAP). Bu verimlilik, YOLOv9 'u donanım kaynaklarının önemli olduğu gerçek zamanlı uygulamalar için cazip bir seçenek haline getirmektedir.
RTDETRv2: Algılama Dönüştürücüsünün Geliştirilmesi
RTDETRv2, orijinal RTDETRv2 'nin geliştirilmiş halidir. RT-DETRbir transformatör mimarisinden yararlanarak geleneksel çapa tabanlı dedektörlerin sınırlamalarını ele almak için tasarlanmıştır. "Bag-of-Freebies" yaklaşımı, eğitim stratejilerinin optimizasyonu ve dinamik kelime dağarcığı boyutlandırma yoluyla gerçek zamanlı algılama transformatörlerinin kararlılığını ve performansını artırmaya odaklanmaktadır.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon:Baidu
- Tarih: 2024-07-24
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Dokümanlar:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Mimari ve Temel Özellikler
RTDETRv2 hibrit bir kodlayıcı-kod çözücü mimarisi kullanır. Kodlayıcı görüntü özelliklerini işlerken, dönüştürücü kod çözücü nesne sorguları üretir. Temel mimari iyileştirmeler arasında, dinamik sorgu seçimine olanak tanıyan ve tipik olarak dönüştürücülerle ilişkili hesaplama ek yükünü azaltan optimize edilmiş bir dikkat mekanizması bulunmaktadır.
CNN tabanlı omurgalara ve kafalara dayanan standart YOLO modellerinin aksine, RTDETRv2 "çapa" kavramını algılama kafasından ayırarak nesne algılamayı doğrudan bir küme tahmin problemi olarak ele alır. Bu, birçok konfigürasyonda Maksimum Olmayan Bastırma (NMS) ihtiyacını ortadan kaldırır ve teorik olarak işlem sonrası boru hattını basitleştirir.
Güçlü ve Zayıf Yönler
Güçlü Yönler:
- Hassasiyet: Küresel bağlam farkındalığı sayesinde karmaşık etkileşimlere veya oklüzyonlara sahip nesneleri tespit etmede üstündür.
- Ankrajsız: Manuel ankraj kutusu ayarlama ihtiyacını ortadan kaldırarak çeşitli veri kümeleri için yapılandırmayı basitleştirir.
- Uyarlanabilirlik: Dinamik kelime dağarcığı, modelin değişen eğitim koşullarına daha iyi uyum sağlamasına olanak tanır.
Zayıflıklar:
- Kaynak Yoğunluğu: Transformatör mimarileri genellikle CNN'lere kıyasla eğitim için daha fazla GPU belleği ve işlem gücü gerektirir.
- Çıkarım Gecikmesi: Optimizasyonlara rağmen dönüştürücüler, YOLOv9 gibi yüksek düzeyde optimize edilmiş CNN'lere kıyasla uç yapay zeka cihazlarında daha yavaş olabilir.
- Karmaşıklık: Dönüştürücüler için eğitim hattı ve hiperparametre ayarı, YOLO modellerine göre daha karmaşık olabilir.
İdeal Kullanım Senaryoları
RTDETRv2, hassasiyetin çok önemli olduğu üst düzey sunucu dağıtımları için çok uygundur, örneğin:
- Tıbbi Görüntüleme: Küresel bağlamın anomalileri tanımlamaya yardımcı olduğu karmaşık taramaları analiz etme.
- Havadan Gözetim: Büyük, yüksek çözünürlüklü uydu görüntülerinde küçük nesneleri tespit etme.
- Detaylı Kalite Kontrol: En küçük ayrıntıların ham hızdan daha önemli olduğu üretim hatalarının incelenmesi.
RT-DETR hakkında daha fazla bilgi edinin
YOLOv9: Programlanabilir Gradyanlarla Verimlilik
YOLOv9 sinir ağlarının derinliklerindeki bilgi darboğazı sorununu çözen mimari yenilikler getirerek YOLO ailesinde önemli bir sıçramayı temsil etmektedir. YOLOv9 , gradyan bilgisinin derin katmanlar boyunca korunmasını sağlayarak, olağanüstü parametre verimliliği ile en son teknolojiye sahip performansa ulaşır.
- Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organizasyon:Bilgi Bilimleri Enstitüsü, Academia Sinica, Tayvan
- Tarih: 2024-02-21
- Arxiv:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
- Dokümanlar:https://docs.ultralytics.com/models/yolov9/
Mimari: PGI ve GELAN
YOLOv9 çığır açan iki konsept sunuyor:
- Programlanabilir Gradyan Bilgisi (PGI): Ağ ağırlıklarını güncellemek için güvenilir gradyanlar üreten ve derin katmanların önemli özellik bilgilerini korumasını sağlayan yardımcı bir denetim çerçevesi. Bu, çıkarım maliyeti olmadan yeniden parametrelendirmenin faydalarını taklit eder.
- Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN): Parametre kullanımını ve hesaplama verimini (FLOP'lar) optimize eden hafif bir ağ mimarisi. GELAN, YOLOv9 'un seleflerine ve rakiplerine göre daha az bellek kullanırken daha hızlı çalışmasını sağlar.
Neden YOLOv9'u Seçmelisiniz?
YOLOv9 'un Ultralytics ekosistemine entegrasyonu, geliştiriciler için belirgin avantajlar sağlar:
- Eğitim Verimliliği: YOLOv9 , eğitim sırasında RTDETRv2 gibi dönüştürücü tabanlı modellere göre önemli ölçüde daha az GPU belleği gerektirir. Bu, tüketici sınıfı donanımlarda veya kurumsal kümelerde daha büyük parti boyutlarında eğitime olanak tanır.
- Kullanım Kolaylığı: Ultralytics Python API ile kullanıcılar YOLOv9 'u sadece birkaç satır kodla eğitebilir, doğrulayabilir ve dağıtabilir.
- Çok yönlülük: Öncelikle bir nesne alg ılama modeli olsa da, temel mimari, örnek segmentasyonu ve yönlendirilmiş sınırlayıcı kutu (OBB) algılama gibi görevleri destekleyecek kadar esnektir.
- Performans Dengesi: Gerçek zamanlı video analizi için gereken hız ile üst düzey doğruluk sağlayarak optimum bir denge kurar.
Ekosistem Avantajı
Ultralytics , tüm modelleri için birleşik bir arayüz sağlar. YOLOv8 veya YOLO11 'den YOLOv9 'a geçmek için yalnızca model adı dizesinin değiştirilmesi gerekir, bu da zahmetsiz kıyaslama ve denemeye olanak tanır.
İdeal Kullanım Senaryoları
YOLOv9 , hız ve verimlilik gerektiren gerçek dünya dağıtımları için tercih edilen seçimdir:
- Uç Bilişim: NVIDIA Jetson veya Raspberry Pi gibi gömülü cihazlarda dağıtım.
- Gerçek Zamanlı Analitik: Yüksek kare hızlarının gerekli olduğu trafik izleme, perakende analizleri ve spor analizleri.
- Mobil Uygulamalar: iOS ve Android cihazlarda verimli bir şekilde çalışan CoreML veya TFLite ihracat.
- Robotik: Otonom navigasyon ve etkileşim için hızlı algı sağlama.
YOLOv9 hakkında daha fazla bilgi edinin
Karşılaştırmalı Analiz: Mimari ve İş Akışı
RTDETRv2 ve YOLOv9 arasında karar verirken, temel mimari farklılıkları göz önünde bulundurun. RTDETRv2, küresel bağlamı anlamak için öz dikkat mekanizmalarını kullanarak Transformatörlerin gücüne güvenir. Bu genellikle zorlu statik görüntülerde daha yüksek doğrulukla sonuçlanır, ancak daha yüksek eğitim belleği tüketimi ve GPU olmayan donanımlarda daha yavaş çıkarım maliyeti vardır.
Aksine, YOLOv9 PGI tarafından geliştirilmiş evrimleşmiş bir CNN mimarisinden (GELAN) yararlanmaktadır. Bu tasarım doğası gereği daha donanım dostudur ve aşağıdaki gibi kütüphanelerde yıllarca süren CNN optimizasyonundan yararlanır TensorRT ve OpenVINO.
Eğitim Metodolojisi
RTDETRv2 eğitimi tipik olarak daha uzun bir yakınsama süresi ve dikkat haritalarını barındırmak için daha yüksek bellek gereksinimleri içerir. Buna karşılık, YOLOv9 , Ultralytics ekibi tarafından geliştirilen verimli eğitim süreçlerinden yararlanır. Önceden eğitilmiş ağırlıkların kullanılabilirliği ve Ultralytics HUB ile sorunsuz bir şekilde entegre olma yeteneği, veri açıklamasından model dağıtımına kadar iş akışını basitleştirir.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with high speed
results = model("path/to/image.jpg")
Sonuç: Hangi Model ihtiyaçlarınıza uygun?
Ticari ve araştırma uygulamalarının büyük çoğunluğu için, YOLOv9 önerilen seçimdir. Sağlam Ultralytics ekosistemi tarafından desteklenen doğruluk ve hız arasında üstün bir denge sunar. Düşük bellek ayak izi ve çok yönlü dağıtım seçenekleri, onu bulut sunucularından uç cihazlara kadar her şey için uygun hale getirir.
RTDETRv2, görüş dönüştürücülerinin benzersiz özelliklerinin belirli bir avantaj sağladığı ve hesaplama kısıtlamalarının birincil endişe kaynağı olmadığı akademik araştırmalar ve özel senaryolar için güçlü bir araç olmaya devam etmektedir.
Diğer Ultralytics Modellerini İnceleyin
Daha fazla seçenek arıyorsanız, Ultralytics çerçevesindeki bu alternatifleri göz önünde bulundurun:
- YOLO11: En yeni uygulamalar için hız ve hassasiyette daha fazla iyileştirme sunan YOLO serisinin en son yinelemesi.
- YOLOv8: Algılama, segmentasyon, poz tahmini ve sınıflandırmayı destekleyen, kararlılığı ve yaygın olarak benimsenmesiyle bilinen çok yönlü bir model.
- RT-DETR : Ultralytics , orijinal RT-DETR modelini de destekler ve tanıdık Ultralytics API'si içinde dönüştürücü tabanlı algılama ile deney yapmanıza olanak tanır.