RTDETRv2 vs. YOLOv9: Gerçek Zamanlı Tespit Transformer Modelleri ve CNN'lerin Karşılaştırılması
Bilgisayarlı görü alanı, temel olarak Evrişimli Sinir Ağları (CNN'ler) ile transformer tabanlı modeller arasında mimari felsefelerde büyüleyici bir ayrışmaya tanık oldu. RTDETRv2 ve YOLOv9'u karşılaştırırken geliştiriciler, aslında küresel dikkat mekanizmaları ile programlanabilir gradyan bilgisi arasındaki ödünleşimleri değerlendiriyorlar. Her iki model de kendi paradigmalarının zirvesini temsil ederek gerçek zamanlı nesne tespitinin sınırlarını zorluyor.
Modellere Giriş
RTDETRv2: Gerçek Zamanlı Tespit Transformer Modeli
Baidu araştırmacıları tarafından geliştirilen RTDETRv2, temel Gerçek Zamanlı Tespit Transformer modelini geliştirmek için bir "Bag-of-Freebies" (ücretsiz iyileştirmeler paketi) sunarak orijinal RT-DETR üzerine inşa edilmiştir. Transformer'ların geleneksel darboğazı olan çıkarım hızını ele alarak onları gerçek zamanlı uygulamalar için uygulanabilir hale getirir.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Organizasyon: Baidu
- Tarih: 2024-07-24
- Bağlantılar: Arxiv, GitHub
RTDETRv2'nin belirleyici bir özelliği, doğal olarak uçtan uca NMS içermeyen tasarımıdır. Post-processing (işlem sonrası) aşamasında NMS'yi tamamen kaldırarak, model çıkarım gecikmesini sabitler ve dağıtım sürecini basitleştirir. Küresel dikkat mekanizması, tüm görüntü bağlamını aynı anda değerlendirdiği için modelin karmaşık sahneleri anlamada ve yoğun kalabalık gruplarda mükemmel sonuçlar vermesini sağlar.
RTDETRv2 hakkında daha fazla bilgi edinin
YOLOv9: Programlanabilir Gradyan Bilgisi
Son derece verimli bir CNN tabanlı mimari olan YOLOv9, derin sinir ağlarında içsel olarak bulunan bilgi darboğazı problemini ele alır. Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) özelliklerini tanıtır.
- Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
- Kuruluş: Institute of Information Science, Academia Sinica
- Tarih: 21 Şubat 2024
- Bağlantılar: Arxiv, GitHub
YOLOv9, kanıtlanmış evrişimli sinir ağı temellerine güvenir ancak parametre verimliliğini maksimize eder. İleri besleme süreci sırasında kritik bilgileri koruyarak güvenilir ağırlık güncellemeleri sağlar ve böylece inanılmaz derecede hafif ancak oldukça doğru bir model ortaya koyar. Bununla birlikte, RTDETRv2'den farklı olarak YOLOv9 hala standart NMS işlem sonrası süreçlerine güvenir.
YOLOv9 hakkında daha fazla bilgi edin
Performans ve Kaynak Verimliliği
Bu modelleri üretim için değerlendirirken, ortalama Hassasiyeti (mAP) hesaplama maliyetine karşı dengelemek kritiktir. Aşağıdaki tablo, MS COCO veri kümesi üzerindeki performanslarını göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Bellek Gereksinimleri ve Eğitim Verimliliği
RTDETRv2 gibi transformer'lar, eğitim sırasında yüksek bellek kullanımıyla bilinir; genellikle tam yakınsama için önemli miktarda CUDA belleğine ve daha uzun eğitim sürelerine ihtiyaç duyarlar. Buna karşılık, YOLOv9 ve diğer Ultralytics YOLO modelleri gibi CNN mimarileri, son kullanıcı sınıfı donanımlarda daha büyük yığın boyutlarıyla eğitim yapmana olanak tanıyan olağanüstü derecede düşük bellek kullanımı sunar.
Donanım kullanımını maksimize etmek için, kolaylaştırılmış bulut eğitimi adına Ultralytics Platform kullanmayı düşün. Ortam kurulumunu ve optimum yığın boyutlandırmasını otomatik olarak yönetir.
Ultralytics Avantajı: Ekosistem ve Kullanım Kolaylığı
Orijinal RTDETRv2 veya YOLOv9 GitHub sayfaları gibi bağımsız depoları araştırmak oldukça öğretici olsa da, üretim ortamları kararlılık, kullanım kolaylığı ve bakımlı bir ekosistem gerektirir. Bu modelleri Ultralytics Python API aracılığıyla entegre etmek, sorunsuz bir geliştirici deneyimi sunar.
Birleşik API ve Çok Yönlülük
Ultralytics çerçevesi; veri yükleme, veri artırma ve dağıtık eğitimin karmaşıklıklarını soyutlar. Ayrıca, orijinal RTDETRv2 kesinlikle tespit üzerine odaklanmış olsa da, Ultralytics ekosistemi kullanıcıların Nesne Tespiti, Örnek Segmentasyonu ve Pose Tahmini arasında kolayca geçiş yapmasını sağlar.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")With robust documentation, automatic experiment tracking, and seamless export capabilities to formats like ONNX, TensorRT, and OpenVINO, Ultralytics drastically reduces the time from prototype to production.
İdeal Kullanım Durumları
RTDETRv2'nin En İyi Olduğu Alanlar
Küresel dikkat mekanizması sayesinde RTDETRv2, sunucu tarafı işleme ve küresel bağlamın en önemli olduğu ortamlar için bir güç merkezidir. Şu alanlarda üstündür:
- Tıbbi Görüntüleme: Çevreleyen bağlamın kritik olduğu durumlarda ince anomalileri tanımlama.
- Hava Gözetimi: Geleneksel CNN evrişimlerinin uzamsal önyargıları olmadan yüksek çözünürlüklü dron görüntülerinde küçük nesneleri tespit etme.
- Yoğun Kalabalık Analizi: Normalde çapa tabanlı modellerin kafasını karıştıran ciddi tıkanmaların olduğu durumlarda bireyleri takip etme.
YOLOv9'un En İyi Olduğu Alanlar
YOLOv9, kaynak kısıtlı uç cihaz dağıtımlarının şampiyonudur. Hesaplama verimliliği onu şu alanlar için ideal kılar:
- Robotik: Minimum gecikmenin gerektiği gerçek zamanlı navigasyon ve engellerden kaçınma.
- Akıllı Şehir IoT: Trafik izleme için NVIDIA Jetson gibi uç cihazlarda dağıtım yapma.
- Endüstriyel Denetim: Yüksek saniye başına kare (FPS) gerektiren hızlı montaj hattı kalite kontrolü.
Gelecek: Karşınızda Ultralytics YOLO26
YOLOv9 ve RTDETRv2 büyük adımlar temsil etse de, ortam hızla gelişti. Modern dağıtımlar için yeni piyasaya sürülen Ultralytics YOLO26, her iki mimari felsefenin nihai sinerjisini temsil ediyor.
Transformer'ların ve CNN'lerin en iyi yönlerini bir araya getiren YOLO26, yeni bir standart oluşturuyor:
- Uçtan Uca NMS İçermeyen Tasarım: RTDETRv2 gibi, YOLO26 da doğal olarak uçtan ucadır ve daha hızlı, daha basit ve oldukça öngörülebilir dağıtım hatları için NMS post-processing işlemini tamamen ortadan kaldırır.
- MuSGD Optimize Edici: Büyük Dil Modeli (LLM) eğitim tekniklerinden (Moonshot AI'ın Kimi K2'si gibi) esinlenen YOLO26, SGD ve Muon'un bir hibritini kullanır. Bu, bilgisayarlı görü için benzersiz bir eğitim kararlılığı ve hızlı yakınsama sağlar.
- %43'e Kadar Daha Hızlı CPU Çıkarımı: Ağır transformer'ların aksine YOLO26, uç bilişim ve GPU'suz cihazlar için yoğun şekilde optimize edilmiştir.
- DFL Kaldırma: Distribution Focal Loss'un kaldırılması, model grafiğini önemli ölçüde basitleştirir ve düşük güçlü uç cihazlara ve gömülü Sinir İşleme Birimlerine (NPU'lar) kusursuz dışa aktarımı sağlar.
- ProgLoss + STAL: Bu iyileştirilmiş kayıp fonksiyonları, IoT ve hava veri kümeleri için kritik bir özellik olan küçük nesne tanımayı önemli ölçüde geliştirir.
Yeni bir bilgisayarlı görü projesine başlamak isteyen ekipler için YOLO26'yı değerlendirmelerini kesinlikle öneriyoruz. Bir transformer'ın NMS'siz şıklığını, yüksek oranda optimize edilmiş bir YOLO mimarisinin ateş hızında çalışma hızı ve eğitim verimliliği ile sunar.
YOLO26 hakkında daha fazla bilgi edin
Özet
RTDETRv2 ve YOLOv9 arasında seçim yapmak, büyük ölçüde dağıtım donanımına ve özel doğruluk ihtiyaçlarına bağlıdır. RTDETRv2, sunucu tabanlı uygulamalar için en üst düzey doğruluk ve bağlam farkındalığı sağlarken, YOLOv9 uç cihazlar için olağanüstü verimlilik sunar.
Ancak, olgun Ultralytics ekosisteminden yararlanarak geliştiriciler her ikisiyle de zahmetsizce denemeler yapabilirler. Ayrıca, YOLO11 gibi daha yeni modellerin ve doğal olarak uçtan uca YOLO26'nın tanıtılmasıyla, yüksek hızlı çıkarım, çok yönlü görev desteği ve düşük bellek tüketimi arasında mükemmel dengeyi bulmak hiç bu kadar kolay olmamıştı.