İçeriğe geç

RTDETRv2 vs. YOLOv9: Gerçek Zamanlı detect Transformer'ları ve CNN'leri Karşılaştırma

Bilgisayar görüşü alanı, başlıca Evrişimsel Sinir Ağları (CNN'ler) ve transformatör tabanlı modeller arasında mimari felsefelerde büyüleyici bir ayrışmaya tanık olmuştur. RTDETRv2 ve YOLOv9'u karşılaştırırken, geliştiriciler esasen küresel dikkat mekanizmaları ile programlanabilir gradyan bilgisi arasındaki dengeyi değerlendirmektedir. Her iki model de kendi paradigmalarının zirvesini temsil etmekte ve gerçek zamanlı nesne algılamanın sınırlarını zorlamaktadır.

Modellere Giriş

RTDETRv2: Gerçek Zamanlı Algılama Transformer'ı

Baidu'daki araştırmacılar tarafından geliştirilen RTDETRv2, temel Real-Time Detection Transformer'ı geliştirmek için bir "Bag-of-Freebies" sunarak orijinal RT-DETR üzerine inşa edilmiştir. Transformatörlerin geleneksel darboğazı olan çıkarım hızını ele alarak, onları gerçek zamanlı uygulamalar için uygun hale getirir.

  • Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
  • Kuruluş:Baidu
  • Tarih: 2024-07-24
  • Bağlantılar:Arxiv, GitHub

RTDETRv2'nin belirleyici bir özelliği, yerel olarak uçtan uca NMS içermeyen tasarımıdır. İşlem sonrası sırasında Non-Maximum Suppression (NMS)'ı tamamen kaldırarak, model çıkarım gecikmesini stabilize eder ve dağıtım hattını basitleştirir. Küresel dikkat mekanizması, tüm görüntü bağlamını eş zamanlı olarak değerlendirdiği için modelin karmaşık sahne anlayışında ve yoğun kalabalıklarda üstün performans göstermesini sağlar.

RTDETRv2 hakkında daha fazla bilgi edinin

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9, derin sinir ağlarında doğal olarak bulunan bilgi darboğazı sorununu ele alan, oldukça verimli bir CNN tabanlı mimaridir. Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) sunar.

YOLOv9, kanıtlanmış evrişimsel sinir ağı temellerine dayanır ancak parametre verimliliğini en üst düzeye çıkarır. İleri besleme süreci sırasında kritik bilgileri koruyarak, güvenilir ağırlık güncellemeleri sağlar ve bu da inanılmaz derecede hafif ancak oldukça doğru bir modelle sonuçlanır. Ancak, RTDETRv2'den farklı olarak, YOLOv9 hala standart NMS işlem sonrası yöntemine dayanmaktadır.

YOLOv9 hakkında daha fazla bilgi edinin.

Performans ve Kaynak Verimliliği

Bu modelleri üretim için değerlendirirken, ortalama Hassasiyet (mAP) ile hesaplama maliyeti arasında denge kurmak kritiktir. Aşağıdaki tablo, MS COCO veri kümesi üzerindeki performanslarını göstermektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Bellek Gereksinimleri ve Eğitim Verimliliği

RTDETRv2 gibi transformatörler, eğitim sırasında oldukça bellek yoğundur ve genellikle tam yakınsama için önemli miktarda CUDA belleği ve daha uzun eğitim programları gerektirir. Tersine, YOLOv9 ve diğer Ultralytics YOLO modelleri gibi CNN mimarileri, olağanüstü düşük bellek kullanımı sunarak geliştiricilerin tüketici sınıfı donanımlarda daha büyük toplu iş boyutlarıyla eğitim yapmasına olanak tanır.

Verimli Eğitim

Donanım kullanımını en üst düzeye çıkarmak için, kolaylaştırılmış bulut eğitimi için Ultralytics Platformu'nu kullanmayı düşünebilirsiniz. Ortam kurulumunu ve optimal toplu iş boyutlandırmayı otomatik olarak yönetir.

Ultralytics Avantajı: Ekosistem ve Kullanım Kolaylığı

Resmi RTDETRv2 veya YOLOv9 GitHub sayfaları gibi bağımsız depolarda araştırma yapmak oldukça öğretici olsa da, üretim ortamları kararlılık, kullanım kolaylığı ve iyi yönetilen bir ekosistem gerektirir. Bu modelleri Ultralytics Python API aracılığıyla entegre etmek, sorunsuz bir geliştirici deneyimi sunar.

Birleşik API ve Çok Yönlülük

Ultralytics çerçevesi, veri yükleme, artırmalar ve dağıtılmış eğitimin karmaşıklıklarını soyutlar. Dahası, orijinal RTDETRv2 kesinlikle detect üzerine odaklanmış olsa da, Ultralytics ekosistemi kullanıcıların Nesne Algılama, Örnek Segmentasyon ve Poz Tahmini arasında kolayca geçiş yapmasına olanak tanır.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Sağlam belgeler, otomatik deney takibi ve ONNX, TensorRT ve OpenVINO gibi formatlara sorunsuz dışa aktarma yetenekleri ile Ultralytics, prototipten üretime geçiş süresini önemli ölçüde azaltır.

İdeal Kullanım Senaryoları

RTDETRv2'nin Üstün Olduğu Alanlar

Küresel dikkat mekanizması sayesinde RTDETRv2, sunucu tarafı işleme ve küresel bağlamın çok önemli olduğu ortamlar için bir güç merkezidir. Şunlarda üstün performans gösterir:

  • Tıbbi Görüntüleme: Çevresel bağlamın kritik olduğu durumlarda ince anormallikleri belirleme.
  • Hava Gözetimi: Geleneksel CNN evrişimlerinin uzamsal yanlılıkları olmadan yüksek çözünürlüklü drone görüntülerinde küçük nesneleri tespit etme.
  • Yoğun Kalabalık Analizi: Şiddetli tıkanıklığın normalde çapa tabanlı modelleri karıştırdığı durumlarda bireyleri track etme.

YOLOv9'un Üstün Olduğu Alanlar

YOLOv9, kaynak kısıtlı kenar dağıtımlarının şampiyonudur. Hesaplama verimliliği onu şunlar için ideal kılar:

  • Robotik: Minimum gecikme süresinin gerektiği gerçek zamanlı navigasyon ve engelden kaçınma.
  • Akıllı Şehir IoT: Trafik izleme için NVIDIA Jetson gibi kenar cihazlara dağıtım.
  • Endüstriyel Denetim: Yüksek kare hızı (FPS) gerektiren yüksek hızlı montaj hattı kalite kontrolü.

Gelecek: Ultralytics YOLO26 Sahneye Çıkıyor

YOLOv9 ve RTDETRv2 büyük ilerlemeler temsil etse de, manzara hızla gelişmiştir. Modern dağıtımlar için, yeni yayımlanan Ultralytics YOLO26, her iki mimari felsefenin nihai sinerjisini temsil etmektedir.

Transformatörlerin ve CNN'lerin en iyi yönlerini alarak, YOLO26 yeni bir standart belirliyor:

  • Uçtan Uca NMS İçermeyen Tasarım: RTDETRv2 gibi, YOLO26 da yerel olarak uçtan ucadır ve daha hızlı, daha basit ve oldukça tahmin edilebilir dağıtım hatları için NMS işlem sonrasını tamamen ortadan kaldırır.
  • MuSGD Optimizatörü: Büyük Dil Modeli (LLM) eğitim tekniklerinden (Moonshot AI'ın Kimi K2'si gibi) esinlenerek, YOLO26, SGD ve Muon'un hibrit birleşimini kullanır. Bu, bilgisayar görüşüne eşsiz eğitim kararlılığı ve hızlı yakınsama getirir.
  • Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Ağır transformer'ların aksine, YOLO26, kenar bilişim ve CPU'suz cihazlar için yoğun bir şekilde optimize edilmiştir.
  • DFL Kaldırma: Distribution Focal Loss'un kaldırılması, model grafiğini önemli ölçüde basitleştirerek düşük güçlü kenar cihazlara ve gömülü Nöral İşlem Birimlerine (NPU'lar) kusursuz dışa aktarımı sağlar.
  • ProgLoss + STAL: Bu geliştirilmiş kayıp fonksiyonları, IoT ve hava veri kümeleri için kritik bir özellik olan küçük nesne tanımayı önemli ölçüde geliştirir.

Yeni bir bilgisayar görüşü projesi başlatmak isteyen ekipler için YOLO26'yı değerlendirmelerini şiddetle tavsiye ederiz. Yüksek optimize edilmiş bir YOLO mimarisinin olağanüstü hızı ve eğitim verimliliği ile bir transformer'ın NMS'siz zarafetini sunar.

YOLO26 hakkında daha fazla bilgi edinin

Özet

RTDETRv2 ve YOLOv9 arasında seçim yapmak, büyük ölçüde dağıtım donanımınıza ve belirli doğruluk ihtiyaçlarınıza bağlıdır. RTDETRv2, sunucu destekli uygulamalar için son teknoloji doğruluk ve bağlam farkındalığı sağlarken, YOLOv9 kenar cihazlar için olağanüstü verimlilik sunar.

Ancak, olgun Ultralytics ekosisteminden yararlanarak geliştiriciler her ikisini de zahmetsizce deneyebilir. Ayrıca, YOLO11 gibi daha yeni modellerin ve yerel olarak uçtan uca YOLO26'nın tanıtılmasıyla, yüksek hızlı çıkarım, çok yönlü görev desteği ve düşük bellek tüketimi arasında mükemmel dengeyi bulmak hiç bu kadar kolay olmamıştı.


Yorumlar