İçeriğe geç

RTDETRv2 ile YOLO11: Transformer ve CNN Mimarisinin Karşılaştırılması

Gerçek zamanlı nesne algılama alanı, iki farklı mimari felsefenin öncülüğünde hızla gelişmiştir: RTDETRv2 gibi modellerin savunduğu Vision Transformer (ViT) yaklaşımı ve Ultralytics YOLO11tarafından mükemmelleştirilen Convolutional Neural Network (CNN) soyu.

RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), dönüştürücü tabanlı mimarilerin doğruluk ve küresel bağlam anlayışı açısından ulaşabileceği sınırları zorlarken, YOLO11 verimlilik, çok yönlülük ve dağıtım kolaylığı açısından zirveyi temsil ediyor. Bu karşılaştırma, geliştiricilerin bilgisayar görme projeleri için doğru aracı seçmelerine yardımcı olmak amacıyla teknik özelliklerini, mimari farklılıklarını ve pratik uygulamalarını inceliyor.

Karşılaştırma Tablosu: Ölçütler ve Teknik Özellikler

Aşağıdaki tablo, her iki modelin performans ölçütlerini göstermektedir. Şu hususa dikkat edin YOLO11 daha geniş bir model boyutu yelpazesi sunarak mikrodenetleyicilerden üst düzey sunuculara kadar her şeye uyarlanabilirken, RTDETRv2'nin ise öncelikle yüksek kapasiteli modellere odaklandığını unutmayın.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

YOLO11 hakkında daha fazla bilgi edinin

Mimari Analiz

Bu iki son teknoloji model arasındaki temel fark, görsel bilgileri işleme biçimlerinde yatmaktadır.

RTDETRv2: Transformer Yaklaşımı

Baidu araştırmacıları tarafından geliştirilen RTDETRv2, orijinal RT-DETR başarısını temel almaktadır. Transformatörlerin gücünü kullanarak görüntülerdeki uzun menzilli bağımlılıkları yakalar; bu özellik, geleneksel CNN'ler için genellikle zorlu bir görevdir.

  • Hibrit Kodlayıcı: RTDETRv2, çok ölçekli özellikleri işleyen bir hibrit kodlayıcı kullanır ve modelin bir görüntünün farklı kısımlarına aynı anda "dikkat etmesini" sağlar.
  • NMS Tahmin: Belirleyici özelliklerinden biri, Non-Maximum Suppression (NMS) özelliğinin ortadan kaldırılmasıdır. Bir dizi sorgu kullanarak nesneleri doğrudan tahmin ederek, son işlem aşamasını basitleştirir, ancak bu genellikle daha yüksek eğitim karmaşıklığına mal olur.
  • Bag-of-Freebies: "v2" güncellemesi, orijinal temel seviyeye göre yakınsama hızını ve doğruluğunu iyileştirmek için optimize edilmiş eğitim stratejileri ve mimari ayarlamalar getiriyor.

Meta Veriler:

YOLO11: Geliştirilmiş CNN Standardı

Ultralytics YOLO11CNN mimarisinin evrimini temsil eder ve hesaplama yükünü en aza indirirken özellik çıkarma verimliliğini en üst düzeye çıkarmaya odaklanır.

  • C3k2 ve C2PSA Blokları: YOLO11 gelişmiş yapı taşlarını backbone ve boyun kısmında gelişmiş yapı taşları sunar. C3k2 bloğu, daha zengin özellik temsili için değişken çekirdek boyutları kullanırken, C2PSA bloğu, tam dönüştürücülerin yüksek maliyetine yol açmadan dikkat mekanizmalarını verimli bir şekilde entegre eder.
  • Birleşik Görev Desteği: Öncelikle bir nesne algılayıcı olan RTDETRv2'den farklı olarak, YOLO11 evrensel bir görme temeli olarak YOLO11 . Aynı çerçeve içinde Örnek Segmentasyonu, Poz Tahmini, OBB ve Sınıflandırmayı yerel olarak destekler.
  • Kenar Optimizasyonu: Mimari, CPU'lardan NVIDIA gibi Kenar AI hızlandırıcılarına kadar çeşitli donanımlarda hız için özel olarak ayarlanmıştır.

Meta Veriler:

Biliyor muydunuz?

RTDETRv2 tasarım NMS ortadan kaldırırken, Ultralytics YOLO26 da CNN'lerin hızını transformatörlerin kolaylaştırılmış dağıtımıyla birleştiren, yerel bir Uçtan Uca NMS tasarıma sahiptir.

Ekosistem ve Kullanım Kolaylığı

Geliştiriciler ve makine öğrenimi mühendisleri için, bir modeli çevreleyen yazılım ekosistemi genellikle modelin ham metrikleri kadar önemlidir.

Ultralytics Avantajları: YOLO11 , veri yönetiminden dağıtıma kadar tutarlı bir deneyim sunan, sektör lideri Ultralytics YOLO11 .

  • Eğitim Verimliliği: YOLO11 , eğitim hızlarıyla ünlüdür. Kod tabanı, otomatik hiperparametre ayarlama ve akıllı veri kümesi kontrolleri içerir.
  • Dağıtım Esnekliği: Kullanıcılar modelleri aşağıdaki formatlara aktarabilirler ONNX, TensorRT, CoreML ve TFLite formatlara aktarabilirler.
  • Topluluk Desteği: Milyonlarca indirmeye sahip Ultralytics , YouTube eğitimlerinden aktif GitHub sorunları tartışmalarına kadar kapsamlı kaynaklar sunar.

RTDETRv2 ile ilgili hususlar: RTDETRv2 öncelikle bir araştırma deposudur. Güçlü olmasına rağmen, genellikle "pil dahil" deneyiminden yoksundur. Eğitim boru hatlarını kurmak, veri kümelerini yönetmek ve uç cihazlar için dışa aktarmak genellikle daha fazla manuel yapılandırma ve Python komut dosyası yazımı gerektirir.

Performans ve Kaynak Gereksinimleri

Gerçek dünyada dağıtım yaparken, doğruluk ile kaynak tüketimi arasında denge kurmak çok önemlidir.

GPU ve Eğitim

Transformatörler, bellek açısından oldukça açgözlüdür. RTDETRv2 genellikle önemli miktarda GPU VRAM gerektirir. Bu durum, tüketici sınıfı donanımlarda eğitimi zorlaştırabilir veya daha küçük parti boyutları gerektirebilir, bu da parti normalizasyon istatistiklerini etkileyebilir.

YOLO11 önemli ölçüde daha fazla bellek verimliliği sağlar. CNN tabanlı mimarisi, standart GPU'larda daha büyük parti boyutlarına olanak tanıyarak eğitimi hızlandırır ve geliştirme maliyetini azaltır. Bu verimlilik, YOLO11n modellerinin CPU'larda gerçek zamanlı olarak çalışabildiği çıkarımlara da uzanır. Bu, görüntü belirteçlerine ilişkin ikinci dereceden hesaplama karmaşıklığı nedeniyle dönüştürücü tabanlı modellerin eşleşmekte zorlandığı bir özelliktir.

Doğruluk ve Hız Arasındaki Denge

Karşılaştırma tablosunda gösterildiği gibi, YOLO11x daha yüksek bir mAP (54,7) elde ederken, rekabetçi çıkarım hızlarını korur. Aşırı hız gerektiren uygulamalar için, daha küçük YOLO11 (n/s) RTDETRv2'nin hedeflemediği bir performans seviyesi sunar, bu da YOLO11 mobil ve IoT dağıtımı için açık YOLO11 yapar.

Kod Örneği: YOLO11 RT-DETR Kullanımı

Ultralytics , hem kendi YOLO hem de desteklenen RT-DETR sürümleri için birinci sınıf destek Ultralytics , mimarileri sorunsuz bir şekilde değiştirmenize olanak tanır.

from ultralytics import RTDETR, YOLO

# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the YOLO11 results
for result in results_yolo:
    result.show()

Gerçek Dünya Uygulamaları

YOLO11'in Üstün Olduğu Alanlar

Hafif yapısı ve yüksek hızı sayesinde YOLO11 , aşağıdaki alanlarda tercih edilen YOLO11 :

RTDETRv2'nin Yeri

RTDETRv2 şunlar için çok uygundur:

  • Yüksek Hesaplama Gücüne Sahip Sunucular: Sınırsız güç ve GPU mevcut olduğu senaryolar.
  • Karmaşık Tıkanmalar: Dönüştürücülerin küresel alıcı alanı, nesneler arasındaki yoğun çakışmaları çözmeye yardımcı olan ortamlar.
  • Araştırma: Vizyon Dönüştürücüler (ViT'ler) üzerine akademik araştırma.

Sonuç

Her iki mimari de bilgisayar görme alanındaki inanılmaz ilerlemeyi göstermektedir. RTDETRv2, algılama görevlerinde CNN'nin hakimiyetine meydan okuyabilecek transformatörlerin potansiyelini ortaya koymaktadır. Ancak, pratik uygulamaların büyük çoğunluğu için Ultralytics YOLO11 en üstün seçenek olmaya devam etmektedir.

Birleşik çerçevesi, daha düşük kaynak gereksinimleri, daha geniş desteklenen görev yelpazesi ve olgun dağıtım ekosistemi ile YOLO11 , geliştiricilerin prototipten üretime daha hızlı geçmelerini YOLO11 . En son verimlilik ve NMS tasarım arayanlar için, her iki dünyanın en iyi özelliklerini birleşik, uçtan uca bir güç merkezinde birleştiren son teknoloji YOLO26'yı keşfetmelerini de öneririz.

YOLO11 Keşfedin


Yorumlar