İçeriğe geç

RTDETRv2 ile YOLOv7: Transformer Tabanlı Evrim ile CNN Verimliliği

Nesne algılama alanında, mimari felsefelerde ilginç bir farklılaşma görülmektedir. Bir tarafta, yüksek performanslı CNN (Convolutional Neural Network) soyu vardır. YOLOv7ile temsil edilen Convolutional Neural Network (CNN) soyu var. Diğer tarafta ise, Transformer devrimi, Vision Transformers (ViTs) 'in küresel bağlam yeteneklerini gerçek zamanlı hızlara ulaştırmayı amaçlayan bir model olan RTDETRv2 (Real-Time Detection Transformer) ortaya çıkardı.

Bu kılavuz, bu iki mimarinin teknik ayrıntılarını sunarak hız, doğruluk ve dağıtım karmaşıklığı açısından avantaj ve dezavantajlarını analiz etmektedir. Her ikisi de piyasaya sürüldükleri tarihte en son teknolojiyi temsil etseler de, modern geliştirme genellikle Ultralytics YOLO26'nın birleşik ekosistemini ve kenar optimizasyonlu performansını tercih etmektedir. Ultralytics 'nin kenar için optimize edilmiş performansını tercih etmektedirNMS

Yönetici Karşılaştırması

Aşağıdaki tablo, COCO YOLOv7 RTDETRv2 ve YOLOv7 nin resmi performans ölçütlerini karşılaştırmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2: Transformer Meydan Okuyucusu

RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), Baidu araştırmacıları tarafından geliştirilen orijinal RT-DETR geliştirilmiş versiyonudur. Verimli bir hibrit kodlayıcı sunarak ve sorgu seçim sürecini basitleştirerek, genellikle Görsel Dönüştürücülerle ilişkili yüksek hesaplama maliyetini ele alır.

Önemli Teknik Detaylar:

  • Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
  • Kuruluş: Baidu
  • Tarih: 17.04.2023 (v1 sürüm bağlamı)
  • Bağlantılar:ArXiv Makalesi | GitHub Deposu

RTDETRv2, Maksimum Baskılama (NMS) ihtiyacını ortadan kaldırmasıyla öne çıkıyor. Son işlem filtrelemesi gerektiren binlerce gereksiz sınırlayıcı kutu üreten CNN'lerden farklı olarak, RTDETRv2 doğrudan sabit bir nesne sorgu seti tahmin ediyor. Bu uçtan uca yetenek, gecikme varyansını azaltarak tutarlı çıkarım süresinin kritik olduğu uygulamalar için cazip hale getiriyor.

Ancak, dikkat mekanizmalarına bağımlı olması, RTDETRv2'nin saf CNN'lere kıyasla eğitim sırasında bellek yoğunluğu yüksek olabileceği anlamına gelir. Görüntünün uzak kısımları arasındaki ilişkiyi anlamak gibi küresel bağlamı yakalamada mükemmeldir ve bu da yoğun örtülmenin olduğu karmaşık sahnelerde yardımcı olur.

RT-DETR hakkında daha fazla bilgi edinin

YOLOv7: CNN Verimliliğinin Zirvesi

2022 ortasında piyasaya sürülen YOLOv7 , tamamen evrişimli mimarilerin başarabileceklerinin sınırlarını zorladı. Bu mimari, "eğitilebilir bag-of-freebies" (eğitilebilir ücretsiz paketler) odaklı olarak tasarlandı. Bu, tahmin maliyetini artırmadan eğitim sırasında doğruluğu artıran optimizasyon yöntemleridir.

Önemli Teknik Detaylar:

YOLOv7 temel yeniliği YOLOv7 Genişletilmiş Verimli Katman Toplama Ağı (E-ELAN) YOLOv7 . Bu mimari, gradyan yol uzunluklarını etkili bir şekilde kontrol ederek ağın daha çeşitli özellikleri öğrenmesini sağlar. GPU etkileyici bir hız sunarken, YOLOv7 bir çapa tabanlı YOLOv7 . Bu, özel bir veri kümesindeki belirli nesne ölçeklerine uymak için çapa kutularının dikkatli bir şekilde hiperparametre ayarlaması gerektirdiği anlamına gelir. Bu adım, YOLO11 gibi daha yeni modellerde genellikle otomatikleştirilir veya kaldırılır. YOLO11gibi yeni modellerde genellikle otomatikleştirilen veya kaldırılan bir adımdır.

YOLOv7 hakkında daha fazla bilgi edinin.

Mimari Derinlemesine İnceleme

Dikkat ve Karmaşıklık

Temel fark, bu modellerin görsel verileri işleme biçimlerinde yatmaktadır. YOLOv7 , görüntüyü yerel pencerelerde tarayan konvolüsyonlar YOLOv7 . Bu, kenarlar ve dokular gibi yerel özellikleri algılamada inanılmaz derecede hızlı ve verimli olmasını sağlar, ancak genel sahne anlamsal ilişkilerini anlamada potansiyel olarak daha zayıf olmasını sağlar.

RTDETRv2, kendi kendine dikkat mekanizmaları kullanır. Her pikselin diğer piksellere (veya belirli deforme edilebilir dikkat noktalarına) olan alaka düzeyini hesaplar. Bu, modelin uzamsal mesafelerine bakılmaksızın ilgili özelliklere "dikkat etmesini" sağlar ve nesnelerin önemli ölçüde üst üste bindiği kalabalık sahnelerde üstün performans sunar.

Son İşleme ve NMS

YOLOv7, öncülleri gibi YOLOv5 ve YOLOv6gibi, NMS kullanılarak filtrelenmesi gereken yoğun tahminler üretir. Bu adım, kalabalık senaryolarda darboğaz oluşturabilen ve hassasiyet ve geri çağırmayı etkileyen hiperparametreler (IoU ) getiren sezgisel bir süreçtir.

RTDETRv2, NMS. Eğitim sırasında iki parçalı eşleştirme kullanarak bir gerçek nesneyi tam olarak bir tahmine atar. Bu, NMS uygulamaya gerek olmadığı için dağıtım sürecini basitleştirir. ONNX veya TensorRT NMS mantığını uygulamaya gerek kalmaz.

İki Dünyanın En İyisi

RTDETRv2, gerçek zamanlı transformatörler için NMS algılama konusunda öncü rol oynarken, Ultralytics bu konsepti CNN'lere başarıyla uyarlamıştır. YOLO26, CNN'lerin düşük bellek ayak izini ve yüksek eğitim verimliliğini NMS ortadan kaldıran yerel uçtan uca bir tasarım kullanır.

Ultralytics Avantajı: Neden YOLO26'ya Yükseltmeli?

Eski modelleri analiz etmek değerli bir bağlam sağlarken, Ultralytics ile yeni bir proje başlatmak performans, kullanılabilirlik ve geleceğe dönük hazırlık açısından önemli avantajlar sunar. YOLO26, YOLOv7 RTDETR'den öğrenilen dersleri geliştirerek günümüzün en son teknolojisini temsil eder.

1. Yerel Uçtan Uca (NMS)

RTDETRv2 gibi, YOLO26 da NMS olacak şekilde tasarlanmıştır ve eğitim için One-to-Many başlığı, çıkarım için One-to-One başlığı kullanır. Bu, YOLOv7 bulunan son işlem yükünü ortadan kaldırarak NVIDIA veya Raspberry Pi gibi uç cihazlarda daha hızlı ve daha basit bir dağıtım sağlar.

2. Üstün CPU

RTDETRv2 gibi dönüştürücüler genellikle GPU gerektiren matematiksel işlemlerde ağırdır. YOLO26, CPU için özel optimizasyonlar içerir ve önceki sürümlerle karşılaştırıldığındaGPU %43'e varan hız artışları sağlar. Bu da onu mobil uygulamalar veya düşük güç tüketen IoT sensörleri için çok daha çok yönlü hale getirir.

3. İleri Düzey Eğitim İstikrarı

YOLO26, SGD Muon optimizer'ın (Moonshot AI'nın Kimi K2'sinden esinlenerek) bir karışımı olan MuSGD Optimizer'ı sunar. Bu, Büyük Dil Modeli (LLM) eğitiminden gelen istikrar yeniliklerini bilgisayar görüşüne getirerek, modellerin YOLOv7 SGD standart SGD den daha hızlı ve daha yüksek doğrulukla yakınsamasını sağlar.

4. Özel Kayıp Fonksiyonları

ProgLoss ve STAL ile YOLO26, standart CNN'ler ve bazı dönüştürücü mimariler için geleneksel bir zayıf nokta olan küçük nesne tanıma konusunda gelişmiş yetenekler sunar. Bu, hava görüntüsü analizi veya üretimde kalite kontrol gibi görevler için çok önemlidir.

5. Birleşik Ultralytics

YOLOv7 RTDETRv2 ile geliştirme yapmak, genellikle farklı depoları ve karmaşık kurulum komut dosyalarını yönetmeyi gerektirir. Ultralytics iş akışını birleştirir. Tek bir basit API kullanarak algılama, segmentasyon, sınıflandırma, poz tahmini ve OBB için modelleri eğitebilir, doğrulayabilir ve dağıtabilirsiniz.

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")

# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

YOLO26 hakkında daha fazla bilgi edinin

Kullanım Durumu Önerileri

  • Aşağıdaki durumlarda RTDETRv2'yi seçin: Güçlü GPU'lara ( NVIDIA veya A100 gibi) erişiminiz varsa ve uygulamanızda CNN'ler için önemli bir başarısızlık noktası olan tıkanıklığın olduğu oldukça kalabalık sahneler varsa. Küresel bağlam dikkati, bu özel senaryolarda hafif bir avantaj sağlayabilir.
  • YOLOv7 seçin YOLOv7 Eski YOLO formatlarına özel olarak dayanan eski sistemleri sürdürüyorsanız veya saf bir CNN yaklaşımına ihtiyacınız varsa, ancak Ultralytics tarafından desteklenen daha yeni Python yükseltme yapamıyorsanız.
  • Aşağıdaki durumlarda Ultralytics tercih edin: Tüm donanım türlerinde (CPU, GPU, NPU) hız ve doğruluk arasında en iyi dengeyi elde etmek istiyorsanız. DFL kaldırma özelliği sayesinde CoreML veya TFLite dışa aktarmayı kolaylaştırır ve bellek verimliliği, tüketici sınıfı GPU'larda eğitim yapılmasına olanak tanır. İster bir güvenlik alarm sistemi ister akıllı park yöneticisi oluşturuyor olun, kapsamlı belgeler ve aktif topluluk desteği, onu kurumsal dağıtım için en düşük riskli seçenek haline getirir.

Sonuç

Hem RTDETRv2 hem de YOLOv7 , bilgisayar görüşünün gelişmesine önemli YOLOv7 . RTDETRv2, dönüştürücülerin hızlı olabileceğini kanıtlarken, YOLOv7 iyi optimize edilmiş CNN'lerin kalıcı gücünü YOLOv7 . Ancak, bu alan hızla gelişmektedir.

Günümüzün geliştiricileri ve araştırmacıları için Ultralytics , transformatörlerin NMS kolaylığını CNN'lerin ham hızı ve verimliliği ile birleştirerek "her ikisinin en iyisini" yakalar. Veri etiketlemeden model dışa aktarmaya kadar her şeyi basitleştiren sağlam bir ekosistem tarafından desteklenen bu ürün, modern AI projeleri için önerilen başlangıç noktası olmaya devam ediyor.


Yorumlar