İçeriğe geç

YOLOv6-3.0 - RTDETRv2 Karşılaştırması: Endüstriyel Hız ve Transformer Hassasiyetini Dengeleme

Optimum nesne algılama mimarisini seçmek genellikle çıkarım gecikmesi ve algılama hassasiyeti arasında bir ödünleşim içerir. Bu teknik karşılaştırma, bu zorluğa iki farklı yaklaşımı inceler: Endüstriyel hız için Meituan tarafından tasarlanan bir CNN tabanlı model olan YOLOv6-3.0 ve transformatör doğruluğunu gerçek zamanlı uygulamalara getirmek için Baidu tarafından tasarlanan bir Vision Transformer (ViT) mimarisi olan RTDETRv2.

YOLOv6-3.0

Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Kuruluş: Meituan
Tarih: 2023-01-13
Arxiv: YOLOv6 v3.0: Tam Ölçekli Yeniden Yükleme
GitHub: meituan/YOLOv6
Belgeler: Ultralytics YOLOv6 Belgeleri

YOLOv6-3.0, donanım verimliliğinin çok önemli olduğu endüstriyel uygulamalar için özel olarak tasarlanmış, tek aşamalı dedektör soyunda önemli bir evrimi temsil eder. GPU'lardaki verimi en üst düzeye çıkarmak için gelişmiş özellik birleştirme ve eğitim stratejilerini içeren mimarinin "Tam Ölçekli Yeniden Yüklenmesini" sunar.

Mimari ve Temel Özellikler

YOLOv6-3.0 mimarisi, donanım dostu tasarıma odaklanır. Modelin eğitim sırasında karmaşık özellik çıkarma yeteneklerine sahip olmasını sağlayan, ancak çıkarım için akıcı bir yapıya çöken verimli bir Yeniden Parametrelendirme Omurgası (RepBackbone) kullanır. Temel mimari yenilikler şunları içerir:

  • Çift Yönlü Birleştirme (BiC): Ağır bir hesaplama yükü olmadan özellik birleştirme doğruluğunu artıran boyundaki bir modül.
  • Ankraj Destekli Eğitim (AAT): Yakınsamayı stabilize etmek için eğitim aşamasında ankraj tabanlı ve ankraj içermeyen paradigmaların faydalarını birleştiren bir strateji.
  • Kendiliğinden Damıtma: Çerçeve, modelin kendi tahminlerinden öğrendiği, model boyutunu artırmadan doğruluğu artıran bir öğretmen-öğrenci eğitim döngüsü kullanır.

Güçlü Yönler

  • Endüstriyel Verimlilik: Model, TensorRT dağıtımı için açıkça optimize edilmiştir ve NVIDIA GPU'larda olağanüstü düşük gecikme süresi sunar.
  • Uçta Düşük Gecikme Süresi: Özel "Lite" varyantlarıyla, mobil CPU cihazlarında iyi performans gösterir ve bu da onu elde taşınan endüstriyel tarayıcılar için uygun hale getirir.
  • Kuantalama Desteği: INT8 hassasiyetine geçerken önemli doğruluk kaybını önleyen Kuantalama Farkında Eğitim (QAT) için güçlü destek içerir.

Zayıflıklar

  • Görev Sınırlaması: YOLOv6 öncelikle sınırlayıcı kutu algılama için tasarlanmıştır. Daha çok yönlü çerçevelerde bulunan poz tahmini veya Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama gibi karmaşık görevler için yerel desteği yoktur.
  • Eğitimin Karmaşıklığı: Kendiliğinden damıtma ve özel yeniden parametrelendirme adımlarına güvenmek, eğitim hattını standart YOLO modellerine kıyasla daha kırılgan ve özelleştirmesi daha zor hale getirebilir.

İdeal Kullanım Senaryoları

  • Yüksek Hızlı Üretim: Milisaniye gecikmesinin kritik olduğu hızlı hareket eden konveyör bantlarında kusur tespiti.
  • Gömülü Robotik: Hesaplama kaynaklarının kesin olarak bütçelendiği NVIDIA Jetson gibi platformlardaki navigasyon sistemleri.

YOLOv6-3.0 hakkında daha fazla bilgi edinin

RTDETRv2

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 2023-04-17 (Orijinal), 2024-07-24 (v2)
Arxiv: RT-DETRv2: Ücretsiz Ekstralarla Geliştirilmiş Temel Çizgi
GitHub: lyuwenyu/RT-DETR
Belgeler: Ultralytics RT-DETR Belgeleri

RTDETRv2 (Real-Time Detection Transformer v2), dönüştürücülerin gerçek zamanlı hızlara ulaşabileceğini kanıtlayarak CNN'lerin hakimiyetine meydan okuyor. DETR (Algılama Dönüştürücüsü) paradigmasını temel alır, ancak tipik olarak dikkat mekanizmalarıyla ilişkili yavaş yakınsama ve yüksek hesaplama maliyetlerini ele alır.

Mimari ve Temel Özellikler

RTDETRv2, çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanır. Tüm görüntü yamalarını eşit olarak işleyen geleneksel dönüştürücülerden farklı olarak, RTDETRv2, hattın başlarında ilgili alanlara dikkati odaklar.

  • Verimli Hibrit Kodlayıcı: Hesaplama yükünü azaltmak için ölçek içi etkileşimi ve ölçekler arası birleşmeyi ayırır.
  • IoU-Farkındalıklı Sorgu Seçimi: Kodlayıcı çıktısından yüksek kaliteli ilk nesne sorguları seçerek kod çözücünün başlatılmasını iyileştirir ve yakınsamayı hızlandırır.
  • Ankraj İçermeyen Tasarım: Maksimum Olmayan Bastırma (NMS) işlem sonrası işlem ihtiyacını ortadan kaldırarak, dağıtım hattını basitleştirir ve kalabalık sahnelerde gecikme değişkenliğini azaltır.

Güçlü Yönler

  • Global Bağlam Farkındalığı: Self-attention (öz-dikkat) mekanizması, modelin tüm görüntüyü aynı anda "görmesini" sağlayarak, yerel alıcı alanlara dayanan CNN'lere kıyasla tıkanmış nesnelerin daha iyi detect edilmesine yol açar.
  • High Accuracy Ceiling: Birçok CNN muadiline kıyasla, belirli bir model ölçeği için COCO veri kümesinde sürekli olarak daha yüksek mAP puanları elde eder.
  • NMS'siz: NMS'nin olmaması, çıkarım süresini daha deterministik hale getirir, bu da gerçek zamanlı sistemler için önemli bir avantajdır.

Zayıflıklar

  • Bellek Yoğunluğu: Transformatörler, dikkat matrislerinin karesel karmaşıklığı nedeniyle eğitim ve çıkarım sırasında önemli ölçüde daha fazla VRAM gerektirir (ancak RT-DETR bunu optimize eder).
  • Veri Açlığı: Vision Transformatörleri genellikle YOLOv6 gibi CNN'lere kıyasla tam olarak yakınsamak için daha büyük veri kümeleri ve daha uzun eğitim programları gerektirir.

İdeal Kullanım Senaryoları

  • Karmaşık Trafik Sahneleri: Yoğun, kaotik ortamlarda, tıkanıklığın yaygın olduğu yerlerde yayaları ve araçları detect etmek.
  • Otonom Sürüş: Kaçırılan bir algılamanın maliyetinin, biraz daha yüksek donanım gereksinimlerinin maliyetinden daha ağır bastığı, yüksek güvenilirlik algısı gerektiren uygulamalar.

RTDETRv2 hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Aşağıdaki tablo, YOLOv6-3.0 ve RTDETRv2'nin performansını karşılaştırmaktadır. RTDETRv2 doğruluk konusunda sınırları zorlarken, YOLOv6-3.0 özellikle "Nano" ölçeğinde ham çıkarım hızında bir avantajı korumaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analiz

  • Hız - Doğruluk Dengesi: YOLOv6-3.0n inanılmaz derecede hafiftir (1,17 ms çıkarım), bu da onu son derece kısıtlı donanımlar için tartışmasız kral yapar. Ancak, öncelik doğruluksa, RTDETRv2-s değerinden önemli ölçüde daha yüksek bir mAP (48.1) sunar. YOLOv6-3.0s (45.0), neredeyse iki katı çıkarım süresinde (5.03 ms'ye karşı 2.66 ms) olmasına rağmen.
  • Ölçeklendirme Davranışı: Model boyutu arttıkça, aradaki fark daralır. RTDETRv2-l (53.4 mAP) daha iyi performans gösteriyor YOLOv6-3.0l (52.8 mAP) iken daha az parametreye sahip (42M'ye karşı 59.6M), FLOP'lar karşılaştırılabilir kalsa da, transformatör mimarisinin parametre verimliliğini sergiliyor.
  • Donanım Etkileri: YOLOv6'nın avantajı, donanım hızlandırıcılarına çok doğrudan eşlenen saf CNN yapısında yatmaktadır. RTDETRv2, teorik hızını gerçekleştirmek için matris çarpımlarını ve dikkat işlemlerini verimli bir şekilde işleyebilen donanım gerektirir.

Dağıtım Hususları

Uç cihazlara dağıtım yaparken, "Parametreler"in her zaman hızla mükemmel bir şekilde ilişkili olmadığını unutmayın. RTDETRv2 bazı konfigürasyonlarda daha az parametreye sahip olsa da, bellek erişim düzenleri (dikkat), YOLOv6'nın yüksek düzeyde optimize edilmiş evrişimlerine kıyasla eski donanımlarda daha yavaş olabilir.

Eğitim Metodolojileri

Bu iki model için eğitim ortamı önemli ölçüde farklılık gösterir ve bu da geliştirme için gereken kaynakları etkiler.

YOLOv6-3.0, CNN'ler için standart derin öğrenme uygulamalarını takip eder. Daha kısa eğitim programlarından (tipik olarak 300-400 epoch) ve daha düşük GPU bellek tüketiminden yararlanır. Self-distillation (kendinden damıtma) gibi teknikler dahili olarak ele alınır, ancak kayıp fonksiyonu hesaplamasına bir karmaşıklık katmanı ekler.

RTDETRv2, transformer tabanlı olduğundan, eğitim sırasında genellikle daha fazla CUDA belleği gerektirir. Dikkat mekanizmasının görüntü boyutuna göre ikinci dereceden karmaşıklığı, yığın boyutlarının genellikle azaltılması veya daha güçlü GPU'lar kullanılması gerektiği anlamına gelir. Ayrıca, transformer'lar genellikle uzamsal ilişkileri endüktif önyargılar olmadan tam olarak öğrenmek için daha uzun eğitim ufuklarından yararlanır.

Ultralytics'in Avantajı

YOLOv6 ve RTDETR belirli nişler için etkileyici özellikler sunarken, Ultralytics YOLO11, her iki dünyanın da en iyisini dengeleyen birleşik bir çözüm sunar. CNN'lerin verimliliğini, transformatör doğruluğuna rakip olan modern mimari iyileştirmelerle, hepsi geliştirici verimliliği için tasarlanmış bir ekosistem içinde bütünleştirir.

Neden Ultralytics Modellerini Seçmelisiniz?

  • Kullanım Kolaylığı: Ultralytics, eğitim ve dağıtımın karmaşıklığını ortadan kaldıran Pythonic bir API sağlar. Üç satır kodla son teknoloji bir modeli eğitebilirsiniz.
  • Performans Dengesi: YOLO11, optimum bir denge sunmak için tasarlanmıştır. Transformer'ların büyük bellek yükü olmadan, RTDETR'ye meydan okuyan doğruluk seviyelerine ulaşırken YOLOv6'ya kıyasla gerçek zamanlı çıkarım hızları sağlar.
  • Çok Yönlülük: Yalnızca algılama özelliği olan YOLOv6'nın aksine, Ultralytics modelleri yerel olarak Örnek Segmentasyonunu, Poz Tahminini, Sınıflandırmayı ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılamayı destekler.
  • İyi Yönetilen Ekosistem: Sık güncellemeler, kapsamlı belgeler ve topluluk desteği ile asla tek başınıza hata ayıklamak zorunda kalmazsınız.
  • Eğitim Verimliliği: Ultralytics modelleri, mütevazı donanımlarda bile hızlı yinelemeye olanak tanıyan verimli eğitim hatlarıyla ünlüdür.
from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with a single command
results = model("path/to/image.jpg")

YOLO11 hakkında daha fazla bilgi edinin

Sonuç

Hem YOLOv6-3.0 hem de RTDETRv2, bilgisayar görüşünde etkileyici başarılardır. YOLOv6-3.0, donanımın sabit olduğu ve hızın önemli olduğu kesinlikle endüstriyel boru hatları için pragmatik bir seçimdir. RTDETRv2, karmaşık sahnelerde doğruluğun kritik olduğu ve donanım kaynaklarının bol olduğu araştırma ve üst düzey uygulamalar için mükemmel bir seçimdir.

Ancak, gerçek dünya uygulamalarının büyük çoğunluğu için Ultralytics YOLO11 üstün bir seçim olmaya devam ediyor. Konseptten üretime yolculuğu hızlandıran bir "tatlı nokta" performansı, çok yönlülük ve kullanım kolaylığı sunar. İster hızlı deneylere ihtiyaç duyan bir araştırmacı, ister binlerce uç cihaza dağıtım yapan bir mühendis olun, Ultralytics ekosistemi başarıyı sağlamak için araçlar sağlar.

Diğer Modelleri İnceleyin

Daha fazla karşılaştırma yapmak isterseniz, Ultralytics dokümantasyonundaki bu kaynakları inceleyin:


Yorumlar