YOLOv6.0 vs RTDETRv2: Endüstriyel Hız ve Transformatör Hassasiyetini Dengeleme
En uygun nesne algılama mimarisinin seçilmesi genellikle çıkarım gecikmesi ile algılama hassasiyeti arasında bir denge kurulmasını gerektirir. Bu teknik karşılaştırma, bu zorluğa yönelik iki farklı yaklaşımı incelemektedir: Meituan tarafından endüstriyel hız için tasarlanan CNN tabanlı bir model olan YOLOv6.0 ve Baidu 'nun gerçek zamanlı uygulamalara dönüştürücü doğruluğu getirmek için tasarladığı bir Görüntü Dönüştürücüsü (ViT) mimarisi olan RTDETRv2.
YOLOv6.0
Yazarlar Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Organizasyon: Meituan
Tarih: 2023-01-13
Arxiv: YOLOv6 v3.0: Tam Ölçekli Bir Yeniden Yükleme
GitHub: YOLOv6
Dokümanlar: Ultralytics YOLOv6 Dokümantasyonu
YOLOv6.0, donanım verimliliğinin çok önemli olduğu endüstriyel uygulamalar için özel olarak tasarlanmış tek aşamalı dedektör serisinde önemli bir gelişmeyi temsil etmektedir. GPU'lardaki verimi en üst düzeye çıkarmak için gelişmiş özellik füzyonu ve eğitim stratejilerini içeren mimarinin "Tam Ölçekli Yeniden Yüklenmesi" ni sunar.
Mimari ve Temel Özellikler
YOLOv6.0 mimarisi donanım dostu tasarıma odaklanmaktadır. Modelin eğitim sırasında karmaşık özellik çıkarma yeteneklerine sahip olmasını sağlarken çıkarım için aerodinamik bir yapıya dönüşmesini sağlayan verimli bir Yeniden Parametrelendirme Backbone (RepBackbone) kullanır. Temel mimari yenilikler şunları içerir:
- Çift Yönlü Birleştirme (BiC): Boyunda bulunan ve ağır bir hesaplama cezası olmadan özellik birleştirme doğruluğunu artıran bir modül.
- Çapa Destekli Eğitim (AAT): Yakınsamayı stabilize etmek için eğitim aşamasında çapa tabanlı ve çapasız paradigmaların faydalarını birleştiren bir strateji.
- Kendi Kendine Damıtma: Çerçeve, modelin kendi tahminlerinden öğrendiği ve model boyutunu artırmadan doğruluğu artıran bir öğretmen-öğrenci eğitim döngüsü kullanır.
Güçlü Yönler
- Endüstriyel Verimlilik: Model, aşağıdakiler için açıkça optimize edilmiştir TensorRTNVIDIA GPU'larda olağanüstü düşük gecikme süresi sunan dağıtım.
- Kenarda Düşük Gecikme: Belirli "Lite" varyantları ile mobil CPU cihazlarında iyi performans göstererek el tipi endüstriyel tarayıcılar için uygun hale gelir.
- Niceleme Desteği: Quantization Aware Training (QAT) için güçlü bir desteğe sahiptir ve INT8 hassasiyetine geçerken önemli doğruluk kaybını önler.
Zayıflıklar
- Görev Sınırlaması: YOLOv6 öncelikle sınırlayıcı kutu tespiti için tasarlanmıştır. Daha çok yönlü çerçevelerde bulunan poz tahmini veya Yönlendirilmiş Sınırlayıcı Kutu (OBB) tespiti gibi karmaşık görevler için yerel destekten yoksundur.
- Eğitimin Karmaşıklığı: Kendi kendine damıtmaya ve özel yeniden parametrelendirme adımlarına güvenmek, eğitim hattını standart YOLO modellerine kıyasla daha kırılgan ve özelleştirilmesi daha zor hale getirebilir.
İdeal Kullanım Senaryoları
- Yüksek Hızlı Üretim: Milisaniyelik gecikmenin kritik olduğu hızlı hareket eden konveyör bantlarında hata tespiti.
- Gömülü Robotik: NVIDIA Jetson gibi işlem kaynaklarının sıkı bir şekilde bütçelendiği platformlarda navigasyon sistemleri.
YOLOv6.0 hakkında daha fazla bilgi edinin
RTDETRv2
Yazarlar Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Organizasyon: Baidu
Tarih: 2023-04-17 (Orijinal), 2024-07-24 (v2)
Arxiv: RT-DETRv2: Bag-of-Freebies ile Geliştirilmiş Baseline
GitHub: RT-DETR
Docs: Ultralytics RT-DETR Dokümantasyonu
RTDETRv2 (Real-Time Detection Transformer v2), dönüştürücülerin gerçek zamanlı hızlara ulaşabileceğini kanıtlayarak CNN'lerin hakimiyetine meydan okuyor. DETR (Algılama Dönüştürücüsü) paradigmasını temel alır, ancak tipik olarak dikkat mekanizmalarıyla ilişkili yavaş yakınsama ve yüksek hesaplama maliyetlerini ele alır.
Mimari ve Temel Özellikler
RTDETRv2, çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanır. Tüm görüntü yamalarını eşit şekilde işleyen geleneksel dönüştürücülerin aksine, RTDETRv2 dikkati boru hattının başlarında ilgili alanlara odaklar.
- Verimli Hibrit Kodlayıcı: Hesaplama yükünü azaltmak için ölçek içi etkileşimi ve ölçekler arası füzyonu ayırır.
- IoU Sorgu Seçimi: Kodlayıcı çıkışından yüksek kaliteli ilk nesne sorgularını seçerek kod çözücünün başlatılmasını iyileştirir ve yakınsamayı hızlandırır.
- Çapasız Tasarım: Maksimum Olmayan BastırmaNMS) sonrası işleme ihtiyacını ortadan kaldırarak dağıtım hattını basitleştirir ve kalabalık sahnelerde gecikme değişkenliğini azaltır.
Güçlü Yönler
- Küresel Bağlam Farkındalığı: Kendi kendine dikkat mekanizması, modelin tüm görüntüyü aynı anda "görmesini" sağlayarak, yerel alıcı alanlara dayanan CNN'lere kıyasla tıkalı nesnelerin daha iyi algılanmasına yol açar.
- Yüksek Doğruluklu Tavan: Sürekli olarak daha yüksek mAP Birçok CNN muadiline kıyasla belirli bir model ölçeği için COCO veri setindeki puanlar.
- NMS 'siz: NMS 'nin olmaması çıkarım süresini daha deterministik hale getirir, bu da gerçek zamanlı sistemler için önemli bir avantajdır.
Zayıflıklar
- Bellek Yoğunluğu: Transformatörler, dikkat matrislerinin ikinci dereceden karmaşıklığı nedeniyle eğitim ve çıkarım sırasında önemli ölçüde daha fazla VRAM gerektirir (RTDETR bunu optimize etse de).
- Veri Açlığı: Görme Dönüştürücüleri, YOLOv6 gibi CNN'lere kıyasla tam olarak yakınsamak için genellikle daha büyük veri kümelerine ve daha uzun eğitim programlarına ihtiyaç duyar.
İdeal Kullanım Senaryoları
- Karmaşık Trafik Sahneleri: Oklüzyonun yaygın olduğu yoğun, kaotik ortamlarda yayaları ve araçları tespit etme.
- Otonom Sürüş: Kaçırılan bir algılamanın maliyetinin biraz daha yüksek donanım gereksinimlerinin maliyetinden daha ağır bastığı yüksek güvenilirlikli algılama gerektiren uygulamalar.
RTDETRv2 hakkında daha fazla bilgi edinin
Performans Karşılaştırması
Aşağıdaki tablo YOLOv6.0 ve RTDETRv2'nin performansını karşılaştırmaktadır. RTDETRv2 doğruluk konusunda sınırları zorlarken, YOLOv6.0 özellikle "Nano" ölçekte ham çıkarım hızında üstünlüğünü korumaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analiz
- Hız ve Doğruluk:
YOLOv6-3.0ninanılmaz derecede hafiftir (1,17 ms çıkarım), bu da onu son derece kısıtlı donanımlar için tartışmasız kral yapar. Ancak, doğruluk öncelikliyse,RTDETRv2-s'den önemli ölçüde daha yüksek bir mAP (48,1) sunar.YOLOv6-3.0s(45,0), çıkarım süresinin neredeyse iki katı (5,03 ms vs 2,66 ms) olmasına rağmen. - Ölçeklendirme Davranışı: Model boyutu arttıkça aradaki fark daralmaktadır.
RTDETRv2-l(53,4 mAP) daha iyi performans gösterirYOLOv6-3.0l(52,8 mAP) daha az parametreye sahipken (42M vs 59,6M), FLOP'lar karşılaştırılabilir kalsa da dönüştürücü mimarisinin parametre verimliliğini göstermektedir. - Donanım Etkileri: YOLOv6'nın avantajı, donanım hızlandırıcılarıyla çok doğrudan eşleşen saf CNN yapısında yatmaktadır. RTDETRv2, teorik hızını gerçekleştirmek için matris çarpımlarını ve dikkat işlemlerini verimli bir şekilde işleyebilen donanım gerektirir.
Dağıtımla İlgili Hususlar
Uç cihazlara dağıtım yaparken, "Parametrelerin" her zaman hız ile mükemmel bir korelasyon göstermediğini unutmayın. RTDETRv2 bazı yapılandırmalarda daha az parametreye sahip olsa da, bellek erişim modelleri (dikkat) eski donanımlarda YOLOv6'nın yüksek düzeyde optimize edilmiş konvolüsyonlarına kıyasla daha yavaş olabilir.
Eğitim Metodolojileri
Bu iki model için eğitim ortamı, geliştirme için gereken kaynakları etkileyecek şekilde önemli ölçüde farklılık göstermektedir.
YOLOv6.0, CNN'ler için standart derin öğrenme uygulamalarını takip eder. Daha kısa eğitim programlarından (tipik olarak 300-400 epok) ve daha düşük GPU bellek tüketiminden faydalanır. Kendi kendine damıtma gibi teknikler dahili olarak ele alınır ancak kayıp fonksiyonu hesaplamasına bir karmaşıklık katmanı ekler.
RTDETRv2, transformatör tabanlı olduğundan, genellikle daha fazla CUDA eğitim sırasında bellek. Dikkat mekanizmasının görüntü boyutuna göre ikinci dereceden karmaşıklığı, yığın boyutlarının genellikle azaltılması veya daha güçlü GPU'ların kullanılması gerektiği anlamına gelir. Ayrıca, dönüştürücüler, tümevarımsal önyargılar olmadan uzamsal ilişkileri tam olarak öğrenmek için genellikle daha uzun eğitim ufuklarından yararlanır.
Ultralytics Avantajı
Hem YOLOv6 hem de RTDETR belirli nişler için cazip özellikler sunarken, Ultralytics YOLO11 her iki dünyanın en iyilerini dengeleyen birleşik bir çözüm sunar. CNN'lerin verimliliğini, transformatör doğruluğuna rakip olan modern mimari inceliklerle bütünleştirir ve tüm bunları geliştirici üretkenliği için tasarlanmış bir ekosistem içinde sunar.
Neden Ultralytics Modellerini Seçmelisiniz?
- Kullanım Kolaylığı: Ultralytics , eğitim ve dağıtımın karmaşıklıklarını ortadan kaldıran bir Pythonic API sağlar. Son teknoloji ürünü bir modeli üç satır kodla eğitebilirsiniz.
- Performans Dengesi: YOLO11 , optimum bir denge sunmak üzere tasarlanmıştır. YOLOv6 ile karşılaştırılabilir gerçek zamanlı çıkarım hızları sağlarken, dönüştürücülerin büyük bellek yükü olmadan RTDETR'yi zorlayan doğruluk seviyelerine ulaşır.
- Çok yönlülük: YOLOv6 'nın (yalnızca algılama) aksine, Ultralytics modelleri Örnek Segmentasyonu, Poz Tahmini, Sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB ) algılamayı yerel olarak destekler.
- Bakımlı Ekosistem: Sık güncellemeler, kapsamlı dokümantasyon ve topluluk desteği sayesinde hata ayıklama konusunda asla yalnız kalmazsınız.
- Eğitim Verimliliği: Ultralytics modelleri, mütevazı donanımlarda bile hızlı yinelemeye olanak tanıyan verimli eğitim ardışık düzenleri ile ünlüdür.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
YOLO11 hakkında daha fazla bilgi edinin
Sonuç
Hem YOLOv6.0 hem de RTDETRv2 bilgisayarla görme alanında etkileyici başarılardır. YOLOv6.0, donanımın sabit olduğu ve hızın önemli olan tek ölçüt olduğu katı endüstriyel boru hatları için pragmatik bir seçimdir. RTDETRv2, karmaşık sahnelerde doğruluğun kritik olduğu ve donanım kaynaklarının bol olduğu araştırma ve üst düzey uygulamalar için mükemmel bir seçimdir.
Ancak, gerçek dünya uygulamalarının büyük çoğunluğu için, Ultralytics YOLO11 üstün bir seçim olmaya devam ediyor. Konseptten üretime giden yolculuğu hızlandıran performans, çok yönlülük ve kullanım kolaylığının "tatlı noktasını" sunar. İster hızlı deneylere ihtiyaç duyan bir araştırmacı ister binlerce uç cihaza dağıtım yapan bir mühendis olun, Ultralytics ekosistemi başarıyı garantileyecek araçları sağlar.
Diğer Modelleri İnceleyin
Daha fazla karşılaştırma ile ilgileniyorsanız, Ultralytics belgelerindeki bu kaynakları keşfedin:
- YOLO11 - YOLOv8 Karşılaştırması
- RTDETR - YOLOv8 karşılaştırması
- YOLOv6 vs. YOLOv8
- YOLOv5 vs. YOLOv6
- EfficientDet vs. YOLOv6