İçeriğe geç

YOLOv6-3.0 - RTDETRv2 karşılaştırması: Teknik Bir Karşılaştırma

Doğru nesne algılama modelini seçmek, doğruluk, hız ve hesaplama maliyetini dengeleyen kritik bir karardır. Bu karşılaştırma, mimari olarak farklı iki güçlü modeli incelemektedir: Yüksek düzeyde optimize edilmiş bir CNN tabanlı dedektör olan YOLOv6-3.0 ve son teknoloji ürünü gerçek zamanlı transformatör tabanlı bir model olan RTDETRv2. YOLOv6-3.0 yüksek hızlı endüstriyel uygulamalar için tasarlanmışken, RTDETRv2 olağanüstü doğruluk elde etmek için bir Vision Transformer (ViT) kullanır.

Bu sayfa, projeniz için en uygun olanı belirlemenize yardımcı olmak amacıyla mimarilerinin, performans metriklerinin ve ideal kullanım durumlarının derinlemesine bir analizini sunmaktadır.

YOLOv6-3.0

Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Kuruluş: Meituan
Tarih: 2023-01-13
Arşiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Belgeler: https://docs.ultralytics.com/models/yolov6/

YOLOv6-3.0, özellikle çıkarım hızının en yüksek öncelik olduğu endüstriyel uygulamalar için Meituan tarafından geliştirilen tek aşamalı bir nesne algılama çerçevesidir. Birkaç temel optimizasyonla klasik YOLO mimarisi üzerine kurulmuştur.

Mimari ve Temel Özellikler

YOLOv6-3.0, verimliliği en üst düzeye çıkarmak için donanım farkındalıklı bir sinir ağı tasarımı sunar. Mimarisi, doğruluk ve hızı dengelemek için verimli bir yeniden parametrelendirme backbone'u ve yeniden tasarlanmış bir boyun içerir. Model ayrıca, çıkarım yükünü artırmadan performansı artırmak için kendi kendine damıtma dahil olmak üzere optimize edilmiş bir eğitim stratejisi içerir. Klasik bir tek aşamalı nesne tespit aracıdır, bu da onu doğal olarak hızlı ve dağıtımı kolay hale getirir.

Güçlü Yönler

  • Yüksek Çıkarım Hızı: Hızlı performans için optimize edilmiştir, bu da onu endüstriyel ortamlarda gerçek zamanlı çıkarım için oldukça uygun hale getirir.
  • İyi Doğruluk-Hız Dengesi: Yüksek verimliliği korurken, özellikle daha büyük varyantlarıyla rekabetçi doğruluk sunar.
  • Kuantalama ve Mobil Desteği: Model kuantalaması için güçlü destek sağlar ve mobil veya CPU tabanlı dağıtım için uyarlanmış YOLOv6Lite varyantlarını içerir.

Zayıflıklar

  • Sınırlı Görev Çok Yönlülüğü: Öncelikli olarak nesne tespiti'ne odaklanır ve Ultralytics YOLO gibi daha kapsamlı çerçevelerde bulunan segmentasyon, sınıflandırma ve poz tahmini gibi diğer görevler için yerleşik destekten yoksundur.
  • Ekosistem ve Bakım: Açık kaynaklı olmasına rağmen, ekosistemi Ultralytics platformu kadar kapsamlı veya aktif olarak sürdürülmemektedir, bu da daha az güncelleme ve daha az topluluk desteği anlamına gelebilir.

İdeal Kullanım Senaryoları

YOLOv6-3.0, hızın çok önemli olduğu senaryolarda öne çıkar:

  • Endüstriyel Otomasyon: Üretimde kalite kontrolü ve süreç takibi için mükemmeldir.
  • Gerçek zamanlı Sistemler: Robotik ve video gözetimi gibi katı gecikme gereksinimleri olan uygulamalar için idealdir.
  • Edge Computing: Verimli tasarımı ve mobil varyantları, NVIDIA Jetson gibi kaynak kısıtlamalı cihazlarda dağıtım için güçlü bir seçim olmasını sağlar.

YOLOv6-3.0 hakkında daha fazla bilgi edinin

RTDETRv2

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 2023-04-17
Arşiv: https://arxiv.org/abs/2304.08069
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Belgeler: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü v2), gerçek zamanlı performans için dönüştürücü mimarisini uyarlayan son teknoloji bir nesne algılayıcısıdır. Global görüntü bağlamını etkili bir şekilde yakalayarak yüksek doğruluk sağlamak için orijinal DETR çerçevesini temel alır.

Mimari ve Temel Özellikler

RTDETRv2, bir sahnedeki nesneler arasındaki uzun menzilli bağımlılıkları modellemesine olanak tanıyan bir transformer kodlayıcı-kod çözücü yapısı kullanır. Bu global bağlam farkındalığı, özellikle birçok örtüşen nesnenin bulunduğu karmaşık görüntülerde genellikle üstün doğruluğa yol açar. Bir anchor içermeyen dedektör olarak, anchor kutusu tasarımına ve kod çözücüde non-maximum suppression'a (NMS) olan ihtiyacı ortadan kaldırarak algılama hattını basitleştirir.

Güçlü Yönler

  • Yüksek Doğruluk: Transformer mimarisi, görüntü bağlamının derinlemesine anlaşılmasını sağlayarak son teknoloji algılama hassasiyetiyle sonuçlanır.
  • Güçlü Özellik Çıkarımı: Hem genel bağlamı hem de ince ayrıntıları yakalamada üstündür, bu da onu karmaşık sahnelerde güçlü kılar.
  • Gerçek Zamanlı Yetenekli: Özellikle TensorRT gibi araçlarla hızlandırıldığında hızlı çıkarım için optimize edilmiştir, bu da onu gerçek zamanlı uygulamalar için uygun hale getirir.

Zayıflıklar

  • Yüksek Hesaplama Maliyeti: Transformer'lar kaynak yoğunluğuyla bilinir. RTDETRv2 modelleri genellikle CNN muadillerinden daha fazla parametreye ve FLOP'a sahiptir.
  • Zorlu Eğitim Gereksinimleri: Transformer tabanlı modelleri eğitmek genellikle önemli ölçüde daha fazla veri, daha uzun eğitim süreleri ve çok daha yüksek CUDA belleği gerektirir, bu da sınırlı donanıma sahip kullanıcılar için erişilebilirliğini azaltır. Buna karşılık, Ultralytics YOLO modelleri standart GPU'larda verimli eğitim için tasarlanmıştır.

İdeal Kullanım Senaryoları

RTDETRv2, maksimum doğruluğun birincil hedef olduğu uygulamalar için en uygunudur:

  • Otonom Sürüş: Kendi kendine giden arabaların güvenliği için yüksek hassasiyetli algılama kritik öneme sahiptir.
  • Gelişmiş Robotik: Robotların karmaşık, dinamik ortamlarda gezinmesini ve etkileşim kurmasını sağlar.
  • Yüksek Hassasiyetli Gözetim: Küçük veya gizlenmiş nesnelerin doğru bir şekilde tespit edilmesinin gerekli olduğu güvenlik sistemlerinde kullanışlıdır.

RTDETRv2 hakkında daha fazla bilgi edinin

Performans Karşılaştırması: YOLOv6-3.0 - RTDETRv2

Aşağıdaki tablo, COCO veri kümesi üzerinde bir performans karşılaştırması sunmaktadır.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Metriklerden, RTDETRv2-x en yüksek mAP'ye ulaşarak transformatör mimarisinin doğruluk faydalarını göstermektedir. Ancak, bu hız ve model boyutu pahasına gelir. Buna karşılık, YOLOv6-3.0 modelleri daha az parametreyle önemli ölçüde daha hızlı çıkarım süreleri sunar. Örneğin, YOLOv6-3.0s, RTDETRv2-s'den neredeyse iki kat daha hızlıdır ve rekabetçi bir 45.0 mAP sunar. Seçim açıkça projenin önceliğine bağlıdır: maksimum doğruluk (RTDETRv2) veya optimum hız ve verimlilik (YOLOv6-3.0).

Eğitim Metodolojileri

YOLOv6-3.0, performansı artırmak için kendi kendine damıtma gibi teknikler de dahil olmak üzere, CNN'lere özgü standart derin öğrenme uygulamaları kullanılarak eğitilir. Eğitim süreci genellikle verimlidir ve daha az kaynak yoğundur.

Transformatör tabanlı bir model olan RTDETRv2, daha zorlu bir eğitim rejimine sahiptir. Bu modeller genellikle daha büyük veri kümeleri, daha uzun eğitim programları ve etkili bir şekilde yakınlaşmak için önemli ölçüde daha fazla GPU belleği gerektirir. Giriş için bu yüksek engel, yüksek performanslı bilgi işlem kaynaklarına erişimi olmayan ekipler için onları daha az pratik hale getirebilir.

Sonuç

Hem YOLOv6-3.0 hem de RTDETRv2, kendi alanlarında güçlü performans gösteren modellerdir. YOLOv6-3.0, hız ve verimliliğin kritik olduğu endüstriyel uygulamalar için mükemmel bir seçimdir. RTDETRv2, doğruluğun sınırlarını zorlayarak, hassasiyetten ödün verilemeyen yüksek riskli görevler için idealdir.

Ancak, çoğu geliştirici ve araştırmacı için YOLOv8, YOLOv10 ve en son YOLO11 gibi Ultralytics YOLO modelleri daha cazip bir genel paket sunar. Ultralytics modelleri, hız ve doğruluğun olağanüstü bir dengesini sağlar, eğitilmesi oldukça verimlidir ve segmentasyon, poz tahmini ve sınıflandırma dahil olmak üzere nesne tespitinin ötesinde geniş bir görev yelpazesini destekler.

Ayrıca, kapsamlı dokümantasyon, basit bir Python API ve kolaylaştırılmış eğitim ve dağıtım için Ultralytics HUB ile entegrasyon dahil olmak üzere sağlam ve aktif olarak sürdürülen bir ekosistem tarafından desteklenmektedirler. Performans, çok yönlülük ve kullanım kolaylığının bu kombinasyonu, Ultralytics YOLO modellerini çok çeşitli bilgisayarlı görü projeleri için önerilen seçim haline getirir.

Diğer Modelleri İnceleyin

Daha fazla karşılaştırma ile ilgileniyorsanız, Ultralytics belgelerindeki diğer modellere göz atabilirsiniz:



📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar