İçeriğe geç

YOLOv6-3.0 - DAMO-YOLO Karşılaştırması: Nesne Tespiti için Teknik Bir Karşılaştırma

Doğru bilgisayar görüşü mimarisini seçmek, mühendisler ve araştırmacılar için çok önemli bir karardır. Nesne algılama alanı rekabetçi olup, endüstri devleri sürekli olarak hız ve doğruluk sınırlarını zorlamaktadır. Bu sayfa, Meituan'dan donanım açısından verimli bir model olan YOLOv6-3.0 ile Alibaba Group'tan teknoloji dolu bir mimari olan DAMO-YOLO arasında kapsamlı bir teknik karşılaştırma sunar.

YOLOv6-3.0'a Genel Bakış

YOLOv6-3.0, özellikle endüstriyel uygulamalar için uyarlanmış sağlam bir çerçeve görevi görür. Meituan'ın Vision AI Departmanı tarafından yayınlanan bu sürüm, gerçek dünya verimliliğine öncelik vererek üretim ve otomasyonda bulunan standart donanım kısıtlamalarında yüksek performans sunmayı amaçlamaktadır.

Mimari ve Temel Yenilikler

YOLOv6-3.0, yeniden parametrelendirmeye odaklanarak tek aşamalı dedektör paradigmasını geliştirir. Bu teknik, modelin daha iyi öğrenme için eğitim sırasında karmaşık bir yapıya sahip olmasını sağlar, ancak çıkarım sırasında daha basit, daha hızlı bir yapıya dönüşür.

  • EfficientRep Backbone: Backbone, GPU donanım özelliklerinin kullanımını optimize ederek farklı model boyutları için farklı bloklar (küçük modeller için EfficientRep ve daha büyük modeller için CSPStackRep) kullanır.
  • Rep-PAN Katmanı: Katman, yüksek çıkarım hızlarını korurken özellik kaynaştırmayı geliştiren bir Rep-PAN topolojisi kullanır.
  • Kendiliğinden Damıtma: Modelin kendi tahminlerinden (özellikle aynı ağ içindeki bir öğretmen dalı) öğrendiği ve dağıtım sırasında ayrı bir öğretmen modelinin hesaplama maliyeti olmadan doğruluğu artırdığı temel bir eğitim metodolojisi.

Endüstriyel Optimizasyon

YOLOv6, nicemleme göz önünde bulundurularak açıkça tasarlanmıştır. Mimarisi, Eğitim Sonrası Nicemleme (PTQ) ve Nicemleme Farkında Eğitim'e (QAT) uygundur, bu da onu hız için INT8 kesinliğinin tercih edildiği uç cihazlarda dağıtım için güçlü bir aday yapar.

YOLOv6 hakkında daha fazla bilgi edinin

DAMO-YOLO'ya Genel Bakış

Alibaba Group tarafından geliştirilen DAMO-YOLO, performans ve gecikme arasındaki dengeyi optimize etmek için bir dizi yeni teknoloji sunar. Sinirsel Mimari Arama (NAS) ve gelişmiş özellik birleştirme tekniklerini içermesiyle kendini farklı kılar.

Mimari ve Temel Yenilikler

DAMO-YOLO, verimli yapılar bulmak için kısmen otomatik arama stratejilerine güvenerek, tamamen el yapımı mimarilerden uzaklaşır.

  • NAS Destekli Backbone (MazeNet): Backbone, MAE-NAS (Sinir Ağı Mimarisi Arama) kullanılarak oluşturulur ve bu da değişen hesaplama bütçeleri için son derece optimize edilmiş MazeNet adlı bir yapıyla sonuçlanır.
  • Verimli RepGFPN: Yeniden parametrelendirme ile birleştirilmiş Genelleştirilmiş bir Özellik Piramidi Ağı (GFPN) kullanır. Bu, çeşitli boyutlardaki nesneleri detect etmek için kritik olan zengin çok ölçekli özellik birleştirmesine olanak tanır.
  • ZeroHead: Ağın son aşamasında parametre sayısını ve hesaplama karmaşıklığını azaltan basitleştirilmiş bir detect başlığı tasarımı.
  • AlignedOTA: Eğitim süreci sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluğu çözen dinamik bir etiket atama stratejisidir.

Gelişmiş Özellik Birleştirme

DAMO-YOLO'daki RepGFPN boynu, özellikle örtüşen nesneler içeren karmaşık sahnelerin işlenmesinde etkilidir. Farklı ölçek seviyelerinde atlama bağlantılarına izin vererek, standart FPN yapılarından daha iyi anlamsal bilgi korur.

DAMO-YOLO hakkında daha fazla bilgi edinin

Performans Analizi: Hız - Doğruluk Karşılaştırması

Aşağıdaki karşılaştırma, COCO val2017 veri setinden elde edilen verileri kullanmaktadır. Metrikler, iki model arasındaki farklı ölçeklerdeki ödünleşimleri vurgulamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Temel Çıkarımlar

  1. Gecikme Lideri: YOLOv6-3.0n, bir T4 GPU'da 1.17 ms ile bu karşılaştırmadaki en hızlı modeldir. Bu, onu gerçek zamanlı çıkarım senaryolarında yüksek FPS gereksinimleri için son derece uygun hale getirir.
  2. Doğruluk Zirvesi:YOLOv6-3.0l, DAMO-YOLO'ya kıyasla daha yüksek parametreler ve FLOP'lar pahasına olsa da, ağır backbone'unun ve kendi kendine damıtma stratejisinin etkinliğini gösteren 52.8'lik bir mAP ile en yüksek doğruluğa ulaşır.
  3. Verimlilik Tatlı Noktası:DAMO-YOLOs, daha az parametreye (16.3M'ye karşı 18.5M) sahipken doğrulukta (46.0'a karşı 45.0 mAP) YOLOv6-3.0s'den daha iyi performans gösterir. Bu, küçük model rejiminde NAS ile aranan backbone'un verimliliğini vurgular.
  4. Parametre Verimliliği: Genel olarak, DAMO-YOLO modelleri, orta-büyük aralıkta karşılaştırılabilir doğruluk için daha düşük FLOP'lar ve parametre sayıları sergiler ve bu da ZeroHead tasarımının etkinliğini doğrular.

Ultralytics'in Avantajı

YOLOv6.0 ve YOLO ise belirli nişler için cazip özellikler sunuyor, Ultralytics YOLO11 modern yapay zeka gelişimi için daha bütünsel bir çözüm sunar. Bir Ultralytics modeli seçmek, tüm makine öğrenimi yaşam döngüsünü kolaylaştırmak için tasarlanmış kapsamlı bir ekosistemin kilidini açar.

Neden Ultralytics YOLO'yu Seçmelisiniz?

  • Rakipsiz Kullanım Kolaylığı: Genellikle karmaşık ortam kurulumları ve özel C++ operatörlerinin derlenmesini gerektiren araştırma depolarının aksine, Ultralytics modelleri basit bir şekilde kurulabilir pip install ultralytics. Sezgisel python API modelleri yalnızca birkaç satır kodla eğitmenize ve dağıtmanıza olanak tanır.
  • Performans Dengesi: YOLO11, çıkarım hızı ve doğruluk arasında optimum dengeyi sağlamak için tasarlanmıştır ve genellikle eğitim sırasında daha düşük bellek gereksinimlerini korurken gerçek dünya kıyaslamalarında rakiplerinden daha iyi performans gösterir.
  • Görev Çok Yönlülüğü: YOLOv6 ve DAMO-YOLO öncelikle nesne algılayıcıları olsa da, Ultralytics YOLO yerel olarak Örnek Segmentasyonu, Poz Tahmini, Sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama dahil olmak üzere çok çeşitli görevleri destekler.
  • İyi Yönetilen Ekosistem: Ultralytics, sık güncellemeler, kapsamlı dokümantasyon ve Discord ve GitHub aracılığıyla topluluk desteği ile yaşayan bir ekosistem sağlar. Bu, projenizin geleceğe dönük kalmasını ve en son donanım ve yazılım kütüphaneleriyle uyumlu olmasını sağlar.
  • Dağıtım Esnekliği: Yerleşik dışa aktarma modunu kullanarak eğitilmiş modellerinizi ONNX, TensorRT, CoreML ve OpenVINO gibi çeşitli formatlara kolayca aktarın ve bulut sunucularından Raspberry Pi cihazlarına kadar her şeye dağıtımı kolaylaştırın.

Örnek: YOLO11 ile Nesne Algılamayı Çalıştırma

Ultralytics ile son teknoloji detect'e başlamak oldukça basittir:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Sonuç

Hem YOLOv6-3.0 hem de DAMO-YOLO, nesne algılamanın evriminde önemli kilometre taşlarını temsil etmektedir. YOLOv6-3.0, özellikle Nano varyantı ile ham hızın ve niceleme desteğinin çok önemli olduğu endüstriyel ortamlarda öne çıkmaktadır. DAMO-YOLO, küçük ila orta model aralığında yüksek verimlilik ve doğruluk sunarak Nöral Mimari Arama ve yenilikçi özellik kaynaştırmanın gücünü sergilemektedir.

Ancak, son teknoloji performansı, çok yönlülük ve kullanım kolaylığı ile birleştiren, üretime hazır bir çözüm arayan geliştiriciler için Ultralytics YOLO11 önerilen seçenek olmaya devam ediyor. Sağlam ekosistemi, çoklu görev yetenekleri ve modern MLOps iş akışlarına sorunsuz entegrasyonu, proje başarısını sağlamak için belirgin bir avantaj sağlar.

Diğer Modelleri İnceleyin

Nesne algılama ortamı hakkındaki anlayışınızı genişletmek için, bu ilgili model karşılaştırmalarını incelemeyi düşünebilirsiniz:


Yorumlar