İçeriğe geç

DAMO-YOLO - YOLOv5 Karşılaştırması: Kapsamlı Bir Teknik Karşılaştırma

Optimum nesne algılama mimarisini seçmek, bilgisayar görüşü geliştirmede çok önemli bir adımdır ve doğruluk, çıkarım hızı ve entegrasyon karmaşıklığının dikkatli bir şekilde değerlendirilmesini gerektirir. Bu analiz, Alibaba Group tarafından geliştirilen yüksek hassasiyetli bir model olan DAMO-YOLO ile performans, hız ve geliştirici dostu ekosistem dengesiyle kutlanan bir endüstri standardı mimari olan Ultralytics YOLOv5'i karşılaştırır. Bilinçli bir karar vermenize yardımcı olmak için mimari yeniliklerini, kıyaslama metriklerini ve ideal uygulama senaryolarını araştırıyoruz.

DAMO-YOLO: Doğruluk Odaklı Mimari

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Belgeler:DAMO-YOLO README

DAMO-YOLO, makul gecikmeyi korurken algılama doğruluğunun sınırlarını zorlamak için Alibaba Group tarafından yapılan önemli bir çabayı temsil eder. Statik benchmark'larda birçok çağdaşından daha iyi performans göstermek için gelişmiş sinir ağı mimarisi arama (NAS) teknolojilerini ve yeni özellik birleştirme stratejilerini entegre eder.

Mimari Yenilikler

DAMO-YOLO, ağdan maksimum performansı elde etmek için tasarlanmış çeşitli teknik olarak karmaşık bileşenler aracılığıyla kendini farklılaştırır:

  • MAE-NAS Backbone: Manuel olarak tasarlanmış backbonelere sahip modellerin aksine, DAMO-YOLO, Maksimum Entropi ilkesi tarafından yönlendirilen Sinirsel Mimari Arama (NAS) kullanır. Bu, değişen kısıtlamalar altında özellik çıkarma verimliliği için özel olarak optimize edilmiş bir backbone yapısıyla sonuçlanır.
  • Verimli RepGFPN: Model, bir Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramidi Ağı (RepGFPN) kullanır. Bu gelişmiş boyun modülü, farklı ölçeklerde özellik birleştirmesini optimize ederek ve doğruluktan ödün vermeden çıkarım gecikmesini azaltmak için yeniden parametrelendirmeden yararlanarak standart FPN'leri geliştirir.
  • ZeroHead: Detect başlığının hesaplama maliyetini en aza indirmek için DAMO-YOLO, sınıflandırma ve regresyon görevlerini verimli bir şekilde ele alan hafif ayrıştırılmış bir başlık olan ZeroHead'i tanıtır.
  • AlignedOTA: Eğitim kararlılığı ve doğruluğu, tahmin ankrajlarını temel doğruluk nesneleriyle statik eşleştirme kurallarından daha etkili bir şekilde hizalayan dinamik bir etiket atama stratejisi olan Hizalanmış Optimal Taşıma Ataması (AlignedOTA) ile geliştirilir.
  • Damıtma Geliştirmesi: Eğitim süreci genellikle, daha büyük bir "öğretmen" modelinin daha küçük "öğrenci" modelinin daha zengin özellik temsillerini aktararak öğrenmesini yönlendirdiği bilgi damıtmasını içerir.

Araştırma Odaklı Tasarım

DAMO-YOLO, COCO gibi benchmark'larda yüksek mAP elde etmek için büyük ölçüde optimize edilmiştir. NAS ve damıtma kullanımı, eğitim karmaşıklığına mal olsa bile, doğruluktaki her yüzde biriminin önemli olduğu akademik araştırmalar ve senaryolar için onu güçlü bir araç haline getirir.

Güçlü ve Zayıf Yönler

DAMO-YOLO'nun temel avantajı ham tespit doğruluğudur. NAS ve gelişmiş neck tasarımlarından yararlanarak, genellikle aynı nesil karşılaştırılabilir modellerden daha yüksek ortalama Kesinlik (mAP) puanları elde eder. İnce taneli özellik ayrımının kritik olduğu karmaşık sahnelerde nesneleri tanımlamada mükemmeldir.

Ancak, bu kazanımlar ödünleşimlerle birlikte gelir. NAS backbonelar ve damıtma ardışık düzenlerine olan bağımlılık, eğitim karmaşıklığını ve entegrasyonu artırır. Bazı alternatiflerin tak ve çalıştır doğasının aksine, DAMO-YOLO için özel bir eğitim ardışık düzeni kurmak kaynak yoğun olabilir. Ek olarak, ekosistemi nispeten daha küçüktür, yani daha yerleşik çerçevelere kıyasla daha az topluluk kaynağı, eğitimi ve üçüncü taraf entegrasyonu mevcuttur.

DAMO-YOLO hakkında daha fazla bilgi edinin

Ultralytics YOLOv5: Pratik Yapay Zeka Standardı

Yazar: Glenn Jocher
Kuruluş:Ultralytics
Tarih: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Belgeler:https://docs.ultralytics.com/models/yolov5/

Yayınlandığından beri, Ultralytics YOLOv5 gerçek dünyadaki bilgisayarla görme uygulamaları için başvurulacak çözüm olarak kendini kanıtlamıştır. Hız, doğruluk ve kullanılabilirlik arasında efsanevi bir denge kurar ve veri kümesi küratörlüğünden dağıtıma kadar makine öğrenimi yaşam döngüsünün her aşamasını basitleştiren bir ekosistemle desteklenir.

Mimari ve Kullanılabilirlik

YOLOv5, GPU ve CPU donanımındaki sağlamlığı ve verimliliği nedeniyle seçilen CSPDarknet53 backbone ile birlikte bir PANet neck kullanır. Ankraj tabanlı algılama—kanıtlanmış bir metodoloji—kullanırken, gerçek gücü mühendisliğinde ve ekosisteminde yatar:

  • Akıcı Kullanıcı Deneyimi: YOLOv5, "Sıfırdan Kahramanlığa" felsefesiyle ünlüdür. Geliştiriciler, ortamı kurabilir, özel veri kümeleri üzerinde eğitim yapabilir ve yalnızca birkaç satır kodla çıkarım çalıştırabilir.
  • Çeşitlilik: Standart nesne tespitinin ötesinde, YOLOv5 örnek segmentasyonunu ve görüntü sınıflandırmasını destekleyerek, kullanıcıların tek bir çerçeve içinde birden fazla görüntü işleme görevinin üstesinden gelmesini sağlar.
  • Dışarı Aktarılabilirlik: Model, bulut sunucularından uç cihazlara kadar her şeye kolay dağıtım sağlayan ONNX, TensorRT, CoreML ve TFLite dahil olmak üzere çok sayıda formata sorunsuz dışarı aktarımı destekler.
  • Bellek Verimliliği: Ultralytics modelleri, karmaşık transformatör tabanlı mimarilere veya NAS-ağır modellere kıyasla eğitim sırasında tipik olarak daha düşük bellek kullanımı gösterir ve bu da onları daha geniş bir donanım yelpazesinde erişilebilir kılar.

Ekosistem Avantajı

Ultralytics Ekosistemi, geliştirme için büyük bir hızlandırıcıdır. Kapsamlı belgeler, aktif topluluk forumları ve sık güncellemeler sayesinde, geliştiriciler hata ayıklamaya daha az, yenilik yapmaya daha çok zaman harcarlar. Ultralytics HUB gibi araçlarla entegrasyonlar, model yönetimini ve eğitimini daha da kolaylaştırır.

Geliştiriciler Neden YOLOv5'i Seçiyor

YOLOv5, Kullanım Kolaylığı ve Eğitim Verimliliğine öncelik verdiği için en iyi seçenek olmaya devam ediyor. Önceden eğitilmiş ağırlıklar kolayca bulunur ve sağlamdır, bu da hızlı transfer öğrenimine olanak tanır. Çıkarım hızı olağanüstüdür, bu da onu video analitiği, otonom navigasyon ve endüstriyel denetim gibi gerçek zamanlı uygulamalar için ideal hale getirir.

YOLO11 gibi daha yeni modeller ankraj içermeyen mimariler ve daha fazla performans kazanımı sunmuş olsa da, YOLOv5 sayısız üretim sistemi için güvenilir, iyi desteklenen ve oldukça yetenekli bir araç olmaya devam ediyor.

YOLOv5 hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Doğrudan bir karşılaştırmada, iki model arasındaki ayrım belirginleşir: DAMO-YOLO, doğrulama doğruluğunu (mAP) en üst düzeye çıkarmaya yönelirken, YOLOv5 çıkarım hızı ve dağıtım pratikliği için optimize eder. Aşağıdaki tablo, DAMO-YOLO modelleri benzer parametre sayılarında genellikle daha yüksek mAP puanları elde ederken, YOLOv5 modellerinin (özellikle Nano ve Small varyantları) CPU ve GPU'da üstün hız sunduğunu ve bunun genellikle uç dağıtımlar için belirleyici faktör olduğunu vurgulamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Gerçek Dünya Uygulama Kodu

Ultralytics modelleri için en güçlü argümanlardan biri, entegrasyonun basitliğidir. Aşağıda, ekosistemin geliştirici dostu yapısını gösteren, bir YOLOv5 modelinin PyTorch Hub kullanılarak ne kadar kolay yüklenebileceğine ve çıkarım için kullanılabileceğine dair doğrulanmış bir örnek bulunmaktadır.

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source (URL or local path)
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the results
results.show()

Sonuç

Her iki mimari de bilgisayar görüşü ortamında farklı roller üstlenmektedir. DAMO-YOLO, son teknoloji doğruluğu elde etmenin tek amaç olduğu ve NAS tabanlı eğitim hatlarının karmaşıklığının kabul edilebilir olduğu akademik araştırma ve yarışmalar için zorlu bir seçimdir.

Ancak, geliştiricilerin, araştırmacıların ve işletmelerin büyük çoğunluğu için Ultralytics YOLOv5 (ve halefi YOLO11) üstün bir öneri olmaya devam ediyor. İyi Yönetilen Ekosistemin avantajları yeterince vurgulanamaz: basit API'ler, kapsamlı dokümantasyon ve sorunsuz dışa aktarma seçenekleri, pazara sunma süresini önemli ölçüde azaltır. Gerçek zamanlı kısıtlamaları etkili bir şekilde ele alan bir Performans Dengesi ve segmentasyon ve sınıflandırma gibi görevlerdeki Çok Yönlülük ile Ultralytics modelleri, pratik yapay zeka çözümleri oluşturmak için sağlam, geleceğe dönük bir temel sağlar.

En son performansı ve özellikleri arayanlar için, YOLOv5'in mirası üzerine inşa edilmiş, daha da yüksek doğruluk ve verimlilik sunan YOLO11'i keşfetmenizi şiddetle tavsiye ederiz.

Diğer Karşılaştırmaları İnceleyin

İhtiyaçlarınız için en iyi modeli daha ayrıntılı değerlendirmek için, bu ayrıntılı karşılaştırmaları keşfedin:


Yorumlar