İçeriğe geç

DAMO-YOLO - YOLOv6-3.0 Karşılaştırması: Teknik Bir Karşılaştırma

İdeal nesne algılama mimarisini seçmek, bilgisayar görüşü mühendisleri için çok önemli bir karardır ve genellikle hassasiyet, çıkarım gecikmesi ve donanım kısıtlamaları arasında dikkatli bir denge kurmayı gerektirir. Bu kılavuz, Alibaba Group'tan yüksek doğruluklu bir model olan DAMO-YOLO ve Meituan'dan verimlilik odaklı bir çerçeve olan YOLOv6-3.0'ı karşılaştıran kapsamlı bir teknik analiz sunmaktadır.

Mimari yeniliklerini inceliyor, standart veri kümelerinde performanslarını değerlendiriyor ve gerçek dünya dağıtımlarına uygunluklarını değerlendiriyoruz. Ek olarak, Ultralytics YOLO11'in birleşik bir çözüm arayan geliştiriciler için nasıl modern, çok yönlü bir alternatif sunduğunu araştırıyoruz.

DAMO-YOLO'ya Genel Bakış

DAMO-YOLO, Alibaba Group tarafından geliştirilen son teknoloji bir nesne algılama yöntemidir. Nöral Mimari Arama (NAS) ve hesaplama darboğazlarını ortadan kaldırmak için tasarlanmış çeşitli yeni modülleri bir araya getirerek hız ve doğruluk arasındaki dengeye öncelik verir.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Belgeler:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Mimari ve Temel Özellikler

DAMO-YOLO, benzersiz bir mimari tasarım tarafından desteklenen bir "Küçükten Büyüğe" ölçeklendirme stratejisi sunar. Temel bileşenler şunları içerir:

  • MAE-NAS Backbones: Sinirsel Mimari Arama (NAS) kullanılarak, model, farklı hesaplama bütçeleri altında özellik çıkarma verimliliğini en üst düzeye çıkarmak için yapısal olarak çeşitlendirilmiş MazeNet backbonelerini kullanır.
  • Verimli RepGFPN: Yeniden parametrelendirme (Rep) ile geliştirilmiş Genelleştirilmiş bir Özellik Piramidi Ağı (GFPN), üstün çok ölçekli özellik birleştirmesine olanak tanır. Bu tasarım, düşük seviyeli uzamsal bilgilerin ve yüksek seviyeli anlamsal bilgilerin ağır gecikme maliyetlerine neden olmadan etkili bir şekilde birleştirilmesini sağlar.
  • ZeroHead: Parametre sayısını önemli ölçüde azaltan minimalist bir detect başlığı tasarımı ("ZeroHead"). Sınıflandırma ve regresyon görevlerini verimli bir şekilde ayırarak, son tahmin katmanlarını kolaylaştırırken yüksek performansı korur.
  • AlignedOTA: Sınıflandırma skorları ve regresyon IoU (Kesişim Üzerinden Birleşim) arasındaki uyumsuzlukları çözen, modelin eğitim sırasında yüksek kaliteli bağlantılara odaklanmasını sağlayan gelişmiş bir etiket atama stratejisidir.

Güçlü ve Zayıf Yönler

DAMO-YOLO, mAP'nin her yüzde puanını sıkıştırmanın kritik olduğu senaryolarda parlar.

  • Artıları:

    • High Accuracy: NAS ile optimize edilmiş backbone'u sayesinde küçük ve orta boyutlar için mAP'de genellikle karşılaştırılabilir modellerden daha iyi performans gösterir.
    • Yenilikçi Tasarım: ZeroHead konsepti, tipik olarak algılama başlıklarında bulunan ağır hesaplama yükünü azaltır.
    • Güçlü Damıtma: Daha büyük öğretmen ağlarını kullanarak daha küçük öğrenci modellerinin performansını artıran sağlam bir damıtma mekanizması (Bilgi Damıtma) içerir.
  • Eksileri:

    • Karmaşık Mimari: NAS tarafından oluşturulan backboneların kullanımı, mimariyi standart CSP tabanlı tasarımlara kıyasla özelleştirmeyi veya hatalarını ayıklamayı zorlaştırabilir.
    • Sınırlı Ekosistem: Araştırma odaklı bir sürüm olduğundan, daha geniş ekosistemlerde bulunan kapsamlı üçüncü taraf araç entegrasyonundan yoksundur.
    • Gecikme Değişkenliği: Optimize edilmiş olsa da, NAS yapıları her zaman standart CNN'ler gibi belirli donanım hızlandırıcılarına mükemmel şekilde eşlenmeyebilir.

İdeal Kullanım Senaryoları

  • Akıllı Şehir Gözetimi: Uzaktaki yayalar veya araçlar gibi küçük nesneleri detect etmek için yüksek doğruluğun gerektiği durumlar.
  • Otomatik Kalite Kontrolü: Hassasiyetin çok önemli olduğu üretim hatlarındaki ince kusurları belirleme.

DAMO-YOLO hakkında daha fazla bilgi edinin

YOLOv6-3.0'a Genel Bakış

YOLOv6-3.0, Meituan tarafından geliştirilen YOLOv6 çerçevesinin üçüncü yinelemesidir. Özellikle GPU'lar üzerinde yüksek verimlilik ve kolay dağıtım vurgulanarak endüstriyel uygulamalar için tasarlanmıştır.

Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
Kuruluş:Meituan
Tarih: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
Belgeler:https://docs.ultralytics.com/models/yolov6/

Mimari ve Temel Özellikler

YOLOv6-3.0, GPU kullanımını en üst düzeye çıkaran donanım dostu tasarımlara odaklanır:

  • EfficientRep Backbone: Backbone, karmaşık eğitim zamanı yapılarını çıkarım için basit 3x3 konvolüsyonlara yoğunlaştıran, NVIDIA TensorRT gibi donanımlarda hızı artıran yeniden parametrelendirilebilir bloklar kullanır.
  • Rep-PAN Katmanı: Katman mimarisi, özellik kaynaştırma yeteneğini donanım verimliliği ile dengeler ve verilerin ağ içinde darboğazlar olmadan sorunsuz bir şekilde akmasını sağlar.
  • Çift Yönlü Birleştirme (BiC): Farklı ölçeklerdeki özelliklerin nasıl toplandığını iyileştirerek yerelleştirme doğruluğunu artırır.
  • Ankraj Destekli Eğitim (AAT): Yakınsamayı stabilize etmek ve nihai doğruluğu artırmak için eğitim aşamasında ankraj tabanlı ve ankraj içermeyen paradigmaların avantajlarını birleştiren hibrit bir strateji.

Güçlü ve Zayıf Yönler

YOLOv6-3.0, standart GPU dağıtımı gerektiren endüstriyel ortamlar için bir güç merkezidir.

  • Artıları:

    • Çıkarım Hızı: nano varyantı son derece hızlıdır, bu da onu yüksek FPS gereksinimleri için ideal kılar.
    • Donanım Optimizasyonu: Özellikle GPU verimi için tasarlanmıştır, TensorRT nicemlemesi ile iyi performans gösterir.
    • Basitleştirilmiş Dağıtım: Yeniden parametrelendirme, son grafiği basitleştirerek dışa aktarma sırasında uyumluluk sorunlarını azaltır.
  • Eksileri:

    • Tek Görev Odaklı: Öncelikle nesne tespiti yapabilir, çoklu görev çerçevelerine kıyasla temel depoda segmentasyon veya poz tahmini için yerel desteği yoktur.
    • Parametre Verimliliği: Daha büyük varyantlar, benzer doğruluk kazanımları için bazı rakiplere kıyasla parametreler açısından daha ağır olabilir.

İdeal Kullanım Senaryoları

  • Endüstriyel Otomasyon: Üretim hatlarında yüksek hızlı sıralama ve montaj doğrulaması.
  • Perakende Analitiği:Raf takibi ve müşteri davranış analizi için gerçek zamanlı çıkarım.
  • Uç Hesaplama: YOLOv6-Lite gibi hafif modelleri mobil veya gömülü cihazlarda dağıtma.

YOLOv6 hakkında daha fazla bilgi edinin

Performans Analizi

Aşağıdaki karşılaştırma, her iki modelin COCO veri kümesi üzerindeki performansını vurgulamaktadır. Metrikler, IoU 0.5-0.95'te doğrulama mAP'sine (Ortalama Ortalama Hassasiyet), TensorRT kullanılarak T4 GPU'lardaki çıkarım hızına ve model karmaşıklığına (Parametreler ve FLOPs) odaklanmaktadır.

Performans İçgörüleri

YOLOv6-3.0n, 2 ms'nin altında çıkarım sunarak hız şampiyonu olarak öne çıkar ve bu da onu son derece gecikmeye duyarlı uygulamalar için mükemmel kılar. Bununla birlikte, DAMO-YOLO modelleri (özellikle Küçük ve Orta varyantlar) genellikle YOLOv6 muadillerinden daha yüksek mAP puanları elde ederek, NAS backbonelarından türetilen güçlü bir mimari verimlilik gösterir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Ultralytics'in Avantajı

DAMO-YOLO ve YOLOv6-3.0 belirli nişler için etkileyici özellikler sunarken, Ultralytics YOLO11, bilgisayar görüşü yapay zekasında bütünsel bir evrimi temsil eder. Sadece bir algılama modelinden daha fazlasına ihtiyaç duyan geliştiriciler için tasarlanan YOLO11, son teknoloji ürünü performansı benzersiz bir kullanıcı deneyimiyle bütünleştirir.

Neden Ultralytics YOLO'yu Seçmelisiniz?

  • Birleşik Ekosistem: Bağımsız araştırma depolarının aksine, Ultralytics kapsamlı bir platform sağlar. Veri etiketlemeden model eğitimine ve dağıtımına kadar iş akışı sorunsuzdur. GitHub ve Discord üzerindeki aktif topluluk, asla yalnız geliştirme yapmamanızı sağlar.
  • Rakipsiz Çok Yönlülük: Tek bir YOLO11 model mimarisi, Nesne Algılama, Örnek Segmentasyonu, Poz Tahmini, Yönlendirilmiş Sınırlayıcı Kutu (OBB) ve Sınıflandırma dahil olmak üzere çok çeşitli bilgisayarla görme görevlerini destekler. Bu esneklik, çerçeveleri değiştirmeden karmaşık projelerin üstesinden gelmenizi sağlar.
  • Eğitim Verimliliği: Ultralytics modelleri, eğitim verimliliği için optimize edilmiştir ve genellikle transformatör tabanlı alternatiflere göre önemli ölçüde daha az GPU belleği gerektirir. Otomatik toplu boyut belirleme ve karma duyarlıklı eğitim (AMP) gibi özellikler varsayılan olarak etkindir ve veriden dağıtıma giden yolu kolaylaştırır.
  • Kullanım Kolaylığı: Python API, basitlik için tasarlanmıştır. Önceden eğitilmiş bir modeli yükleyebilir, bir görüntü üzerinde çıkarım çalıştırabilir ve yalnızca birkaç satır kodla ONNX veya TensorRT gibi biçimlere aktarabilirsiniz.
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
model.export(format="onnx")

Sonuç

Projeler kesinlikle endüstriyel GPU'larda en yüksek verimi gerektiriyorsa, YOLOv6-3.0 güçlü bir rakiptir. NAS kullanarak belirli bir parametre bütçesi dahilinde doğruluğu en üst düzeye çıkarmaya odaklanıyorsanız, DAMO-YOLO mükemmel bir araştırma sınıfı seçenektir.

Ancak, ticari ve araştırma uygulamalarının büyük çoğunluğu için Ultralytics YOLO11 performans, kullanılabilirlik ve uzun vadeli sürdürülebilirliğin en iyi dengesini sunar. Birden fazla görevi işleme yeteneği, sağlam ve iyi yönetilen bir ekosistemle birleştiğinde, onu ölçeklenebilir bilgisayarlı görü çözümleri oluşturmak için önerilen seçim haline getiriyor.

Diğer Modelleri İnceleyin

Nesne algılama alanındaki anlayışınızı bu diğer ayrıntılı karşılaştırmaları inceleyerek genişletin:


Yorumlar