İçeriğe geç

DAMO-YOLO ve YOLO11: Teknik Bir Karşılaştırma

Bu sayfa, Alibaba Group tarafından geliştirilen DAMO-YOLO ve Ultralytics YOLO11 olmak üzere iki son teknoloji nesne algılama modeli arasında ayrıntılı bir teknik karşılaştırma sunmaktadır. Her iki model de yüksek performanslı, gerçek zamanlı nesne algılama için tasarlanmış olsa da, farklı mimari felsefeler kullanmaktadır ve farklı alanlarda öne çıkmaktadır. Bilgisayarlı görü projeleriniz için bilinçli bir karar vermenize yardımcı olmak amacıyla mimari farklılıklarını, performans metriklerini ve ideal uygulamalarını analiz edeceğiz.

DAMO-YOLO

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 2022-11-23
Arşiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Belgeler: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO, Alibaba Group tarafından geliştirilen hızlı ve doğru bir nesne algılama yöntemidir. YOLO tarzı dedektörlerin performans sınırlarını zorlamak için çeşitli yeni teknikler sunar. Model, özellikle GPU donanımında doğruluk ve gecikme arasında üstün bir denge sağlamayı amaçlar.

DAMO-YOLO hakkında daha fazla bilgi edinin

Mimari ve Temel Özellikler

DAMO-YOLO'nun mimarisi, sinerji içinde çalışmak üzere tasarlanmış en son teknoloji ürünü bileşenlerin bir kombinasyonudur:

  • NAS Destekli Backbone'ler: Belirli donanımlar için optimize edilmiş, güçlü özellik çıkarma yeteneklerini korurken hesaplama maliyetini azaltan verimli backbone'ler (GiraffeNet gibi) oluşturmak için Sinirsel Mimari Arama'dan (NAS) yararlanır.
  • Verimli RepGFPN Katmanı: Model, çok ölçekli özellik kaynaştırmasını geliştirmek için yeniden parametrelendirme teknikleriyle Genelleştirilmiş Özellik Piramidi Ağlarına (GFPN) dayalı verimli bir katman yapısı içerir.
  • ZeroHead: DAMO-YOLO, sınıflandırma ve regresyon görevlerini ayıran ve hesaplama yükünü azaltan ZeroHead adlı hafif, ankraj içermeyen bir tespit başlığı sunar.
  • AlignedOTA Etiket Atama: Temel doğruluk nesnelerini hem sınıflandırma hem de yerelleştirme puanlarına göre en uygun tahminlerle dinamik olarak eşleştiren ve daha iyi eğitim yakınsamasına yol açan AlignedOTA adlı geliştirilmiş bir etiket atama stratejisi kullanır.
  • Bilgi Damıtımı: Eğitim süreci, daha büyük, daha güçlü bir öğretmen modelinin, daha küçük bir öğrenci modelinin eğitimine rehberlik ederek son doğruluğunu artırdığı bilgi damıtımı ile geliştirilir.

Güçlü Yönler

  • GPU'da Yüksek Doğruluk: DAMO-YOLO, özellikle daha büyük varyantlarında etkileyici mAP skorları elde ederek, COCO veri kümesinde güçlü bir performans sergiler.
  • Hızlı GPU Çıkarımı: Model, GPU çıkarımı için yüksek oranda optimize edilmiştir ve özel grafik donanımında çalışan gerçek zamanlı uygulamalar için kritik olan düşük gecikme süresi sağlar.
  • Yenilikçi Teknikler: Nesne algılamada NAS, gelişmiş etiket atama ve damıtma gibi modern tekniklerin etkinliğini gösterir.

Zayıflıklar

  • Sınırlı Çok Yönlülük: DAMO-YOLO öncelikle nesne tespiti için tasarlanmıştır. Ultralytics gibi çerçevelerde standart olan örnek segmentasyonu, poz tahmini veya sınıflandırma gibi diğer bilgisayarlı görü görevleri için yerel desteği yoktur.
  • Karmaşık Ekosistem: Depo ve dokümantasyon işlevsel olmakla birlikte, Ultralytics ekosistemine kıyasla daha az düzenlidir. Bu, yeni kullanıcılar için daha dik bir öğrenme eğrisi sunabilir.
  • Donanım Odağı: Performansı, CPU performansı hakkında sınırlı bilgiyle GPU'larda yoğun bir şekilde karşılaştırılır, bu da onu yalnızca CPU'da veya çeşitli uç cihazlarda dağıtım için daha az esnek bir seçim haline getirir.

Ultralytics YOLO11

Yazarlar: Glenn Jocher, Jing Qiu
Kuruluş: Ultralytics
Tarih: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Belgeler: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11, ünlü YOLO (You Only Look Once) serisindeki en son evrimdir ve gerçek zamanlı nesne tespiti ve ötesinde son teknolojiyi temsil etmektedir. YOLOv8 gibi önceki modellerin başarıları üzerine inşa edilmiş olup, olgun ve kullanıcı dostu bir ekosistem içinde gelişmiş doğruluk, hız ve çok yönlülük sunmaktadır.

YOLO11 hakkında daha fazla bilgi edinin

Mimari ve Temel Özellikler

YOLO11, performans ve verimliliğin olağanüstü dengesi için yüksek düzeyde optimize edilmiş, iyileştirilmiş tek aşamalı, bağlantısız (anchor-free) bir mimariye sahiptir. Tasarımı, akıcı özellik çıkarma ve hafif bir ağ yapısına odaklanır, bu da parametre sayısını ve hesaplama yükünü azaltır. Bu, YOLO11'i güçlü bulut sunucularından NVIDIA Jetson gibi kaynak kısıtlı uç cihazlara kadar çok çeşitli donanımlarda dağıtım için son derece uyarlanabilir hale getirir.

Ancak, YOLO11'in gerçek gücü, önemli avantajlar sağlayan iyi yönetilen Ultralytics ekosistemi ile entegrasyonunda yatmaktadır:

  • Kullanım Kolaylığı: Basit bir Python API'si ve güçlü bir CLI, eğitimi, doğrulamayı ve çıkarımı inanılmaz derecede kolaylaştırır. Kapsamlı dokümantasyon, her beceri düzeyinden kullanıcı için net rehberlik sağlar.
  • Çok Yönlülük: DAMO-YOLO'nun aksine, YOLO11, tek ve birleşik bir çerçeve içinde nesne tespiti, örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş sınırlayıcı kutuları (OBB) doğal olarak destekleyen çoklu görev modelidir.
  • Performans Dengesi: YOLO11 modelleri, hem CPU hem de GPU üzerinde hız ve doğruluk arasında mükemmel bir denge sunarak çeşitli gerçek dünya senaryolarında esnek ve verimli dağıtım sağlar.
  • Eğitim Verimliliği: Çerçeve, hızlı eğitim süreleri için optimize edilmiştir ve daha karmaşık mimarilere kıyasla daha düşük bellek gereksinimlerine sahiptir. Kolayca erişilebilen önceden eğitilmiş ağırlıklar, özel eğitim iş akışlarını hızlandırır.
  • Sağlam Ekosistem: Kullanıcılar, aktif geliştirmeden, GitHub ve Discord aracılığıyla güçlü topluluk desteğinden, sık güncellemelerden ve uçtan uca MLOps için Ultralytics HUB gibi araçlarla sorunsuz entegrasyondan yararlanır.

Güçlü Yönler

  • Son Teknoloji Performans: Hem hız hem de doğruluk için optimize edilmiş bir mimari ile en üst düzey mAP skorları elde eder.
  • Rakipsiz Çok Yönlülük: Tek bir model çerçevesi, beş farklı görme görevini yönetebilir ve karmaşık projeler için kapsamlı bir çözüm sunar.
  • Üstün Kullanılabilirlik: Kolaylaştırılmış API, anlaşılır belgeler ve entegre ekosistem, başlamayı ve dağıtmayı son derece kolaylaştırır.
  • Donanım Esnekliği: Hem CPU hem de GPU'da yüksek verimlilik sağlar, bu da onu daha geniş bir dağıtım hedefi yelpazesi için uygun hale getirir.
  • Aktif ve Destekleniyor: Ultralytics'teki özel bir ekip ve geniş, aktif bir açık kaynak topluluğu tarafından desteklenmektedir.

Zayıflıklar

  • YOLO11x gibi daha büyük modeller önemli miktarda işlem kaynağı gerektirir, ancak performans sınıfları için oldukça verimli kalırlar.

Performans Karşılaştırması

Aşağıdaki tablo, COCO val veri kümesinde DAMO-YOLO ve YOLO11 için performans metriklerinin doğrudan bir karşılaştırmasını sunmaktadır.

Model boyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Verilerden şu sonuçları çıkarabiliriz:

  • Doğruluk: DAMO-YOLO rekabetçi olmasına rağmen, YOLO11 modelleri, özellikle orta-büyük varyantlar (YOLO11m, l, x), daha yüksek mAP skorları elde eder ve YOLO11x etkileyici bir 54.7 mAP'ye ulaşır.
  • GPU Hızı: DAMO-YOLO çok rekabetçi bir GPU gecikme süresi gösterir. Bununla birlikte, YOLO11 modelleri de yüksek düzeyde optimize edilmiştir ve YOLO11n 1.5 ms ile en hızlı GPU hızına ulaşır.
  • CPU Hızı: YOLO11 için kritik bir avantaj, mükemmel ve iyi belgelenmiş CPU performansıdır. CPU kıyaslamalarının bulunması, GPU'ların bulunmadığı uygulamalar için onu güvenilir bir seçim haline getirir. DAMO-YOLO, resmi CPU hızı metriklerine sahip değildir ve bu da uygulanabilirliğini sınırlar.
  • Verimlilik: YOLO11 modelleri son derece verimlidir. Örneğin, YOLO11l, hem doğruluk hem de parametre verimliliği açısından DAMO-YOLOl'yi geride bırakarak yalnızca 25,3M parametre ile 53,4 mAP elde eder. YOLO11n, yalnızca 2,6M parametre ile hafif modeller için standardı belirler.

Sonuç ve Öneri

DAMO-YOLO, etkileyici akademik yenilikler sergileyen ve GPU donanımında güçlü performans sunan güçlü bir nesne dedektörüdür. Gelişmiş mimari kavramları araştıran araştırmacılar veya yalnızca nesne algılamanın gerekli olduğu GPU açısından zengin ortamlarda dağıtılan uygulamalar için mükemmel bir seçimdir.

Ancak, geliştiricilerin, araştırmacıların ve işletmelerin büyük çoğunluğu için Ultralytics YOLO11 açık ve üstün seçimdir. Yalnızca en son teknoloji doğruluğu ve hızı sunmakla kalmıyor, aynı zamanda bunu olgun, kullanımı kolay ve inanılmaz derecede çok yönlü bir çerçeve içinde yapıyor. Birden fazla görevi yerel olarak desteklemesi, hem CPU hem de GPU'da mükemmel performansı ve dokümantasyon, topluluk desteği ve Ultralytics HUB gibi MLOps araçlarından oluşan sağlam ekosistemi, YOLO11'i gerçek dünya bilgisayarlı görü uygulamaları oluşturmak için daha pratik, ölçeklenebilir ve güçlü bir çözüm haline getiriyor.

Diğer Modelleri İnceleyin

DAMO-YOLO ve YOLO11'in diğer önde gelen modellerle nasıl karşılaştırıldığını merak ediyorsanız, bu diğer karşılaştırmalara göz atın:



📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi

Yorumlar