YOLOv9 ve DAMO-YOLO: Nesne Algılama Modellerinin Teknik Bir Karşılaştırması

Bilgisayarlı görüdeki hızlı gelişim, farklı dağıtım kısıtlamaları ve doğruluk gereksinimlerine göre uyarlanmış bir dizi güçlü mimari ortaya çıkardı. Bu alandaki iki dikkat çekici giriş; bilgi darboğazlarını sağlam bir şekilde ele almasıyla övülen YOLOv9 ve Sinirsel Mimari Arama (NAS) ile verimli özellik piramitlerine yoğun bir şekilde odaklanan DAMO-YOLO'dur.

Bu rehber, YOLOv9 ve DAMO-YOLO'nun mimari farklılıklarını, eğitim metodolojilerini ve ideal dağıtım senaryolarını vurgulayarak derinlemesine, teknik bir karşılaştırmasını sunar. Ayrıca Ultralytics ekosisteminin geliştirmeden üretime nasıl sorunsuz bir yol sağladığını ve YOLO26 gibi modern modellerin yeni projeler için neden önerilen standart haline geldiğini keşfedeceğiz.

Mimari Derinlemesine İnceleme

Her bir modele güç veren temel mekanizmaları anlamak, bunların çeşitli metriklerde neden farklı performans gösterdiğini ortaya koyar.

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9, veriler derin sinir ağlarından geçerken meydana gelen bilgi kaybını doğrudan ele almak için tasarlanmıştır.

Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Organizasyon: Institute of Information Science, Academia Sinica, Tayvan
Tarih: 21 Şubat 2024
Bağlantılar: Arxiv, GitHub, Docs

YOLOv9 hakkında daha fazla bilgi edin

YOLOv9, Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı'nı (GELAN) tanıtır. PGI, ileri besleme süreci sırasında hayati uzamsal ve anlamsal bilgilerin korunmasını sağlayarak ağırlık güncellemeleri için kullanılan gradyanların bozulmasını önler. GELAN, parametre verimliliğini maksimize ederek bunu tamamlar ve modelin birçok geleneksel CNN'den daha az FLOP ile son teknoloji ortalama Hassasiyet (mAP) değerine ulaşmasını sağlar.

DAMO-YOLO: NAS Destekli Verimlilik

Alibaba Group tarafından geliştirilen DAMO-YOLO, hız ve doğruluk arasında optimum dengeyi bulmak için otomatik mimari aramadan yararlanarak farklı bir yaklaşım benimser.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Organizasyon: Alibaba Group
Tarih: 23 Kasım 2022
Bağlantılar: Arxiv, GitHub

DAMO-YOLO hakkında daha fazla bilgi edin

DAMO-YOLO, verimli ağ yapılarını otomatik olarak oluşturmak için bir MAE-NAS (Sinirsel Mimari Arama için Maskelenmiş Otomatik Kodlayıcılar) omurgasına güvenir. Güçlü özellik füzyonu için bir RepGFPN (Yeniden Parametrelendirilmiş Genelleştirilmiş Özellik Piramidi Ağı) ve algılama başlığının hesaplama yükünü en aza indirmek için bir "ZeroHead" tasarımı kullanır. Ek olarak, daha küçük varyantlarının performansını artırmak için etiket ataması için AlignedOTA ve bilgi damıtma tekniklerini içerir.

Bilgisayarlı Görüşte NAS'ın Rolü

Sinirsel Mimari Arama (NAS), yapay sinir ağlarının tasarımını otomatikleştirir. DAMO-YOLO gibi oldukça verimli modeller üretebilse de, mimari uzayını aramak genellikle devasa hesaplama kaynakları gerektirir; bu durum, YOLOv9 gibi modellerin daha deterministik tasarım felsefesiyle tezat oluşturur.

Performans ve Metrik Karşılaştırması

Bir nesne algılama modeli seçerken, doğruluk, hız ve hesaplama ayak izini dengelemek kritiktir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analiz

  • Doğruluk ve Parametreler: YOLOv9 genellikle daha üstün bir parametre-doğruluk oranı sergiler. Örneğin, YOLOv9c 25,3M parametre ile %53,0 mAP elde ederken, DAMO-YOLOl %50,8 mAP elde eder ancak önemli ölçüde daha fazla parametre (42,1M) gerektirir.
  • Çıkarım Hızı: DAMO-YOLO'nun mimarisi, T4 GPU'larda rekabetçi TensorRT çıkarım hızları sağlar ve orta seviyelerde YOLOv9'un biraz önüne geçer. Bununla birlikte, YOLOv9'un FLOP ve parametre sayısındaki verimliliği, olağanüstü GPU bellek verimliliğine dönüşür.
  • Bellek Gereksinimleri: YOLOv9 dahil olmak üzere Ultralytics YOLO modelleri, karmaşık NAS tarafından oluşturulmuş modeller veya ağır Transformer mimarilerine kıyasla hem eğitim hem de çıkarım sırasında genellikle daha düşük bellek kullanımı sergiler, bu da onları kısıtlı uç donanımlarda dağıtım için son derece erişilebilir kılar.

Ultralytics Ekosistem Avantajı

Teorik metrikler önemli olsa da, pratik uygulama bir projenin başarısını büyük ölçüde belirler. Ultralytics Platform ve kapsamlı yazılım ekosisteminin, DAMO-YOLO gibi bağımsız depolardan daha öne çıktığı nokta burasıdır.

Kullanım Kolaylığı ve Eğitim Verimliliği

Özel bir YOLOv9 modelini eğitmek minimum ortak kod (boilerplate) gerektirir. Ultralytics Python API, veri artırma, dağıtık eğitim ve donanım optimizasyonu gibi karmaşık süreçleri soyutlar.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Buna karşılık, DAMO-YOLO'yu kullanmak genellikle katı yapılandırma dosyalarında gezinmeyi ve kendine özgü eğitim hattına özgü karmaşık bağımlılık zincirlerini yönetmeyi gerektirir, bu da daha dik bir öğrenme eğrisiyle sonuçlanır.

Görevler Arasında Çok Yönlülük

Ultralytics modellerinin bir özelliği de doğal çok yönlülükleridir. Standart sınırlayıcı kutu algılamasının ötesinde, Ultralytics çerçevesi Örnek Bölütleme, Poz Tahmini, Görüntü Sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılama gibi görevleri sorunsuz bir şekilde destekler. DAMO-YOLO kesinlikle 2D nesne algılama için optimize edilmiştir ve diğer görsel paradigmalara uyum sağlamak için önemli ölçüde yeniden mühendislik gerektirir.

Uç Cihazlara Aktarma

Ultralytics simplifies the deployment pipeline by offering one-click model export to formats like TensorRT, OpenVINO, and CoreML, ensuring maximum performance regardless of your target hardware.

Kullanım Durumları ve Öneriler

YOLOv9 ile DAMO-YOLO arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

Ne Zaman YOLOv9 Seçilmeli

YOLOv9 şunlar için güçlü bir tercihtir:

  • Bilgi Darboğazı Araştırması: Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) mimarilerini inceleyen akademik projeler.
  • Gradyan Akışı Optimizasyon Çalışmaları: Eğitim sırasında derin ağ katmanlarındaki bilgi kaybını anlama ve azaltmaya odaklanan araştırmalar.
  • Yüksek Doğruluklu Algılama Kıyaslaması: YOLOv9'un güçlü COCO kıyaslama performansının mimari karşılaştırmalar için referans noktası olarak gerektiği senaryolar.

Ne Zaman DAMO-YOLO Seçilmeli

DAMO-YOLO şunlar için önerilir:

  • Yüksek Verimli Video Analitiği: Batch-1 veriminin birincil metrik olduğu sabit NVIDIA GPU altyapısında yüksek FPS'li video akışlarını işleme.
  • Endüstriyel Üretim Hatları: Montaj hatlarında gerçek zamanlı kalite denetimi gibi özel donanım üzerinde katı GPU gecikme kısıtlamaları olan senaryolar.
  • Sinirsel Mimari Arama Araştırması: Otomatik mimari aramanın (MAE-NAS) ve verimli yeniden parametrelendirilmiş ana gövdelerin tespit performansı üzerindeki etkilerini inceleme.

Ne Zaman Ultralytics (YOLO26) Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Gelecek: YOLO26'ya Geçiş

YOLOv9 ve DAMO-YOLO güçlü tarihi kilometre taşlarını temsil etse de, modern bilgisayarlı görü doğal olarak uçtan uca mimarilere doğru kaymıştır. Her türlü yeni geliştirme için YOLO26 önerilen standarttır.

2026 yılında piyasaya sürülen YOLO26, seleflerinin başarılarının üzerine inşa edilerek hem doğruluk hem de dağıtım basitliğinde bir sıçrama sunar.

Önemli YOLO26 Yenilikleri

  • Uçtan Uca NMS-İçermeyen Tasarım: YOLO26, NMS (Maksimum Olmayan Bastırma) son işleme adımını tamamen ortadan kaldırır. Bu, YOLOv10 ile öncülük edilen bir atılım olan, doğal olarak uçtan uca, optimize edilmiş bir dağıtım hattı yaratır.
  • DFL Kaldırma: Dağılımsal Odak Kaybı (Distribution Focal Loss), basitleştirilmiş dışa aktarma ve daha iyi uç/düşük güç tüketen cihaz uyumluluğu için kaldırılmıştır.
  • %43'e Varan Daha Hızlı CPU Çıkarımı: Karmaşık son işleme adımlarını kaldırarak ve çekirdek evrişimleri optimize ederek, YOLO26 özel GPU'lardan yoksun uç bilişim senaryoları için benzersiz bir şekilde uygundur.
  • MuSGD Optimize Edici: LLM eğitimindeki yeniliklerden ilham alan YOLO26, daha kararlı eğitim süreçleri ve gözle görülür şekilde daha hızlı yakınsama sürelerini garanti etmek için SGD ve Muon'un (MuSGD) bir melezini kullanır.
  • ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, küçük nesne tanımada dikkat çekici geliştirmeler sağlayarak YOLO26'yı yüksek irtifa hava görüntüleri ve IoT cihazları için ideal hale getirir.

Eğer şu anda bir sonraki projeniz için YOLO11 veya YOLOv8 araştırıyorsanız, YOLO26'ya yükseltme yapmak, bugün mevcut olan en optimize edilmiş, son teknoloji vizyon AI çerçevesini kullandığınızdan emin olmanızı sağlar.

Özet

Doğru modeli seçmek, özel operasyonel kısıtlamalarınıza bağlıdır:

  • DAMO-YOLO, NAS destekli optimizasyona büyüleyici bir bakış sunar ve RepGFPN mimarisinin parladığı çok özel donanım profilleri için rekabetçi hızlar sağlar.
  • YOLOv9, derin ağlardaki bilgi kaybını önlemek için PGI mimarisinden yararlanarak ince ayrıntılı görsel ayrıntıları korumaya odaklanan araştırmacılar için mükemmel bir seçimdir.
  • Ultralytics YOLO26, modern kurumsal ve araştırma uygulamaları için kesin bir seçimdir. Benzersiz kullanım kolaylığı, NMS içermeyen mimarisi ve son teknoloji MuSGD eğitim optimizasyonları, onu bilgisayarlı görü alanındaki en güvenilir, doğru ve kolayca dağıtılabilir model yapar.

Yorumlar