İçeriğe geç

DAMO-YOLO ve YOLOX: Kapsamlı Bir Teknik Karşılaştırma

Gerçek zamanlı bilgisayar görüşü alanı sürekli gelişmektedir. Bu yolculuktaki iki önemli dönüm noktası DAMO-YOLO ve YOLOX'tur; her biri yüksek hızlı, yüksek doğruluklu nesne algılama problemine benzersiz yenilikler getirmektedir. Her iki model de açık kaynak topluluğuna önemli katkılarda bulunmuş olsa da, mimari farklılıklarını, eğitim metodolojilerini ve ideal dağıtım senaryolarını anlamak makine öğrenimi mühendisleri için çok önemlidir.

Bu kapsamlı rehber, her iki modelin teknik inceliklerini araştırmakta ve Ultralytics YOLO26 platformu gibi modern alternatiflerin günümüz üretim ortamları için neden üstün performans ve kullanım kolaylığı sunduğunu vurgulamaktadır.

Model Genel Bakışları

DAMO-YOLO Detayları

Alibaba Group'taki bir araştırma ekibi tarafından geliştirilen DAMO-YOLO, otomatik mimari keşfinden yararlanan son derece verimli bir nesne algılama yöntemi olarak tanıtıldı. Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Belgeler: DAMO-YOLO Dokümantasyonu

DAMO-YOLO hakkında daha fazla bilgi edinin

YOLOX Detayları

Megvii'deki araştırmacılar tarafından oluşturulan YOLOX, YOLO serisini çapa içermeyen (anchor-free) bir tasarıma geçirerek araştırma ve endüstriyel topluluklar arasındaki boşluğu kapatmayı hedefledi; mimariyi önemli ölçüde basitleştirirken o dönemde daha iyi performans elde etti. Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Belgeler: YOLOX Dokümantasyonu

YOLOX hakkında daha fazla bilgi edinin

Mimari Analiz

DAMO-YOLO Mimarisi

DAMO-YOLO, Sinirsel Mimari Arama (NAS) teknolojisine büyük ölçüde güvenmektedir. Temel bileşenleri şunlardır:

  • MAE-NAS Backbone'ları: Çıkarım hızı ve doğruluk arasında optimum dengeyi sağlayan backbone'ları keşfetmek için çok amaçlı evrimsel bir arama algoritması kullanır.
  • Verimli RepGFPN: Özellik birleştirme için uyarlanmış ağır bir boyun (heavy-neck) tasarımı olup, modelin farklı nesne ölçeklerinde yüksek doğruluğu korumasına yardımcı olur.
  • ZeroHead: Nihai tahmin katmanlarındaki hesaplama yükünü azaltan basitleştirilmiş, hafif bir algılama başlığıdır.

YOLOX Mimarisi

YOLOX, yapısal basitliğe ve çapa içermeyen (anchor-free) bir tasarıma odaklanarak farklı bir yaklaşım benimsedi:

  • Çapa İçermeyen Mekanizma: Önceden tanımlanmış çapalar olmadan sınırlayıcı kutu koordinatlarını doğrudan tahmin ederek, YOLOX, gereken tasarım parametrelerinin ve sezgisel ayarlamaların sayısını azaltır.
  • Ayrık Başlık: Sınıflandırma ve regresyon görevlerini farklı özellik dallarına ayırır, bu da yakınsama hızını ve genel doğruluğu artırır.
  • SimOTA Etiket Ataması: Pozitif örnekleri dinamik olarak gerçek değerlere atayan gelişmiş bir etiket atama stratejisi olup, eğitim verimliliğini artırır.

Tasarım Felsefeleri

DAMO-YOLO, sıkı kısıtlamalar altında optimal mimarileri bulmak için makine odaklı NAS aramalarını kullanırken, YOLOX, nesne algılama hattını kolaylaştırmak için zarif, insan tarafından tasarlanmış basitleştirmelerden (çapa içermeyen başlıklar gibi) yararlanır.

Performans Karşılaştırması

Bu modelleri değerlendirmek, ortalama Hassasiyet (mAP), çıkarım hızları ve parametre sayılarına bakmayı gerektirir. Aşağıda, her iki mimarinin standart ve hafif varyantlarının ayrıntılı bir karşılaştırma tablosu bulunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOXx 51.1 ile en yüksek mutlak mAP'i elde ederken, DAMO-YOLOl, parametrelerin yarısından daha azıyla (42.1M'ye karşı 99.1M) oldukça rekabetçi 50.8 mAP sunar ve önemli ölçüde daha hızlı TensorRT yürütmesi sağlar.

Eğitim Metodolojileri

DAMO-YOLO Eğitimi

DAMO-YOLO, eğitim sırasında karmaşık damıtma iyileştirmesinden yararlanır. Genellikle, önce büyük bir "öğretmen" modeli eğitilir ve bilgisi daha küçük "öğrenci" modellerine damıtılır. Ayrıca dinamik etiket ataması için AlignedOTA kullanır. Son derece etkili olmasına rağmen, bu çok aşamalı eğitim süreci, gereken GPU hesaplama süresini ve bellek yükünü önemli ölçüde artırır.

YOLOX Eğitimi

YOLOX, MixUp ve Mosaic gibi güçlü veri artırma stratejilerine dayanır. Ancak yazarlar, son 15 epoch için bu güçlü artırmaları kapatmanın, modelin gerçeklik boşluğunu kapatmasını sağladığını ve nihai doğruluk metriklerini önemli ölçüde artırdığını keşfetti.

İdeal Kullanım Senaryoları

  • DAMO-YOLO: Sunucu tarafı damıtma hatlarının desteklenebildiği ve hedef donanımın (belirli NVIDIA GPU'ları gibi) ağır boyunlu NAS mimarisinden doğrudan fayda sağladığı yüksek riskli endüstriyel dağıtımlar için en uygunudur.
  • YOLOX: Saf çapa içermeyen bir yaklaşım arayan geliştiriciler için mükemmeldir. Son derece hafif yapısı YOLOXnano eski Android cihazlar için uygun hale getirir, uç bilişim, ve parametre sayısının mutlak darboğaz olduğu çok kısıtlı IoT sensörleri için.

Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor

DAMO-YOLO ve YOLOX mükemmel kilometre taşlarını temsil etse de, günümüz geliştiricileri daha kapsamlı, çok yönlü ve kullanımı kolay çözümler talep etmektedir. İşte Ultralytics Platformu ve yeni çıkan Ultralytics YOLO26 burada parlıyor.

Ocak 2026'da piyasaya sürülen YOLO26, tüm bilgisayar görüşü görevleri için nihai önerilen modeldir. Eski mimarileri geride bırakan bir dizi çığır açan yenilik sunar:

  • Uçtan Uca NMS İçermeyen Tasarım: YOLO26, Maksimum Olmayan Bastırma (NMS) art işlemeyi doğal olarak ortadan kaldırır. Bu, geleneksel algılama başlıklarında bulunan gecikme darboğazlarını önleyerek önemli ölçüde daha basit ve hızlı dağıtıma olanak tanır.
  • Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Dağıtım Odak Kaybı (DFL) stratejik olarak kaldırılarak ve katmanlar optimize edilerek, YOLO26 CPU'larda ve uç donanımlarda eşsiz hızlar sunar.
  • MuSGD Optimizatörü: Büyük dil modeli (LLM) eğitim tekniklerinden esinlenerek, YOLO26, MuSGD optimizatörünü (SGD ve Muon'un bir hibriti) sunar; bu da YOLOX'taki eski kurulumlara kıyasla son derece kararlı eğitim süreçleri ve çok daha hızlı yakınsama sağlar.
  • ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, küçük nesne tanımada önemli iyileştirmeler sağlayarak YOLO26'yı drone görüntüleri ve robotik için çok üstün kılar.
  • Çok Yönlülük: Yalnızca nesne algılama için olan DAMO-YOLO'nun aksine, YOLO26, örnek segmentasyon, poz tahmini, sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutular (OBB) görevlerini aynı iyi yönetilen ekosistem içinde doğal olarak sorunsuz bir şekilde ele alır.

YOLO26 hakkında daha fazla bilgi edinin

Ultralytics ile Kullanım Kolaylığı

Ultralytics Python API'si, geliştirici deneyimini kolaylaştırır. Son teknoloji bir YOLO26 modeli eğitmek, çok daha az tekrar eden kod gerektirir ve DAMO-YOLO'nun karmaşık damıtma hatlarından kaçınır. Ayrıca, Ultralytics modelleri, ağır transformatör tabanlı modellere kıyasla eğitim sırasında olağanüstü düşük CUDA bellek gereksinimlerine sahiptir.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Bulut Eğitimi ve Dağıtımı

Ultralytics Platformu'nu kullanarak modelleri otomatik olarak etiketleyebilir, eğitebilir ve uca dağıtabilirsiniz; bu platform sizin için tüm veri versiyonlamasını ve bulut GPU tedarikini yönetir.

Sonuç

DAMO-YOLO ve YOLOX arasında seçim yapmak belirli kısıtlamalara bağlıdır: DAMO-YOLO, NAS aracılığıyla belirli GPU'larda olağanüstü hız-doğruluk oranları sunarken, YOLOX hafif uç senaryolar için ideal, temiz, çapa içermeyen bir tasarım sağlar.

Ancak, aktif bir topluluğa sahip modern, geleceğe dönük bir çözüm arayan ekipler için Ultralytics YOLO26 mimarisi kesin tercihtir. NMS içermeyen tasarımı, hızlı CPU çıkarımı ve algılama, segmentasyon ve poz görevleri için birleşik API'si, araştırmadan sağlam gerçek dünya üretimine sorunsuz geçiş için onu eşsiz kılar.

Diğer modern mimarileri keşfetmek isteyen geliştiriciler için, kapsamlı Ultralytics belgelerinde bulunan Ultralytics YOLO11 veya RT-DETR gibi transformatör tabanlı modelleri de incelemelerini öneririz.


Yorumlar