DAMO-YOLO ve YOLOX: Kapsamlı Teknik Karşılaştırma

Gerçek zamanlı bilgisayarlı görü alanı sürekli gelişiyor. Bu yolculuktaki iki önemli dönüm noktası, yüksek hızlı ve yüksek doğruluklu nesne algılama problemine benzersiz yenilikler getiren DAMO-YOLO ve YOLOX'tur. Her iki model de açık kaynak topluluğuna önemli katkılarda bulunmuş olsa da, mimari farklılıklarını, eğitim metodolojilerini ve ideal dağıtım senaryolarını anlamak makine öğrenimi mühendisleri için çok önemlidir.

Bu kapsamlı rehber, her iki modelin teknik nüanslarını keşfediyor ve Ultralytics YOLO26 platformu gibi modern alternatiflerin günümüz üretim ortamları için neden üstün performans ve kullanım kolaylığı sunduğunu vurguluyor.

Model Genel Bakışları

DAMO-YOLO Detayları

Alibaba Group'taki bir araştırmacı ekibi tarafından geliştirilen DAMO-YOLO, otomatik mimari keşfinden yararlanan son derece verimli bir nesne algılama yöntemi olarak tanıtıldı. Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kurum: Alibaba Group
Tarih: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Dokümanlar: DAMO-YOLO Dokümantasyonu

DAMO-YOLO hakkında daha fazla bilgi edinin

YOLOX Detayları

Megvii araştırmacıları tarafından oluşturulan YOLOX, YOLO serisini çapasız (anchor-free) bir tasarıma geçirerek araştırma ve endüstri toplulukları arasındaki boşluğu doldurmayı hedefledi; bu sayede mimariyi büyük ölçüde basitleştirirken o dönem için daha iyi performans elde etti. Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kurum: Megvii
Tarih: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Dokümanlar: YOLOX Dokümantasyonu

YOLOX hakkında daha fazla bilgi edin

Mimari Analiz

DAMO-YOLO Mimarisi

DAMO-YOLO, büyük ölçüde Sinirsel Mimari Aramaya (NAS) dayanır. Temel bileşenleri şunlardır:

  • MAE-NAS Omurgalar: Çıkarım hızı ve doğruluk arasında en uygun dengeyi sağlayan omurgaları keşfetmek için çok amaçlı bir evrimsel arama algoritması kullanır.
  • Efficient RepGFPN: Özellik füzyonu için uyarlanmış, modelin farklı nesne ölçeklerinde yüksek doğruluğu korumasına yardımcı olan ağır bir boyun (neck) tasarımı.
  • ZeroHead: Son tahmin katmanlarındaki hesaplama yükünü azaltan basitleştirilmiş, hafif bir algılama başlığı.

YOLOX Mimarisi

YOLOX, yapısal basitliğe ve çapasız (anchor-free) bir tasarıma odaklanarak farklı bir yaklaşım benimsedi:

  • Çapasız (Anchor-Free) Mekanizma: Bounding box koordinatlarını önceden tanımlanmış çapalar olmadan doğrudan tahmin ederek, YOLOX tasarım parametrelerinin sayısını ve gereken sezgisel ince ayar miktarını azaltır.
  • Ayrıştırılmış Başlık (Decoupled Head): Sınıflandırma ve regresyon görevlerini farklı özellik dallarına ayırır, bu da yakınsama hızını ve genel doğruluğu artırır.
  • SimOTA Etiket Atama: Pozitif örnekleri temel gerçeklere (ground truth) dinamik olarak tahsis eden ve eğitim verimliliğini artıran gelişmiş bir etiket atama stratejisi.
Tasarım Felsefeleri

DAMO-YOLO sıkı kısıtlamalar altında en uygun mimarileri bulmak için makine tabanlı NAS aramalarından yararlanırken, YOLOX nesne algılama hattını kolaylaştırmak için zarif, insan tarafından tasarlanmış basitleştirmelerden (çapasız başlıklar gibi) yararlanır.

Performans Karşılaştırması

Bu modelleri değerlendirmek, ortalama Hassasiyeti (mAP), çıkarım hızlarını ve parametre sayılarını incelemeyi gerektirir. Aşağıda her iki mimarinin standart ve hafif varyantlarına ait ayrıntılı bir karşılaştırma tablosu bulunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOXx 51.1 ile en yüksek mutlak mAP değerine ulaşırken, DAMO-YOLOl parametrelerin yarısından azıyla (99.1M yerine 42.1M) ve önemli ölçüde daha hızlı TensorRT yürütme performansıyla 50.8 gibi son derece rekabetçi bir mAP sunar.

Eğitim Metodolojileri

DAMO-YOLO Eğitimi

DAMO-YOLO, eğitim sırasında karmaşık damıtma (distillation) iyileştirmesi kullanır. Genellikle önce büyük bir "öğretmen" model eğitilir ve bu modelin bilgisi daha küçük "öğrenci" modellere aktarılır. Ayrıca dinamik etiket ataması için AlignedOTA kullanır. Oldukça etkili olsa da, bu çok aşamalı eğitim süreci, gereken GPU hesaplama süresini ve bellek yükünü önemli ölçüde artırır.

YOLOX Eğitimi

YOLOX, MixUp ve Mosaic gibi güçlü veri artırma stratejilerine dayanır. Ancak yazarlar, son 15 dönem (epoch) için bu güçlü artırmaları kapatmanın, modelin gerçeklik boşluğunu kapatmasına olanak tanıdığını ve nihai doğruluk metriklerini önemli ölçüde artırdığını keşfettiler.

İdeal Kullanım Durumları

  • DAMO-YOLO: Sunucu taraflı damıtma hatlarının desteklenebildiği ve hedef donanımın (özel NVIDIA GPU'lar gibi) ağır-boyunlu NAS mimarisinden doğrudan yararlandığı yüksek riskli endüstriyel dağıtımlar için en uygunudur.
  • YOLOX: Saf, çapasız bir yaklaşım arayan geliştiriciler için mükemmeldir. Son derece hafif YOLOXnano, eski Android cihazlar, uç bilişim ve parametre sayısının mutlak bir darboğaz olduğu çok kısıtlı IoT sensörleri için onu uygulanabilir kılar.

Ultralytics Avantajı: YOLO26 ile Tanış

DAMO-YOLO ve YOLOX mükemmel dönüm noktalarını temsil etse de, günümüz geliştiricileri daha kapsamlı, çok yönlü ve kullanımı kolay çözümler talep etmektedir. Ultralytics Platformu ve yeni piyasaya sürülen Ultralytics YOLO26 tam da burada öne çıkıyor.

Ocak 2026'da piyasaya sürülen YOLO26, tüm bilgisayarlı görü görevleri için önerilen en üst düzey modeldir. Eski mimarileri geride bırakan bir dizi çığır açan özellik sunar:

  • Uçtan Uca NMS'siz Tasarım: YOLO26, NMS (Non-Maximum Suppression) sonrası işleme ihtiyacını yerel olarak ortadan kaldırır. Bu, geleneksel algılama başlıklarında doğal olarak bulunan gecikme darboğazlarından kaçınarak çok daha basit ve hızlı dağıtıma olanak tanır.
  • %43'e Kadar Daha Hızlı CPU Çıkarımı: Dağılım Odaklı Kaybı (DFL) stratejik olarak kaldırarak ve katmanları optimize ederek, YOLO26 CPU'larda ve uç donanımlarda benzersiz hızlar sunar.
  • MuSGD Optimize Edici: Büyük dil modeli (LLM) eğitim tekniklerinden esinlenen YOLO26, MuSGD optimize edicisini (SGD ve Muon'un bir hibriti) tanıtır; bu da YOLOX'taki eski kurulumlara kıyasla oldukça kararlı eğitim süreçleri ve çok daha hızlı yakınsama ile sonuçlanır.
  • ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, küçük nesne tanımasında belirgin iyileştirmeler sağlar ve YOLO26'yı drone çekimleri ve robotik için çok daha üstün kılar.
  • Çok Yönlülük: Sadece nesne algılamaya yönelik olan DAMO-YOLO'nun aksine YOLO26, aynı iyi bakımlı ekosistem içinde örnek bölümleme, poz tahmini, sınıflandırma ve Yönlendirilmiş Bounding Box (OBB) işlemlerini sorunsuz bir şekilde gerçekleştirir.

YOLO26 hakkında daha fazla bilgi edin

Ultralytics ile Kullanım Kolaylığı

Ultralytics Python API, geliştirici deneyimini kolaylaştırır. En son teknoloji bir YOLO26 modeli eğitmek, çok daha az standart kod gerektirir ve DAMO-YOLO'nun karmaşık damıtma hatlarından kaçınır. Ayrıca, Ultralytics modelleri, ağır transformer tabanlı modellere kıyasla eğitim sırasında son derece düşük CUDA bellek gereksinimlerine sahiptir.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Bulut Eğitimi ve Dağıtımı

Tüm veri sürümlerini ve bulut GPU tedarikini sizin için halleden Ultralytics Platformunu kullanarak modelleri otomatik olarak etiketleyebilir, eğitebilir ve uca (edge) dağıtabilirsiniz.

Sonuç

DAMO-YOLO ve YOLOX arasında seçim yapmak özel kısıtlamalara bağlıdır: DAMO-YOLO, NAS aracılığıyla belirli GPU'larda olağanüstü hız/doğruluk oranları sunarken, YOLOX hafif uç senaryoları için ideal olan temiz, çapasız bir tasarım sağlar.

Ancak, aktif bir topluluğa sahip modern, geleceğe dönük bir çözüm arayan ekipler için Ultralytics YOLO26 mimarisi kesin tercihtir. NMS'siz tasarımı, hızlı CPU çıkarımı ve algılama, bölümleme ve poz görevleri için birleştirilmiş API'si, onu araştırmadan gerçek dünya üretimine sorunsuz geçiş için benzersiz kılar.

Diğer modern mimarileri keşfetmek isteyen geliştiriciler için ayrıca Ultralytics YOLO11 veya kapsamlı Ultralytics dokümantasyonunda bulunan RT-DETR gibi transformer tabanlı modellere göz atmalarını öneririz.

Yorumlar