YOLOX ve YOLOv9: Çapasız Tasarımların Programlanabilir Gradyanlarla Karşılaştırılması

Bilgisayarlı görü dünyası, hesaplama verimliliği ile yüksek hassasiyeti dengeleyen sürekli mimari atılımlarla şekillenmiştir. Gerçek zamanlı nesne algılama modellerini değerlendirirken, Megvii'nin YOLOX'u ile Academia Sinica'nın YOLOv9'u arasındaki karşılaştırma, derin öğrenme geliştirmede iki farklı felsefeyi öne çıkarır. Biri basitleştirilmiş çapasız (anchor-free) paradigmasına öncülük ederken, diğeri bilgi tutarlılığını en üst düzeye çıkarmak için gelişmiş gradyan yönlendirme teknikleri getirmiştir.

Bu teknik kılavuz, mimari inceliklerini, performans karşılaştırmalarını ve ideal kullanım durumlarını incelerken, Ultralytics Platform gibi modern çözümlerin ve yeni yayınlanan YOLO26 modelinin üretime hazır dağıtımlar için nasıl üstün alternatifler sağladığını göstermektedir.

YOLOX: Çapasız Paradigmasının Öncüsü

2021 ortalarında yayınlanan YOLOX, akademik araştırmalar ile endüstriyel uygulama arasındaki boşluğu doldurma yolunda büyük bir adım olmuştur. Önceden tanımlanmış çapa kutularına (anchor boxes) olan ihtiyacı ortadan kaldırarak, özel veri setleri için gereken sezgisel ayarlamaları büyük ölçüde basitleştirmiştir.

Mimari Yenilikler

YOLOX, standart algılama hattında birkaç önemli değişiklik getirdi. Sınıflandırma ve regresyon görevlerini ayıran ayrıştırılmış bir başlık (decoupled head) uyguladı; bu, bir nesneyi tanımlama ile sınırlarını belirleme arasındaki çatışmayı önemli ölçüde azalttı. Ayrıca YOLOX, eğitim sırasında pozitif örnekleri dinamik olarak atayan gelişmiş bir etiket atama stratejisi olan SimOTA'yı benimseyerek, standart benchmark veri setlerinde daha hızlı yakınsama ve daha iyi genel performans sağladı.

Güçlü Yönler ve Sınırlamalar

YOLOX'un temel gücü basitleştirilmiş tasarımında yatar. Çapasız mekanizma, geliştiricilerin verileri için en uygun çapa boyutlarını bulmak adına kümeleme algoritmalarını çalıştırmaya daha az zaman harcaması anlamına gelir. Ancak, öz-dikkat (self-attention) veya gradyan yollama konularındaki son gelişmeler olmadan inşa edilmiş eski bir mimari olarak, daha yeni ağların parametre verimliliğini yakalamakta zorlanır. Ayrıca instance segmentation ve pose estimation gibi gelişmiş görevler için birleşik bir API bünyesinde yerel desteğe sahip değildir.

YOLOX hakkında daha fazla bilgi edin

YOLOv9: Gradyan Bilgisini En Üst Düzeye Çıkarma

2024 yılına hızlı bir geçiş yapıldığında, YOLOv9 derin evrişimli sinir ağlarında içsel olarak bulunan bilgi darboğazı problemini çözmek için oldukça teorik bir yaklaşım getirdi.

Mimari Yenilikler

YOLOv9'un belirleyici özelliği, kritik anlamsal verilerin ağın birçok katmanından geçerken kaybolmamasını sağlayan Programlanabilir Gradyan Bilgisi (PGI) sistemidir. Genelleştirilmiş Verimli Katman Birleştirme Ağı (GELAN) ile eşleştirilen YOLOv9, olağanüstü bir parametre-doğruluk oranı elde eder. Bu, modelin ağırlıkları güncellemek için doğru gradyanları tutmasını sağlayarak, hafif varyantlarında bile oldukça etkili olmasını sağlar.

Güçlü Yönler ve Sınırlamalar

YOLOv9, model doğruluğunun teorik sınırlarını zorlamada mükemmeldir. COCO üzerinde harika mAP puanları verir, bu da onu araştırmacılar için favori kılar. Ancak verimliliğine rağmen YOLOv9, çıkarım sırasında gecikme artışlarına yol açan geleneksel Non-Maximum Suppression (NMS) yöntemine post-processing için hala güvenmektedir. Yapay zekayı uç cihazlara dağıtmaya odaklanan mühendisler için NMS mantığını yönetmek, dağıtım hattına gereksiz karmaşıklık ekler.

YOLOv9 hakkında daha fazla bilgi edin

Post-Processing Darboğazları

YOLOX ve YOLOv9 gibi geleneksel modeller, mükerrer sınırlayıcı kutuları filtrelemek için Non-Maximum Suppression (NMS) gerektirir. Bu adım doğası gereği sıralıdır ve genellikle CPU'larda bir darboğaz oluşturarak en son Ultralytics modellerinde bulunan yerel uçtan uca mimarilere olan ihtiyacı vurgular.

Performans Karşılaştırması

Bu mimarilerin ham hesaplama metriklerini karşılaştırdığımızda, YOLOv9'un daha modern bir temel sunduğu, YOLOX'un ise eski kurulumlar için hafif bir seçenek olarak kaldığı açıktır. Aşağıda standart modellerinin ayrıntılı bir dökümü bulunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv9, karşılaştırılabilir parametre sayılarında üstün doğruluk gösterse de, hız, doğruluk ve kullanım kolaylığının nihai dengesini arayan geliştiriciler, Ultralytics'in sunduğu en son gelişmeleri dikkate almalıdır.

Ultralytics Avantajı: YOLO26 ile Tanışın

YOLOX ve YOLOv9 gibi geçmiş modelleri değerlendirmek değerli bir bağlam sağlasa da, güncel son teknoloji Ultralytics YOLO26 ile tanımlanmaktadır. 2026'nın başlarında piyasaya sürülen YOLO26, algılama hattını modern kurumsal ortamlar için temelden yeniden mimarize eder.

Eşsiz Mimari Yenilikler

YOLO26, öncüllerinin post-processing darboğazlarını yerel uçtan uca NMS'siz bir tasarımla tamamen çözer ve tüm donanımlarda daha basit bir dağıtım sağlar. Ayrıca, Distribution Focal Loss (DFL) kaldırılarak ve MuSGD Optimizer (Stochastic Gradient Descent ile Muon'un bir hibriti) entegre edilerek, YOLO26 benzeri görülmemiş bir eğitim kararlılığı elde eder.

Raspberry Pi gibi kısıtlı ortamlara dağıtım yapan geliştiriciler için YOLO26, %43'e kadar daha hızlı CPU çıkarımı sunar. Ayrıca, havadan görüntüleme ve drone analitiği için kritik olan küçük nesne tanımada dramatik iyileştirmeler sağlayan ProgLoss + STAL kayıp fonksiyonlarını getirir.

Modernize Edilmiş Geliştirme Ekosistemi

Bağımsız araştırma depolarının aksine, Ultralytics ekosistemi benzersiz bir geliştirici deneyimi sunar. Ultralytics Python API kullanarak, mühendisler standart kodları (boilerplate code) önemli ölçüde azaltabilirler. Ayrıca bellek gereksinimleri oldukça optimize tutulur; bu da, büyük ölçüde dikkat tabanlı mimarilere kıyasla daha az GPU VRAM kullanarak güçlü modeller eğitebileceğiniz anlamına gelir.

from ultralytics import YOLO

# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to optimized deployment formats
model.export(format="engine", half=True)  # Exports to TensorRT

Algılamanın ötesinde, YOLO26 aynı çerçeve içinde çok sayıda görevi sorunsuz bir şekilde destekler. Uydu görüntüleme için hassas Oriented Bounding Boxes (OBB) veya tıbbi görüntüleme uygulamaları için ince ayrıntılı piksel maskeleri gerekse de, iş akışı aynı kalır. Önceki nesil iş akışlarına yatırım yapmış ekipler için Ultralytics YOLO11 da mevcut ve tam olarak desteklenmektedir.

İdeal Kullanım Senaryoları ve Dağıtım Stratejileri

Doğru mimariyi seçmek tamamen hedef dağıtım ortamına ve proje gereksinimlerine bağlıdır.

Uç Bilişim ve Robotik

Düşük güçlü cihazlar için ağır post-processing gerektiren modellere güvenmek performansı ciddi şekilde sekteye uğratabilir. YOLOX-Nano inanılmaz derecede küçük olsa da, doğruluğu genellikle güvenlik açısından kritik görevler için yetersizdir. YOLO26 burada kesin tercihtir; DFL ve NMS eksikliği, ham CPU iş parçacıklarında sorunsuz çalışmasını sağlayarak onu otonom robotik veya akıllı park yönetimi için mükemmel kılar.

Akademik Kıyaslama

Tek amaç gradyan akışını analiz etmek ve derin ağ darboğazlarını incelemekse, YOLOv9 mükemmel bir çalışma konusu olmaya devam eder. PGI çerçevesi, derin sinir ağı katmanlarında özelliklerin nasıl korunduğuna dair büyüleyici bilgiler sunarak, evrişim teorisini keşfeden üniversite araştırmacıları için değerli bir araç haline gelir.

Kurumsal Video Analitiği

Güvenlik alarm sistemleri veya trafik izleme gibi büyük ölçekli video işleme görevleri için hız ve çok yönlü dışa aktarma yetenekleri çok önemlidir. Ultralytics çerçevesi tarafından sağlanan yerel dışa aktarma araçları, ekiplerin YOLO26'yı doğrudan TensorRT veya OpenVINO formatlarına tek bir komutla derlemesine olanak tanır ve pazara çıkış süresini önemli ölçüde azaltır.

Ultralytics ekosisteminin kapsamlı özelliklerinden yararlanarak, makine öğrenimi ekipleri ham araştırma kod tabanlarının karmaşıklıklarını atlayabilir ve doğrudan ölçeklenebilir, gerçek dünyadaki yapay zeka uygulamaları oluşturmaya odaklanabilirler.

Yorumlar