İçeriğe geç

YOLOX vs. YOLOv9: Çapa İçermeyen Tasarımları Programlanabilir Gradyanlarla Karşılaştırma

Bilgisayar görüşü alanı, hesaplama verimliliği ile yüksek hassasiyeti dengeleyen sürekli mimari atılımlarla şekillenmiştir. Gerçek zamanlı nesne algılama modellerini değerlendirirken, Megvii'nin YOLOX'u ile Academia Sinica'nın YOLOv9'u arasındaki karşılaştırma, derin öğrenme geliştirmede iki farklı felsefeyi öne çıkarır. Biri basitleştirilmiş, çapadan bağımsız bir paradigme öncülük ederken, diğeri bilgi tutmayı en üst düzeye çıkarmak için gelişmiş gradyan yönlendirme teknikleri sunmuştur.

Bu teknik kılavuz, onların mimari inceliklerini, performans kıyaslamalarını ve ideal kullanım senaryolarını incelerken, aynı zamanda Ultralytics Platformu ve yeni çıkan YOLO26 modeli gibi modern çözümlerin üretime hazır dağıtımlar için nasıl üstün alternatifler sunduğunu gösterir.

YOLOX: Çapa İçermeyen Paradigmanın Öncüsü

2021 yılının ortalarında piyasaya sürülen YOLOX, akademik araştırma ile endüstriyel uygulama arasındaki boşluğu kapatmada önemli bir adımdı. Önceden tanımlanmış çapa kutularına olan ihtiyacı ortadan kaldırarak, özel veri kümeleri için gereken sezgisel ayarlamayı büyük ölçüde basitleştirdi.

Mimari Yenilikler

YOLOX, standart algılama hattına birkaç önemli değişiklik getirdi. Sınıflandırma ve regresyon görevlerini ayıran ayrık bir başlık uyguladı, bu da bir nesneyi tanımlama ile sınırlarını belirleme arasındaki çakışmayı önemli ölçüde azalttı. Ayrıca YOLOX, eğitim sırasında pozitif örnekleri dinamik olarak tahsis eden gelişmiş bir etiket atama stratejisi olan SimOTA'yı benimsedi, bu da standart kıyaslama veri kümelerinde daha hızlı yakınsama ve daha iyi genel performans sağladı.

Güçlü Yönler ve Sınırlamalar

YOLOX'un temel gücü, basitleştirilmiş tasarımında yatmaktadır. Çapadan bağımsız mekanizma, geliştiricilerin kendi özel verileri için en uygun çapa boyutlarını bulmak üzere kümeleme algoritmalarını çalıştırmak için daha az zaman harcaması anlamına gelir. Ancak, kendi kendine dikkat veya gradyan yolu oluşturma alanındaki son gelişmeler olmadan doğal olarak inşa edilmiş eski bir mimari olduğundan, daha yeni ağların parametre verimliliğine ulaşmakta zorlanır. Ayrıca, birleşik bir API içinde örnek segmentasyon ve poz tahmini gibi gelişmiş görevler için yerel desteği de eksiktir.

YOLOX hakkında daha fazla bilgi edinin

YOLOv9: Gradyan Bilgisini En Üst Düzeye Çıkarma

2024 yılına gelindiğinde, YOLOv9, derin evrişimsel sinir ağlarında doğal olarak bulunan bilgi darboğazı sorununu çözmek için oldukça teorik bir yaklaşım sundu.

Mimari Yenilikler

YOLOv9'un belirleyici özelliği, ağın birden çok katmanından geçerken kritik semantik verilerin kaybolmamasını sağlayan Programlanabilir Gradyan Bilgisi (PGI)'dir. Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) ile eşleştirildiğinde, YOLOv9 olağanüstü bir parametre-doğruluk oranı elde eder. Bu, modelin ağırlıkları güncellemek için doğru gradyanları korumasını sağlar ve hafif varyantlarında bile oldukça etkili olmasını mümkün kılar.

Güçlü Yönler ve Sınırlamalar

YOLOv9, model doğruluğunun teorik sınırlarını zorlamada üstündür. COCO üzerinde harika mAP skorları verir, bu da onu araştırmacılar için favori yapar. Ancak, verimliliğine rağmen, YOLOv9 hala çıkarım sırasında gecikme artışlarına neden olan geleneksel NMS (Non-Maximum Suppression) yöntemine dayanır. Uç cihazlara yapay zeka dağıtımına odaklanan mühendisler için, NMS mantığını yönetmek dağıtım hattına gereksiz karmaşıklık katar.

YOLOv9 hakkında daha fazla bilgi edinin.

İşlem Sonrası Darboğazlar

YOLOX ve YOLOv9 gibi geleneksel modeller, yinelenen sınırlayıcı kutuları filtrelemek için NMS (Non-Maximum Suppression) gerektirir. Bu adım doğası gereği sıralıdır ve genellikle CPU'larda bir darboğaz oluşturur; bu da en yeni Ultralytics modellerinde bulunan yerel uçtan uca mimarilere olan ihtiyacı vurgular.

Performans Karşılaştırması

Bu mimarilerin ham hesaplama metriklerini karşılaştırdığımızda, YOLOv9'un daha modern bir temel sunduğu, YOLOX'un ise eski kurulumlar için hafif bir seçenek olarak kaldığı açıktır. Aşağıda, standart modellerinin ayrıntılı bir dökümü bulunmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv9 karşılaştırılabilir parametre sayılarında üstün doğruluk sergilese de, hız, doğruluk ve kullanım kolaylığının nihai dengesini arayan geliştiriciler, Ultralytics'in en son gelişmelerini göz önünde bulundurmalıdır.

Ultralytics Avantajı: YOLO26 ile Tanışın

YOLOX ve YOLOv9 gibi geçmiş modelleri değerlendirmek değerli bir bağlam sağlasa da, güncel en son teknoloji Ultralytics YOLO26 tarafından tanımlanmaktadır. 2026 yılının başlarında piyasaya sürülen YOLO26, modern kurumsal ortamlar için algılama hattını temelden yeniden yapılandırmaktadır.

Eşsiz Mimari Yenilikler

YOLO26, seleflerinin işlem sonrası darboğazlarını yerel uçtan uca NMS'siz tasarımıyla tamamen çözer ve tüm donanımlarda daha basit dağıtım sağlar. Ayrıca, Dağıtım Odaklı Kayıp (DFL) kaldırarak ve yeni MuSGD Optimizatörünü—Stokastik Gradyan İnişi ve Muon'un bir hibriti—entegre ederek, YOLO26 benzeri görülmemiş bir eğitim kararlılığına ulaşır.

Raspberry Pi gibi kısıtlı ortamlara dağıtım yapan geliştiriciler için, YOLO26, %43'e kadar daha hızlı CPU çıkarımı sunar. Ayrıca, hava görüntüleri ve drone analizi için kritik olan küçük nesne tanımada önemli iyileşmeler sağlayan ProgLoss + STAL kayıp fonksiyonlarını tanıtır.

Akıcı Geliştirme Ekosistemi

Bağımsız araştırma depolarının aksine, Ultralytics ekosistemi eşsiz bir geliştirici deneyimi sunar. Ultralytics Python API'sini kullanarak, mühendisler tekrar eden kodu büyük ölçüde azaltabilirler. Ayrıca, bellek gereksinimleri oldukça optimize edilmiştir, bu da yoğun dikkat tabanlı mimarilere kıyasla daha az GPU VRAM kullanarak sağlam modeller eğitebileceğiniz anlamına gelir.

from ultralytics import YOLO

# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to optimized deployment formats
model.export(format="engine", half=True)  # Exports to TensorRT

detect'in ötesinde, YOLO26 tamamen aynı çerçeve içinde çok sayıda görevi sorunsuz bir şekilde destekler. Uydu görüntüleme için hassas Yönlendirilmiş Sınırlayıcı Kutular (OBB) ihtiyacınız olsun ya da tıbbi görüntüleme uygulamaları için ince taneli piksel maskeleri, iş akışı aynı kalır. Önceki nesil iş akışlarına yatırım yapmış ekipler için Ultralytics YOLO11 de mevcuttur ve tam olarak desteklenmektedir.

İdeal Kullanım Senaryoları ve Dağıtım Stratejileri

Doğru mimariyi seçmek, tamamen hedef dağıtım ortamınıza ve proje gereksinimlerinize bağlıdır.

Uç Bilişim ve Robotik

Düşük güçlü cihazlar için, yoğun ön işleme gerektiren modellere güvenmek performansı düşürebilir. YOLOX-Nano inanılmaz derecede küçük olsa da, doğruluğu genellikle güvenlik açısından kritik görevler için yetersizdir. YOLO26 burada kesin bir seçimdir; DFL ve NMS eksikliği, ham CPU iş parçacıklarında sorunsuz çalışmasını sağlar, bu da onu otonom robotik veya akıllı park yönetimi için mükemmel kılar.

Akademik Kıyaslama

Tek amaç gradyan akışını analiz etmek ve derin ağ darboğazlarını incelemekse, YOLOv9 mükemmel bir çalışma konusu olmaya devam etmektedir. PGI çerçevesi, özelliklerin derin sinir ağı katmanları arasında nasıl korunduğuna dair büyüleyici bilgiler sunar, bu da onu evrişimsel teoriyi araştıran üniversite araştırmacıları için değerli bir araç haline getirir.

Kurumsal Video Analizi

Güvenlik alarm sistemleri veya trafik izleme gibi büyük ölçekli video işleme görevleri için hız ve çok yönlü dışa aktarma yetenekleri çok önemlidir. Ultralytics çerçevesi tarafından sağlanan yerel dışa aktarma araçları, ekiplerin YOLO26'yı tek bir komutla doğrudan TensorRT veya OpenVINO'ya derlemesine olanak tanır, bu da piyasaya sürülme süresini önemli ölçüde azaltır.

Ultralytics ekosisteminin kapsamlı özelliklerinden yararlanarak, makine öğrenimi ekipleri ham araştırma kod tabanlarının karmaşıklıklarını atlayabilir ve doğrudan ölçeklenebilir, gerçek dünya yapay zeka uygulamaları oluşturmaya odaklanabilir.


Yorumlar