PP-YOLOE+ ve YOLOX: Gerçek Zamanlı Nesne Tespit Edicilerin Evrimini Keşfetmek
Bilgisayarlı görü dünyası, nesne tespit modellerinin hızlı evrimiyle önemli ölçüde şekillendi. Bu yolculuktaki önemli dönüm noktaları arasında, gerçek zamanlı performans ve doğruluk sınırlarını zorlayan iki mimari olan PP-YOLOE+ ve YOLOX yer alıyor. Mimari nüanslarını, performans ödünleşimlerini ve ideal dağıtım senaryolarını anlamak, yeni nesil görsel tanıma sistemleri inşa eden araştırmacılar ve geliştiriciler için çok önemlidir.
Model Kökeni ve Detaylar
Teknik mimarilere dalmadan önce, her iki modelin kökenini bağlamına oturtmak faydalı olacaktır. Her biri, nesne tespiti alanındaki belirli darboğazları çözmek için geliştirilmiş olup, arkalarındaki kuruluşlardan büyük ölçüde etkilenmiştir.
PP-YOLOE+ Detayları:
- Yazarlar: PaddlePaddle Yazarları
- Organizasyon: Baidu
- Tarih: 02.04.2022
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Dokümanlar: PaddleDetection PP-YOLOE+ README
PP-YOLOE+ hakkında daha fazla bilgi edin
YOLOX Detayları:
- Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
- Kuruluş: Megvii
- Tarih: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Dokümanlar: YOLOX Resmi Dokümantasyonu
YOLOX hakkında daha fazla bilgi edin
Mimari Yenilikler
Bu iki tespit edici arasındaki temel farklar, özellik çıkarımı ve sınırlayıcı kutu tahmini yaklaşımlarında yatar.
YOLOX, YOLO ailesini anchor-free (çapasız) bir tasarıma başarıyla uyarlayarak 2021'de büyük ses getirdi. Anchor kutularını kaldırarak, YOLOX özel veri kümeleri için gereken tasarım parametrelerini ve sezgisel ayarlamaları önemli ölçüde azalttı. Ayrıca, sınıflandırma ve yerelleştirme görevlerini ayrı sinirsel yollara ayıran ayrıştırılmış bir başlık (decoupled head) tanıttı. Bu ayrım, bir nesneyi sınıflandırma ile konumsal koordinatlarını gerileme arasındaki doğal çatışmayı çözerek eğitim sırasında daha hızlı yakınsamaya yol açtı.
Baidu tarafından geliştirilen PP-YOLOE+, PaddlePaddle ekosistemi için yoğun bir şekilde optimize edilmiştir. Dinamik etiket atama stratejisi (TAL) ve CSPRepResNet adlı yeni bir omurga (backbone) tanıtarak selefi PP-YOLOv2 üzerine inşa edilmiştir. Bu omurga, yapısal yeniden parametrelendirmeden yararlanarak modelin eğitim sırasında karmaşık çok dallı mimarilerden faydalanmasını sağlarken, çıkarım için hızlı ve tek yollu bir ağa sorunsuz bir şekilde dönüştürülmesine olanak tanır.
Yapısal yeniden parametrelendirme, bir modelin birden fazla paralel dal ile eğitilmesine (gradyan akışını iyileştirerek) ve ardından bu dalların dağıtım için matematiksel olarak tek bir evrişimli katmana indirgenmesine izin vererek, doğruluktan ödün vermeden çıkarım hızlarını artırır.
Performans ve Metrik Karşılaştırması
Bu modelleri kafa kafaya karşılaştırdığınızda, performans yelpazesinin biraz farklı uçlarına hizmet ettikleri açıkça görülür. PP-YOLOE+ genellikle daha yüksek mutlak doğruluk sağlarken, YOLOX oldukça kısıtlı donanımlar için uygun, son derece hafif değişkenler sunma konusunda üstündür.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametre (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Not: Her ilgili sütun segmentindeki en iyi performans gösteren değerler kalın yazıyla vurgulanmıştır.
YOLOX, neredeyse hiç disk alanı veya CUDA belleği tüketmeyen nano ve tiny varyantlar sunarken, PP-YOLOE+ sunucu sınıfı donanımlara inanılmaz derecede iyi ölçeklenir ve bu da onu Baidu ekosistemindeki ağır endüstriyel uygulamalar için sağlam bir seçenek haline getirir.
Gerçek Dünya Uygulamaları
Bu çerçeveler arasında seçim yapmak genellikle entegrasyon gereksinimlerine ve hedef donanıma bağlıdır.
YOLOX'un Öne Çıktığı Noktalar
Anchor-free yapısı ve uç noktalar için geliştirilmiş ekstrem değişkenlerinin bulunabilirliği nedeniyle YOLOX, robotik ve mikrodenetleyici dağıtımlarında popülerdir. Basit işlem sonrası hattı, TensorRT ve NCNN gibi özelleştirilmiş NPU donanım formatlarına kolayca taşınmasına olanak tanır.
PP-YOLOE+'ın Öne Çıktığı Noktalar
Baidu'nun teknoloji yığınını kullanan Asya üretim merkezlerine derinlemesine entegre olmuş kuruluşlar için PP-YOLOE+, dağıtım için önceden optimize edilmiş bir yol sağlar. Sıkı gerçek zamanlı kısıtlamaların biraz daha ağır model ağırlıklarına izin verdiği güçlü sunucu raflarında çalışan yüksek doğruluklu kalite kontrol senaryolarında parlar.
Kullanım Durumları ve Öneriler
PP-YOLOE+ ve YOLOX arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
PP-YOLOE+ Ne Zaman Seçilmeli
PP-YOLOE+ şunlar için güçlü bir tercihtir:
- PaddlePaddle Ekosistemi Entegrasyonu: Baidu'nun PaddlePaddle çerçevesi ve araçları üzerine kurulu mevcut altyapıya sahip kuruluşlar.
- Paddle Lite Uç Dağıtımı: Paddle Lite veya Paddle çıkarım motoru için özel olarak optimize edilmiş çıkarım çekirdeklerine sahip donanımlara dağıtım yaparken.
- Yüksek Doğruluklu Sunucu Tarafı Algılama: Çerçeve bağımlılığının bir sorun olmadığı güçlü GPU sunucularında maksimum algılama doğruluğuna öncelik veren senaryolar.
YOLOX ne zaman seçilmeli?
YOLOX şunlar için önerilir:
- Çapasız Algılama Araştırması: Yeni algılama başlıkları veya kayıp işlevleri denemek için YOLOX'un temiz, çapasız mimarisini temel olarak kullanan akademik araştırma.
- Ultra Hafif Uç Cihazlar: YOLOX-Nano varyantının son derece küçük ayak izinin (0.91M parametre) kritik olduğu mikrodenetleyicilerde veya eski mobil donanımlarda dağıtım yapılması.
- SimOTA Etiket Atama Çalışmaları: Optimum taşıma tabanlı etiket atama stratejilerini ve bunların eğitim yakınsaması üzerindeki etkisini araştıran araştırma projeleri.
Ne Zaman Ultralytics (YOLO26) Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics Avantajı: YOLO26 ile Tanış
PP-YOLOE+ ve YOLOX mükemmel araştırma kilometre taşlarını temsil etse de, modern dağıtım ortamı daha üstün verimliliğe sahip, daha bütünleşik ve geliştirici dostu bir deneyim talep etmektedir. İşte Ultralytics YOLO26 tam olarak bu noktada modern görsel yapay zeka standardını yeniden tanımlıyor.
İzole araştırma depolarından üretime hazır sistemlere geçiş yapmak isteyen ekipler için Ultralytics, sağlam ve iyi bakılan bir ekosistem sunar. Bir modeli eğitmek artık karmaşık ortamları yapılandırmayı gerektirmez; birleşik bir Python API'sine erişmek kadar basittir.
Ultralytics YOLO26'nın temel avantajları şunlardır:
- Uçtan Uca NMS'siz Tasarım: Gereksiz sınırlayıcı kutuları filtrelemek için NMS (Non-Maximum Suppression) gerektiren PP-YOLOE+ ve YOLOX'un aksine, YOLO26 yerel olarak uçtan ucadır. Bu, gecikme darboğazlarını ortadan kaldırır ve dağıtım mantığını büyük ölçüde basitleştirir.
- %43'e Kadar Daha Hızlı CPU Çıkarımı: DFL (Distribution Focal Loss) yapısını stratejik olarak kaldırarak, YOLO26 CPU donanımında benzersiz çıkarım hızlarına ulaşır ve bu da onu uç bilişim ve düşük güç tüketen cihazlar için çok daha üstün kılar.
- MuSGD Optimizer: Moonshot AI’nin Kimi K2 modelinden esinlenen bu hibrit optimize edici, LLM eğitim kararlılığını bilgisayarlı görüye taşıyarak çok daha hızlı yakınsama sağlar ve eğitim aşamalarındaki bellek gereksinimlerini en aza indirir.
- ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, drone operasyonları ve yüksek detaylı hava görüntüleri için kritik bir özellik olan küçük nesne tanımada kayda değer iyileştirmeler sağlar.
- Çok Yönlülük: PP-YOLOE+ ve YOLOX yalnızca tespite odaklanırken, YOLO26 tam olarak aynı sezgisel sözdizimini kullanarak örnek bölümleme, poz tahmini ve Yönelimli Sınırlayıcı Kutular (OBB) işlemlerini sorunsuz bir şekilde halleder.
YOLO26 hakkında daha fazla bilgi edin
Ultralytics ile Hızlandırılmış Eğitim
Ultralytics modellerinin bellek verimliliği ve eğitim hızı rakipsizdir; devasa CUDA belleği yükü gerektiren transformer tabanlı alternatiflerden çok daha iyi performans gösterir. YOLO26'nın gücünden sadece birkaç satır kodla yararlanabilirsin:
from ultralytics import YOLO
# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT
model.export(format="engine")Kodsuz bir çözüm arayan ekipler için Ultralytics Platformu, tüm YOLO modellerin için bulut tabanlı eğitim, entegre veri kümesi etiketleme ve tek tıkla dağıtım imkanı sunar.
Sonuç
PP-YOLOE+ ve YOLOX, sırasıyla yüksek doğruluk ve hafif, anchor-free tasarımlar sunarak bilgisayarlı görü tarihinde yerlerini hak ettiler. Ancak tarımda yapay zeka, akıllı şehirler ve perakende sektörünün geleceğini inşa eden kuruluşlar için, sürekli bakım, kullanım kolaylığı ve yerel NMS'siz mimarisi Ultralytics YOLO26'yı tartışmasız bir tercih haline getiriyor.
Belirli kriterler için alternatif mimarileri araştırıyorsan, kapsamlı Ultralytics dokümantasyonu aracılığıyla eski YOLO11 veya RT-DETR gibi transformer tabanlı seçenekleri karşılaştırmaktan da değer elde edebilirsin. Birleşik Ultralytics ekosistemine geçiş yaparak, geliştiriciler herhangi bir uç veya bulut dağıtımında en son teknoloji sonuçlara ulaşırken paha biçilmez zaman ve kaynak tasarrufu sağlarlar.