PP-YOLOE+ ve YOLOX: Ankrajsız Dedektörlerin Teknik Analizi
Gelişen bilgisayar görme alanında, çapa içermeyen nesne algılama, geleneksel çapa tabanlı yöntemlere kıyasla daha basit mimariler ve genellikle daha üstün performans sunan baskın bir paradigma haline gelmiştir. Bu alana yapılan iki önemli katkı, Baidu'nun PaddlePaddle tarafından geliştirilen PP-YOLOE+ ve Megvii'nin yüksek performanslı çapa içermeyen algılayıcısı YOLOX'tur.
Bu analiz, mimarileri, performans ölçütleri ve gerçek dünyadaki uygulanabilirlikleri hakkında derinlemesine bir inceleme sunarken, modern Ultralytics ve son teknoloji YOLO26 modelinin, hız, doğruluk ve kullanım kolaylığı arasında mükemmel dengeyi arayan geliştiriciler için nasıl cazip bir alternatif sunduğunu da vurgulamaktadır.
Model Genel Bakışları
PP-YOLOE+
Yazarlar: PaddlePaddle
Kuruluş:Baidu
Tarih: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:PaddleDetection
PP-YOLOE+, PP-YOLOv2'yi geliştiren PP-YOLOE'nin bir evrimidir. PaddleDetection kütüphanesinin amiral gemisi modeli olarak hizmet eder. Benzersiz bir CSPRepResNet backbone sahiptir backbone etiketleri dinamik olarak atamak için Görev Hizalama Öğrenimi (TAL) stratejisini kullanır. PaddlePaddle için optimize edilmiş olan bu model, V100 GPU'larda yüksek çıkarım hızlarına önem verir ve sınıf dengesizliğini etkili bir şekilde ele almak için varifocal loss gibi teknikleri entegre eder.
PP-YOLOE+ hakkında daha fazla bilgi edinin
YOLOX
Yazarlar: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li ve Jian Sun
Kuruluş: Megvii
Tarih: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:YOLOX Deposu
YOLOX, çapa içermeyen bir mekanizmaya geçerek ve algılama kafasını ayırarak YOLO bir dönüm noktası oluşturdu. Bu tasarım, sınıflandırma ve regresyon görevlerini ayırarak yakınsama hızını ve doğruluğunu önemli ölçüde artırır. Dinamik etiket ataması için SimOTA gibi gelişmiş teknikleri içeren YOLOX, piyasaya sürüldüğünde en son teknolojiye sahip sonuçlar elde etti ve 2021 CVPR Otonom Sürüş Çalıştayı'nda Streaming Perception Challenge'ı kazandı.
YOLOX hakkında daha fazla bilgi edinin
Mimari Karşılaştırma
Bu modeller arasındaki temel fark, çapa içermeyen kavramın spesifik uygulamaları ve optimizasyon hedeflerinde yatmaktadır.
Backbone ve Neck
PP-YOLOE+, kalıntı bağlantıların avantajlarını CSPNet (Cross Stage Partial Network) verimliliği ile birleştiren CSPRepResNet backbone kullanır. Bu, çok ölçekli özellik füzyonunu geliştirmek için Path Aggregation Network (PANet) boynu ile birleştirilmiştir. "+" versiyonu, yeniden parametreleştirme backbone özel olarak iyileştirir ve çıkarım sırasında daha basit ve daha hızlı bir yapıya dönüşen karmaşık bir eğitim yapısı sağlar.
YOLOX, genellikle YOLOv5 benzer şekilde değiştirilmiş bir CSPDarknet backbone kullanır, ancak ayrıştırılmış kafası ile kendini diğerlerinden ayırır. Geleneksel YOLO , sınıflandırma ve yerelleştirmeyi aynı anda gerçekleştirir ve bu da sıklıkla çakışmalara yol açar. YOLOX'un ayrılmış kafası bu görevleri paralel dallarda işleyerek daha iyi özellik hizalaması sağlar. Modelin, nesnenin "ne" olduğu (sınıflandırma) ile "nerede" olduğu (yerelleştirme) özelliklerini ayrı ayrı öğrenmesini sağlar.
Etiket Atama
Etiket atama — hangi çıktı piksellerinin gerçek nesnelere karşılık geldiğini belirleme — çapa içermeyen dedektörler için çok önemlidir.
- YOLOX, SimOTA (Basitleştirilmiş Optimal Taşıma Ataması) algoritmasını tanıttı. Bu algoritma, etiket atamasını optimal bir taşıma problemi olarak ele alır ve küresel optimizasyon maliyetine dayalı olarak pozitif örnekleri dinamik olarak temel gerçeklere atar. Bu, kalabalık sahnelerde bile sağlam bir performans sağlar.
- PP-YOLOE+, Görev Hizalama Öğrenimi (TAL) kullanır. TAL, sınıflandırma puanı ve yerelleştirme kalitesini (IoU) açıkça hizalar ve yüksek güvenilirlikli tespitlerin aynı zamanda yüksek yerelleştirme doğruluğuna sahip olmasını sağlar. Bu yaklaşım, tek aşamalı dedektörlerde sık görülen bir sorun olan iki görev arasındaki uyumsuzluğu en aza indirir.
Anchorsız - Anchor Tabanlı Karşılaştırması
Her iki model de çapa içermez, yani önceden tanımlanmış çapa kutularını iyileştirmek yerine nesnelerin merkezlerini ve boyutlarını doğrudan tahmin ederler. Bu, tasarımı basitleştirir, hiperparametrelerin sayısını azaltır (çapa boyutlarını ayarlamaya gerek yoktur) ve genel olarak çeşitli veri kümeleri arasında genellemeyi iyileştirir.
Performans Analizi
Performansı karşılaştırırken, hem doğruluk (mAP) ve hızı (Gecikme/FPS) incelemek çok önemlidir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Önemli Çıkarımlar:
- Doğruluk: PP-YOLOE+ genellikle daha yüksek mAPbackbone puanları elde eder.
- Verimlilik: YOLOX oldukça verimli olsa da, PP-YOLOE+ benzer performans seviyeleri için daha düşük FLOP ve parametre sayıları sergileyerek daha kompakt bir mimari tasarıma sahip olduğunu göstermektedir.
- Hız: Çıkarım hızları rekabetçidir, ancak PP-YOLOE+, donanım farkındalıklı sinir mimarisi tasarımı sayesinde TensorRT donanımlarda genellikle YOLOX'u geride bırakır.
Gerçek Dünya Uygulamaları ve Kullanım Senaryoları
Ne Zaman PP-YOLOE+ Seçmeli
PP-YOLOE+, dağıtım ortamı PaddlePaddle destekleyen endüstriyel uygulamalar için idealdir.
- Üretim Kalite Kontrolü: Yüksek hassasiyeti sayesinde montaj hatlarındaki ince kusurları tespit etmek için mükemmeldir.
- Akıllı Perakende: 's' ve 'm' varyantlarının güçlü performansı, uç sunucularda verimli ürün tanıma sağlar.
- Yüksek Hızlı Aktarım: V100/T4 GPU'lar için optimize edilmiş olması, trafik akışlarının sunucu tarafında işlenmesi için ideal bir aday olmasını sağlar.
Ne Zaman YOLOX Seçmeli
YOLOX, saf PyTorch ve net mimari yenilikleri sayesinde akademik ve araştırma camiasında en sevilenler arasında yerini korumaktadır.
- Otonom Sürüş Araştırması: Akış algılama zorluklarını aşan YOLOX, istikrarlı izleme gerektiren dinamik ortamlar için sağlam bir çözümdür.
- Mobil Uygulamalar: YOLOX-Nano ve Tiny sürümleri çok hafiftir, bu da onları sınırlı işlem gücüne sahip mobil uygulamalar veya drone'lar için uygun hale getirir.
- Özel Araştırma: Ayrılmış başlığı ve ankrajsız tasarımı, standart algılamanın ötesindeki yeni görevler için genellikle daha kolay modifiye edilebilir.
Ultralytics'in Avantajı
PP-YOLOE+ ve YOLOX yetenekli modeller olsa da, Ultralytics , geliştirme hızını, bakım kolaylığını ve dağıtım esnekliğini önceliklendiren geliştiriciler için belirgin bir avantaj sunar.
Kullanım Kolaylığı ve Ekosistem
Ultralytics , en son YOLO26, "sıfırdan kahramana" felsefesiyle tasarlanmıştır. Belirli bir PaddlePaddle gerektiren PP-YOLOE+ veya karmaşık yapılandırma dosyalarına sahip olabilen YOLOX'tan farklı olarak, Ultralytics birleşik bir Python Ultralytics . Sadece birkaç satır kodla modelleri eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Ekosistem, Ultralytics ile daha da güçlendirilmiştir.
Rakipsiz Çok Yönlülük
Ultralytics nesne algılamayla sınırlı değildir. Aynı API şunları destekler:
- Örnek Segmentasyonu: Nesnelerin piksel düzeyinde hassas maskeleme.
- Poz Tahmini: İnsan vücutları veya hayvanlar üzerindeki anahtar noktaları algılama.
- Yönlendirilmiş Nesne Algılama (OBB): Uydu görüntülerinde gemiler gibi döndürülmüş nesnelerin işlenmesi.
- Sınıflandırma: Görüntülerin tamamını verimli bir şekilde kategorilere ayırma.
Ne PP-YOLOE+ ne de YOLOX, tek bir birleşik çerçeve içinde bu düzeyde yerel, çoklu görev desteği sunmamaktadır.
Bellek Verimliliği ve Eğitim
Ultralytics YOLO verimlilik için tasarlanmıştır. Genellikle daha az GPU gerektirir. Bu, geliştiricilerin tüketici sınıfı donanımlarda daha büyük parti boyutlarını eğitmelerine olanak tanıyarak, yüksek performanslı yapay zekaya erişimi demokratikleştirir. Önceden eğitilmiş ağırlıklar hazırdır ve otomatik olarak indirilir, bu da transfer öğrenme sürecini kolaylaştırır.
Gelecek: YOLO26
En son teknolojiyi arayan geliştiriciler için YOLO26, önemli bir ilerlemeyi temsil ediyor. Ocak 2026'da piyasaya sürülen bu ürün, Non-Maximum Suppression (NMS) ihtiyacını ortadan kaldıran yerel uçtan uca yetenekler sunuyor.
Temel YOLO26 Yenilikleri
- Uçtan Uca NMS: NMS adımını ortadan kaldırarak, YOLO26 dağıtım süreçlerini basitleştirir ve gecikme varyansını azaltır. Bu özellik, YOLOv10.
- MuSGD Optimizer: LLM eğitiminden esinlenilen bu hibrit optimizer (SGD Muon), istikrarlı eğitim ve daha hızlı yakınsama sağlar.
- Kenar Optimizasyonu: Dağıtım Odak Kaybı (DFL) ortadan kaldırıldığında, YOLO26 CPU %43'e varan hız artışı sağlar ve bu da onu Raspberry Pi veya cep telefonları gibi kenar cihazlar için üstün bir seçim haline getirir.
- ProgLoss + STAL: Gelişmiş kayıp fonksiyonları, drone denetimi ve IoT uygulamaları için çok önemli olan küçük nesne algılamasını iyileştirir.
YOLO26 hakkında daha fazla bilgi edinin
Sonuç
PP-YOLOE+ ve YOLOX, nesne algılamada çapa içermeyen devrimin öncüsü olmuştur. PP-YOLOE+, PaddlePaddle yüksek doğruluk sunarken, YOLOX araştırma için temiz ve etkili bir mimari sağlar. Ancak, çoğu modern uygulama için Ultralytics YOLO , özellikle de YOLO26, performans, çok yönlülük ve kullanım kolaylığı arasında üstün bir denge sağlar. Akıllı şehir çözümleri veya tarımsal robotik sistemler geliştiriyor olun, Ultralytics bilgisayar görme süreçlerinizin geleceğe dönük ve verimli olmasını sağlar.