İçeriğe geç

PP-YOLOE+ veYOLO: Endüstriyel Nesne Algılama Konusuna Derinlemesine Bakış

Gerçek zamanlı bilgisayar görüşünün rekabetçi alanında, en uygun mimariyi seçmek mühendisler ve araştırmacılar için kritik bir karardır. Çin teknoloji ekosisteminin iki ağır topu olan Baidu'nun PP-YOLOE+ ve Alibaba'nın YOLO, hız-doğruluk dengesi sorununu çözmek için farklı yaklaşımlar sunuyor. Her iki model de sinir mimarisi arama (NAS) ve yeniden parametrelendirme gibi gelişmiş teknikleri kullanıyor olsa da, farklı dağıtım ortamlarına ve ekosistem tercihlerine hitap ediyor.

Bu kılavuz, mimari yeniliklerini, karşılaştırmalı performanslarını ve gerçek dünya uygulamaları için uygunluklarını analiz ederek kapsamlı bir teknik karşılaştırma sunmaktadır. Ayrıca, modern Ultralytics mimarisinin, kenar ve bulut dağıtımı için birleşik bir çözüm sunmak üzere bu önceki modellerin sınırlamalarını nasıl ele aldığını da inceliyoruz.

PP-YOLOE+: Gelişmiş Anchor'suz Detect

Baidu'nun PaddlePaddle tarafından Nisan 2022'de piyasaya sürülen PP-YOLOE+, PP-YOLOE mimarisinin bir evrimidir ve eğitim yakınsaması ile çıkarım hızını iyileştirmek için tasarlanmıştır. PaddlePaddle yüksek performanslı, bağlantısız algılama yönünde bir dönüşümü temsil etmektedir.

Yazarlar: PaddlePaddle
Kuruluş:Baidu
Tarih: 2 Nisan 2022
Arxiv:PP-YOLOE Makalesi
GitHub:PaddlePaddle

Mimari Yenilikler

PP-YOLOE+, yüksek hassasiyeti korurken gecikmeyi azaltmayı amaçlayan birkaç önemli tasarım seçeneğini entegre ederek öncüllerinin başarısını daha da ileriye taşıyor:

  • CSPRepResStage: backbone , yeniden parametrelendirilmiş kalıntı bloklarla birleştirilmiş bir CSP (Cross-Stage Partial) yapısı backbone . Bu, modelin eğitim sırasında karmaşık özellik çıkarımından yararlanmasını sağlarken, çıkarım sırasında daha basit ve daha hızlı bir yapıya dönüşmesini sağlar.
  • Anchor-Free Paradigm: Anchor kutularını kaldırarak, PP-YOLOE+ hiperparametre arama alanını basitleştirir ve anchor tabanlı dedektörlerle sıklıkla ilişkili mühendislik yükünü azaltır.
  • Görev Uyumlaştırma Öğrenimi (TAL): Sınıflandırma ve yerelleştirme güvenilirliği arasındaki uyumsuzluğu gidermek için PP-YOLOE+, sınıflandırma puanı ve IoU birleşik metriklerine dayalı olarak yüksek kaliteli pozitifleri seçen dinamik bir etiket atama stratejisi olan TAL'ı kullanır.
  • ET-Head: Verimli Görev Odaklı Kafa (ET-Head), sınıflandırma ve regresyon dallarını birbirinden ayırarak, özellik temsillerinin her bir görev için özel olarak ve birbirini etkilemeden optimize edilmesini sağlar.

PP-YOLOE hakkında daha fazla bilgi edinin

DAMO-YOLO: NAS Odaklı Verimlilik

Alibaba Group tarafından 2022 yılının Kasım ayında piyasaya sürülenYOLO Distillation-Augmented MOdel), Neural Architecture Search (NAS) ve yoğun damıtma teknolojisini kullanarak düşük gecikmeli performansın sınırlarını zorluyor. Endüstriyel donanımlarda verimi en üst düzeye çıkarmak için özel olarak tasarlanmıştır.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:YOLO
GitHub:YOLO

Mimari Yenilikler

YOLO , otomatik mimari tasarım ve kompakt özellik birleştirme odaklı yaklaşımıylaYOLO :

  • MAE-NAS Backbone: Manuel olarak tasarlanmış omurgalardan farklı olarak,YOLO , MAE-NAS olarak adlandırılan Nöral Mimari Arama yoluyla keşfedilen bir yapıYOLO . Bu, ağ derinliği ve genişliğinin belirli donanım kısıtlamaları için matematiksel olarak optimize edilmesini sağlar.
  • RepGFPN: Verimli Genelleştirilmiş Özellik Piramidi Ağı (RepGFPN), özellik birleştirme yollarını ve kanal derinliklerini optimize ederek standart FPN'leri geliştirir ve yayalardan araçlara kadar çeşitli nesnelerin çok ölçekli algılanmasını sağlar.
  • ZeroHead: Gerçek zamanlı uygulamalar için çok önemli olan son tahmin katmanlarının hesaplama maliyetini (FLOP) önemli ölçüde azaltan hafif bir algılama kafası tasarımı.
  • AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon hedeflerini daha iyi uyumlu hale getiren ve daha hızlı yakınsama sağlayan Optimal Transport Assignment (OTA) yönteminin geliştirilmiş bir versiyonu.

DAMO-YOLO hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Bu modelleri karşılaştırırken, seçim genellikle belirli donanım hedefine ve parametre sayısı ile doğruluk arasında kabul edilebilir bir dengeye bağlıdır. PP-YOLOE+ genellikle sunucu sınıfı GPU'larda sağlam performans sunarken,YOLO NAS kaynaklı backbone sayesinde agresif gecikme optimizasyonu gerektiren senaryolardaYOLO .

Aşağıdaki tablo temel ölçütleri göstermektedir.YOLO , ZeroHead ve RepGFPN optimizasyonları sayesinde benzer doğruluk seviyelerindeYOLO daha düşük gecikme süresi sağlar.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor

PP-YOLOE+ veYOLO rekabetçi özelliklerYOLO da, genellikle karmaşık, çerçeveye özgü ortamlar (PaddlePaddle Alibaba'nın dahili yığınları) gerektirir. Evrensel, üretime hazır bir çözüm arayan geliştiriciler için Ultralytics belirleyici bir avantaj sağlar.

2026 yılında piyasaya sürülen YOLO26, nesne algılama uygulamasının tarihsel sürtüşme noktalarını ele almaktadır. Bu sadece bir model değil, kullanım kolaylığı ve hızlı yineleme için tasarlanmış eksiksiz bir ekosistemdir.

YOLO26'nın Temel Özellikleri

  1. Uçtan Uca NMS Tasarım: NMS dikkatli bir şekilde ayarlanmasını gerektirebilen PP-YOLOE+ veYOLO farklı olarak, YOLO26 doğal olarak uçtan uca bir tasarımdır. Bu, Non-Maximum Suppression (NMS) özelli ğini tamamen ortadan kaldırarak, deterministik çıkarım gecikmesini garanti eder ve dağıtım süreçlerini basitleştirir.
  2. MuSGD Optimizer: Büyük Dil Modeli eğitimindeki yeniliklerden (Moonshot AI'nın Kimi K2 gibi) esinlenen YOLO26, MuSGD optimizer'ı kullanır. Bu hibrit yaklaşım, eğitim dinamiklerini stabilize ederek modelin eski mimarilerde SGD standart SGD kıyasla daha az epoch ile daha hızlı yakınsama sağlamasına olanak tanır.
  3. ProgLoss + STAL: ProgLoss ve Soft Task Alignment Learning (STAL) sayesinde küçük nesnelerin algılanması önemli ölçüde iyileştirilmiştir. Bu, YOLO26'yı küçük kusurların hassasiyetinin çok önemli olduğu hava görüntüleri ve endüstriyel denetimler için özellikle etkili hale getirir.
  4. Kenar Optimizasyonu: Dağıtım Odak Kaybını (DFL) ortadan kaldırarak, YOLO26 CPU %43'e varan hız artışı sağlar ve bu da onu Raspberry Pi, mobil cihazlar ve IoT uygulamaları için üstün bir seçim haline getirir.
  5. Eşsiz Çok Yönlülük: Rakipler öncelikle algılama üzerine odaklanırken, Ultralytics tek bir birleşik API içinde örnek segmentasyonu, poz tahmini, OBB ve sınıflandırmayı destekler.

Kolaylaştırılmış İş Akışı

Ultralytics , veri etiketlemeden dağıtıma dakikalar içinde geçmenizi sağlar. Ultralytics ile veri kümelerini yönetebilir, bulutta eğitim verebilir ve hazır kod yazmadan herhangi bir biçime (ONNX, TensorRT, CoreML) aktarabilirsiniz.

Kod Örneği: Uygulamada Basitlik

Ultralytics ile son teknoloji ürünü bir modeli eğitmek Ultralytics . Python , mimari tanımlama ve hiperparametre ayarlamanın karmaşıklığını ortadan kaldırır.

from ultralytics import YOLO

# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the results
predictions[0].show()

YOLO26 hakkında daha fazla bilgi edinin

Kullanım Durumları ve Öneriler

Doğru modeli seçmek, ekosistem entegrasyonu, donanım kullanılabilirliği ve geliştirme kaynakları ile ilgili özel kısıtlamalarınıza bağlıdır.

  • Altyapınız Baidu PaddlePaddle ekosistemiyle zaten derinlemesine entegre ise PP-YOLOE+'yı seçin. Bu, statik görüntü işleme için güçlü bir adaydır ve mAP 'yi en üst düzeye çıkarmak öncelikliyse ve Paddle'a özgü bağımlılıkları yönetmek için mühendislik kapasitesine sahipseniz, bu ürün sizin için ideal bir seçimdir.
  • Sinir Mimarisi Arama konusunda araştırma yapıyorsanız veya desteklenen donanımda belirli gecikme optimizasyonlarına ihtiyacınız varsa YOLO seçin. Hafif yapısı, damıtma ağırlıklı eğitim sürecini yönetebiliyorsanız, yüksek verimli video analizi için verimli olmasını sağlar.
  • Hız, doğruluk ve geliştirici deneyimi arasında en iyi dengeyi sağlamak için Ultralytics tercih edin. NMS tasarımı, dağıtım mantığını basitleştirirken, DFL'nin kaldırılması CPU'larda ve uç cihazlarda olağanüstü bir hız sağlar. Akıllı perakende sistemleri veya otonom tarım robotları geliştiriyor olun, sağlam belgeler ve aktif topluluk desteği, projenizin geleceğe dönük olmasını sağlar.

Diğer verimli mimarilerle ilgilenen kullanıcılar için, belgeler ayrıca aşağıdaki modeller gibi konuları da kapsamaktadır YOLO11 ve RT-DETRgibi modelleri de ele almakta ve her türlü bilgisayar görme zorluğu için geniş bir araç yelpazesi sunmaktadır.

Sonuç

Hem PP-YOLOE+ hem deYOLO , bağlantısız nesne algılamanın gelişmesine önemli katkılarYOLO . PP-YOLOE+, görev uyumu ile eğitim sürecini iyileştirirken,YOLO ise NAS ve damıtmanın gücünüYOLO . Ancak, her ikisinin de eğitim süreçlerinin karmaşıklığı ve ekosistem kilitlenmesi, birçok ekip için bir engel teşkil edebilir.

Ultralytics , bu gelişmiş özellikleri demokratikleştirerek öne çıkıyor. NMS mimari, MuSGD optimizasyonu ve üstün kenar performansı bir araya getirilerek, prototipten üretime kadar minimum sürtünmeyle ölçeklenebilen kapsamlı bir çözüm sunuyor. Verimlilik ve performansı en üst düzeye çıkarmak isteyen geliştiriciler için Ultralytics , sektör standardı Ultralytics .


Yorumlar