İçeriğe geç

YOLO . PP-YOLOE+: Endüstriyel Nesne Algılama Konusunda Teknik Bir Derinlemesine İnceleme

Gerçek zamanlı nesne algılama alanındaki rekabet ortamında, endüstriyel uygulamalar için önemli kilometre taşları olarak iki model öne çıkmıştır: Alibaba Group tarafından geliştirilen YOLO ve Baidu'nun PaddlePaddle amiral gemisi algılayıcısı PP-YOLOE+. Her iki mimari de çıkarım hızı ile algılama doğruluğu arasındaki dengeyi önceliklendirir, ancak bu hedefleri çok farklı mühendislik felsefelerine dayanarak gerçekleştirir.

Bu kapsamlı kılavuz, mimari yeniliklerini analiz eder, performans ölçütlerini karşılaştırır ve kullanım kolaylığı ve uç dağıtım standartlarını yeniden tanımlayan yeni nesil bir model olan Ultralytics tanıtır.

DAMO-YOLO'ya Genel Bakış

YOLO Distillation-Augmented MOdel), otomatik mimari tasarımı ve gelişmiş eğitim tekniklerinden yararlanarak performans sınırlarını zorlamak için tanıtıldı.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:YOLO
GitHub:YOLO

Mimari Yenilikler

YOLO , Nöral Mimari Arama (NAS) teknolojisini kullanarak geleneksel manuel tasarımdanYOLO . Temel bileşenleri şunlardır:

  • MAE-NAS Backbone: backbone , belirli gecikme kısıtlamaları altında verimi en üst düzeye çıkarmak için Yardımcı Kenar Yöntemi (MAE-NAS) kullanılarak otomatik olarak keşfedilir.
  • RepGFPN: Genel Özellik Piramidi Ağı (GFPN) temelinde geliştirilmiş bir heavyneck tasarımıdır. Tipik BiFPN'lerin yüksek hesaplama maliyetine yol açmadan özellik birleştirmeyi optimize etmek için ölçek düzeyleri arasında değişen kanal boyutları kullanır.
  • ZeroHead: Son tahmin katmanlarının karmaşıklığını en aza indiren ve çıkarım sırasında kritik milisaniyeleri kazandıran hafif bir algılama kafası.
  • AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluk sorunlarını çözen, geliştirilmiş bir etiket atama stratejisi.

Güçlü ve Zayıf Yönler

YOLO en büyük gücüYOLO gecikme odaklı tasarımıdır. NAS kullanarak, belirli bir hesaplama bütçesinden maksimum doğruluğu elde eder. Ancak, bu karmaşıklık iki ucu keskin bir kılıç olabilir; NAS tabanlı mimari, manuel olarak tasarlanmış mimarilere kıyasla, özel veri kümeleri için değiştirilmesi veya ince ayar yapılması zor olabilir. Ayrıca, damıtmaya (büyük bir öğretmen modelinin öğrenciyi yönlendirdiği) bağımlılığı, eğitim sürecine karmaşıklık katar.

PP-YOLOE+ Genel Bakış

PP-YOLOE+, PP-YOLOE'nin gelişmiş versiyonudur ve PaddleDetection paketinin temel taşıdır. Bulut ve uç dağıtım çok yönlülüğüne büyük önem vermektedir.

Yazarlar: PaddlePaddle
Kuruluş:Baidu
Tarih: 2 Nisan 2022
Arxiv:PP-YOLOE Makalesi
GitHub:PaddlePaddle

Mimari Yenilikler

PP-YOLOE+, çapa içermeyen paradigmayı temel alır ve iyileştirme ve eğitim istikrarını vurgular:

  • CSPRepResStage: backbone , yeniden parametrelendirilebilir kalıntı blokları ile ölçeklenebilir bir CSP (Cross Stage Partial) yapısı backbone , bu da eğitim sırasında karmaşık özelliklerin çıkarılmasını ve çıkarım sırasında basitleştirilmiş işlemleri mümkün kılar.
  • Görev Hizalama Öğrenimi (TAL): Sınıflandırma puanı ve IoU Kesişim Üzerinde Birleşim) temelinde bağlantı noktalarını gerçek nesnelerle açıkça hizalayan dinamik bir etiket atama şeması.
  • Etkili Sıkıştırma ve Uyarma (ESE): Kanal bazında özellik tepkilerini yeniden kalibre ederek özellik temsilini geliştirmek backbone entegre edilmiş bir dikkat mekanizması.

Güçlü ve Zayıf Yönler

PP-YOLOE+, ekosistem entegrasyonunda mükemmeldir. PaddlePaddle bir parçası olan bu araç, sunucu tarafı GPU'lar ve mobil cihazlar dahil olmak üzere çeşitli dağıtım hedefleri için güçlü destek sunar. Ancak, standart PyTorch performansı, modelleri dönüştürme veya PaddlePaddle özel sözdizimine uyum sağlama gerekliliği nedeniyle engellenebilir. Bu da, standart PyTorch'a alışkın geliştiriciler için sorun yaratabilir. PyTorch pipeline'larına alışkın geliştiriciler için sürtüşmeye neden olabilir.

Performans Karşılaştırması

Aşağıdaki tablo, COCO setinde iki model arasındaki performans farklarını göstermektedir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analiz

  • Küçük Modeller (Nano/Tiny):YOLO küçük varyantlar için daha yüksek doğruluk (mAP) sunarak, kısıtlı backbone optimize backbone etkinliğini ortaya koymaktadır. Bununla birlikte, PP-YOLOE+t parametre sayısı açısından önemli ölçüde daha küçüktür (4,85 milyon karşı 8,5 milyon), bu da depolama alanı son derece kısıtlı cihazlar için tercih edilebilir olabilir.
  • Orta ve Büyük Modeller: Model boyutu arttıkça, PP-YOLOE+ doğruluk açısından daha iyi ölçeklenmeye eğilimlidir ve Orta ve BüyükYOLO geride bırakır (örneğin, Büyük mAP 52,9 mAP 50,8 mAP ).
  • Çıkarım Hızı:YOLO TensorRT çoğu boyutta üstün gecikme süresi göstererek "gecikme süresi öncelikli" mimari arayışını doğrulamaktadır. Buna karşılık, PP-YOLOE+s şaşırtıcı derecede verimli bir hız (2,62 ms) göstererek belirli gerçek zamanlı uygulamalar için güçlü bir rakip olmaktadır.

Ultralytics Avantajı: YOLO26

YOLO PP-YOLOE+ belirli nişler için cazip özellikler sunarken, Ultralytics bilgisayar görüşünde bir sonraki evrimsel adımı temsil ediyor ve radikal mimari değişiklikler ve kullanılabilirlik iyileştirmeleriyle her iki öncülünün sınırlamalarını ortadan kaldırıyor.

YOLO26 hakkında daha fazla bilgi edinin

YOLO26 neden üstün bir seçimdir?

  1. Uçtan Uca NMS Tasarım: Çakışan kutuları filtrelemek için Non-Maximum Suppression (NMS) gerektiren PP-YOLOE+ ve geleneksel YOLO aksine, YOLO26 doğal olarak uçtan uca bir tasarımdır. Bu, önemli bir dağıtım darboğazını ortadan kaldırarak gecikme varyansını azaltır ve dışa aktarım sürecini ONNX ve CoreML gibi formatlara aktarım sürecini basitleştirir.
  2. Eşsiz CPU : Kenar bilişim için özel olarak optimize edilen YOLO26, önceki nesillere kıyasla %43'e kadar daha hızlı CPU sağlar. Bu, Raspberry Pi, cep telefonları veya GPU'ların bulunmadığı standart bulut örneklerinde çalışan uygulamalar için çok önemlidir.
  3. Gelişmiş Eğitim Kararlılığı: YOLO26, SGD Muon'un (LLM eğitiminden esinlenerek) bir karışımı olan MuSGD Optimizer'ı içerir ve karmaşık özel veri kümelerinde bile daha hızlı yakınsama ve daha kararlı eğitim çalıştırmaları sağlar.
  4. Basitleştirilmiş Mimari: Dağıtım Odak Kaybının (DFL) kaldırılması, model yapısını basitleştirerek, karmaşık kayıp fonksiyonlarıyla zorlanan düşük güçlü kenar cihazları ve hızlandırıcılarla uyumluluğu artırır.
  5. Bütünsel Ekosistem: Ultralytics ile kullanıcılar, veri yönetimi, bulut eğitimi ve tek tıklamayla dağıtım için kesintisiz bir boru hattına erişim elde ederler.

Algılamanın Ötesinde Çok Yönlülük

Öncelikle algılamayaYOLO farklı olarak, YOLO26, Örnek Segmentasyonu, Poz Tahmini, OBB (Yönlendirilmiş Sınırlayıcı Kutu) ve Sınıflandırma dahil olmak üzere tüm görevleri doğal olarak destekler.

Kullanım Kolaylığı

Ultralytics belirleyici özelliklerinden biri, geliştirici deneyimidir.YOLO PP-YOLOE+ karmaşık yapılandırma dosyaları veya çerçeveye özgü bilgiler gerektirebilirken, YOLO26 sadece birkaç satır kodla uygulanabilir.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Gerçek Dünya Kullanım Durumları

  • Akıllı Perakende: YOLO26'nın hızını kullanarak pahalı GPU olmadan raf envanterini gerçek zamanlı olarak izleyin.
  • Tarım: ProgLoss + STAL işlevlerini kullanarak küçük nesnelerin tanınmasını iyileştirin. Bu, drone görüntülerinde zararlıları tespit etmek veya mahsulleri saymak için çok önemlidir.
  • Üretim: Tutarlı gecikme süresinin vazgeçilmez olduğu montaj hatlarında yüksek hızlı kalite kontrolü için NMS modeller kullanın.

Sonuç

Doğru modeli seçmek, özel kısıtlamalarınıza bağlıdır. YOLO, NAS mimarileri ve belirli TensorRT hedeflerini önceliklendiren senaryoların araştırılması için mükemmel bir seçimdir. PP-YOLOE+, Baidu ekosistemine derinlemesine entegre olmuş ve sunucu sınıfı donanımda yüksek doğruluk gerektirenler için sağlam bir seçenektir.

Ancak, geleceğe dönük, kullanımı kolay ve son derece çok yönlü bir çözüm arayan geliştiricilerin ve işletmelerin büyük çoğunluğu için Ultralytics öne çıkmaktadır. Uçtan uca tasarımı, üstün CPU ve canlı bir açık kaynak topluluğunun desteği, onu modern bilgisayar görme uygulamaları için kesin seçim haline getirmektedir.

Diğer son teknoloji seçeneklerle ilgilenen kullanıcılar için, YOLO11 veya transformatör tabanlı RT-DETR 'yi Ultralytics .


Yorumlar