Vai al contenuto

PP-YOLOE+ vs.YOLO: approfondimento sul rilevamento di oggetti industriali

Nel competitivo settore della visione artificiale in tempo reale, la scelta dell'architettura ottimale è una decisione fondamentale per ingegneri e ricercatori. Due pesi massimi dell'ecosistema tecnologico cinese, PP-YOLOE+ di Baidu e YOLO di Alibaba, offrono approcci distinti per risolvere il compromesso tra velocità e precisione. Sebbene entrambi i modelli utilizzino tecniche avanzate come la ricerca dell'architettura neurale (NAS) e la riparametrizzazione, si adattano a diversi ambienti di implementazione e preferenze dell'ecosistema.

Questa guida fornisce un confronto tecnico completo, analizzando le innovazioni architetturali, le prestazioni di benchmark e l'idoneità per le applicazioni reali. Esploriamo anche come la moderna architettura Ultralytics affronti i limiti di questi modelli precedenti per fornire una soluzione unificata per l'implementazione edge e cloud.

PP-YOLOE+: detect senza Anchor Ottimizzato

Rilasciato nell'aprile 2022 dal PaddlePaddle di Baidu, PP-YOLOE+ è un'evoluzione dell'architettura PP-YOLOE, progettata per migliorare la convergenza dell'addestramento e la velocità di inferenza. Rappresenta un passaggio verso il rilevamento ad alte prestazioni e senza ancoraggi all'interno PaddlePaddle .

Autori: PaddlePaddle
Organizzazione:Baidu
Data: 2 aprile 2022
Arxiv:PP-YOLOE Documento
GitHub:PaddlePaddle

Innovazioni Architetturali

PP-YOLOE+ si basa sul successo dei modelli precedenti integrando diverse scelte progettuali fondamentali volte a ridurre la latenza mantenendo un'elevata precisione:

  • CSPRepResStage: la struttura portante utilizza una struttura CSP (Cross-Stage Partial) combinata con blocchi residui riparametrizzati. Ciò consente al modello di trarre vantaggio dall'estrazione di caratteristiche complesse durante l'addestramento, mentre durante l'inferenza si riduce a una struttura più semplice e veloce.
  • Paradigma senza ancoraggio: rimuovendo gli anchor box, PP-YOLOE+ semplifica lo spazio di ricerca degli iperparametri, riducendo il carico ingegneristico spesso associato ai rilevatori basati su ancoraggio.
  • Task Alignment Learning (TAL): per risolvere il disallineamento tra la classificazione e la localizzazione, PP-YOLOE+ utilizza TAL, una strategia di assegnazione dinamica delle etichette che seleziona i positivi di alta qualità sulla base di una metrica combinata di punteggio di classificazione e IoU.
  • ET-Head: l'Efficient Task-aligned Head (ET-Head) separa i rami di classificazione e regressione, garantendo che le rappresentazioni delle caratteristiche siano ottimizzate in modo specifico per ciascuna attività senza interferenze.

Scopri di più su PP-YOLOE

DAMO-YOLO: Efficienza guidata da NAS

Introdotto successivamente nel novembre 2022 dal Gruppo Alibaba,YOLO Distillation-Augmented MOdel) sfrutta la ricerca dell'architettura neurale (NAS) e la distillazione pesante per superare i limiti delle prestazioni a bassa latenza. È progettato specificamente per massimizzare la produttività su hardware industriale.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione:Alibaba Group
Data: 23 novembre 2022
Arxiv:YOLO
GitHub:YOLO

Innovazioni Architetturali

YOLO siYOLO per la sua attenzione alla progettazione automatizzata dell'architettura e alla fusione compatta delle funzionalità:

  • Backbone MAE-NAS: a differenza dei backbone progettati manualmente,YOLO una struttura scoperta tramite Neural Architecture Search, denominata MAE-NAS. Ciò garantisce che la profondità e l'ampiezza della rete siano ottimizzate matematicamente per specifici vincoli hardware.
  • RepGFPN: La rete piramidale generalizzata efficiente (RepGFPN) migliora le FPN standard ottimizzando i percorsi di fusione delle caratteristiche e la profondità dei canali, consentendo un migliore rilevamento multiscala di oggetti che vanno dai pedoni ai veicoli.
  • ZeroHead: un design leggero della testa di rilevamento che riduce significativamente il costo computazionale (FLOP) degli strati di previsione finali, fondamentale per le applicazioni in tempo reale.
  • AlignedOTA: una versione migliorata dell'Optimal Transport Assignment (OTA) che allinea meglio gli obiettivi di classificazione e regressione durante l'addestramento, portando a una convergenza più rapida.

Scopri di più su DAMO-YOLO

Confronto delle prestazioni

Quando si confrontano questi modelli, la scelta spesso dipende dall'hardware specifico di destinazione e dal compromesso accettabile tra numero di parametri e precisione. PP-YOLOE+ offre generalmente prestazioni robuste su GPU di classe server, mentreYOLO in scenari che richiedono un'ottimizzazione aggressiva della latenza grazie alla sua struttura derivata dal NAS.

La tabella sottostante illustra i parametri chiave. Si noti cheYOLO raggiungeYOLO una latenza inferiore a parità di livelli di accuratezza grazie alle ottimizzazioni ZeroHead e RepGFPN.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Il Vantaggio Ultralytics: Entra in YOLO26

Sebbene PP-YOLOE+ eYOLO funzionalità competitive, spesso richiedono ambienti complessi e specifici per il framework (PaddlePaddle stack interni di Alibaba). Per gli sviluppatori alla ricerca di una soluzione universale e pronta per la produzione, Ultralytics offre un vantaggio decisivo.

Lanciato nel 2026, YOLO26 affronta i punti di attrito storici dell'implementazione del rilevamento degli oggetti. Non è solo un modello, ma un ecosistema completo progettato per essere facile da usare e consentire iterazioni rapide.

Caratteristiche principali di YOLO26

  1. Progettazione end-to-end NMS: a differenza di PP-YOLOE+ eYOLO, che possono richiedere un'attenta regolazione delle NMS , YOLO26 è nativamente end-to-end. Ciò elimina completamente la soppressione non massima (NMS), garantendo una latenza di inferenza deterministica e semplificando le pipeline di implementazione.
  2. Ottimizzatore MuSGD: ispirato alle innovazioni nella formazione dei modelli linguistici di grandi dimensioni (come Kimi K2 di Moonshot AI), YOLO26 utilizza l'ottimizzatore MuSGD. Questo approccio ibrido stabilizza le dinamiche di formazione, consentendo al modello di convergere più rapidamente con un numero inferiore di epoche rispetto allo SGD standard SGD nelle architetture precedenti.
  3. ProgLoss + STAL: il rilevamento di oggetti di piccole dimensioni è stato notevolmente migliorato grazie a ProgLoss e Soft Task Alignment Learning (STAL). Ciò rende YOLO26 particolarmente efficace per le immagini aeree e le ispezioni industriali, dove la precisione sui difetti minimi è fondamentale.
  4. Ottimizzazione dei bordi: eliminando la perdita focale di distribuzione (DFL), YOLO26 raggiunge CPU fino al 43% più veloce, rendendolo la scelta ideale per Raspberry Pi, dispositivi mobili e applicazioni IoT.
  5. Versatilità senza pari: mentre i concorrenti si concentrano principalmente sul rilevamento, il Ultralytics supporta la segmentazione delle istanze, la stima della posa, l'OBB e la classificazione all'interno di un'unica API unificata.

Flusso di lavoro semplificato

Ultralytics consente di passare dall'annotazione dei dati alla distribuzione in pochi minuti. Con la Ultralytics è possibile gestire set di dati, eseguire il training nel cloud ed esportare in qualsiasi formato (ONNX, TensorRT, CoreML) senza scrivere codice boilerplate.

Esempio di codice: Semplicità in azione

L'addestramento di un modello all'avanguardia con Ultralytics intuitivo. Python elimina la complessità della definizione dell'architettura e della regolazione degli iperparametri.

from ultralytics import YOLO

# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the results
predictions[0].show()

Scopri di più su YOLO26

Casi d'Uso e Raccomandazioni

La scelta del modello giusto dipende dai vostri vincoli specifici in materia di integrazione dell'ecosistema, disponibilità di hardware e risorse di sviluppo.

  • Scegli PP-YOLOE+ se la tua infrastruttura è già profondamente integrata con l'ecosistema Baidu PaddlePaddle. È un ottimo candidato per l'elaborazione di immagini statiche in cui è importante massimizzare mAP sui server è la priorità e si dispone della capacità ingegneristica per gestire le dipendenze specifiche di Paddle.
  • ScegliYOLO se stai conducendo ricerche sulla ricerca dell'architettura neurale o se hai bisogno di ottimizzazioni specifiche della latenza sull'hardware supportato. La sua testa leggera lo rende efficiente per l'analisi video ad alta produttività, a condizione che tu sia in grado di navigare nella sua pipeline di formazione ad alta densità di distillazione.
  • Scegli Ultralytics per il miglior equilibrio tra velocità, precisione ed esperienza di sviluppo. Il suo design NMS semplifica la logica di implementazione, mentre la rimozione del DFL lo rende eccezionalmente veloce su CPU e dispositivi edge. Che tu stia realizzando sistemi di vendita al dettaglio intelligenti o robot agricoli autonomi, la documentazione completa e il supporto attivo della community garantiscono che il tuo progetto rimanga a prova di futuro.

Per gli utenti interessati ad altre architetture efficienti, la documentazione copre anche modelli come YOLO11 e RT-DETR, fornendo un'ampia gamma di strumenti per ogni sfida nel campo della visione artificiale.

Conclusione

Sia PP-YOLOE+ cheYOLO contribuito in modo significativo al progresso del rilevamento di oggetti senza ancoraggio. PP-YOLOE+ ha perfezionato il processo di addestramento con l'allineamento delle attività, mentreYOLO la potenza del NAS e della distillazione. Tuttavia, la complessità delle rispettive pipeline di addestramento e il lock-in dell'ecosistema possono rappresentare un ostacolo per molti team.

Ultralytics si distingue per aver reso accessibili a tutti queste funzionalità avanzate. Combinando un'architetturaNMS, l'ottimizzazione MuSGD e prestazioni edge superiori, offre una soluzione completa che si adatta dal prototipo alla produzione con il minimo sforzo. Per gli sviluppatori che desiderano massimizzare la produttività e le prestazioni, Ultralytics lo standard del settore.


Commenti