PP-YOLOE+ vs YOLO: un confronto tecnico
La selezione del modello ottimale di rilevamento degli oggetti è un passo fondamentale nello sviluppo di applicazioni di visione artificiale efficienti. Si tratta di trovare un complesso compromesso tra precisione, latenza di inferenza e vincoli hardware. Questo confronto tecnico analizza due modelli di spicco dei giganti tecnologici asiatici: PP-YOLOE+, sviluppato dal team PaddlePaddle di Baidu, e YOLO, progettato da Alibaba Group. Entrambi i modelli rappresentano passi significativi nell'evoluzione dei rilevatori in tempo reale, offrendo innovazioni architettoniche e profili prestazionali unici.
Nell'analizzare questi modelli, è utile considerare il panorama più ampio dell'IA della visione. Soluzioni come Ultralytics YOLO11 offrono un'alternativa interessante, garantendo prestazioni all'avanguardia con un'attenzione particolare all'usabilità e a un ecosistema robusto e indipendente dal framework.
Confronto tra le metriche delle prestazioni
La tabella che segue presenta un confronto diretto delle principali metriche di prestazione, tra cui la precisione media (mAP), la velocità di inferenza sulle GPU T4 usando TensorRT, il numero di parametri e la complessità computazionale (FLOPs).
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+: Precisione raffinata nell'ecosistema della pagaia
PP-YOLOE+ è una versione evoluta di PP-YOLOE, che rappresenta l'ammiraglia dei rilevatori single-stage anchor-free di Baidu. Rilasciato nel 2022 come parte della suite PaddleDetection, pone l'accento sul rilevamento ad alta precisione ed è profondamente ottimizzato per il framework dideep learning PaddlePaddle .
Dettagli tecnici:
- Autori: Autori di PaddlePaddle
- Organizzazione:Baidu
- Data: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- Documentazione:PP-YOLOE+ Documentazione
Architettura e tecnologie di base
PP-YOLOE+ integra diversi componenti avanzati per semplificare la pipeline di rilevamento e aumentare la precisione.
- Meccanismo Anchor-Free: Eliminando le caselle di ancoraggio predefinite, il modello riduce la complessità della regolazione degli iperparametri e accelera la convergenza dell'addestramento, una tendenza riscontrata in molte architetture moderne.
- Dorsale CSPRepResNet: Il modello impiega una dorsale CSPRepResNet, che combina i vantaggi del flusso di gradienti delle reti Cross Stage Partial (CSP) con l'efficienza di inferenza dei blocchi ResNet ri-parametrizzati.
- Task Alignment Learning (TAL): per risolvere la discrepanza tra la fiducia nella classificazione e la qualità della localizzazione, PP-YOLOE+ utilizza TAL. Questa strategia di assegnazione dinamica delle etichette garantisce che le previsioni di qualità più elevata siano privilegiate durante l'addestramento.
- Testa efficiente allineata ai compiti (ET-Head): La testa di rilevamento disaccoppiata separa le funzioni di classificazione e regressione, consentendo di ottimizzare ciascun compito in modo indipendente senza interferenze.
Dipendenza dall'ecosistema
PP-YOLOE+ è nativo di PaddlePaddle. Sebbene sia molto efficace all'interno di questo ambiente, gli utenti che hanno familiarità con PyTorch potrebbero trovare la transizione e gli strumenti (come ad esempio paddle2onnx per l'esportazione) richiede un apprendimento aggiuntivo rispetto ai modelli PyTorch nativi.
Punti di forza e debolezze
Punti di forza: PP-YOLOE+ brilla negli scenari che privilegiano l'accuratezza grezza. Le varianti "medium", "large" ed "extra-large" dimostrano punteggi mAP robusti sul set di datiCOCO , rendendoli adatti a compiti di ispezione dettagliati come il controllo qualità industriale.
Punti deboli:
Il limite principale è l'accoppiamento con il framework. Gli strumenti, i percorsi di implementazione e le risorse della comunità sono prevalentemente incentrati su PaddlePaddle, il che può rappresentare un punto di attrito per i team che operano negli ecosistemi PyTorch o TensorFlow . Inoltre, il numero di parametri per i suoi modelli più piccoli (come s) è notevolmente efficiente, ma i suoi modelli più grandi possono essere computazionalmente pesanti.
YOLO: innovazione orientata alla velocità da Alibaba
YOLO, introdotto dal gruppo Alibaba alla fine del 2022, mira al punto di equilibrio tra bassa latenza e alte prestazioni. Sfrutta un'ampia ricerca di architetture neurali (NAS) per scoprire automaticamente strutture efficienti.
Dettagli tecnici:
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organizzazione:Gruppo Alibaba
- Data: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Documentazione:Documentazione YOLO
Architettura e caratteristiche principali
YOLO è caratterizzato da un'ottimizzazione aggressiva della velocità di inferenza.
- Dorsale MAE-NAS: Invece di creare a mano l'estrattore di caratteristiche, gli autori hanno utilizzato Method-Aware Efficient NAS per generare dorsali con profondità e larghezza variabili, ottimizzandole per specifici budget computazionali.
- RepGFPN efficiente: L'architettura del collo, una Generalized Feature Pyramid Network (GFPN), utilizza la ri-parametrizzazione per massimizzare l'efficienza della fusione delle caratteristiche, riducendo al minimo la latenza dell'hardware.
- Tecnologia ZeroHead: Una caratteristica di spicco è la "ZeroHead", che semplifica gli strati di predizione finale per ridurre significativamente i FLOP, lasciando il lavoro pesante alla spina dorsale e al collo.
- AlignedOTA: questa strategia di assegnazione delle etichette allinea gli obiettivi di classificazione e regressione, garantendo che i campioni "positivi" selezionati durante l'addestramento contribuiscano nel modo più efficace alla perdita finale.
Punti di forza e debolezze
Punti di forza: YOLO è eccezionalmente veloce. I suoi modelli "tiny" e "small" offrono una mAP impressionante per la loro velocità, superando molti concorrenti in scenari di inferenza in tempo reale. Questo lo rende ideale per le applicazioni di intelligenza artificiale in cui la latenza al millisecondo è importante, come nel caso dei droni autonomi o del monitoraggio del traffico.
Punti deboli: Essendo una versione incentrata sulla ricerca, YOLO potrebbe non avere gli strumenti di implementazione e la documentazione completa che si trovano in progetti più maturi. La sua dipendenza da strutture NAS specifiche può anche rendere più complessa la personalizzazione e la messa a punto per gli utenti che desiderano modificare l'architettura.
Il vantaggio di Ultralytics : Perché YOLO11 è la scelta migliore
Mentre PP-YOLOE+ e YOLO offrono caratteristiche competitive nelle rispettive nicchie, Ultralytics YOLO11 si distingue come la soluzione più equilibrata, versatile e facile da sviluppare per la moderna computer vision.
Facilità d'uso ed ecosistema senza pari
Ultralytics ha democratizzato l'IA dando priorità all'esperienza dell'utente. A differenza dei repository di ricerca che possono richiedere una configurazione complessa, YOLO11 è accessibile tramite una semplice installazione pip e un'intuitiva API Python . L'ecosistemaUltralytics viene mantenuto attivamente, garantendo la compatibilità con l'hardware più recente (come NVIDIA Jetson, chip Apple serie M) e le librerie software.
Equilibrio ottimale delle prestazioni
YOLO11 è stato progettato per offrire una precisione all'avanguardia senza compromettere la velocità. Spesso eguaglia o supera la precisione di modelli come PP-YOLOE+, pur mantenendo l'efficienza di inferenza richiesta dalle applicazioni in tempo reale. Questo equilibrio è fondamentale per le applicazioni reali in cui precisione e velocità non sono negoziabili.
Efficienza e versatilità
Uno dei vantaggi principali dei modelli Ultralytics è la loro versatilità. Mentre YOLO e PP-YOLOE+ si concentrano principalmente sul rilevamento degli oggetti, un'unica architettura del modello YOLO11 supporta:
- Rilevamento di oggetti
- Segmentazione delle istanze
- Classificazione delle immagini
- Stima della posa
- Oriented Bounding Boxes (OBB)
Inoltre, YOLO11 è ottimizzato per ridurre i requisiti di memoria sia durante l'addestramento che l'inferenza rispetto a molte alternative basate su trasformatori o alle versioni precedenti di YOLO . Questa efficienza consente agli sviluppatori di addestrare batch di dimensioni maggiori su GPU standard e di distribuirli su dispositivi edge più limitati.
Efficienza della formazione
Grazie ai pesi pre-addestrati prontamente disponibili e alle pipeline di addestramento ottimizzate, gli utenti possono ottenere prestazioni elevate su set di dati personalizzati con tempi di addestramento minimi.
Esempio: Esecuzione di YOLO11
L'implementazione di funzionalità di visione avanzate è semplice con Ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Conclusione
Sia PP-YOLOE+ che YOLO sono contributi formidabili al campo della computer vision. PP-YOLOE+ è un candidato forte per gli utenti che sono profondamente integrati nel sistema PaddlePaddle che richiedono un'elevata precisione. YOLO offre scelte architetturali innovative per massimizzare la velocità sui dispositivi edge.
Tuttavia, per la stragrande maggioranza degli sviluppatori e delle imprese, Ultralytics YOLO11 rimane la scelta consigliata. La sua combinazione di PyTorch di PyTorch, versatilità multi-task, documentazione di qualità superiore e supporto attivo della comunità riducono significativamente il time-to-market delle soluzioni di intelligenza artificiale. Che si tratti di un sistema di allarme di sicurezza o di una pipeline per il controllo di qualità della produzione, YOLO11 offre l'affidabilità e le prestazioni necessarie per il successo.