PP-YOLOE+ vs. YOLOv5: come navigare nel rilevamento ad alta precisione e nella preparazione alla produzione
La scelta del modello ottimale di rilevamento degli oggetti comporta spesso un compromesso tra metriche accademiche grezze e capacità pratiche di implementazione. Questo confronto tecnico prende in esame PP-YOLOE+, un rilevatore evoluto privo di ancore dell'ecosistema PaddlePaddle , e Ultralytics YOLOv5il modello standard del settore, rinomato per il suo equilibrio tra velocità, precisione e facilità d'uso. Mentre PP-YOLOE+ si spinge oltre i confini della precisione mediamAP), YOLOv5 rimane una forza dominante nelle applicazioni di inferenza in tempo reale grazie alla sua impareggiabile esperienza di sviluppo e alla versatilità di implementazione.
PP-YOLOE+: Ingegneria di precisione in PaddlePaddle
PP-YOLOE+ è una versione aggiornata di PP-YOLOE, sviluppata dai ricercatori di Baidu come parte della suite PaddleDetection. È stato progettato per essere un rilevatore di oggetti industriale efficiente e all'avanguardia, con particolare attenzione ai compiti di alta precisione. Sfruttando un'architettura priva di ancore, semplifica la pipeline di addestramento e riduce la regolazione degli iperparametri spesso associata ai metodi basati sulle ancore.
Autori: PaddlePaddle Authors
Organizzazione: Baidu
Data: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Docs: https:PaddlePaddle
Architettura e innovazione
L'architettura di PP-YOLOE+ introduce diversi meccanismi avanzati per migliorare la rappresentazione e la localizzazione delle caratteristiche:
- Backbone: Utilizza CSPRepResNet, un backbone che combina i vantaggi del flusso di gradienti delle reti Cross Stage Partial (CSP) con le tecniche di ri-parametrizzazione di RepVGG.
- Anchor-Free Head: un Efficient Task-aligned Head (ET-Head) viene utilizzato per disaccoppiare i compiti di classificazione e regressione, migliorando la velocità di convergenza e la precisione.
- Strategia di addestramento: Incorpora l'apprendimento dell'allineamento dei compiti (Task Alignment Learning, TAL) per assegnare dinamicamente i campioni positivi, assicurando che le previsioni di qualità più elevata siano prioritarie durante l'addestramento.
- Funzioni di perdita: Impiega VariFocal Loss (VFL) e Distribution Focal Loss (DFL) per gestire lo squilibrio tra le classi e affinare la precisione dei riquadri di delimitazione.
Punti di forza e debolezze
PP-YOLOE+ eccelle negli scenari in cui la massima precisione è fondamentale. Il suo design privo di ancore elimina la necessità di raggruppare le caselle di ancoraggio, rendendolo adattabile a insiemi di dati con forme di oggetti variabili. Tuttavia, la sua forte dipendenza dal PaddlePaddle può essere un ostacolo per i team che si basano su PyTorch o TensorFlow. Sebbene esistano strumenti per convertire i modelli, il supporto dell'ecosistema nativo è meno esteso rispetto a quello di framework più universalmente adottati.
Considerazioni sull'ecosistema
Sebbene PP-YOLOE+ offra prestazioni teoriche impressionanti, la sua adozione richiede spesso una certa familiarità con la sintassi e gli strumenti di distribuzione specifici di PaddlePaddle, che possono differire in modo significativo dai flussi di lavoro standard di PyTorch .
Ultralytics YOLOv5: lo standard globale per l'IA della visione
Rilasciato da Glenn Jocher nel 2020, Ultralytics YOLOv5 ha cambiato radicalmente il panorama della computer vision rendendo il rilevamento degli oggetti all'avanguardia accessibile agli sviluppatori di tutti i livelli. Costruito nativamente in PyTorch, YOLOv5 si concentra sull'"efficienza dell'addestramento" e sulla "facilità d'uso", fornendo un percorso senza soluzione di continuità dalla raccolta dei dati alla distribuzione in produzione.
Autori: Glenn Jocher
Organizzazione: Ultralytics
Data: 2020-06-26
GitHub: yolov5
Documenti: https:yolov5
Architettura e caratteristiche principali
YOLOv5 impiega un'architettura altamente ottimizzata basata su ancore che bilancia profondità e larghezza per massimizzare il throughput:
- Dorsale CSPDarknet: Il design della rete Cross Stage Partial riduce al minimo le informazioni ridondanti sul gradiente, migliorando la capacità di apprendimento e riducendo i parametri.
- Collo PANet: Una rete di aggregazione dei percorsi (PANet) migliora il flusso di informazioni, aiutando il modello a localizzare con precisione gli oggetti su scale diverse.
- Aumento del mosaico: Una tecnica avanzata di incremento dei dati che combina quattro immagini di addestramento in una sola, migliorando in modo significativo la capacità del modello di detect oggetti di piccole dimensioni e di generalizzarsi a nuovi ambienti.
- Algoritmi genetici: L'evoluzione automatica degli iperparametri consente al modello di autoregolarsi per ottenere prestazioni ottimali su set di dati personalizzati.
Punti di forza ed ecosistema
YOLOv5 è famoso per la sua facilità d'uso. L'API è intuitiva e consente agli utenti di caricare un modello ed eseguire l'inferenza con poche righe di codice Python .
import torch
# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Print results
results.print()
Al di là del codice, l'ecosistema ben curato distingue YOLOv5 . Gli utenti beneficiano di aggiornamenti frequenti, di un forum della comunità e di integrazioni perfette con strumenti MLOps come Comet e ClearML. La versatilità del modello si estende oltre il semplice rilevamento, supportando la segmentazione delle istanze e la classificazione delle immagini all'interno dello stesso framework. Inoltre, i modelli YOLOv5 presentano generalmente requisiti di memoria inferiori durante l'addestramento rispetto alle architetture basate su trasformatori, rendendoli accessibili su GPU di livello consumer.
Confronto delle prestazioni tecniche
Quando si confrontano i due modelli, è essenziale considerare le metriche che hanno un impatto sull'utilità nel mondo reale, come la velocità di inferenza e il numero di parametri, oltre alle metriche di accuratezza standard come mAP.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Analisi dei risultati
- Precisione vs. velocità: PP-YOLOE+ mostra punteggi mAP più elevati, in particolare nelle varianti più grandi (l e x), beneficiando della sua testa priva di ancoraggi e della strategia TAL. Tuttavia, YOLOv5 offre un equilibrio di prestazioni superiore, garantendo un'accuratezza altamente competitiva con una latenza significativamente inferiore (vedi velocità di TensorRT ). Ciò rende YOLOv5 particolarmente adatto alle applicazioni di intelligenza artificiale in cui ogni millisecondo è importante.
- Efficienza delle risorse: YOLOv5n (Nano) è estremamente leggero con soli 2,6M parametri, il che lo rende ideale per i dispositivi mobili e IoT. Sebbene PP-YOLOE+ disponga di backbone efficienti, la complessità architettonica può comportare un maggiore utilizzo della memoria durante l'addestramento rispetto al design semplificato di YOLOv5.
- Efficienza della formazione: YOLOv5 utilizza l'AutoAnchor e l'evoluzione degli iperparametri per massimizzare le prestazioni fin dall'inizio. La disponibilità di pesi pre-addestrati di alta qualità consente un rapido apprendimento del trasferimento, riducendo significativamente i tempi di sviluppo.
Casi d'uso reali
La scelta tra questi modelli dipende spesso dall'ambiente di distribuzione specifico.
PP-YOLOE+ Applicazioni
PP-YOLOE+ è spesso favorito nella ricerca accademica e negli scenari industriali, in particolare nel mercato asiatico dove l'infrastruttura di Baidu è prevalente.
- Rilevamento automatico dei difetti: L'elevata precisione aiuta a individuare i graffi più piccoli sulle linee di produzione.
- Sorveglianza del traffico: In grado di distinguere tra tipi di veicoli simili in un flusso di traffico denso.
Applicazioni YOLOv5
La versatilità di YOLOv5 lo rende la soluzione ideale per un ampio spettro di settori industriali globali.
- Agricoltura intelligente: Utilizzato per il monitoraggio in tempo reale della salute delle colture e per i robot di raccolta della frutta, grazie alla sua velocità sui dispositivi edge.
- Retail Analytics: Potenzia i sistemi per il conteggio degli oggetti e la gestione dell'inventario, che funzionano in modo efficiente sull'hardware dei server dei negozi.
- Robotica autonoma: La bassa latenza consente a droni e robot di navigare in ambienti complessi in modo sicuro.
- Sistemi di sicurezza: Si integra facilmente nei sistemi di allarme per il rilevamento delle intrusioni.
Flessibilità di distribuzione
YOLOv5 esporta senza problemi in numerosi formati, tra cui ONNX, TensorRT, CoreML e TFLite , utilizzando la funzione export modalità. In questo modo, una volta addestrato, il modello può essere distribuito praticamente ovunque, da un iPhone a un server cloud.
Conclusione
Mentre PP-YOLOE+ rappresenta un risultato significativo nel rilevamento senza ancore, con una precisione impressionante su benchmark come COCO, Ultralytics YOLOv5 rimane la scelta migliore per la maggior parte degli sviluppatori e delle applicazioni commerciali. La sua combinazione vincente di facilità d'uso, un robusto ecosistema ben curato e un eccellente bilanciamento delle prestazioni garantisce che i progetti passino dall'ideazione alla produzione in modo rapido e affidabile.
Per gli utenti che cercano le ultime novità in fatto di tecnologia di visione computerizzata, Ultralytics propone anche YOLO11che si basa sull'eredità di YOLOv5 con un'efficienza e una capacità ancora maggiori nelle attività di rilevamento, segmentazione e stima della posa.
Per saperne di più
Per esplorare le alternative moderne che offrono prestazioni migliori, prendete in considerazione i seguenti prodotti:
- Ultralytics YOLO11: L'ultimo modello all'avanguardia che offre precisione e velocità all'avanguardia.
- Ultralytics YOLOv8: Un modello versatile che ha introdotto strutture unificate per il rilevamento, la segmentazione e la classificazione.
- RT-DETR: Un rilevatore in tempo reale basato su trasformatore per requisiti di alta precisione.
Visitate la nostra pagina dei modelli per vedere la gamma completa di soluzioni di IA di visione disponibili per il vostro prossimo progetto.