PP-YOLOE+ vs YOLOv7: Un'analisi tecnica approfondita delle architetture di detect degli oggetti

La scelta del modello di object detection ottimale implica il bilanciamento di accuratezza, velocità di inferenza e complessità di implementazione. Due contendenti significativi in questo panorama sono PP-YOLOE+ e YOLOv7, entrambi rilasciati nel 2022 con l'obiettivo di far progredire le prestazioni all'avanguardia. Questa analisi completa esplora le loro architetture uniche, i benchmark e l'idoneità per applicazioni reali, aiutando gli sviluppatori a prendere decisioni basate sui dati.

Confronto delle metriche di performance

La tabella seguente presenta un confronto diretto delle principali metriche di performance, tra cui la precisione media (mAP) e le velocità di inferenza su hardware supportato. Questi dati aiutano a visualizzare i compromessi tra l'approccio anchor-free di PP-YOLOE+ e l'architettura ottimizzata di YOLOv7.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

PP-YOLOE+: detect senza Anchor Ottimizzato

PP-YOLOE+ è un'evoluzione della serie PP-YOLO, sviluppata dai ricercatori di Baidu. Si basa sui punti di forza del suo predecessore, PP-YOLOE, introducendo miglioramenti al processo di addestramento e all'architettura per migliorare ulteriormente la velocità di convergenza e le prestazioni delle attività a valle. Come un detect anchor-free, elimina la necessità di anchor box predefinite, semplificando il design e riducendo la messa a punto degli iperparametri.

Autori: Autori di PaddlePaddle
Organizzazione:Baidu
Data: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Link ai documenti:README di PaddleDetection

Scopri di più su PP-YOLOE+

Punti Salienti Architetturali

L'architettura di PP-YOLOE+ presenta un backbone CSPResNet dotato di campi recettivi variabili per acquisire efficacemente le caratteristiche a più scale. Un'innovazione chiave è la Efficient Task-aligned Head (ET-head), che disaccoppia le attività di classificazione e regressione garantendo al contempo il loro allineamento attraverso una specifica funzione di perdita.

PP-YOLOE+ utilizza il Task Alignment Learning (TAL), una strategia di assegnazione delle etichette che seleziona dinamicamente campioni positivi in base all'allineamento della classificazione e della qualità della localizzazione. Ciò garantisce che il modello si concentri su previsioni di alta qualità durante il training. Inoltre, il modello impiega una strategia di training distribuito ed evita l'uso di operatori non standard, facilitando un deployment più semplice su varie piattaforme hardware supportate dall'ecosistema PaddlePaddle.

Caratteristica Chiave: Design Anchor-Free

Rimuovendo le anchor boxes, PP-YOLOE+ riduce la complessità associata ai passaggi di clustering e matching delle anchor. Questo spesso porta a una migliore generalizzazione su diversi dataset in cui gli oggetti possono avere proporzioni estreme.

YOLOv7: Ottimizzato per la velocità in tempo reale

YOLOv7 ha stabilito un nuovo benchmark per il detect di oggetti in tempo reale al momento del suo rilascio, concentrandosi fortemente sull'efficienza architetturale e sui metodi "bag-of-freebies" — tecniche che aumentano l'accuratezza senza aumentare il costo di inferenza. È stato progettato per superare i precedenti modelli all'avanguardia come YOLOR e YOLOv5 in termini di velocità e accuratezza.

Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organizzazione:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
ArXiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Documentazione:Documentazione Ultralytics YOLOv7

Scopri di più su YOLOv7

Innovazioni Architetturali

YOLOv7 ha introdotto la Extended Efficient Layer Aggregation Network (E-ELAN). Questo design del backbone consente alla rete di apprendere caratteristiche più diversificate controllando i percorsi del gradiente più brevi e più lunghi, migliorando la capacità di apprendimento senza distruggere il percorso del gradiente originale.

Un altro contributo significativo è l'uso della Riparamentrizzazione del Modello. Durante l'addestramento, il modello utilizza una struttura multi-branch che viene unita in una struttura single-branch più semplice per l'inferenza. Ciò consente a YOLOv7 di beneficiare di ricche rappresentazioni delle feature durante l'apprendimento, mantenendo al contempo un'elevata velocità durante il deployment. Il modello impiega anche head ausiliari per l'addestramento di reti profonde, utilizzando una strategia di assegnazione di etichette guidata "coarse-to-fine".

Analisi comparativa: punti di forza e di debolezza

Quando si decide tra questi due potenti modelli, è essenziale considerare i requisiti specifici del proprio progetto di computer vision.

Accuratezza vs. Velocità

PP-YOLOE+ offre una gamma granulare di modelli. Il PP-YOLOE+s è altamente efficiente per i dispositivi edge, mentre PP-YOLOE+x raggiunge un mAP di alto livello, anche se con frame rate inferiori. YOLOv7 eccelle nel "punto ideale" del detect in tempo reale, offrendo spesso FPS più elevati su hardware GPU per un dato livello di accuratezza rispetto a molti concorrenti. Per applicazioni ad alta produttività come monitoraggio del traffico, l'ottimizzazione dell'inferenza di YOLOv7 è vantaggiosa.

Ecosistema e usabilità

Una delle principali distinzioni risiede nei loro ecosistemi. PP-YOLOE+ è profondamente radicato nel framework PaddlePaddle. Sebbene potente, questo può presentare una curva di apprendimento più ripida per i team principalmente abituati a PyTorch. YOLOv7 è nativo di PyTorch, il che lo rende generalmente più accessibile alla più ampia comunità di ricerca.

Tuttavia, entrambi i modelli possono essere complessi da addestrare e mettere a punto rispetto agli standard moderni. YOLOv7 comporta calcoli complessi degli anchor e sensibilità degli iperparametri, mentre PP-YOLOE+ richiede di navigare tra le configurazioni di detect di Paddle.

Il vantaggio di Ultralytics: perché aggiornare?

Mentre PP-YOLOE+ e YOLOv7 sono modelli eccellenti, il campo dell'AI si muove rapidamente. I modelli Ultralytics, come YOLOv8 e il modello all'avanguardia YOLO11, rappresentano la prossima generazione di AI per la visione artificiale, affrontando molte delle sfide di usabilità ed efficienza riscontrate nelle architetture precedenti.

Esperienza utente ed ecosistema superiori

Ultralytics dà priorità alla facilità d'uso. A differenza dei complessi file di configurazione spesso richiesti da altri framework, i modelli Ultralytics possono essere sottoposti a training, convalidati e distribuiti con poche righe di codice python o semplici comandi CLI.

API unificata: Passa senza problemi da attività come object detection, instance segmentation, classification, pose estimation e OBB.
Ecosistema ben manutenuto: Approfitta di aggiornamenti frequenti, una community fiorente e una documentazione esaustiva che aiuta a risolvere rapidamente i problemi.
Integrazione: Supporto nativo per il tracciamento degli esperimenti (MLflow, Comet), la gestione dei dataset e l'esportazione del modello semplificata in formati come ONNX, TensorRT e CoreML.

Prestazioni ed efficienza

I modelli Ultralytics sono progettati per un bilanciamento ottimale delle prestazioni. Spesso raggiungono una maggiore accuratezza rispetto a YOLOv7 con un overhead computazionale inferiore. Inoltre, sono progettati per essere efficienti in termini di memoria, richiedendo meno memoria CUDA durante l'addestramento rispetto a molte alternative basate su transformer o versioni YOLO precedenti. Questa efficienza di addestramento consente iterazioni più rapide e costi di cloud computing inferiori.

Esempio di codice: Semplicità in azione

Scopri quanto è semplice addestrare un modello Ultralytics moderno rispetto ai flussi di lavoro legacy:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (recommended for best performance)
model = YOLO("yolo11n.pt")

# Train the model on a dataset (e.g., COCO8)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")

Preparare i tuoi progetti per il futuro

Adottare il framework Ultralytics significa non solo utilizzare un modello, ma una piattaforma in continua evoluzione. Grazie al supporto per le versioni più recenti di Python e agli acceleratori hardware, si riduce il debito tecnico e si garantisce la manutenibilità a lungo termine delle soluzioni di IA.

Conclusione

PP-YOLOE+ rimane una scelta valida per coloro che investono nell'ecosistema PaddlePaddle, offrendo una robusta architettura anchor-free. YOLOv7 continua a essere un'opzione formidabile per i progetti che richiedono un throughput GPU elevato. Tuttavia, per gli sviluppatori che cercano una soluzione versatile, facile da usare e ad alte prestazioni che copra l'intero spettro delle attività di computer vision, Ultralytics YOLO11 è il percorso consigliato.

Esplora altri modelli

Amplia la tua comprensione del panorama del rilevamento oggetti con questi confronti: