YOLO11 vs YOLOv7: confronto tecnico dettagliato per il rilevamento di oggetti
La scelta del giusto modello di rilevamento degli oggetti è fondamentale per ottenere prestazioni ottimali nelle attività di computer vision. Questa pagina offre un confronto tecnico dettagliato tra Ultralytics YOLO11 e YOLOv7, due modelli avanzati progettati per un rilevamento efficiente e preciso degli oggetti. Esploreremo le loro sfumature architettoniche, i benchmark delle prestazioni e le applicazioni più adatte per guidarvi in una scelta consapevole.
Ultralytics YOLO11
Ultralytics YOLO11, scritto da Glenn Jocher e Jing Qiu di Ultralytics e rilasciato il 2024-09-27, è l'ultima evoluzione della serie YOLO . Si concentra sul miglioramento dell'accuratezza e dell'efficienza nel rilevamento degli oggetti, rendendolo versatile per un'ampia gamma di applicazioni reali. Ultralytics YOLO11 si basa sui modelli YOLO precedenti, perfezionando la struttura della rete per ottenere una precisione di rilevamento all'avanguardia mantenendo le prestazioni in tempo reale.
Architettura e caratteristiche principali:
L'architettura di YOLO11 incorpora tecniche avanzate di estrazione delle caratteristiche, che consentono di ottenere una maggiore precisione con un numero ridotto di parametri rispetto a modelli come YOLOv8. Questa ottimizzazione porta a una maggiore velocità del motore di inferenza e a una minore richiesta di calcolo, rendendolo adatto all'implementazione su diverse piattaforme, dai dispositivi edge alle infrastrutture cloud. YOLO11 supporta diverse attività di computer vision, tra cui il rilevamento di oggetti, la segmentazione di istanze, la classificazione di immagini e la stima della posa. Il modello è disponibile su GitHub.
Metriche di prestazione e parametri di riferimento:
YOLO11 dimostra punteggi di precisione media (mAP) impressionanti su modelli di diverse dimensioni. Ad esempio, YOLO11m raggiunge un mAPval50-95 di 51,5 per un'immagine di dimensioni 640, bilanciando efficacemente velocità e precisione. Le varianti più piccole, come YOLO11n e YOLO11s, offrono un'inferenza più rapida in tempo reale per le applicazioni che privilegiano la velocità, mentre i modelli più grandi, come YOLO11x, massimizzano la precisione. Per informazioni dettagliate sulle prestazioni diYOLO , consultare la documentazione di Ultralytics .
Casi d'uso:
La maggiore precisione ed efficienza di YOLO11 lo rendono ideale per le applicazioni che richiedono un rilevamento accurato e in tempo reale degli oggetti, come ad esempio:
- Robotica: Per la navigazione precisa e l'interazione con gli oggetti in ambienti dinamici.
- Sistemi di sicurezza: Sistemi di allarme di sicurezza avanzati per un rilevamento accurato delle intrusioni e un monitoraggio completo.
- Analitica del commercio al dettaglio: Per l'intelligenza artificiale nella vendita al dettaglio per migliorare la gestione dell'inventario e l'analisi approfondita del comportamento dei clienti.
- Automazione industriale: Per un controllo di qualità rigoroso e un rilevamento efficiente dei difetti nei processi di produzione.
Punti di forza:
- Alta precisione: Raggiunge una mAP all'avanguardia con architetture raffinate.
- Inferenza efficiente: Elaborazione rapida adatta alle applicazioni in tempo reale.
- Attività versatili: Supporta il rilevamento, la segmentazione, la classificazione e la stima della posa degli oggetti.
- Scalabilità: Funziona efficacemente su hardware diversi, dai dispositivi edge ai sistemi cloud.
Punti deboli:
- I modelli più grandi possono richiedere più risorse computazionali rispetto ai modelli più piccoli ottimizzati per la velocità.
- L'ottimizzazione per dispositivi edge specifici può richiedere ulteriori configurazioni di implementazione del modello.
YOLOv7
YOLOv7, presentato nel luglio 2022 da Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao dell'Institute of Information Science, Academia Sinica, Taiwan, è noto per il suo bag-of-freebies addestrabile che stabilisce un nuovo stato dell'arte per i rilevatori di oggetti in tempo reale. Illustrato nel documento arXiv e nel repository GitHub, YOLOv7 enfatizza la velocità e l'efficienza, mantenendo un'elevata precisione nei compiti di rilevamento degli oggetti.
Architettura e caratteristiche principali:
YOLOv7 si basa sull'Efficient Layer Aggregation Network (ELAN) e introduce l'Extended-ELAN (E-ELAN) per migliorare la capacità di apprendimento della rete. Impiega tecniche come la ri-parametrizzazione del modello e l'assegnazione dinamica delle etichette per migliorare l'efficienza dell'addestramento e la velocità di inferenza. YOLOv7 è progettato per il rilevamento di oggetti ad alte prestazioni in diverse applicazioni.
Metriche di prestazione e parametri di riferimento:
YOLOv7 dimostra eccellenti prestazioni, raggiungendo un mAP del 51,4% sul dataset COCO a 640 immagini. Anche la sua velocità è notevole: il modello YOLOv7 di base ha raggiunto 161 FPS nell'inferenza del batch 1. Per i benchmark dettagliati delle prestazioni, consultare il repository ufficiale di YOLOv7 su GitHub.
Casi d'uso:
L'equilibrio tra velocità e precisione di YOLOv7 lo rende adatto a un'ampia gamma di applicazioni, tra cui:
- Rilevamento di oggetti in tempo reale: Ideale per le applicazioni che richiedono un rilevamento rapido, come ad esempio la guida autonoma e l'analisi video veloce.
- Calcolo ad alte prestazioni: Adatto ad ambienti in cui sono disponibili risorse di calcolo e in cui l'alta precisione è prioritaria rispetto alla velocità.
- Ricerca e sviluppo: Un solido modello di base per ulteriori ricerche sulle architetture di rilevamento degli oggetti e sulle metodologie di addestramento.
Punti di forza:
- Alta velocità: Raggiunge velocità di inferenza impressionanti, adatte ai sistemi in tempo reale.
- Buona precisione: Fornisce punteggi mAP competitivi su set di dati di riferimento.
- Architettura efficiente: Utilizza E-ELAN e la ri-parametrizzazione del modello per migliorare le prestazioni.
Punti deboli:
- Può richiedere più risorse computazionali rispetto a modelli più piccoli e recenti come YOLO11n per gli scenari di distribuzione ai margini.
- L'architettura, pur essendo efficiente, è meno versatile nel supportare diversi compiti di visione oltre al rilevamento degli oggetti rispetto a YOLO11.
Tabella di confronto dei modelli
Modello | dimensione (pixel) |
mAPval 50-95 |
Velocità CPU ONNX (ms) |
Velocità T4TensorRT10 (ms) |
params (M) |
FLOP (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Conclusione
Sia YOLO11 che YOLOv7 sono potenti modelli di rilevamento degli oggetti, ciascuno con punti di forza unici. YOLO11 eccelle in versatilità ed efficienza, supportando molteplici attività di visione con una precisione e una velocità all'avanguardia, il che lo rende un'ottima scelta per diverse applicazioni e ambienti di implementazione. YOLOv7, pur essendo anch'esso efficiente, è particolarmente ottimizzato per il rilevamento di oggetti ad alta velocità, adatto ad applicazioni in tempo reale e a scopi di ricerca. La scelta tra i due dipende dai requisiti specifici del progetto, bilanciando fattori quali la versatilità dell'attività, le esigenze di precisione e i vincoli di implementazione.
Per gli utenti interessati a esplorare altri modelli, Ultralytics offre anche YOLOv8, noto per la sua efficienza e versatilità, e YOLOv5, ampiamente adottato per la sua velocità e facilità d'uso. Si può anche pensare di confrontare YOLO11 con YOLOv9 o di esplorare modelli come RT-DETR per diversi approcci architetturali al rilevamento degli oggetti.