YOLOv6-3.0 vs YOLO11: Un Confronto Dettagliato tra Modelli
La scelta del modello di computer vision giusto è fondamentale per ottenere prestazioni ottimali nelle attività di rilevamento oggetti. Questa pagina fornisce un confronto tecnico tra YOLOv6-3.0 e Ultralytics YOLO11, concentrandosi sulle loro architetture, metriche di performance, metodologie di training e casi d'uso ideali per aiutarti a selezionare la soluzione migliore per il tuo progetto. Sebbene entrambi siano modelli potenti, YOLO11 rappresenta l'ultima frontiera in termini di efficienza e versatilità.
YOLOv6-3.0
Autori: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organizzazione: Meituan
Data: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Documentazione: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0, sviluppato da Meituan, è un framework di object detection progettato principalmente per applicazioni industriali. Rilasciato all'inizio del 2023, mirava a fornire un equilibrio tra velocità e accuratezza adatto per scenari di implementazione nel mondo reale in cui l'inferenza in tempo reale è una priorità.
Architettura e caratteristiche principali
YOLOv6 ha introdotto modifiche architetturali come un design efficiente di backbone e neck consapevole dell'hardware. La versione 3.0 ha ulteriormente perfezionato questi elementi e incorporato tecniche come l'auto-distillazione durante l'addestramento per aumentare le prestazioni. Offre inoltre modelli specifici ottimizzati per il deployment mobile (YOLOv6Lite), dimostrando la sua attenzione all'edge computing.
Punti di forza
- Buon compromesso tra velocità e precisione: Offre prestazioni competitive, in particolare per le attività di object detection industriale.
- Supporto per la quantizzazione: Fornisce strumenti e tutorial per la quantizzazione del modello, utile per la distribuzione su hardware con risorse limitate.
- Ottimizzazione Mobile: Include varianti YOLOv6Lite specificamente progettate per l'inferenza su dispositivi mobili o basati su CPU.
Punti deboli
- Versatilità limitata nei task: Principalmente focalizzato sul rilevamento di oggetti, mancando del supporto nativo per la segmentazione delle istanze, la classificazione delle immagini o la stima della posa presente in Ultralytics YOLO11.
- Ecosistema e Manutenzione: Pur essendo open source, l'ecosistema non è così completo o attivamente manutenuto come la piattaforma Ultralytics, il che potrebbe portare a aggiornamenti più lenti e un supporto della community inferiore.
- Maggiore utilizzo di risorse: I modelli YOLOv6 più grandi possono avere significativamente più parametri e FLOP rispetto agli equivalenti YOLO11 per una mAP simile, richiedendo potenzialmente maggiori risorse computazionali, come mostrato nella tabella sottostante.
Casi d'uso ideali
YOLOv6-3.0 è adatto per:
- Applicazioni industriali in cui la velocità di object detection è fondamentale, come nel settore manifatturiero per il controllo qualità.
- Scenari di distribuzione che sfruttano la quantizzazione o che richiedono modelli ottimizzati per dispositivi mobili.
- Progetti focalizzati esclusivamente sul rilevamento di oggetti senza la necessità di funzionalità multi-task.
Ultralytics YOLO11
Autori: Glenn Jocher e Jing Qiu
Organizzazione: Ultralytics
Data: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Documentazione: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 è l'ultimo modello all'avanguardia di Ultralytics, che rappresenta la più recente evoluzione della serie YOLO. Rilasciato a settembre 2024, si basa su versioni precedenti come YOLOv8 con perfezionamenti architetturali volti a migliorare sia la velocità che l'accuratezza. YOLO11 è progettato per prestazioni ed efficienza superiori in una vasta gamma di attività di computer vision.
Architettura e caratteristiche principali
YOLO11 presenta un'architettura ottimizzata che raggiunge un equilibrio raffinato tra dimensione del modello, velocità di inferenza e accuratezza. I miglioramenti chiave includono livelli di estrazione delle caratteristiche avanzati e una struttura di rete semplificata, riducendo al minimo il sovraccarico computazionale. Questo design garantisce prestazioni efficienti su diversi hardware, dai dispositivi edge come NVIDIA Jetson ai potenti server cloud. In quanto detector anchor-free, YOLO11 semplifica il processo di rilevamento e spesso migliora la generalizzazione.
Punti di forza
- Equilibrio Superiore delle Prestazioni: Ottiene punteggi mAP più alti con meno parametri e FLOP rispetto ai concorrenti, offrendo un eccellente compromesso tra velocità e precisione.
- Versatilità: Supporta diverse attività di visione all'interno di un singolo framework, tra cui detection, instance segmentation, classification, pose estimation e oriented bounding boxes (OBB), fornendo una soluzione completa.
- Facilità d'uso: Sfrutta l'ecosistema semplificato di Ultralytics, caratterizzato da una semplice API Python, una vasta documentazione e pesi pre-addestrati facilmente disponibili.
- Ecosistema ben mantenuto: Attivamente sviluppato e supportato da Ultralytics, con aggiornamenti frequenti, forte sostegno della comunità tramite GitHub e Discord, e integrazione con Ultralytics HUB per un addestramento e una distribuzione senza interruzioni.
- Efficienza di addestramento: Offre processi di addestramento efficienti, spesso richiedendo meno memoria rispetto ad altri tipi di modelli come i transformer.
Punti deboli
- Nuovo modello: Essendo l'ultima versione, il volume di tutorial della community e di strumenti di terze parti è ancora in crescita rispetto a modelli più consolidati come YOLOv5.
- Rilevamento di oggetti piccoli: Come la maggior parte dei rilevatori a singolo stadio, potrebbe incontrare difficoltà con oggetti estremamente piccoli rispetto ai rilevatori specializzati a due stadi.
Casi d'uso ideali
La combinazione di accuratezza, velocità e versatilità di YOLO11 lo rende ideale per:
- Applicazioni in tempo reale che richiedono un'elevata precisione, come i sistemi autonomi e la robotica.
- Scenari multi-task che necessitano simultaneamente di rilevamento, segmentazione e stima della posa.
- Distribuzione su varie piattaforme, da dispositivi con risorse limitate come Raspberry Pi a potenti infrastrutture cloud.
- Applicazioni in ambito di sicurezza, vendita al dettaglio, assistenza sanitaria e logistica.
Confronto delle prestazioni
I benchmark di prestazioni riportati di seguito, valutati sul dataset COCO, illustrano chiaramente i vantaggi di YOLO11. Per un livello di accuratezza comparabile, i modelli YOLO11 sono significativamente più efficienti. Ad esempio, YOLO11l raggiunge un mAPval più alto del 53,4% con soli 25,3 milioni di parametri e 86,9 miliardi di FLOP, mentre YOLOv6-3.0l raggiunge solo il 52,8% di mAPval richiedendo più del doppio dei parametri (59,6 milioni) e FLOP (150,7 miliardi). Questa efficienza superiore rende YOLO11 una scelta più scalabile ed economica per il deployment.
Modello | dimensione (pixel) |
mAPval 50-95 |
Velocità CPU ONNX (ms) |
Velocità T4 TensorRT10 (ms) |
parametri (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Metodologie di addestramento
Entrambi i modelli utilizzano pratiche standard di addestramento del deep learning. YOLOv6-3.0 impiega tecniche come l'auto-distillazione per migliorare le prestazioni. Tuttavia, Ultralytics YOLO11 beneficia della sua profonda integrazione all'interno del completo ecosistema Ultralytics, che offre un'esperienza significativamente più snella e intuitiva.
L'addestramento con YOLO11 è semplificato attraverso il suo pacchetto python e Ultralytics HUB, che fornisce strumenti per una facile regolazione degli iperparametri, un caricamento efficiente dei dati e una registrazione automatica con piattaforme come TensorBoard e Weights & Biases. Inoltre, l'architettura di YOLO11 è ottimizzata per l'efficienza dell'addestramento, richiedendo spesso meno memoria e tempo. Entrambi i modelli forniscono pesi pre-addestrati sul set di dati COCO per facilitare il transfer learning.
Conclusione
Sebbene YOLOv6-3.0 offra solide prestazioni per specifici casi d'uso industriali, Ultralytics YOLO11 emerge come la scelta superiore per la maggior parte degli sviluppatori e dei ricercatori. YOLO11 offre un'accuratezza all'avanguardia, un'efficienza notevole (parametri e FLOP inferiori per un mAP più elevato) e un'eccezionale versatilità in diverse attività di visione. Il suo più grande vantaggio risiede nella sua impareggiabile facilità d'uso, supportata dal robusto, ben documentato ed attivamente mantenuto ecosistema Ultralytics. Questo forte equilibrio di prestazioni lo rende adatto a una gamma più ampia di applicazioni e ambienti di implementazione, dall'edge al cloud.
Per gli utenti che esplorano alternative, Ultralytics offre anche altri modelli ad alte prestazioni come YOLOv10, YOLOv9 e YOLOv8. Ulteriori confronti con modelli come RT-DETR, YOLOX e YOLOv7 sono disponibili all'interno della documentazione di Ultralytics.