Confronto tecnico: YOLOX vs YOLOv6-3.0 per il rilevamento di oggetti
La scelta del giusto modello di rilevamento degli oggetti è fondamentale per i progetti di computer vision. Questa pagina fornisce un confronto tecnico tra due modelli popolari ed efficienti: YOLOX e YOLOv6-3.0. Esploreremo le loro differenze architettoniche, i benchmark delle prestazioni e le applicazioni adatte per aiutarvi a prendere una decisione informata.
Prima di entrare nello specifico, visualizziamo una panoramica delle prestazioni di entrambi i modelli insieme ad altri:
YOLOX: l'eccellenza senza ancore
YOLOX, presentato da Megvii(Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun - 2021-07-18), si distingue per il suo design privo di ancoraggi, che semplifica la complessità associata ai modelli YOLO tradizionali. Il suo obiettivo è quello di colmare il divario tra la ricerca e le applicazioni industriali grazie alle sue capacità di rilevamento degli oggetti efficienti e precise.
Architettura e caratteristiche principali
YOLOX adotta un approccio snello eliminando le caselle di ancoraggio, semplificando così il processo di addestramento e riducendo il numero di iperparametri. Le principali innovazioni architettoniche includono:
- Rilevamento senza ancore: Elimina la necessità di ancore predefinite, riducendo la complessità del progetto e migliorando la generalizzazione, rendendolo adattabile a oggetti di varie dimensioni e rapporti di aspetto.
- Testa disaccoppiata: separa i compiti di classificazione e localizzazione in rami distinti, migliorando le prestazioni, soprattutto in termini di precisione.
- Assegnazione delle etichette SimOTA: Utilizza la strategia avanzata di assegnazione delle etichette SimOTA, che assegna dinamicamente gli obiettivi in base ai risultati previsti, migliorando l'efficienza e l'accuratezza della formazione.
- Formazione a precisione mista: Sfrutta la precisione mista per accelerare sia l'addestramento che l'inferenza, ottimizzando l'efficienza computazionale.
Metriche di prestazione
I modelli YOLOX raggiungono un'accuratezza all'avanguardia tra i rilevatori di oggetti in tempo reale, mantenendo una velocità di inferenza competitiva. Per le metriche dettagliate, consultare la tabella di confronto riportata di seguito.
Casi d'uso
- Applicazioni esigenti ad alta precisione: Ideale per scenari in cui la precisione è fondamentale, come l'analisi di immagini mediche o satellitari, dove la mancanza di oggetti critici può avere conseguenze significative.
- Ricerca e sviluppo: Grazie alla sua struttura chiara e semplificata, YOLOX è adatto a scopi di ricerca e di ulteriore sviluppo delle metodologie di rilevamento degli oggetti.
- Versatilità nei compiti di rilevamento degli oggetti: Applicabile a un ampio spettro di attività di rilevamento di oggetti, dalla ricerca accademica all'impiego industriale, grazie alla sua struttura robusta e all'elevata precisione.
Punti di forza e di debolezza
Punti di forza:
- Alta precisione: Raggiunge punteggi mAP eccellenti, rendendolo adatto alle applicazioni che richiedono un rilevamento preciso degli oggetti.
- Design privo di ancore: Semplifica l'architettura, riduce gli iperparametri e facilita l'implementazione.
- Versatilità: Adattabile a un'ampia gamma di compiti di rilevamento di oggetti.
Punti deboli:
- Velocità di inferenza: potrebbe essere leggermente più lenta rispetto ai modelli altamente ottimizzati come YOLOv6-3.0, soprattutto sui dispositivi edge.
- Dimensioni del modello: Alcune varianti più grandi possono avere dimensioni considerevoli del modello, il che potrebbe essere un problema per le distribuzioni con risorse limitate.
YOLOv6-3.0: Ottimizzato per velocità ed efficienza
YOLOv6-3.0, sviluppato da Meituan(Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu - 2023-01-13), è stato progettato per un'inferenza e un'efficienza ad alta velocità, in particolare per le applicazioni industriali e l'edge deployment. La versione 3.0 rappresenta un aggiornamento significativo che si concentra sul miglioramento della velocità e dell'accuratezza.
Architettura e caratteristiche principali
YOLOv6-3.0 privilegia la velocità di inferenza attraverso ottimizzazioni architetturali senza compromettere in modo significativo l'accuratezza. Le caratteristiche principali includono:
- Dorsale di riparametrizzazione efficiente: Impiega una spina dorsale riparametrizzata per accelerare la velocità di inferenza, unendo gli strati di convoluzione e normalizzazione batch.
- Blocco ibrido: Utilizza un design ibrido del blocco di rete che bilancia precisione ed efficienza, ottimizzando le prestazioni su varie piattaforme hardware.
- Progettazione della rete neurale consapevole dell'hardware: È progettata tenendo conto dell'efficienza hardware, il che la rende particolarmente adatta all'implementazione su dispositivi con risorse limitate come Raspberry Pi e NVIDIA Jetson.
- Strategia di formazione ottimizzata: Incorpora tecniche di formazione perfezionate per migliorare la convergenza e le prestazioni complessive.
Metriche di prestazione
YOLOv6-3.0 eccelle nella velocità di inferenza, raggiungendo notevoli FPS (fotogrammi al secondo) e mantenendo punteggi mAP competitivi. Consultate la tabella sottostante per le metriche dettagliate delle prestazioni.
Casi d'uso
- Rilevamento di oggetti in tempo reale: Ideale per le applicazioni in cui la bassa latenza e la rapidità di elaborazione sono fondamentali, come i sistemi di allarme di sicurezza, la vendita al dettaglio intelligente e i veicoli autonomi.
- Distribuzione su dispositivi edge: Ottimizzato per la distribuzione su dispositivi edge con risorse computazionali limitate, grazie al suo design efficiente e alle dimensioni ridotte del modello.
- Applicazioni industriali: Pensato per le applicazioni industriali pratiche e reali che richiedono un rilevamento rapido ed efficiente degli oggetti nei settori della produzione, della sorveglianza e dell'automazione.
Punti di forza e di debolezza
Punti di forza:
- Elevata velocità di inferenza: eccelle in velocità, rendendolo ideale per le attività di rilevamento degli oggetti in tempo reale.
- Design efficiente: I modelli di dimensioni ridotte e l'architettura ottimizzata sono perfetti per i dispositivi con risorse limitate.
- Focus industriale: Progettato specificamente per applicazioni pratiche in settori che richiedono un rilevamento rapido ed efficiente degli oggetti.
Punti deboli:
- Accuracy Trade-off: potrebbe presentare un'accuratezza leggermente inferiore rispetto a modelli come YOLOX, soprattutto su insiemi di dati complessi in cui l'accuratezza è fortemente prioritaria rispetto alla velocità.
- Flessibilità: Forse meno adattabile a compiti di ricerca altamente specializzati rispetto ad architetture più flessibili progettate per applicazioni di ricerca più ampie.
Per saperne di più su YOLOv6-3.0
Tabella di confronto dei modelli
Modello | dimensione (pixel) |
mAPval 50-95 |
Velocità CPU ONNX (ms) |
Velocità T4TensorRT10 (ms) |
params (M) |
FLOP (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Conclusione
Sia YOLOX che YOLOv6-3.0 sono potenti rilevatori di oggetti a uno stadio, ciascuno dei quali risponde a priorità diverse. YOLOX eccelle per accuratezza e semplicità architettonica e rappresenta una scelta importante per la ricerca e le applicazioni che richiedono un'elevata precisione. YOLOv6-3.0 privilegia la velocità e l'efficienza, rendendolo particolarmente adatto alle applicazioni industriali in tempo reale e alle implementazioni edge.
Per gli utenti che cercano altre opzioni, Ultralytics offre una gamma di modelli all'avanguardia. Considerate di esplorare Ultralytics YOLOv8 per un equilibrio di prestazioni e flessibilità, YOLOv10 come ultima novità nel campo del rilevamento in tempo reale, o ancora YOLO11 per le caratteristiche più avanzate. In alternativa, per le applicazioni in tempo reale, RT-DETR rappresenta un'architettura interessante da studiare.