YOLO vs. YOLOv9: confronto tecnico dettagliato
La scelta del modello ottimale di rilevamento degli oggetti è fondamentale per le attività di computer vision, poiché i diversi modelli offrono vantaggi unici in termini di precisione, velocità ed efficienza. Questa pagina offre un confronto tecnico tra YOLO e YOLOv9, due modelli avanzati nel settore. Analizziamo le loro architetture, i benchmark delle prestazioni e le applicazioni adatte per guidare la scelta del modello.
DAMO-YOLO
YOLO è stato presentato da Alibaba Group e introdotto nel novembre 2022(arXiv). Il sistema enfatizza l'equilibrio tra velocità e precisione, incorporando dorsali di ricerca ad architettura neurale (NAS) e componenti di rete efficienti.
Architettura e caratteristiche
L'architettura di YOLO si distingue per diverse innovazioni chiave:
- Backbone NAS: Impiega un backbone ottimizzato attraverso la ricerca di architetture neurali per un'estrazione efficiente delle caratteristiche.
- RepGFPN: Utilizza un'efficiente Reparameterized Gradient Feature Pyramid Network (GFPN) per la fusione delle caratteristiche.
- ZeroHead: una testina di rilevamento leggera progettata per ridurre l'overhead computazionale.
- AlignedOTA: implementa l'assegnazione ottimale del trasporto (OTA) allineata per migliorare l'assegnazione delle etichette durante l'addestramento.
- Miglioramento della distillazione: Incorpora tecniche di distillazione delle conoscenze per aumentare le prestazioni.
Metriche di prestazione
YOLO offre modelli di varie dimensioni (piccolo, piccolo, medio, grande) per soddisfare le diverse esigenze di calcolo. Gli indicatori chiave delle prestazioni includono:
- mAP: Raggiunge una precisione media competitiva (mAP) su set di dati come COCO.
- Velocità di inferenza: Progettata per un'inferenza veloce, adatta a compiti di rilevamento di oggetti in tempo reale.
- Dimensioni del modello: Disponibile in diverse dimensioni, per una maggiore flessibilità di impiego.
Punti di forza e di debolezza
Punti di forza:
- Alta precisione e velocità: bilancia l'accuratezza con un'efficiente velocità di inferenza.
- Architettura innovativa: Incorpora componenti NAS ed efficienti per ottimizzare le prestazioni.
- Adattabilità: Offre modelli di diverse dimensioni per soddisfare le diverse esigenze applicative.
Punti deboli:
- Complessità: L'architettura avanzata potrebbe essere più complessa da personalizzare o modificare rispetto ai modelli più semplici.
- Documentazione limitata: La documentazione può essere meno estesa rispetto a modelli più diffusi come la serie YOLO (GitHub README).
Casi d'uso
YOLO è adatto ad applicazioni che richiedono una combinazione di precisione e velocità, come ad esempio:
- Sorveglianza in tempo reale: Sistemi di sicurezza e monitoraggio in cui il rilevamento tempestivo è fondamentale.
- Robotica: Applicazioni della robotica che richiedono una percezione efficiente e accurata.
- Ispezione industriale: Processi di controllo qualità automatizzati nella produzione.
YOLOv9
YOLOv9 è l'ultimo della serie YOLO , presentato nel febbraio 2024(arXiv) dai ricercatori dell'Institute of Information Science, Academia Sinica, Taiwan. YOLOv9 si concentra sulla risoluzione della perdita di informazioni nelle reti profonde per migliorare sia l'accuratezza che l'efficienza.
Architettura e caratteristiche
YOLOv9 introduce tecniche innovative per superare i limiti dei modelli di deep learning:
- Informazioni a gradiente programmabile (IGP): Un'innovazione fondamentale per preservare le informazioni cruciali in tutta la rete, attenuando la perdita di informazioni.
- Rete di aggregazione di livelli generalizzata efficiente (GELAN): Impiega GELAN per un calcolo e un utilizzo efficiente dei parametri.
- Miglioramenti alla struttura portante e alla testa: Miglioramenti alla struttura portante e alla testa di rilevamento per migliorare l'estrazione e il rilevamento delle caratteristiche.
Metriche di prestazione
YOLOv9 dimostra prestazioni all'avanguardia nel rilevamento di oggetti in tempo reale:
- mAP: Raggiunge punteggi mAP elevati su set di dati di riferimento come COCO, superando i modelli precedenti.
- Velocità di inferenza: mantiene un'impressionante velocità di inferenza adatta alle applicazioni in tempo reale.
- Dimensioni del modello: Offre modelli di diverse dimensioni (minuscolo, piccolo, medio, ecc.) con un numero di parametri e FLOP variabile.
Punti di forza e di debolezza
Punti di forza:
- Precisione all'avanguardia: Raggiunge un'accuratezza superiore rispetto a molti rilevatori di oggetti in tempo reale.
- Progettazione efficiente: PGI e GELAN contribuiscono ad aumentare l'efficienza e a ridurre l'overhead computazionale.
- Versatilità: Adattabile a diversi compiti di rilevamento di oggetti e scenari di implementazione.
- Integrazione conUltralytics : Facile da usare grazie alpacchettoPython di Ultralytics e alla documentazione completa.
Punti deboli:
- Nuovo modello: Essendo un modello più recente, il sostegno della comunità e le risorse disponibili potrebbero essere ancora in crescita rispetto a modelli più consolidati.
- Domanda di calcolo: I modelli YOLOv9 più grandi possono richiedere risorse computazionali significative.
Casi d'uso
YOLOv9 è ideale per le applicazioni che richiedono una precisione di alto livello e un'elaborazione in tempo reale:
- Sistemi avanzati di assistenza alla guida (ADAS): Auto a guida autonoma e sistemi autonomi che richiedono un rilevamento preciso degli oggetti.
- Analisi di immagini ad alta risoluzione: Applicazioni che beneficiano di un rilevamento dettagliato e accurato nelle immagini ad alta risoluzione, come l'analisi delle immagini satellitari.
- Automazione industriale: Compiti di automazione complessi che richiedono alta precisione e affidabilità.
Tabella di confronto dei modelli
Modello | dimensione (pixel) |
mAPval 50-95 |
Velocità CPU ONNX (ms) |
Velocità T4TensorRT10 (ms) |
params (M) |
FLOP (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLO | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Sia YOLO che YOLOv9 rappresentano progressi significativi nel rilevamento degli oggetti. YOLO offre un forte equilibrio tra velocità e precisione grazie alla sua efficiente architettura, mentre YOLOv9 spinge i confini della precisione con le sue innovative tecniche PGI e GELAN. La scelta dipenderà dalle esigenze specifiche della vostra applicazione, sia che si tratti di una precisione all'avanguardia che di un profilo di prestazioni completo.
Gli utenti potrebbero essere interessati a confrontare questi modelli con altre varianti di YOLO , come ad esempio YOLOv8, YOLOv7, YOLOv5e YOLO11e modelli come YOLOX, RT-DETRe PP-YOLOE per un'ulteriore esplorazione dei modelli di rilevamento degli oggetti.