Vai al contenuto

YOLOv7 vs. YOLO: un confronto tecnico dettagliato

La scelta dell'architettura ottimale per il rilevamento degli oggetti è una decisione cruciale nello sviluppo della computer vision, che bilancia le esigenze concorrenti di latenza dell'inferenza, accuratezza e allocazione delle risorse computazionali. Questa analisi tecnica mette a confronto YOLOv7 e YOLO, due modelli influenti rilasciati alla fine del 2022 che hanno spinto i confini del rilevamento in tempo reale. Esaminiamo le loro innovazioni architettoniche uniche, le prestazioni dei benchmark e l'idoneità a vari scenari di implementazione per aiutarvi a orientarvi nel processo di selezione.

YOLOv7: ottimizzazione dell'allenamento per la precisione in tempo reale

YOLOv7 ha segnato un'evoluzione significativa nella famiglia YOLO , dando priorità all'efficienza architettonica e alle strategie di addestramento avanzate per migliorare le prestazioni senza gonfiare i costi di inferenza. Sviluppato dagli autori originali di Scaled-YOLOv4, ha introdotto metodi che consentono alla rete di apprendere in modo più efficace durante la fase di addestramento.

Autori: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
Organizzazione:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Innovazioni architettoniche

Il cuore di YOLOv7 è costituito dalla Extended Efficient Layer Aggregation Network (E-ELAN). Questa architettura consente al modello di apprendere diverse caratteristiche controllando i percorsi di gradiente più brevi e più lunghi, migliorando la convergenza senza interrompere il flusso di gradiente esistente. Inoltre, YOLOv7 impiega il "bag-of-freebies addestrabile", un insieme di tecniche di ottimizzazione applicate durante l'elaborazione dei dati di addestramento che non influiscono sulla struttura del modello durante la distribuzione. Queste includono la ri-parametrizzazione del modello e le teste ausiliarie per la supervisione profonda, assicurando che la struttura portante catturi caratteristiche robuste.

Borsa degli omaggi

Il termine "bag-of-freebies" si riferisce a metodi che aumentano la complessità dell'addestramento per aumentare l'accuratezza, ma che hanno un costo zero durante l'inferenza in tempo reale. Questa filosofia garantisce che il modello finale esportato rimanga leggero.

Punti di forza e debolezze

YOLOv7 è famoso per il suo eccellente equilibrio nel benchmark MS COCO, offrendo una precisione media elevata (mAP) per le sue dimensioni. Il suo punto di forza principale è rappresentato dai compiti ad alta risoluzione in cui la precisione è fondamentale. Tuttavia, la complessità dell'architettura può renderla difficile da modificare per ricerche personalizzate. Inoltre, mentre l'inferenza è efficiente, il processo di addestramento è ad alta intensità di risorse e richiede una notevole quantità di memoria GPU rispetto alle architetture più recenti.

Per saperne di più su YOLOv7

YOLO: Architettura neurale alla ricerca del bordo

YOLO, nato dal team di ricerca di Alibaba, adotta un approccio diverso, sfruttando la ricerca di architetture neurali (NAS) per scoprire automaticamente strutture di rete efficienti e adatte ad ambienti a bassa latenza.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO

Innovazioni architettoniche

YOLO introduce MAE-NAS, un metodo per generare una dorsale chiamata GiraffeNet, che massimizza il throughput sotto specifici vincoli di latenza. A questo si aggiunge ZeroHead, una testa di rilevamento leggera che disaccoppia i compiti di classificazione e regressione, eliminando i parametri pesanti e riducendo in modo significativo le dimensioni del modello. L'architettura utilizza anche un efficiente collo noto come RepGFPN (Generalized Feature Pyramid Network) per la fusione di caratteristiche multiscala e allinea i punteggi di classificazione con l'accuratezza della localizzazione utilizzando AlignedOTA per l'assegnazione delle etichette.

Punti di forza e debolezze

YOLO eccelle negli scenari di edge AI. Le sue varianti più piccole (Tiny/Small) offrono velocità impressionanti, rendendole adatte ai dispositivi mobili e alle applicazioni IoT. L'uso di NAS garantisce un'architettura matematicamente ottimizzata per l'efficienza. Al contrario, i modelli YOLO più grandi sono talvolta inferiori ai modelli YOLOv7 di livello più elevato in termini di precisione pura. Inoltre, essendo un progetto incentrato sulla ricerca, non dispone dell'ampio ecosistema e del supporto di strumenti presenti in framework più ampi.

Scopri di più su DAMO-YOLO

Confronto tra le metriche delle prestazioni

La tabella seguente evidenzia i compromessi in termini di prestazioni. YOLOv7 raggiunge generalmente una maggiore precisionemAP) al costo di una maggiore complessità computazionale (FLOPs), mentre YOLO privilegia la velocità e l'efficienza dei parametri, in particolare nelle sue configurazioni più piccole.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Applicazioni nel mondo reale

La scelta tra questi modelli dipende spesso dall'hardware di distribuzione e dalle specifiche attività di computer vision richieste.

  • Sicurezza e analisi di alto livello (YOLOv7): Per le applicazioni eseguite su server potenti in cui ogni punto percentuale di precisione è importante, come i sistemi di allarme di sicurezza o la gestione dettagliata del traffico, YOLOv7 è un candidato forte. La sua capacità di risolvere i dettagli più fini lo rende adatto a rilevare piccoli oggetti in flussi video ad alta risoluzione.
  • Dispositivi Edge e Robotica (YOLO): In scenari con budget di latenza rigorosi, come la robotica autonoma o le applicazioni mobili, l'architettura leggera di YOLO brilla. Il basso numero di parametri riduce la pressione sulla larghezza di banda della memoria, un aspetto fondamentale per i dispositivi alimentati a batteria che eseguono il rilevamento di oggetti.

Il vantaggio di Ultralytics : Perché modernizzare?

Sebbene YOLOv7 e YOLO siano modelli capaci, il panorama dell'IA avanza rapidamente. Gli sviluppatori e i ricercatori che cercano una soluzione a prova di futuro, efficiente e facile da usare dovrebbero prendere in considerazione l'ecosistemaUltralytics , in particolare YOLO11. L'aggiornamento ai moderni modelli Ultralytics offre diversi vantaggi:

1. Semplicità d'uso

I modelli Ultralytics danno priorità all'esperienza degli sviluppatori. A differenza dei repository di ricerca che spesso richiedono una complessa configurazione dell'ambiente e l'esecuzione manuale di script, Ultralytics offre un'API e una CLI Python unificate. È possibile addestrare, convalidare e distribuire i modelli con poche righe di codice.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

2. Versatilità completa

YOLOv7 e YOLO sono stati progettati principalmente per il rilevamento di bounding box. Al contrario, YOLO11 supporta un'ampia gamma di attività in modo nativo all'interno dello stesso framework, tra cui la segmentazione delle istanze, la stima della posa, il rilevamento di oggetti orientati (OBB) e la classificazione delle immagini. Ciò consente di affrontare problemi complessi, come l'analisi della postura umana negli sport, senza dovercambiare libreria.

3. Prestazioni ed efficienza superiori

YOLO11 si basa su anni di ricerca e sviluppo per offrire una precisione all'avanguardia con un overhead computazionale significativamente ridotto. Utilizza una testa di rilevamento priva di ancore e operazioni di backend ottimizzate, con un conseguente minore utilizzo di memoria sia durante l'addestramento che l'inferenza rispetto alle versioni precedenti di YOLO o a modelli basati su trasformatori come RT-DETR. Questa efficienza si traduce in una riduzione dei costi di cloud computing e in una maggiore velocità di elaborazione su hardware edge.

4. Ecosistema robusto e supporto

L'adozione di un modello Ultralytics vi collega a un ecosistema fiorente e ben curato. Grazie agli aggiornamenti frequenti, all'ampia documentazione e ai canali attivi della comunità, non sarete mai abbandonati al debug di codice non supportato. Inoltre, le integrazioni con strumenti come Ultralytics HUB facilitano la distribuzione dei modelli e la gestione dei set di dati.

Scopri di più su YOLO11

Conclusione

Sia YOLOv7 che YOLO hanno contribuito in modo significativo al campo del rilevamento degli oggetti nel 2022. YOLOv7 ha dimostrato come le tecniche di ottimizzazione addestrabili possano incrementare l'accuratezza, mentre YOLO ha mostrato la potenza della ricerca di architetture neurali per la creazione di modelli efficienti e pronti per l'uso.

Tuttavia, per gli ambienti di produzione odierni, YOLO11 rappresenta l'apice della tecnologia AI di visione. Combinando la velocità di YOLO, la precisione di YOLOv7 e l'usabilità senza pari del framework Ultralytics , YOLO11 offre una soluzione versatile che accelera i cicli di sviluppo e migliora le prestazioni delle applicazioni. Che si tratti di costruire infrastrutture per le smart city o di ottimizzare il controllo di qualità della produzione, i modelli Ultralytics offrono l'affidabilità e l'efficienza necessarie per il successo.

Esplora altri modelli

Se siete interessati a esplorare altre opzioni nel panorama della computer vision, prendete in considerazione questi modelli:

  • Ultralytics YOLOv8: Il predecessore di YOLO11, noto per la sua robustezza e l'ampia adozione nel settore.
  • YOLOv10: Un rilevatore in tempo reale che si concentra sulla formazione NMS per ridurre la latenza.
  • YOLOv9: Introduce la Programmable Gradient Information (PGI) per ridurre la perdita di informazioni nelle reti profonde.
  • RT-DETR: Un rilevatore basato su trasformatori che offre un'elevata precisione, ma che in genere richiede una maggiore memoria GPU .
  • YOLOv6: Un altro modello incentrato sull'efficienza e ottimizzato per le applicazioni industriali.

Commenti