YOLOv7 vs YOLO11: Dall'eredità in tempo reale all'efficienza all'avanguardia

Orientarsi nel panorama dei modelli di computer vision implica la comprensione delle sfumature tra le architetture consolidate e le più recenti innovazioni all'avanguardia (SOTA). Questa guida fornisce un confronto tecnico completo tra YOLOv7, una pietra miliare significativa nella serie YOLO, e Ultralytics YOLO11, il modello all'avanguardia progettato per prestazioni e versatilità superiori.

Esploreremo le loro differenze architettoniche, le metriche di riferimento e le applicazioni pratiche per aiutare sviluppatori e ricercatori a selezionare lo strumento ottimale per attività che vanno dall'object detection alla complessa segmentation di istanze.

YOLOv7: Un punto di riferimento nell'architettura efficiente

Rilasciato nel luglio 2022, YOLOv7 ha rappresentato un importante passo avanti nell'equilibrio tra efficienza di addestramento e velocità di inferenza. È stato progettato per superare i precedenti rivelatori concentrandosi sulle ottimizzazioni architetturali che riducono il numero di parametri senza sacrificare la precisione.

Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organizzazione:Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Documentazione:https://docs.ultralytics.com/models/yolov7/

Punti Salienti Architetturali

YOLOv7 ha introdotto la Extended Efficient Layer Aggregation Network (E-ELAN). Questa architettura consente al modello di apprendere caratteristiche più diversificate controllando i percorsi del gradiente più brevi e più lunghi, migliorando la convergenza durante l'addestramento. Inoltre, ha utilizzato il "trainable bag-of-freebies", un insieme di strategie di ottimizzazione come la riparametrizzazione del modello e l'assegnazione dinamica delle etichette, che migliorano la precisione senza aumentare il costo di inferenza.

Sebbene sia principalmente un modello di rilevamento di oggetti, la comunità open-source ha esplorato l'estensione di YOLOv7 per la stima della posa. Tuttavia, queste implementazioni spesso mancano della perfetta integrazione che si trova nei framework unificati.

Punti di forza e limitazioni

YOLOv7 è apprezzato per:

Prestazioni solide: Ha stabilito una nuova base di riferimento per i detector in tempo reale al momento del rilascio, ottenendo buoni risultati sul dataset COCO.
Innovazione Architetturale: L'introduzione di E-ELAN ha influenzato la successiva ricerca nella progettazione di reti.

Tuttavia, deve affrontare delle sfide nei flussi di lavoro moderni:

Complessità: La pipeline di addestramento può essere complessa e richiedere una significativa configurazione manuale rispetto agli standard moderni.
Versatilità limitata: Non supporta nativamente attività come la classificazione o i bounding box orientati (OBB) out-of-the-box.
Utilizzo delle risorse: L'addestramento di varianti più grandi, come YOLOv7x, richiede una notevole quantità di memoria GPU, il che può rappresentare un collo di bottiglia per i ricercatori con hardware limitato.

Scopri di più su YOLOv7

Ultralytics YOLO11: Ridefinire velocità, accuratezza e facilità d'uso

Ultralytics YOLO11 è l'ultima evoluzione della rinomata linea YOLO, progettata per offrire prestazioni SOTA in un'ampia gamma di attività di computer vision. Costruito su un'eredità di miglioramento continuo, YOLO11 offre un'architettura raffinata che massimizza l'efficienza per la distribuzione nel mondo reale.

Autori: Glenn Jocher e Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Documentazione:https://docs.ultralytics.com/models/yolo11/

Architettura Avanzata e Versatilità

YOLO11 impiega un backbone modernizzato utilizzando blocchi C3k2 e un modulo SPPF migliorato per acquisire le feature a varie scale in modo più efficace. Questo design si traduce in un modello che non è solo più accurato ma anche significativamente più leggero in termini di parametri e FLOP rispetto ai suoi predecessori e concorrenti.

Una caratteristica distintiva di YOLO11 è il suo supporto multi-task nativo. All'interno di un singolo framework, gli utenti possono eseguire:

Detection: Identificazione di oggetti con bounding box.
Segmentazione: Mascheramento a livello di pixel per un'analisi precisa della forma.
Classificazione: assegnazione di etichette di classe a immagini intere.
Stima della posa: Rilevamento di punti chiave sui corpi umani.
OBB: Detect di oggetti ruotati, cruciale per l'immaginario aereo.

Ecosistema unificato

Ultralytics YOLO11 si integra perfettamente con Ultralytics HUB, una piattaforma per la gestione dei set di dati, l'addestramento no-code e l'implementazione one-click. Questa integrazione accelera significativamente il ciclo di vita di MLOps.

Perché gli sviluppatori scelgono YOLO11

Facilità d'uso: Con un design incentrato sull'utente, YOLO11 può essere implementato in poche righe di codice Python o tramite una semplice CLI.
Ecosistema ben manutenuto: Supportato da una community attiva e dal team Ultralytics, il modello riceve aggiornamenti frequenti, garantendo la compatibilità con le ultime versioni di PyTorch e gli acceleratori hardware.
Bilanciamento delle prestazioni: Raggiunge un eccezionale compromesso tra velocità di inferenza e precisione media (mAP), rendendolo ideale sia per i dispositivi edge che per i server cloud.
Efficienza della memoria: I modelli YOLO11 richiedono tipicamente meno memoria CUDA durante l'addestramento rispetto alle architetture più datate o ai modelli basati su transformer, consentendo dimensioni dei batch maggiori o l'addestramento su hardware modesto.

Scopri di più su YOLO11

Confronto delle prestazioni: Benchmark tecnici

La tabella seguente illustra le differenze di prestazioni tra YOLOv7 e YOLO11. I dati evidenziano come le moderne ottimizzazioni consentano a YOLO11 di ottenere una precisione superiore con una frazione del costo computazionale.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Analisi:

Efficienza: YOLO11m corrisponde all'accuratezza di YOLOv7l (51,5 contro 51,4 mAP) pur utilizzando quasi la metà dei parametri (20,1 milioni contro 36,9 milioni) e significativamente meno FLOPs.
Velocità: Per le applicazioni in tempo reale, YOLO11n è drasticamente più veloce, con un tempo di 1.5ms su una GPU T4, rendendolo perfetto per l'elaborazione video ad alto FPS.
Accuratezza: Il modello più grande, YOLO11x, supera YOLOv7x in accuratezza (54.7 vs 53.1 mAP) pur mantenendo un numero di parametri competitivo.

Casi d'uso reali

Agricoltura e Monitoraggio Ambientale

In agricoltura di precisione, il rilevamento di malattie delle colture o il monitoraggio della crescita richiede modelli in grado di funzionare su dispositivi con potenza limitata, come droni o sensori sul campo.

YOLO11: La sua architettura leggera (in particolare YOLO11n/s) ne consente l'implementazione su dispositivi Raspberry Pi o NVIDIA Jetson, abilitando il monitoraggio in tempo reale della salute delle colture.
YOLOv7: Pur essendo accurato, la sua maggiore richiesta computazionale ne limita l'utilità sui dispositivi edge alimentati a batteria.

Produzione intelligente e controllo qualità

I sistemi di ispezione visiva automatizzati richiedono un'elevata precisione per detect i minimi difetti nelle linee di produzione.

YOLO11: La capacità del modello di eseguire segmentation e OBB è fondamentale in questo caso. Ad esempio, OBB è essenziale per rilevare componenti ruotati su un nastro trasportatore, una funzionalità supportata nativamente da YOLO11 ma che richiede implementazioni personalizzate in YOLOv7.
YOLOv7: Adatto per il detect standard di bounding box, ma meno adattabile per difetti geometrici complessi senza modifiche significative.

Sorveglianza e sicurezza

I sistemi di sicurezza spesso elaborano più flussi video contemporaneamente.

YOLO11: L'elevata velocità di inferenza consente a un singolo server di elaborare più stream in parallelo, riducendo i costi dell'infrastruttura.
YOLOv7: Efficace, ma una maggiore latenza per frame riduce il numero totale di canali che una singola unità può gestire.

Implementazione ed efficienza di addestramento

Una delle caratteristiche principali dell'ecosistema Ultralytics è la developer experience semplificata. Di seguito è riportato un confronto su come iniziare.

Semplicità nel codice

Ultralytics YOLO11 è progettato per essere "batteries included", astraendo il codice boilerplate complesso.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Al contrario, i repository più datati spesso richiedono la clonazione del repository, la regolazione manuale dei file di configurazione e l'esecuzione di script shell complessi per il training e l'inferenza.

Flessibilità di esportazione

YOLO11 supporta l'esportazione con un clic in vari formati per la distribuzione, tra cui ONNX, TensorRT, CoreML e TFLite. Questa flessibilità garantisce che il tuo modello sia pronto per la produzione in qualsiasi ambiente.

Conclusione: il chiaro vincitore

Mentre YOLOv7 rimane un modello rispettabile nella storia della computer vision, Ultralytics YOLO11 rappresenta il futuro. Per sviluppatori e ricercatori, YOLO11 offre un pacchetto interessante:

Metriche Superiori: mAP più elevato e velocità di inferenza più elevate.
Ecosistema ricco: Accesso a Ultralytics HUB, documentazione completa e supporto della community.
Versatilità: Un singolo framework per detection, segmentation, posa, classificazione e OBB.
A prova di futuro: Aggiornamenti e manutenzione continui garantiscono la compatibilità con nuovi hardware e librerie software.

Per qualsiasi nuovo progetto, sfruttare l'efficienza e la facilità d'uso di YOLO11 è il percorso consigliato per ottenere risultati all'avanguardia con il minimo attrito.

Esplora altri modelli

Se sei interessato a ulteriori confronti, esplora queste pagine correlate nella documentazione: