Vai al contenuto

YOLO11 vs YOLOv8: evoluzione architettonica e analisi delle prestazioni

La scelta del modello di computer vision ottimale è una decisione cruciale per gli sviluppatori e i ricercatori che vogliono trovare un equilibrio tra precisione, velocità ed efficienza delle risorse. Questa pagina fornisce un confronto tecnico completo tra Ultralytics YOLO11 e Ultralytics YOLOv8due architetture leader del settore, progettate per il rilevamento di oggetti e per compiti di visione avanzati. Analizziamo le loro innovazioni architettoniche, le metriche di benchmark e gli scenari di implementazione ideali per aiutarvi a determinare la soluzione migliore per le vostre applicazioni di intelligenza artificiale.

Ultralytics YOLO11

Autori: Glenn Jocher, Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHubultralytics
Docsyolo11

YOLO11 rappresenta l'ultima evoluzione della rinomata serie YOLO , con miglioramenti significativi nell'estrazione delle caratteristiche e nell'efficienza di elaborazione. Affinando le architetture backbone e neck, YOLO11 raggiunge una precisione media più elevata (mAP) pur utilizzando meno parametri rispetto ai suoi predecessori. Supporta in modo nativo un'ampia gamma di compiti, tra cui la segmentazione delle istanze, la classificazione delle immagini, la stima della posa e le bounding box orientate (OBB).

Architettura e caratteristiche principali

L'architettura YOLO11 introduce il blocco C3k2, una versione ottimizzata del collo di bottiglia CSP (Cross Stage Partial), e il modulo C2PSA (Cross Stage Partial with Spatial Attention). Questi componenti migliorano la capacità del modello di catturare modelli visivi complessi e relazioni spaziali, riducendo al minimo l'overhead computazionale. Questa filosofia di progettazione fa sì che YOLO11 eccella negli scenari di inferenza in tempo reale, in particolare sui dispositivi edge dove le risorse di calcolo sono limitate.

Punti di forza

  • Precisione allo stato dell'arte: Offre prestazioni di rilevamento superiori su tutte le scale del modello, superando costantemente le precedenti iterazioni sul set di datiCOCO .
  • EfficienzaCPU : Le scelte architettoniche ottimizzate consentono di ottenere velocità di inferenza significativamente più elevate sulle CPU, rendendolo una scelta ottimale per le implementazioni serverless o edge.
  • Efficienza dei parametri: Raggiunge un'elevata precisione con un minor numero di parametri e FLOP, riducendo i requisiti di memorizzazione del modello.
  • Struttura unificata: Gestisce senza problemi diverse attività di visione con un'unica API di facile utilizzo.

Punti deboli

  • Maturità dell'ecosistema: Essendo una versione più recente, il volume di tutorial di terze parti e di contenuti generati dalla comunità sta crescendo rapidamente, ma potrebbe essere meno esteso di quello di YOLOv8.
  • Intensità delle risorse per modelli di grandi dimensioni: Pur essendo efficienti, le varianti più grandi (ad esempio, YOLO11x) richiedono comunque notevoli risorse GPU per l'addestramento e l'inferenza ad alto rendimento.

Casi d'uso

YOLO11 è la scelta principale per le applicazioni che richiedono il massimo rapporto precisione/velocità:

  • Edge AI: implementazione del rilevamento ad alte prestazioni su dispositivi NVIDIA Jetson o Raspberry Pi.
  • Robotica in tempo reale: Consentire la navigazione autonoma e l'interazione con gli oggetti con una latenza minima.
  • Imaging medico: Assistenza nell'analisi precisa delle immagini mediche per la diagnostica, dove l'accuratezza è fondamentale.

Scopri di più su YOLO11

Ultralytics YOLOv8

Autori: Glenn Jocher, Ayush Chaurasia, Jing Qiu
Organizzazione:Ultralytics
Data: 2023-01-10
GitHubultralytics
Docsyolov8

Rilasciato all'inizio del 2023, YOLOv8 ha ridefinito lo standard per il rilevamento di oggetti in tempo reale. Ha introdotto una testa di rilevamento priva di ancore e il modulo backbone C2f, segnando un significativo allontanamento dagli approcci basati sulle ancore. YOLOv8 è rinomato per la sua stabilità, versatilità e per l'enorme ecosistema che si è sviluppato intorno ad esso, rendendolo uno dei modelli di visione più adottati a livello globale.

Architettura e caratteristiche principali

YOLOv8 utilizza una modifica della struttura portante CSPDarknet53, incorporando moduli C2f che consentono un flusso di gradienti più ricco. Il suo design privo di ancore semplifica il processo di soppressione non massimale (NMS) e riduce la complessità della regolazione degli iperparametri legata alle caselle di ancoraggio. Il modello è altamente scalabile e offre varianti da Nano (n) a Extra Large (x) per soddisfare diversi budget computazionali.

Punti di forza

  • Affidabilità comprovata: ampiamente testata in ambienti di produzione in tutto il mondo, garantisce un'elevata stabilità.
  • Ricco ecosistema: supportato da migliaia di tutorial, integrazioni e progetti della comunità.
  • Versatilità: Come YOLO11, supporta il rilevamento, la segmentazione, la classificazione e la stima della posa.
  • Forte linea di base: continua a offrire prestazioni competitive che superano quelle di molte architetture non YOLO .

Punti deboli

  • Divario di prestazioni: generalmente superato da YOLO11 sia in termini di accuratezzamAP) che di velocità di inferenza, in particolare su hardware CPU .
  • Costo computazionale più elevato: Richiede un numero leggermente superiore di parametri e FLOP per ottenere una precisione paragonabile a quella di YOLO11.

Casi d'uso

YOLOv8 rimane un'opzione eccellente per:

  • Sistemi legacy: Progetti già integrati con i flussi di lavoro YOLOv8 che richiedono stabilità piuttosto che prestazioni all'avanguardia.
  • Strumenti didattici: Apprendimento dei concetti di computer vision utilizzando un modello con una vasta documentazione ed esempi comunitari.
  • Rilevamento per uso generale: Prestazioni affidabili per applicazioni standard di sicurezza e monitoraggio.

Scopri di più su YOLOv8

Testa a testa sulle prestazioni

La distinzione più significativa tra questi due modelli risiede nella loro efficienza. YOLO11 raggiunge un "miglioramento Pareto" rispetto a YOLOv8maggiore accuratezza con un costo computazionale inferiore.

Analisi dell'efficienza e della velocità

Le ottimizzazioni architettoniche di YOLO11 (C3k2, C2PSA) consentono di elaborare le immagini più velocemente, pur mantenendo caratteristiche più fini. Ciò è particolarmente evidente nell'inferenzaCPU , dove i modelli YOLO11 mostrano sostanziali accelerazioni. Ad esempio, il modello YOLO11n è circa il 30% più veloce su CPU rispetto a YOLOv8n , pur ottenendo un mAP più elevato.

In termini di inferenzaGPU , i modelli YOLO11 dimostrano anche una latenza inferiore per la maggior parte delle dimensioni, rendendoli molto efficaci per le pipeline di elaborazione video in tempo reale.

Efficienza della memoria

Sia Ultralytics YOLO11 che YOLOv8 sono progettati per un basso consumo di memoria durante l'addestramento e l'inferenza rispetto ai modelli basati su trasformatori come RT-DETR. Questo li rende molto più accessibili agli sviluppatori che utilizzano hardware di fascia consumer o ambienti cloud con memoria CUDA limitata.

Metriche comparative

La tabella seguente illustra i miglioramenti delle prestazioni. Si noti la riduzione dei parametri e dei FLOP per YOLO11 e l'aumento di mAP.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Il vantaggio dell'ecosistema Ultralytics

Scegliere un modello Ultralytics significa accedere a un ecosistema completo progettato per ottimizzare l'intero ciclo di vita degli MLOps.

  • Facilità d'uso: Entrambi i modelli condividono lo stesso API Python e l'interfaccia a riga di comandoCLI). Il passaggio da YOLOv8 a YOLO11 spesso richiede la modifica di un solo carattere nella stringa di codice (ad esempio, "yolov8n.pt" a "yolo11n.pt").
  • Efficienza della formazione: I modelli Ultralytics utilizzano routine di addestramento avanzate, tra cui l'aumento del mosaico e l'evoluzione degli iperparametri. I pesi pre-addestrati sono prontamente disponibili, consentendo un efficiente apprendimento di trasferimento su set di dati personalizzati.
  • Versatilità: A differenza di molti concorrenti che si limitano a compiti specifici, i modelli Ultralytics offrono un supporto nativo per il rilevamento, la segmentazione, la classificazione, la posa e l'OBB in un pacchetto unificato.
  • Distribuzione: Esportare facilmente i modelli in formati come ONNX, TensorRT, CoreML e OpenVINO per ottimizzare la distribuzione su hardware diversi.

Esempio di utilizzo unificato

Il design dell'API condivisa consente una sperimentazione senza sforzo. Ecco come è possibile caricare ed eseguire una previsione con uno dei due modelli:

from ultralytics import YOLO

# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Conclusione: Quale modello dovresti scegliere?

Per la maggior parte dei nuovi progetti, YOLO11 è la scelta consigliata. I suoi progressi architetturali offrono un chiaro vantaggio sia in termini di precisione che di velocità, in particolare per le applicazioni di edge computing in cui l'efficienza è fondamentale. Il numero ridotto di parametri implica anche requisiti di archiviazione più leggeri e tempi di download più rapidi per le implementazioni mobili.

YOLOv8 rimane uno strumento potente e rilevante, soprattutto per i team che dispongono di pipeline esistenti profondamente integrate con versioni specifiche di YOLOv8 o per coloro che si affidano all'assoluta maturità del suo ecosistema di documentazione. Tuttavia, la migrazione a YOLO11 è generalmente semplice e offre vantaggi immediati in termini di prestazioni.

Entrambi i modelli sono rilasciati sotto la licenza AGPL-3.0 per promuovere la collaborazione open-source, mentre le licenze Enterprise sono disponibili per i prodotti commerciali che richiedono funzionalità proprietarie.

Esplora altri modelli

Sebbene YOLO11 e YOLOv8 siano eccellenti rilevatori per uso generale, i requisiti specifici potrebbero trarre vantaggio da altre architetture della famiglia Ultralytics :

  • YOLOv10: si concentra sull'allenamento NMS per ridurre la latenza.
  • YOLOv9: enfatizza le informazioni programmabili sul gradiente per l'addestramento di modelli profondi.
  • RT-DETR: un rivelatore basato su trasformatori che offre un'elevata precisione, ma con requisiti di memoria e di calcolo più elevati.

Esplorate la nostra gamma completa di modelli a confronto per trovare quello perfetto per il vostro progetto.


Commenti