Vai al contenuto

YOLO11 vs YOLOv8: Evoluzione architetturale e analisi delle prestazioni

La selezione del modello di computer vision ottimale è una decisione critica per sviluppatori e ricercatori che mirano a bilanciare accuratezza, velocità ed efficienza delle risorse. Questa pagina fornisce un confronto tecnico completo tra Ultralytics YOLO11 e Ultralytics YOLOv8, due architetture leader del settore progettate per l'object detection e attività di visione avanzate. Analizziamo le loro innovazioni architetturali, le metriche di benchmark e gli scenari di implementazione ideali per aiutarti a determinare la soluzione migliore per le tue applicazioni di intelligenza artificiale.

Ultralytics YOLO11

Autori: Glenn Jocher, Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Documentazione:https://docs.ultralytics.com/models/yolo11/

YOLO11 rappresenta l'ultima evoluzione della rinomata serie YOLO, progettando miglioramenti significativi nell'estrazione delle caratteristiche e nell'efficienza di elaborazione. Perfezionando le architetture backbone e neck, YOLO11 raggiunge una precisione media media (mAP) più elevata utilizzando meno parametri rispetto ai suoi predecessori. Supporta nativamente un ampio spettro di attività, tra cui segmentazione dell'istanza, classification delle immagini, stima della posa e oriented bounding boxes (OBB).

Architettura e caratteristiche principali

L'architettura YOLO11 introduce il blocco C3k2, una versione ottimizzata del collo di bottiglia CSP (Cross Stage Partial), e il modulo C2PSA (Cross Stage Partial with Spatial Attention). Questi componenti migliorano la capacità del modello di catturare pattern visivi complessi e relazioni spaziali, riducendo al minimo il sovraccarico computazionale. Questa filosofia di progettazione garantisce che YOLO11 eccella negli scenari di inferenza in tempo reale, in particolare sui dispositivi edge dove le risorse computazionali sono limitate.

Punti di forza

  • Accuratezza all'avanguardia: Offre prestazioni di detect superiori su tutte le scale di modelli, superando costantemente le iterazioni precedenti sul set di dati COCO.
  • Efficienza della CPU: Le scelte architetturali ottimizzate si traducono in velocità di inferenza significativamente più elevate sulle CPU, rendendolo una scelta eccellente per i deployment serverless o edge.
  • Efficienza dei parametri: Ottiene un'elevata precisione con meno parametri e FLOP, riducendo i requisiti di archiviazione del modello.
  • Framework unificato: Gestisce senza problemi molteplici attività di visione all'interno di un'unica API facile da usare.

Punti deboli

  • Maturità dell'ecosistema: Essendo una release più recente, il volume di tutorial di terze parti e contenuti generati dalla community è in rapida crescita, ma potrebbe essere meno esteso rispetto al consolidato YOLOv8.
  • Intensità di risorse per modelli di grandi dimensioni: Pur essendo efficienti, le varianti più grandi (ad esempio, YOLO11x) richiedono comunque notevoli risorse GPU per l'addestramento e l'inferenza ad alta velocità.

Casi d'uso

YOLO11 è la scelta migliore per le applicazioni che richiedono il più alto rapporto possibile tra accuratezza e velocità:

  • Edge AI: Deployment di detect ad alte prestazioni su dispositivi NVIDIA Jetson o Raspberry Pi.
  • Robotica in tempo reale: Consentire la navigazione autonoma e l'interazione con gli oggetti con una latenza minima.
  • Imaging medicale: Assistenza nell'analisi di immagini mediche precisa per la diagnostica, dove l'accuratezza è fondamentale.

Scopri di più su YOLO11

Ultralytics YOLOv8

Autori: Glenn Jocher, Ayush Chaurasia, Jing Qiu
Organizzazione:Ultralytics
Data: 2023-01-10
GitHub:https://github.com/ultralytics/ultralytics
Documentazione:https://docs.ultralytics.com/models/yolov8/

Rilasciato all'inizio del 2023, YOLOv8 ha ridefinito lo standard per il rilevamento di oggetti in tempo reale. Ha introdotto un head di detect anchor-free e il modulo backbone C2f, segnando un allontanamento significativo dagli approcci basati su anchor. YOLOv8 è rinomato per la sua stabilità, versatilità e l'enorme ecosistema che si è sviluppato intorno ad esso, rendendolo uno dei modelli di visione più ampiamente adottati a livello globale.

Architettura e caratteristiche principali

YOLOv8 utilizza una modifica del backbone CSPDarknet53, incorporando moduli C2f che consentono un flusso del gradiente più ricco. Il suo design anchor-free semplifica il processo di non-maximum suppression (NMS) e riduce la complessità della messa a punto degli iperparametri relativi alle anchor box. Il modello è altamente scalabile, offrendo varianti da Nano (n) a Extra Large (x) per adattarsi a vari budget computazionali.

Punti di forza

  • Affidabilità comprovata: Ampiamente testato in ambienti di produzione in tutto il mondo, garantendo un'elevata stabilità.
  • Ecosistema ricco: supportato da migliaia di tutorial, integrazioni e progetti della community.
  • Versatilità: Come YOLO11, supporta detection, segmentazione, classificazione e stima della posa.
  • Forte baseline: continua a offrire prestazioni competitive che superano molte architetture non-YOLO.

Punti deboli

  • Divario di prestazioni: Generalmente superato da YOLO11 sia in termini di precisione (mAP) che di velocità di inferenza, in particolare su hardware CPU.
  • Costo computazionale più elevato: Richiede leggermente più parametri e FLOP per raggiungere una precisione paragonabile a YOLO11.

Casi d'uso

YOLOv8 rimane un'opzione eccellente per:

  • Sistemi legacy: Progetti già integrati con i flussi di lavoro YOLOv8 che richiedono stabilità rispetto alle prestazioni all'avanguardia.
  • Strumenti Educativi: Apprendimento dei concetti di computer vision utilizzando un modello con vasta documentazione ed esempi della community.
  • Rilevamento per scopi generali: Prestazioni affidabili per applicazioni standard di sicurezza e monitoraggio.

Scopri di più su YOLOv8

Testa a testa sulle prestazioni

La distinzione più significativa tra questi due modelli risiede nella loro efficienza. YOLO11 raggiunge un "miglioramento paretiano" rispetto a YOLOv8, offrendo una maggiore accuratezza con un costo computazionale inferiore.

Analisi di efficienza e velocità

Le ottimizzazioni architetturali in YOLO11 (C3k2, C2PSA) gli consentono di elaborare le immagini più velocemente mantenendo al contempo funzionalità più granulari. Ciò è più evidente nell'inferenza CPU, dove i modelli YOLO11 mostrano notevoli accelerazioni. Ad esempio, il modello YOLO11n è circa il 30% più veloce su CPU rispetto a YOLOv8n, ottenendo anche un mAP più elevato.

In termini di inferenza GPU, i modelli YOLO11 dimostrano anche una latenza inferiore nella maggior parte delle dimensioni, rendendoli altamente efficaci per le pipeline di elaborazione video in tempo reale.

Efficienza della Memoria

Sia Ultralytics YOLO11 che YOLOv8 sono progettati per un basso consumo di memoria durante l'addestramento e l'inferenza rispetto ai modelli basati su transformer come RT-DETR. Questo li rende molto più accessibili per gli sviluppatori che utilizzano hardware di livello consumer o ambienti cloud con memoria CUDA limitata.

Metriche comparative

La tabella seguente illustra i miglioramenti delle prestazioni. Si noti la riduzione dei parametri e dei FLOP per YOLO11 insieme all'aumento del mAP.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Il vantaggio dell'ecosistema Ultralytics

Scegliere un modello Ultralytics significa ottenere l'accesso a un ecosistema completo progettato per semplificare l'intero ciclo di vita MLOps.

  • Facilità d'uso: Entrambi i modelli condividono lo stesso API Python e l'interfaccia della riga di comando (CLI). Il passaggio da YOLOv8 a YOLO11 spesso richiede la modifica di un solo carattere nella stringa di codice (ad esempio, "yolov8n.pt" a "yolo11n.pt").
  • Efficienza di addestramento: I modelli Ultralytics utilizzano routine di addestramento avanzate, tra cui l'aumento a mosaico e l'evoluzione degli iperparametri. I pesi pre-addestrati sono prontamente disponibili, consentendo un efficiente transfer learning su set di dati personalizzati.
  • Versatilità: A differenza di molti concorrenti limitati a task specifici, i modelli Ultralytics offrono supporto nativo per detection, segmentazione, classificazione, posa e OBB all'interno di un pacchetto unificato.
  • Implementazione: Esporta facilmente i modelli in formati come ONNX, TensorRT, CoreML e OpenVINO per un'implementazione ottimizzata su diversi hardware.

Esempio di utilizzo unificato

Il design dell'API condivisa consente una sperimentazione semplice. Ecco come puoi caricare ed eseguire la prediction con entrambi i modelli:

from ultralytics import YOLO

# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Conclusione: Quale modello dovresti scegliere?

Per la stragrande maggioranza dei nuovi progetti, YOLO11 è la scelta consigliata. I suoi progressi architettonici offrono un netto vantaggio sia in termini di precisione che di velocità, in particolare per le applicazioni di edge computing dove l'efficienza è fondamentale. Il numero ridotto di parametri implica anche requisiti di archiviazione più leggeri e tempi di download più rapidi per le implementazioni mobili.

YOLOv8 rimane uno strumento potente e rilevante, specialmente per i team con pipeline esistenti profondamente integrate con versioni specifiche di YOLOv8 o per coloro che si affidano alla maturità assoluta del suo ecosistema di documentazione. Tuttavia, la migrazione a YOLO11 è generalmente semplice e produce vantaggi immediati in termini di prestazioni.

Entrambi i modelli sono rilasciati con licenza AGPL-3.0, promuovendo la collaborazione open-source, con licenze Enterprise disponibili per i prodotti commerciali che richiedono funzionalità proprietarie.

Esplora altri modelli

Sebbene YOLO11 e YOLOv8 siano eccellenti rilevatori multiuso, requisiti specifici potrebbero trarre vantaggio da altre architetture della famiglia Ultralytics:

  • YOLOv10: Si concentra sull'addestramento NMS-free per una minore latenza.
  • YOLOv9: Enfatizza le informazioni sul gradiente programmabile per l'addestramento di modelli deep.
  • RT-DETR: Un detector basato su transformer che offre un'elevata accuratezza, anche se con requisiti di memoria e calcolo più elevati.

Esplora la nostra gamma completa di confronti tra modelli per trovare la soluzione perfetta per il tuo progetto.


Commenti