YOLOv5 vs YOLO11: Un confronto tecnico completo

Quando scegli l'architettura di computer vision giusta per un nuovo progetto, comprendere l'evoluzione dei modelli allo stato dell'arte è fondamentale. Il passaggio dalle prime architetture ai moderni framework unificati evidenzia significativi passi in avanti sia nell'efficienza algoritmica che nell'esperienza di sviluppo. Questa guida fornisce un confronto tecnico approfondito tra due modelli di riferimento sviluppati da Ultralytics: il pionieristico YOLOv5 e l'altamente raffinato YOLO11.

Introduzione ai modelli

Entrambe queste architetture rappresentano tappe fondamentali nel campo del rilevamento di oggetti in tempo reale, offrendo vantaggi distinti a seconda del tuo ambiente di distribuzione e dei tuoi requisiti legacy.

YOLOv5: Il cavallo di battaglia del settore

Rilasciato nell'estate del 2020, YOLOv5 è diventato rapidamente uno standard del settore grazie alla sua implementazione nativa in PyTorch, che ha drasticamente abbassato la barriera all'ingresso per l'addestramento e la distribuzione. Si è allontanato dai complessi framework Darknet C dei suoi predecessori, offrendo un approccio Pythonic alla creazione di modelli.

YOLOv5 ha stabilito una solida base per la facilità d'uso e ha introdotto potenti metodologie di addestramento, tra cui l'aumento dei dati mosaic avanzato e l'auto-anchoring. Rimane incredibilmente popolare tra i ricercatori che costruiscono su una base di codice ben documentata e ampiamente testata.

Scopri di più su YOLOv5

YOLO11: Il framework di visione unificato

Basandosi su anni di feedback e ricerca architettonica, YOLO11 è stato introdotto come parte di un framework unificato in grado di gestire nativamente molteplici attività di visione. Andando oltre i semplici bounding box, è stato progettato fin dalle fondamenta per la massima versatilità ed efficienza.

YOLO11 offre un'esperienza utente semplificata tramite il pacchetto Python ultralytics, vantando una semplice API che unifica object detection, segmentazione di istanze, classificazione, stima della posa e oriented bounding boxes (OBB). Raggiunge un compromesso molto favorevole tra velocità e precisione, rendendolo ideale per diversi scenari di distribuzione nel mondo reale.

Scopri di più su YOLO11

Piattaforma integrata

Entrambi i modelli beneficiano dell'ecosistema ben mantenuto fornito dalla Ultralytics Platform. Questo ambiente integrato semplifica l'annotazione dei dataset, l'addestramento nel cloud e l'esportazione dei modelli verso vari target hardware.

Confronto tra prestazioni e metriche

A direct comparison of these models reveals how architectural refinements translate to tangible performance gains. The table below illustrates the mean Average Precision (mAP) evaluated on the COCO dataset, alongside CPU and GPU inference speeds and parameter counts.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOP
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analisi dei risultati

Le metriche evidenziano un chiaro salto nell'equilibrio delle prestazioni raggiunto da YOLO11. Ad esempio, il modello YOLO11n (nano) raggiunge un mAP del 39,5% rispetto al 28,0% di YOLOv5n, riducendo contemporaneamente il tempo di inferenza CPU quando esportato tramite ONNX. Inoltre, YOLO11 mantiene requisiti di memoria notevolmente inferiori durante l'addestramento rispetto ai pesanti modelli basati su Transformer, rendendolo altamente accessibile per la distribuzione su hardware consumer e dispositivi edge.

Differenze architetturali

I miglioramenti delle prestazioni in YOLO11 derivano da diverse evoluzioni architettoniche chiave. Mentre YOLOv5 utilizzava una backbone CSPNet standard con moduli C3, YOLO11 ha introdotto blocchi di estrazione delle caratteristiche più efficienti come C2f e successivamente C3k2, che ottimizzano il flusso del gradiente e riducono l'overhead computazionale.

YOLO11 presenta anche una testa fortemente perfezionata. Allontanandosi dal design basato su anchor dei modelli precedenti, le nuove architetture Ultralytics adottano un approccio anchor-free. Ciò riduce il numero di previsioni dei box, semplificando la pipeline di post-elaborazione e migliorando la capacità del modello di generalizzare su scale e proporzioni diverse. Inoltre, questi modelli vantano una superiore training efficiency e pesi pre-addestrati facilmente disponibili che accelerano la convergenza dei dataset ottimizzati.

Implementazione ed esempi di codice

Una delle caratteristiche distintive dell'ecosistema Ultralytics è la sua semplicità. Mentre YOLOv5 ha reso popolare l'uso di torch.hub per un'inferenza rapida, YOLO11 fa un ulteriore passo avanti con il pacchetto Python unificato ultralytics.

Addestramento con YOLO11

Caricare, addestrare e convalidare un modello richiede un minimo di codice boilerplate. L'API gestisce la regolazione degli iperparametri e la gestione del modello senza problemi.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Inferenza legacy con YOLOv5

Se stai mantenendo una pipeline più vecchia, YOLOv5 si integra direttamente con il meccanismo di caricamento nativo di PyTorch, rendendo banale l'inserimento negli script di inferenza esistenti.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()
Flessibilità di distribuzione

Entrambi i modelli supportano ampi formati di esportazione. Che tu stia puntando a un NVIDIA Jetson utilizzando TensorRT o a un'applicazione iOS utilizzando CoreML, il processo di distribuzione è ampiamente documentato e supportato dalla community.

Casi d'uso ideali

La scelta tra questi modelli dipende in gran parte dalla fase del ciclo di vita del tuo progetto e dai requisiti specifici.

Quando scegliere YOLOv5

  • Mantenimento di basi di codice legacy: Se il tuo ambiente di produzione è fortemente personalizzato attorno alla struttura del repository YOLOv5 o a specifiche tecniche di hyperparameter evolution.
  • Basi di riferimento accademiche: Quando pubblichi ricerche che richiedono un benchmarking diretto rispetto agli standard di computer vision stabiliti nel 2020-2022.

Quando scegliere YOLO11

  • Progetti multi-task: Quando la tua applicazione richiede un mix di attività come pose estimation e instance segmentation utilizzando una singola API unificata.
  • Distribuzioni Edge: Per scenari di edge computing in cui è fondamentale ottenere il massimo mAP per un determinato budget computazionale (FLOPs).
  • Soluzioni AI commerciali: Ideali per applicazioni aziendali nel settore retail e della sicurezza, sfruttando il solido supporto della Ultralytics Platform.

La prossima generazione: Ultralytics YOLO26

Sebbene YOLO11 rappresenti un fantastico equilibrio tra velocità e precisione, il campo dell'intelligenza artificiale si evolve rapidamente. Per gli sviluppatori che iniziano nuovi progetti oggi, consigliamo vivamente di esplorare l'ultimo standard nella visione AI: Ultralytics YOLO26.

Rilasciato nel gennaio 2026, YOLO26 introduce progressi che cambiano il paradigma, progettati specificamente per le moderne esigenze di distribuzione:

  • Design end-to-end NMS-Free: Basandosi su concetti pionieristici in YOLOv10, YOLO26 è nativamente end-to-end. Elimina la necessità di post-elaborazione Non-Maximum Suppression (NMS), semplificando significativamente le pipeline di distribuzione e riducendo la latenza.
  • Ottimizzatore MuSGD: Ispirato alle innovazioni nell'addestramento di LLM da modelli come Kimi K2 di Moonshot AI, questo ibrido tra SGD e Muon garantisce un addestramento incredibilmente stabile e una convergenza drasticamente più rapida.
  • Velocità CPU senza precedenti: Rimuovendo la Distribution Focal Loss (DFL), YOLO26 raggiunge fino al 43% di velocità di inferenza CPU in più, rendendolo la scelta assolutamente migliore per dispositivi edge e ambienti senza GPU dedicate.
  • Funzioni di perdita avanzate: L'integrazione di ProgLoss e STAL produce notevoli miglioramenti nel riconoscimento di piccoli oggetti, il che è fondamentale per l'analisi tramite droni, IoT e robotica.
  • Miglioramenti specifici per attività: Introduce ottimizzazioni specializzate, come la Residual Log-Likelihood Estimation (RLE) per Pose e una perdita angolare specializzata per gli oriented bounding boxes, garantendo prestazioni superiori in tutte le attività di computer vision.

Scopri di più su YOLO26

Per gli utenti interessati ad architetture specializzate oltre al rilevamento di oggetti standard, potresti anche esplorare modelli come RT-DETR per il rilevamento basato su Transformer, o YOLO-World per il tracciamento e il rilevamento a vocabolario aperto. Adottare questi strumenti ben mantenuti e altamente ottimizzati assicura che le tue pipeline di computer vision rimangano efficienti, scalabili e all'avanguardia.

Commenti