Vai al contenuto

YOLO11 vs. YOLO26: Evoluzione della Vision AI in Tempo Reale

Il campo della visione artificiale sta avanzando rapidamente e Ultralytics continua a guidare la carica con modelli di object detection all'avanguardia. Questo confronto esplora l'evoluzione architettonica, le metriche di performance e le applicazioni pratiche di YOLO11, rilasciato a fine 2024, e del rivoluzionario YOLO26, rilasciato a gennaio 2026. Sebbene entrambi i modelli rappresentino l'apice della vision AI al momento del loro rilascio, YOLO26 introduce significativi cambiamenti architettonici che ridefiniscono l'efficienza e la velocità per il deployment su edge.

Panoramica del modello

YOLO11

Autori: Glenn Jocher e Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHub:Ultralytics Repository
Documentazione:YOLO11 Documentation

YOLO11 ha segnato un significativo perfezionamento nella serie YOLO, offrendo una riduzione del 22% dei parametri rispetto a YOLOv8 pur migliorando l'accuratezza del detect. Ha introdotto un design architettonico migliorato che bilanciava velocità e precisione, rendendolo una scelta affidabile per diverse attività di visione artificiale, dall'object detection all'instance segmentation.

Scopri di più su YOLO11

YOLO26

Autori: Glenn Jocher e Jing Qiu
Organizzazione:Ultralytics
Data: 2026-01-14
GitHub:Ultralytics Repository
Documentazione:YOLO26 Documentation

YOLO26 rappresenta un cambio di paradigma con il suo design nativamente end-to-end NMS-free, eliminando la necessità di post-elaborazione Non-Maximum Suppression. Questa innovazione, introdotta per la prima volta in YOLOv10, semplifica significativamente le pipeline di deployment e riduce la latenza. YOLO26 è specificamente ottimizzato per l'edge computing, offrendo fino al 43% di inferenza CPU più veloce e incorporando nuove tecniche di addestramento come il MuSGD Optimizer—un ibrido di SGD e Muon ispirato alle innovazioni nell'addestramento degli LLM.

Scopri di più su YOLO26

Vantaggio di Latenza End-to-End

Rimuovendo il passaggio NMS, YOLO26 fornisce tempi di inferenza consistenti indipendentemente dal numero di oggetti detectati in una scena. Ciò è cruciale per applicazioni in tempo reale come la guida autonoma, dove i picchi di post-elaborazione possono causare ritardi pericolosi.

Confronto delle prestazioni

La tabella seguente evidenzia i miglioramenti delle performance di YOLO26 rispetto a YOLO11. Si notino i guadagni sostanziali nella velocità della CPU, rendendo YOLO26 eccezionalmente capace per dispositivi senza GPU dedicate, come Raspberry Pi o telefoni cellulari.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Analisi Approfondita dell'Architettura

Architettura YOLO11

YOLO11 si è basato sul concetto di backbone CSPNet, affinando gli strati di estrazione delle feature per catturare dettagli più granulari. Ha utilizzato una testa di detect standard anchor-free e si è affidato alla Distribution Focal Loss (DFL) per affinare la regressione dei bounding box. Sebbene altamente efficace, l'affidamento su NMS significava che la velocità di inferenza poteva fluttuare in base alla densità della scena, un collo di bottiglia comune nella sorveglianza delle smart city.

Architettura YOLO26

YOLO26 introduce diversi cambiamenti radicali progettati per efficienza e stabilità:

  1. NMS-Free End-to-End: Il modello predice un set fisso di bounding box con corrispondenza uno-a-uno durante l'addestramento, rimuovendo il passaggio euristico NMS durante l'inferenza.
  2. Rimozione DFL: La Distribution Focal Loss è stata rimossa per semplificare il processo di esportazione in formati come ONNX e TensorRT, migliorando la compatibilità con i dispositivi edge a bassa potenza.
  3. MuSGD Optimizer: Ispirato all'addestramento di Kimi K2 di Moonshot AI e dei Large Language Model (LLM), questo ottimizzatore ibrido combina SGD e Muon per garantire una convergenza più rapida e cicli di addestramento più stabili, riducendo i "picchi di loss" spesso osservati nell'addestramento di modelli di visione su larga scala.
  4. ProgLoss + STAL: Nuove funzioni di loss (Progressive Loss e Soft-Target Assignment Loss) mirano specificamente al riconoscimento di oggetti di piccole dimensioni, fornendo un enorme impulso per l'analisi di immagini aeree e sensori IoT.

Versatilità delle attività

Entrambi i modelli supportano un'ampia gamma di attività all'interno dell'ecosistema Ultralytics, garantendo che gli sviluppatori possano cambiare modello senza riscrivere le loro pipeline.

  • Rilevamento: Rilevamento standard di bounding box.
  • Segmentazione: Maschere a livello di pixel. YOLO26 aggiunge una loss di segmentazione semantica specifica e un proto multi-scala per una migliore qualità delle maschere.
  • Classificazione: Categorizzazione dell'intera immagine.
  • Stima della Posizione: Rilevamento di keypoint. YOLO26 utilizza la Residual Log-Likelihood Estimation (RLE) per una maggiore precisione nelle pose complesse, vantaggioso per l'analisi sportiva.
  • OBB (Oriented Bounding Box): Bounding box ruotate per oggetti aerei o angolati. YOLO26 presenta una loss angolare specializzata per risolvere i problemi di discontinuità dei confini comuni nelle immagini satellitari.

Addestramento e Utilizzo

Una delle caratteristiche distintive dell'ecosistema Ultralytics è l'API unificata. Sia che si utilizzi YOLO11 o si effettui l'aggiornamento a YOLO26, il codice rimane praticamente identico, minimizzando il debito tecnico.

Esempio python

Ecco come è possibile addestrare il nuovo modello YOLO26 utilizzando la stessa interfaccia familiare impiegata per YOLO11. Questo esempio dimostra l'addestramento sul dataset COCO8, un piccolo dataset di 8 immagini perfetto per i test.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cpu",  # Use '0' for GPU
)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Esempio CLI

L'interfaccia a riga di comando è altrettanto snella, consentendo una rapida sperimentazione e il benchmarking dei modelli.

# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx

Casi d'uso ideali

Scegli YOLO11 se:

  • Disponi di una pipeline di produzione esistente altamente ottimizzata per YOLO11 e non puoi permetterti tempi di validazione per una nuova architettura.
  • Il tuo hardware di deployment presenta ottimizzazioni specifiche per la struttura a strati di YOLO11 che non sono ancora state aggiornate per YOLO26.

Scegli YOLO26 se:

  • Il Deployment su Edge è Critico: La rimozione di NMS e DFL rende YOLO26 la scelta superiore per app Android/iOS e sistemi embedded dove i cicli della CPU sono preziosi.
  • Rilevamento di Oggetti Piccoli: Le funzioni ProgLoss e STAL lo rendono significativamente migliore per l'identificazione di parassiti in agricoltura o di oggetti distanti in filmati di droni.
  • Stabilità dell'Addestramento: Se stai addestrando su dataset personalizzati massivi e hai riscontrato problemi di divergenza, l'ottimizzatore MuSGD in YOLO26 offre un percorso di addestramento più stabile.
  • Esportazione più Semplice: L'architettura end-to-end si esporta più pulitamente in formati come CoreML e TensorRT senza richiedere complessi plugin NMS esterni.

Per gli sviluppatori interessati a esplorare altre opzioni all'interno della famiglia Ultralytics, modelli come YOLOv10 (il precursore di YOLO end-to-end) o YOLO-World (per il rilevamento a vocabolario aperto) sono anch'essi pienamente supportati.

Conclusione

Mentre YOLO11 rimane un modello robusto e altamente capace, YOLO26 stabilisce un nuovo punto di riferimento per ciò che è possibile nella visione artificiale in tempo reale. Integrando dinamiche di addestramento ispirate agli LLM e semplificando la pipeline di inferenza attraverso un design senza NMS, Ultralytics ha creato un modello che non è solo più accurato ma anche significativamente più facile da implementare nel mondo reale.

L'ecosistema Ultralytics assicura che l'aggiornamento sia senza interruzioni. Con requisiti di memoria inferiori durante l'addestramento e velocità della CPU più elevate durante l'inferenza, YOLO26 è il punto di partenza raccomandato per tutti i nuovi progetti nel 2026.

Inizia con Ultralytics


Commenti