YOLO26 vs. YOLOv9: la prossima evoluzione nel rilevamento di oggetti in tempo reale

L'evoluzione delle architetture di rilevamento degli oggetti è stata caratterizzata da una costante ricerca di velocità, precisione ed efficienza. Confrontando YOLO26 con YOLOv9 evidenzia questa rapida progressione. Mentre YOLOv9 i confini della conservazione delle informazioni con gradienti programmabili, il più recente YOLO26 ridefinisce il panorama con un'architettura end-to-end NMS, ottimizzata specificamente per le prestazioni edge e per CPU notevole CPU .

Panoramica del modello

YOLO26

YOLO26 rappresenta lo stato dell'arte nell'intelligenza artificiale visiva all'inizio del 2026. Sviluppato da Ultralytics, introduce un design nativo end-to-end che elimina la necessità della soppressione non massima (NMS), semplificando le pipeline di implementazione. Rimuovendo la perdita focale di distribuzione (DFL) e integrando il nuovo ottimizzatore MuSGD, un ibrido di SGD Muon ispirato all'addestramento LLM, YOLO26 raggiunge CPU fino al 43% più veloce, mantenendo al contempo un'accuratezza di alto livello.

Autori: Glenn Jocher, Jing Qiu
Organizzazione:Ultralytics
Data: 14 gennaio 2026
Caratteristiche principali: rilevamento end-to-end NMS, ottimizzatore MuSGD, ProgLoss + STAL
GitHub:Repository di Ultralytics

Scopri di più su YOLO26

YOLOv9

Rilasciato all'inizio del 2024, YOLOv9 ha introdotto il concetto di Programmable Gradient Information (PGI) e l'architettura GELAN. Queste innovazioni hanno risolto il problema del "colli di bottiglia informativi" nelle reti profonde, garantendo che i dati critici non andassero persi durante il processo di feed-forward. Rimane un modello potente, in particolare per le applicazioni di ricerca che richiedono un'elevata efficienza dei parametri.

Autori: Chien-Yao Wang, Hong-Yuan Mark Liao
Organizzazione: Institute of Information Science, Academia Sinica
Data: 21 febbraio 2024
Caratteristica principale: Informazioni sul gradiente programmabile (PGI), architettura GELAN
Arxiv:YOLOv9
GitHub:Repository YOLOv9

Scopri di più su YOLOv9

Confronto dell'Architettura Tecnica

La divergenza architettonica tra questi due modelli indica un passaggio dall'ottimizzazione teorica del flusso di informazioni all'efficienza pratica dell'implementazione.

YOLO26: Efficienza e progettazione edge-first

YOLO26 si concentra sulla riduzione del sovraccarico computazionale della post-elaborazione e del calcolo delle perdite.

End-to-End NMS: a differenza dei rilevatori tradizionali che generano bounding box ridondanti che richiedono NMS, YOLO26 prevede direttamente l'insieme esatto di oggetti. Ciò riduce la varianza della latenza e semplifica l'esportazione in formati come ONNX TensorRT, poiché non sono più necessari complessi NMS personalizzati.
ProgLoss + STAL: l'introduzione della perdita progressiva (Progressive Loss) e dell'etichettatura soft-target (Soft-Target Anchor Labeling) migliora significativamente il rilevamento di oggetti di piccole dimensioni, un requisito fondamentale per le immagini riprese dai droni e l'ispezione robotica.
MuSGD Optimizer: portando le innovazioni dall'addestramento dei modelli linguistici di grandi dimensioni alla visione artificiale, questo ottimizzatore ibrido stabilizza lo slancio dell'addestramento, consentendo una convergenza più rapida con una minore regolazione degli iperparametri.

YOLOv9: Conservazione delle informazioni

L'architettura YOLOv9 è stata progettata per risolvere il problema della perdita di informazioni nelle reti profonde.

PGI (Programmable Gradient Information): un ramo di supervisione ausiliario genera gradienti affidabili per l'aggiornamento dei pesi della rete, garantendo che gli strati profondi conservino le informazioni semantiche.
GELAN (Generalized Efficient Layer Aggregation Network): questa struttura ottimizza l'utilizzo dei parametri, consentendo a YOLOv9 raggiungere un'elevata precisione con un numero inferiore di parametri rispetto ad alcuni dei suoi predecessori, anche se spesso a costo di una maggiore complessità computazionale (FLOP) rispetto allo snello YOLO26.

Semplicità di Deployment

La rimozione NMS YOLO26 rappresenta una svolta rivoluzionaria per l'implementazione edge. Nei modelli precedenti come YOLOv9, la NMS viene eseguita sulla CPU se il modello funziona su una GPU, creando un collo di bottiglia. L'output di YOLO26 è immediatamente pronto all'uso, rendendolo significativamente più veloce su Raspberry Pi e dispositivi mobili.

Metriche di performance

La tabella seguente mette a confronto i modelli su benchmark standard. Da notare il significativo vantaggio in termini di velocità di YOLO26 CPU , risultato diretto delle ottimizzazioni della sua architettura.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Vantaggi dell'Ecosistema Ultralytics

Sebbene YOLOv9 solide basi teoriche, l'utilizzo di YOLO26 all'interno Ultralytics offre vantaggi distintivi per sviluppatori e aziende.

Facilità d'Uso Ineguagliabile

Python Ultralytics trasforma complessi flussi di lavoro di formazione in poche righe di codice. Questa esperienza "da zero a eroe" contrasta con la configurazione incentrata sulla ricerca di molti altri repository.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled by default
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Versatilità tra le attività

A differenza di YOLOv9, che si concentra principalmente sul rilevamento, il Ultralytics e YOLO26 supportano nativamente una gamma più ampia di attività di visione artificiale. Ciò consente di utilizzare un'unica API unificata per:

Segmentazione delle istanze: mascheramento preciso degli oggetti a livello di pixel.
Stima della posa: rilevamento dei punti chiave per l'analisi dell'attività umana.
OBB (Oriented Bounding Box): Rilevamento di oggetti ruotati come navi nelle immagini satellitari.
Classificazione: categorizzazione dell'intera immagine.

Allenamento ed efficienza della memoria

Ultralytics sono progettati per essere efficienti dal punto di vista delle risorse. YOLO26 richiede in genere meno GPU (VRAM) durante l'addestramento rispetto alle alternative che fanno un uso intensivo di trasformatori. Questa efficienza consente di:

Lotti più grandi su hardware consumer.
Ridurre i costi del cloud computing.
Cicli di sperimentazione più rapidi con pesi pre-addestrati prontamente disponibili.

Applicazioni nel mondo reale

La scelta del modello giusto dipende dai vincoli specifici di implementazione.

Edge Computing e IoT

YOLO26 è il campione indiscusso dei dispositivi edge. CPU sua CPU più veloce del 43% lo rende adatto al monitoraggio in tempo reale su dispositivi come Raspberry Pi o NVIDIA Nano senza necessità di una quantizzazione pesante. Ad esempio, un sistema di parcheggio intelligente in esecuzione su hardware locale trae enormi vantaggi dal design NMS, riducendo i picchi di latenza.

Ispezione ad alta quota

Per il monitoraggio agricolo o l'ispezione delle infrastrutture tramite droni, YOLO26 eccelle grazie alle funzioni ProgLoss + STAL. Queste sono specificamente ottimizzate per gestire oggetti di piccole dimensioni e rapporti di aspetto difficili meglio rispetto alle generazioni precedenti, garantendo un rilevamento più accurato delle crepe nelle condutture o dei parassiti sulle colture.

Ricerca accademica

YOLOv9 rimane un valido candidato per la ricerca accademica, in particolare per gli studi incentrati sul flusso di gradiente e sulla teoria dell'architettura di rete. Il suo concetto di PGI offre una strada affascinante per esplorare il modo in cui le reti neurali conservano la profondità delle informazioni.

Conclusione

Entrambe le architetture rappresentano pietre miliari significative nella visione artificiale. YOLOv9 l'importanza delle informazioni sul gradiente nelle reti profonde. Tuttavia, YOLO26 traduce queste lezioni in un potente strumento pronto per la produzione. Con il suo design end-to-end NMS, CPU superiore CPU e la perfetta integrazione nella Ultralytics , YOLO26 offre il miglior equilibrio tra velocità, precisione e facilità d'uso per le moderne applicazioni di IA.

Agli sviluppatori che desiderano rimanere all'avanguardia, consigliamo di migrare a YOLO26 per sfruttare gli ultimi progressi in termini di stabilità dell'ottimizzatore e prestazioni all'avanguardia.

Letture aggiuntive

Se sei interessato ad altri modelli ad alte prestazioni della Ultralytics , dai un'occhiata a YOLO11 per attività generiche o RT-DETR per il rilevamento in tempo reale basato su trasformatori.