YOLO26 vs YOLOv5: un salto generazionale nel rilevamento degli oggetti

L'evoluzione della visione artificiale è stata definita dall'incessante ricerca di velocità, accuratezza e accessibilità. Scegliere l'architettura giusta è fondamentale per il successo di qualsiasi progetto AI. In questa guida completa, confrontiamo due uscite monumentali di Ultralytics: il pionieristico YOLOv5 e l'innovativo YOLO26. Sebbene entrambi abbiano influenzato pesantemente il panorama del rilevamento di oggetti in tempo reale, le loro tecnologie sottostanti riflettono un massiccio cambio di paradigma nel modo in cui le reti neurali elaborano i dati visivi.

Panoramica del modello

Prima di addentrarci nelle sfumature architettoniche, stabiliamo i dettagli fondamentali di entrambi i modelli.

Dettagli YOLO26:

Scopri di più su YOLO26

Dettagli YOLOv5:

Scopri di più su YOLOv5

Esplorazione di altre opzioni

Sebbene questa guida si concentri su YOLO26 e YOLOv5, gli sviluppatori che migrano sistemi legacy potrebbero essere interessati a confrontare YOLO11 o l'architettura pionieristica senza NMS di YOLOv10. Entrambi offrono ottimi punti di partenza per specifici ambienti di distribuzione.

Innovazioni architettoniche

Il divario di sei anni tra YOLOv5 e YOLO26 rappresenta un enorme salto nella ricerca sul deep learning. YOLOv5 ha reso popolare l'uso diffuso di PyTorch per i modelli di visione, offrendo un meccanismo di rilevamento basato su anchor altamente ottimizzato che è diventato lo standard del settore. Tuttavia, faceva molto affidamento sulla Non-Maximum Suppression (NMS) durante la post-elaborazione, il che poteva introdurre colli di bottiglia di latenza su dispositivi con risorse limitate.

YOLO26 reimmagina completamente la pipeline di inferenza con un design End-to-End senza NMS. Eliminando la necessità di post-elaborazione NMS, YOLO26 offre una logica di distribuzione più veloce e molto più semplice, un concetto introdotto per la prima volta in YOLOv10 ma perfezionato qui. Inoltre, YOLO26 presenta la rimozione DFL (Distribution Focal Loss), che semplifica drasticamente la head di output. Ciò rende l'esportazione del modello in formati come ONNX e TensorRT incredibilmente fluida, garantendo un'eccellente compatibilità con dispositivi edge e a basso consumo.

Durante l'addestramento, YOLO26 impiega l'innovativo ottimizzatore MuSGD, un ibrido di SGD e Muon ispirato a Kimi K2 di Moonshot AI. Ciò porta le innovazioni dell'addestramento LLM nel campo della visione artificiale, garantendo un addestramento altamente stabile e una convergenza significativamente più rapida rispetto ai tradizionali ottimizzatori SGD o AdamW utilizzati in YOLOv5.

Prestazioni e metriche

Quando si valutano i modelli, l'equilibrio tra mean Average Precision (mAP) e velocità di inferenza determina la fattibilità nel mondo reale. YOLO26 è ottimizzato nativamente sia per GPU di fascia alta che per CPU edge.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOP
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

I benchmark rivelano un miglioramento sbalorditivo. Ad esempio, YOLO26n raggiunge un mAP di 40.9 rispetto al 28.0 di YOLOv5n, offrendo contemporaneamente fino al 43% di velocità di inferenza CPU superiore. Ciò rende YOLO26 decisamente superiore per implementazioni embedded come Raspberry Pi o dispositivi mobili. Sebbene YOLOv5 mantenga un leggero vantaggio nella velocità GPU TensorRT su scala Nano, il compromesso sull'accuratezza favorisce pesantemente YOLO26.

Ecosistema di addestramento e facilità d'uso

Entrambi i modelli beneficiano immensamente dell'ecosistema Ultralytics ben curato. Offrono un'esperienza "da zero a eroe" con un'API Python semplificata, un'ampia documentazione e un supporto attivo dalla community. Tuttavia, YOLO26 porta l'efficienza dell'addestramento a un nuovo livello.

I modelli Ultralytics richiedono costantemente una memoria CUDA significativamente inferiore durante l'addestramento rispetto alle alternative pesanti basate su Transformer. YOLO26 amplifica questo aspetto con le sue funzioni di perdita ProgLoss + STAL. Questi progressi producono notevoli miglioramenti nel riconoscimento di piccoli oggetti senza aumentare il sovraccarico di memoria.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Questo semplice script consente agli sviluppatori di iterare rapidamente su dataset personalizzati, passando senza problemi dall'acquisizione dei dati a un modello pronto per la produzione.

Distribuzione resa semplice

Utilizzando la piattaforma Ultralytics, puoi esportare automaticamente i tuoi modelli YOLO26 addestrati in formati come CoreML o TensorFlow Lite senza scrivere una sola riga di codice di conversione.

Versatilità e casi d'uso ideali

Quando utilizzare YOLOv5

YOLOv5 rimane un cavallo di battaglia affidabile per i sistemi legacy. Se hai una pipeline industriale esistente strettamente accoppiata a output basati su anchor, o se stai eseguendo l'inferenza su dispositivi NVIDIA Jetson meno recenti con stack TensorRT maturi e bloccati, YOLOv5 fornisce una soluzione stabile e altamente documentata.

Quando utilizzare YOLO26

YOLO26 è la scelta definitiva per i moderni progetti di visione artificiale. La sua versatilità supera di gran lunga quella del suo predecessore. Mentre YOLOv5 si concentra principalmente sul rilevamento (con aggiunte successive di segmentazione), YOLO26 offre un supporto profondo e nativo per segmentazione dell'istanza, stima della posa, classificazione delle immagini e BBox orientate (OBB).

YOLO26 introduce miglioramenti specifici per attività, come una perdita di segmentazione semantica specializzata, la stima della log-verosimiglianza residua (RLE) per keypoint di posa ultra-precisi e una perdita angolare avanzata per OBB per risolvere complessi problemi di confine.

  • Edge IoT e robotica: l'architettura senza NMS e la velocità di inferenza CPU superiore del 43% rendono YOLO26 ideale per la navigazione robotica in tempo reale e le telecamere per la casa intelligente.
  • Immagini aeree: i miglioramenti ProgLoss + STAL rendono il rilevamento di oggetti minuscoli dai droni—come veicoli nei parcheggi o colture nei campi agricoli—sostanzialmente più affidabile.
  • Analisi video in tempo reale: che si tratti di tracciare atleti nelle trasmissioni sportive o monitorare i flussi di traffico, l'equilibrio delle prestazioni di YOLO26 garantisce un'elevata richiamata senza perdere fotogrammi.

In definitiva, l'impegno di Ultralytics verso un ecosistema accessibile e ad alte prestazioni garantisce che la transizione da YOLOv5 a YOLO26 sia priva di attriti, sbloccando funzionalità all'avanguardia sia per ricercatori che per sviluppatori.

Commenti