Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 contro YOLOv7: un confronto tecnico completo#

L'evoluzione del rilevamento di oggetti in tempo reale ha visto numerosi traguardi, con Ultralytics YOLO26 e YOLOv7 che rappresentano due significativi passi avanti nelle capacità di visione artificiale. Mentre YOLOv7 ha introdotto la potente metodologia "bag-of-freebies" che ha ridefinito i benchmark di accuratezza nel 2022, la nuova architettura YOLO26 introduce ottimizzazioni orientate all'edge, elaborazione nativamente end-to-end e dinamiche di addestramento stabili ispirate alle innovazioni dei Large Language Model (LLM).

Questo approfondimento mette a confronto queste due architetture, analizzando le loro metriche di performance, le differenze strutturali e gli scenari di distribuzione ideali per aiutare gli ingegneri di machine learning a prendere decisioni informate per il loro prossimo progetto di visione AI.

Link to this sectionContesto e dettagli del modello#

Prima di esaminare i dati sulle performance, è importante comprendere le origini e gli obiettivi primari di ogni modello.

Link to this sectionUltralytics YOLO26#

Autori: Glenn Jocher e Jing Qiu
Organizzazione: Ultralytics
Data: 2026-01-14
GitHub: Repository Ultralytics
Documentazione: Documentazione YOLO26

Scopri di più su YOLO26

Link to this sectionYOLOv7#

Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organizzazione: Institute of Information Science, Academia Sinica, Taiwan
Data: 2022-07-06
Arxiv: Paper YOLOv7
GitHub: Repository YOLOv7

Scopri di più su YOLOv7

Modelli alternativi da considerare

Se stai esplorando l'ecosistema più ampio, potresti essere interessato anche a YOLO11 per distribuzioni multi-task altamente bilanciate, o al RT-DETR basato su Transformer per il rilevamento basato su sequenze. Nota che i modelli più vecchi come YOLOv8 e YOLOv5 rimangono pienamente supportati sulla Ultralytics Platform per l'integrazione legacy.

Link to this sectionApprofondimento architettonico#

Le filosofie architettoniche dietro YOLO26 e YOLOv7 divergono significativamente, riflettendo il passaggio dalla massimizzazione delle prestazioni GPU di fascia alta all'ottimizzazione per una distribuzione edge end-to-end fluida.

Link to this sectionYOLO26: il paradigma Edge-First#

Rilasciato nel 2026, YOLO26 ripensa radicalmente la pipeline di distribuzione. La sua innovazione più significativa è il design end-to-end NMS-Free. Eliminando la post-elaborazione Non-Maximum Suppression (NMS), YOLO26 riduce drasticamente la variabilità della latenza, un concetto che è stato sperimentato con successo per la prima volta in YOLOv10. Ciò garantisce frame rate costanti anche in scene densamente popolate, il che è fondamentale per la robotica autonoma e il monitoraggio del traffico.

Inoltre, YOLO26 rimuove completamente la Distribution Focal Loss (DFL). Questa DFL Removal semplifica il processo di esportazione verso formati come ONNX e Apple CoreML, ottenendo un'inferenza su CPU fino al 43% più veloce.

La stabilità dell'addestramento è un altro focus principale. L'introduzione dell'ottimizzatore MuSGD—un ibrido tra il Stochastic Gradient Descent standard e Muon (ispirato dalle dinamiche di addestramento di Kimi K2)—porta la stabilità avanzata dell'addestramento LLM nella visione artificiale. Combinato con le funzioni di perdita ProgLoss + STAL, YOLO26 eccelle nel riconoscimento di oggetti piccoli, una sfida storica per i rilevatori in tempo reale.

Link to this sectionYOLOv7: la maestria del Bag-of-Freebies#

YOLOv7 è stato costruito su uno studio esaustivo dell'ottimizzazione del percorso del gradiente. La sua innovazione principale è l'Extended Efficient Layer Aggregation Network (E-ELAN), che consente al modello di apprendere caratteristiche più diversificate senza interrompere i percorsi del gradiente originali.

L'architettura YOLOv7 si basa pesantemente anche su tecniche di ri-parametrizzazione durante l'inferenza, fondendo essenzialmente i layer per aumentare la velocità senza sacrificare le ricche rappresentazioni delle caratteristiche apprese durante l'addestramento. Sebbene potente sulle GPU server standard NVIDIA TensorRT, questo approccio si basa ancora su teste di rilevamento basate su ancore e sul tradizionale NMS, il che può introdurre attriti di distribuzione su dispositivi a bassa potenza.

Link to this sectionConfronto delle Prestazioni#

La tabella seguente fornisce un confronto diretto dei modelli addestrati sul dataset standard COCO. YOLO26 dimostra miglioramenti significativi nell'accuratezza (mAP) mantenendo un equilibrio eccezionale di parametri e FLOP.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Nota: YOLO26x supera YOLOv7x nel mAP di un margine impressionante (57.5 contro 53.1) richiedendo circa il 22% in meno di parametri.

Link to this sectionIl vantaggio dell'ecosistema Ultralytics#

Un motivo principale per cui gli sviluppatori scelgono costantemente YOLO26 è la sua profonda integrazione nella Ultralytics Platform. A differenza degli script autonomi richiesti per le architetture più vecchie, Ultralytics fornisce un flusso di lavoro fluido e unificato.

  1. Facilità d'uso: L'API Python ti permette di caricare, addestrare e distribuire modelli in poche righe di codice. L'esportazione verso formati mobile come TensorFlow Lite richiede semplicemente la modifica di un singolo argomento.
  2. Requisiti di memoria: I modelli Ultralytics sono progettati meticolosamente per l'efficienza dell'addestramento. Richiedono molta meno memoria CUDA rispetto ai pesanti modelli vision transformer, consentendo ai ricercatori di eseguire batch size più grandi su hardware consumer.
  3. Versatilità: Mentre YOLOv7 richiede repository completamente diverse per compiti diversi, YOLO26 supporta nativamente Classificazione di immagini, Segmentazione di istanze, Stima della posa e rilevamento Oriented Bounding Box (OBB) da un'unica libreria coesa. Include persino funzioni di perdita specifiche per il compito, come la Residual Log-Likelihood Estimation (RLE) per le pipeline di posa umana.
  4. Sviluppo attivo: La comunità open-source di Ultralytics fornisce aggiornamenti frequenti, garantendo una rapida risoluzione dei casi limite e una compatibilità continua con le ultime versioni di PyTorch.
Esportazione semplificata

Poiché YOLO26 è nativamente privo di NMS, la distribuzione su target embedded utilizzando Intel OpenVINO o ONNX Runtime elimina completamente i complessi script di post-elaborazione.

Link to this sectionCasi d'uso nel mondo reale#

Le differenze architettoniche tra questi modelli dettano i loro scenari di distribuzione ideali.

Link to this sectionQuando scegliere YOLO26#

YOLO26 è la raccomandazione indiscussa per i sistemi di visione artificiale moderni e lungimiranti.

  • Edge AI e IoT: Con la sua inferenza CPU più veloce del 43% e un numero di parametri leggero, YOLO26n è perfetto per dispositivi limitati come Raspberry Pi o telecamere smart city.
  • Drone e immagini aeree: L'integrazione di ProgLoss + STAL migliora drasticamente il rilevamento di piccoli oggetti, rendendolo la scelta principale per le ispezioni di pipeline e l'agricoltura di precisione.
  • Robotica multi-task: Poiché gestisce facilmente bounding box, maschere di segmentazione e keypoint di posa contemporaneamente con un overhead di memoria minimo, è altamente adatto per la navigazione robotica dinamica e l'interazione.

Link to this sectionQuando considerare YOLOv7#

Sebbene per lo più superato da architetture più recenti, YOLOv7 mantiene specifiche utilità di nicchia.

  • Benchmarking accademico: I ricercatori che sviluppano nuove teste di rilevamento basate su ancore o studiano strategie di percorso del gradiente utilizzano frequentemente YOLOv7 come base di confronto standard su piattaforme come Papers With Code.
  • Pipeline GPU Legacy: I sistemi aziendali costruiti su misura attorno agli output tensoriali specifici e alle configurazioni NMS personalizzate di YOLOv7 su potenti istanze AWS EC2 P4d potrebbero ritardare la migrazione verso modelli più recenti fino a quando non sarà necessario un refactoring totale del sistema.

Link to this sectionEsempio di codice: per iniziare#

L'esperienza dello sviluppatore evidenzia il netto contrasto tra le repository di ricerca standard e l'ecosistema Ultralytics. Addestrare un modello YOLO26 personalizzato è straordinariamente semplice:

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on your custom dataset with automated caching and logging
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Perform an end-to-end NMS-free prediction on an external image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export the optimized model for edge deployment
model.export(format="onnx")

Link to this sectionConsiderazioni finali#

Mentre YOLOv7 rimane un traguardo rispettato nella storia del rilevamento di oggetti in tempo reale, l'industria si è mossa aggressivamente verso modelli che privilegiano la semplicità di distribuzione, la versatilità multi-task e l'efficienza edge.

Eliminando l'NMS, introducendo l'ottimizzatore MuSGD e migliorando drasticamente le velocità di inferenza CPU, Ultralytics YOLO26 si pone come la scelta definitiva per gli sviluppatori e gli ingegneri aziendali di oggi. Accoppiato con il solido e intuitivo ecosistema Ultralytics, fornisce un equilibrio senza pari di velocità, accuratezza e soddisfazione ingegneristica.

Collaboratori

Commenti