YOLO26 vs.YOLO: l'evoluzione del rilevamento di oggetti in tempo reale
Il panorama della visione artificiale evolve rapidamente, con nuove architetture che spingono costantemente i limiti della velocità e della precisione. Due pietre miliari significative in questa cronologia sono YOLO, sviluppato da Alibaba Group alla fine del 2022, e YOLO26, il modello all'avanguardia rilasciato da Ultralytics 2026.
MentreYOLO concetti innovativi come Neural Architecture Search (NAS) nella YOLO , YOLO26 rappresenta un cambiamento di paradigma verso l'elaborazione end-to-end nativa e il design edge-first. Questo confronto dettagliato esplora le differenze architetturali, le metriche delle prestazioni e le realtà di implementazione di questi due potenti modelli per aiutare gli sviluppatori a scegliere lo strumento giusto per le loro esigenze di rilevamento degli oggetti.
Confronto delle metriche di performance
La tabella seguente mette a confronto le prestazioni di YOLO26 con quelle diYOLO. Si notino i significativi miglioramenti nella velocità di inferenza, in particolare per le operazioni CPU, che è una caratteristica distintiva dell'architettura YOLO26.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Ultralytics : il nuovo standard
Rilasciato nel gennaio 2026 da Ultralytics, YOLO26 si basa sull'eredità di YOLO11 e YOLOv8, introducendo cambiamenti radicali nella pipeline di rilevamento. La sua filosofia di progettazione principale si concentra sull'eliminazione dei colli di bottiglia nell'implementazione e nell'addestramento, rendendolo il modello più efficiente sia per le GPU di fascia alta che per i dispositivi edge con risorse limitate.
Innovazioni Chiave
- Progettazione end-to-end NMS: a differenza delle generazioni precedenti e dei concorrenti comeYOLO, YOLO26 è nativamente end-to-end. Elimina la necessità della post-elaborazione Non-Maximum Suppression (NMS). Ciò riduce la varianza della latenza e semplifica le pipeline di implementazione, un approccio innovativo introdotto per la prima volta in YOLOv10.
- Ottimizzatore MuSGD: ispirato dai recenti progressi nella formazione dei modelli linguistici di grandi dimensioni (LLM), YOLO26 utilizza un ibrido di SGD Muon. Questo ottimizzatore offre una maggiore stabilità durante la formazione e una convergenza più rapida, riducendo il costo di calcolo necessario per raggiungere una precisione ottimale.
- Ottimizzazione Edge-First: eliminando la Distribution Focal Loss (DFL), l'architettura del modello è stata semplificata per facilitare l'esportazione in formati come ONNX CoreML. Ciò contribuisce a una velocità CPU notevolmente più veloce del 43% rispetto alle iterazioni precedenti, rendendolo ideale per dispositivi come il Raspberry Pi o i telefoni cellulari.
- Rilevamento avanzato di oggetti di piccole dimensioni: l'integrazione di ProgLoss e STAL (Scale-Aware Training Adaptive Loss) migliora significativamente le prestazioni su oggetti di piccole dimensioni, risolvendo una debolezza comune nei rilevatori a stadio singolo.
Deployment Semplificato
Poiché YOLO26 elimina la NMS , i modelli esportati sono reti neurali pure senza codice di post-elaborazione complesso. Ciò rende l'integrazione in ambienti C++ o mobili notevolmente più semplice e meno soggetta a errori logici.
Esempio di codice
L'esperienza utente con YOLO26 rimane coerente con Python semplificato Ultralytics .
from ultralytics import YOLO
# Load the nano model
model = YOLO("yolo26n.pt")
# Run inference on an image without needing NMS configuration
results = model.predict("image.jpg", show=True)
# Export to ONNX for edge deployment
path = model.export(format="onnx")
YOLO: Il concorrente guidato dal NAS
YOLO, sviluppato dalla DAMO Academy di Alibaba, ha fatto scalpore nel 2022 sfruttando la Neural Architecture Search (NAS) per progettare la sua struttura portante. Anziché creare manualmente la struttura della rete, gli autori hanno utilizzato MAE-NAS (Method of Auxiliary Edges) per individuare automaticamente architetture efficienti con specifici vincoli di latenza.
Caratteristiche principali
- Backbone MAE-NAS: la struttura della rete è stata ottimizzata matematicamente per massimizzare il flusso di informazioni riducendo al minimo i costi di calcolo.
- RepGFPN: un'efficiente rete piramidale di caratteristiche che utilizza la riparametrizzazione per migliorare la fusione delle caratteristiche su scale diverse.
- ZeroHead: un design leggero della testa di rilevamento volto a ridurre il numero di parametri alla fine della rete.
- AlignedOTA: una strategia di assegnazione delle etichette che aiuta il modello a comprendere meglio quali anchor box corrispondono agli oggetti reali durante l'addestramento.
SebbeneYOLO prestazioni eccellenti per l'epoca, la sua dipendenza da una complessa pipeline di addestramento per distillazione, in cui un modello insegnante più grande guida il modello studente più piccolo, rende l'addestramento personalizzato più dispendioso in termini di risorse rispetto alle capacità di "addestramento da zero" Ultralytics .
Confronto dettagliato
Architettura e stabilità della formazione
La differenza più evidente risiede nell'approccio di ottimizzazione.YOLO al NAS per trovare la struttura migliore, che può produrre FLOP teorici altamente efficienti ma spesso porta ad architetture difficili da modificare o debuggare.
YOLO26, al contrario, impiega miglioramenti architettonici artigianali e basati sull'intuizione (come la rimozione del DFL e della testa NMS) rafforzati dall'ottimizzatore MuSGD. Questo ottimizzatore apporta alla visione artificiale la stabilità che spesso si riscontra nei modelli LLM. Per gli sviluppatori, ciò significa che YOLO26 è meno sensibile alla regolazione degli iperparametri e converge in modo affidabile su set di dati personalizzati.
Velocità di Inferenza ed Efficienza delle Risorse
MentreYOLO per GPU utilizzando TensorRT, YOLO26 adotta un approccio più ampio. La rimozione di DFL e NMS YOLO26 di eccellere sulle CPU, raggiungendo velocità fino al 43% superiori rispetto ai modelli precedenti. Ciò è fondamentale per le applicazioni nell'analisi dei dati di vendita al dettaglio o nelle smart city, dove i dispositivi edge potrebbero non disporre di GPU dedicate.
Inoltre, i requisiti di memoria di YOLO26 durante l'addestramento sono generalmente inferiori. MentreYOLO richiedeYOLO l'addestramento di un modello teacher pesante per la distillazione al fine di ottenere risultati ottimali, YOLO26 raggiunge direttamente risultati SOTA, consentendo un notevole risparmio GPU e consumo energetico.
Versatilità ed ecosistema
Uno dei principali vantaggi Ultralytics è la versatilità.YOLO principalmente un rilevatore di oggetti. Al contrario, l'architettura YOLO26 supporta nativamente un'ampia gamma di attività di visione artificiale, tra cui:
- Segmentazione delle istanze (con perdite semantiche specializzate)
- Stima della posa (utilizzando RLE per una maggiore precisione)
- Riquadro di delimitazione orientato (OBB) (fondamentale per le immagini aeree)
- Classificazione delle immagini
Ciò consente a un unico team di sviluppo di utilizzare un'unica API e un unico framework per più problemi distinti, riducendo drasticamente il debito tecnico.
Tabella comparativa: Caratteristiche
| Funzionalità | YOLO26 | DAMO-YOLO |
|---|---|---|
| Data di rilascio | Gennaio 2026 | Novembre 2022 |
| Architettura | End-to-End, NMS | Basato su NAS, senza ancoraggio |
| Post-elaborazione | Nessuno (Risultato del modello = Finale) | Soppressione Non Massima (NMS) |
| Ottimizzatore | MuSGD (SGD Muone) | SGD AdamW |
| Pipeline di formazione | Monostadio, formazione da zero | Distillazione complessa (insegnante-studente) |
| Attività supportate | detect, segment, Pose, obb, classify | Rilevamento |
| Ottimizzazione Edge | Alta (senza DFL, ottimizzata per CPU) | Moderato (TensorRT ) |
Conclusione
Entrambe le architetture rappresentano momenti salienti nella storia del rilevamento degli oggetti.YOLO la potenza della ricerca automatizzata dell'architettura e della riparametrizzazione. Tuttavia, YOLO26 rappresenta il futuro dell'implementazione pratica dell'IA.
Eliminando il NMS , introducendo ottimizzatori di livello LLM come MuSGD e fornendo una soluzione unificata per la segmentazione, la posa e il rilevamento, Ultralytics offre un equilibrio superiore tra prestazioni e facilità d'uso. Per gli sviluppatori che realizzano applicazioni nel mondo reale, dall'automazione industriale alle app mobili, il solido ecosistema, la documentazione completa e la Ultralytics rendono YOLO26 la scelta più ovvia.
Per chi fosse interessato ad altri confronti, è possibile esplorare YOLO11 .YOLO o cercare alternative basate su trasformatori come RT-DETR.
Autorialità e riferimenti
YOLO26
- Autori: Glenn Jocher, Jing Qiu
- Organizzazione:Ultralytics
- Data: 2026-01-14
- Documentazione:Documentazione YOLO26
DAMO-YOLO
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- Organizzazione: Alibaba Group
- Data: 2022-11-23
- Articolo:arXiv:2211.15444