YOLO11 . YOLO26: L'evoluzione del rilevamento di oggetti in tempo reale
Il panorama della visione artificiale è in continua evoluzione, con ogni nuova iterazione del modello che spinge i confini della velocità, della precisione e dell'usabilità. Due pietre miliari significative in questo percorso sono YOLO11 e l'innovativo YOLO26. Mentre YOLO11 uno standard solido per l'implementazione aziendale alla fine del 2024, YOLO26 rappresenta un cambiamento di paradigma con la sua architettura end-to-end nativa e il design CPU.
Questa guida offre un confronto tecnico completo per aiutare sviluppatori, ricercatori e ingegneri a scegliere lo strumento più adatto alle loro specifiche applicazioni di visione artificiale.
Sintesi: differenze principali
Sebbene entrambi i modelli siano basati sui principi fondamentali della famiglia YOLO You Only Look Once), essi divergono in modo significativo nella loro filosofia architettonica.
- YOLO11: Progettato per garantire versatilità e integrazione nell'ecosistema. Si basa su metodi di post-elaborazione tradizionali come la soppressione non massima (NMS), ma offre un framework altamente stabile e ben supportato per un'ampia varietà di attività.
- YOLO26: Progettato per l'edge computing e a prova di futuro. Introduce un design nativo end-to-end NMS, eliminando complesse fasi di post-elaborazione. È inoltre dotato dell'innovativo ottimizzatore MuSGD ed è specificamente progettato per CPU , rendendolo fino al 43% più veloce su dispositivi come Raspberry Pi.
Analisi dettagliata delle prestazioni
Il divario prestazionale tra le generazioni viene spesso misurato in millisecondi e punti percentuali della precisione media (mAP). La tabella sottostante evidenzia i miglioramenti in termini di velocità e accuratezza. Si noti la significativa riduzione del tempo CPU per YOLO26, un parametro fondamentale per le implementazioni di IA edge.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
YOLO11: lo standard versatile
YOLO11
Autori: Glenn Jocher e Jing Qiu
Organizzazione: Ultralytics
Data: 27/09/2024
GitHub: Ultralytics
YOLO11 un importante perfezionamento nella YOLO , concentrandosi sull'efficienza dell'estrazione delle caratteristiche. Ha migliorato YOLOv8 ottimizzando il blocco C3k2 e introducendo miglioramenti SPPF.
Punti di forza:
- Robustezza comprovata: ampiamente adottato nel settore, con numerosi plugin e supporto da parte della comunità.
- GPU : altamente efficiente su NVIDIA (T4, A100) utilizzando TensorRT, che la rende eccellente per l'inferenza basata su cloud.
- Versatilità delle attività: ottime prestazioni in termini di rilevamento, segmentazione e stima della posizione.
Punti deboli:
- NMS : richiede la post-elaborazione Non-Maximum Suppression, che può introdurre variabilità nella latenza e complicare le pipeline di distribuzione.
- FLOP più elevati: leggermente più oneroso dal punto di vista computazionale rispetto alle architetture più recenti.
YOLO26: L'innovatore all'avanguardia
YOLO26
Autori: Glenn Jocher e Jing Qiu
Organizzazione: Ultralytics
Data: 14/01/2026
GitHub: Ultralytics
YOLO26 è un'architettura lungimirante che privilegia l'efficienza su hardware standard. Eliminando la necessità di NMS ottimizzando i set CPU , sblocca prestazioni in tempo reale su dispositivi precedentemente considerati troppo lenti per l'IA moderna.
Innovazioni chiave:
- End-to-End NMS: prevedendo direttamente le corrispondenze uno a uno, YOLO26 elimina il NMS . Ciò semplifica CoreML l'esportazione in ONNX o CoreML .
- Rimozione DFL: la rimozione del flusso Distribution Focal Loss semplifica la testa di uscita, migliorando la compatibilità con i dispositivi edge a bassa potenza.
- MuSGD Optimizer: ispirato alle tecniche di addestramento dei modelli linguistici di grandi dimensioni (LLM) (in particolare Kimi K2 di Moonshot AI), questo ottimizzatore ibrido combina SGD con Muon per una convergenza e una stabilità più rapide.
- ProgLoss + STAL: nuove funzioni di perdita migliorano il rilevamento di oggetti di piccole dimensioni, un requisito fondamentale per le immagini aeree e la robotica.
Analisi Approfondita dell'Architettura
Il passaggio da YOLO11 YOLO26 non riguarda solo il numero di parametri, ma rappresenta un cambiamento fondamentale nel modo in cui il modello apprende e prevede.
Metodologie di formazione ed efficienza
Una delle caratteristiche distintive dei Ultralytics è l'efficienza della formazione. Entrambi i modelli beneficiano della Ultralytics integrata, che consente una gestione ottimale dei set di dati e una formazione cloud.
Tuttavia, YOLO26 introduce l'ottimizzatore MuSGD, che adatta gli aggiornamenti del momentum per gestire i complessi scenari di perdita dei modelli di visione in modo più efficace rispetto agli standard AdamW SGD. Ciò si traduce in modelli che convergono più rapidamente, risparmiando preziose ore GPU e riducendo l'impronta di carbonio della formazione.
Inoltre, YOLO26 utilizza perdite specifiche per attività migliorate:
- Segmentazione: perdita di segmentazione semantica migliorata e moduli proto multiscala.
- Pose: stima della verosimiglianza residua del log (RLE) per una localizzazione più accurata dei punti chiave.
- OBB: Perdita di angolo specializzata per risolvere le discontinuità dei confini nelle attività Oriented Bounding Box.
Requisiti di Memoria
YOLO Ultralytics sono rinomati per il loro basso impatto sulla memoria rispetto alle architetture basate su trasformatori come RT-DETR o SAM .
Ottimizzazione della Memoria
Sia YOLO11 YOLO26 sono progettati per essere addestrati su GPU di livello consumer (ad esempio, NVIDIA 3060 o 4070). A differenza dei modelli di trasformatori massivi che richiedono 24 GB+ di VRAM, YOLO efficienti YOLO possono spesso essere ottimizzate su dispositivi con soli 8 GB di VRAM utilizzando dimensioni di batch appropriate.
Casi d'uso reali
La scelta tra YOLO11 YOLO26 dipende spesso dall'hardware di implementazione e dalle esigenze specifiche dell'applicazione.
Scenari Ideali per YOLO11
- Servizi API cloud: dove sono disponibili potenti GPU e dove l'elevata produttività (elaborazione batch) è più importante della latenza delle singole immagini.
- Integrazioni legacy: sistemi già costruiti attorno a pipeline NMS in cui non è possibile modificare la logica di post-elaborazione.
- Analisi generiche: mappatura termica dei negozi al dettaglio o conteggio dei clienti con l'utilizzo di GPU standard.
Scenari Ideali per YOLO26
- IoT e dispositivi edge: esecuzione del rilevamento degli oggetti su Raspberry Pi, NVIDIA Nano o telefoni cellulari. CPU del 43% CPU rappresenta una svolta rivoluzionaria in questo campo.
- Robotica: la variazione della latenza è fatale per i circuiti di controllo. Il design NMS garantisce tempi di inferenza deterministici, fondamentali per la navigazione autonoma.
- Rilevamento aereo: la funzione ProgLoss migliora significativamente il riconoscimento di oggetti di piccole dimensioni, rendendo YOLO26 superiore per l'analisi delle riprese effettuate con i droni.
- Sistemi integrati: dispositivi con capacità di elaborazione limitata che non possono sostenere il sovraccarico di ordinare migliaia di caselle candidate durante NMS.
Implementazione del codice
Entrambi i modelli condividono la stessa facilità d'uso che caratterizza Ultralytics . Il passaggio da YOLO11 YOLO26 richiede solo la modifica della stringa del modello.
from ultralytics import YOLO
# Load the latest YOLO26 model (NMS-free, CPU optimized)
model = YOLO("yolo26n.pt")
# Run inference on a local image
results = model("path/to/image.jpg")
# Process results
for result in results:
result.show() # Display to screen
result.save(filename="result.jpg") # Save to disk
Questa API unificata garantisce agli sviluppatori la possibilità di sperimentare diverse architetture senza dover riscrivere l'intero codice.
Conclusione
Entrambe le architetture dimostrano perché Ultralytics leader nel campo della visione artificiale open source. YOLO11 offre una soluzione matura, versatile e GPU, perfetta per i data center aziendali. YOLO26, invece, rappresenta il futuro dell'edge AI, offrendo CPU incredibilmente veloci e una pipeline end-to-end semplificata che elimina i tradizionali colli di bottiglia.
Per la maggior parte dei nuovi progetti, in particolare quelli che prevedono l'implementazione edge, app mobili o robotica,YOLO26 è la scelta consigliata grazie al suo eccellente rapporto velocità-precisione e al suo design architettonico moderno.
Altri modelli da esplorare
- YOLOv10: Il pioniere dell'approccio NMS nella YOLO .
- RT-DETR: un rilevatore basato su trasformatore che offre un'elevata precisione in scenari in cui la velocità è secondaria.
- YOLOv8: un classico altamente affidabile, ancora ampiamente utilizzato per la sua vasta libreria di risorse.