YOLO . YOLO26: una sfida tecnica per il rilevamento di oggetti in tempo reale
L'evoluzione della visione artificiale è stata guidata dalla costante ricerca di efficienza, velocità e precisione. Due nomi di spicco in questo settore sonoYOLO, sviluppato da Alibaba Group, e l'innovativo YOLO26, l'ultima versione di Ultralytics. MentreYOLO importanti innovazioni nella ricerca dell'architettura neurale (NAS) nel 2022, YOLO26 ridefinisce il panorama nel 2026 con un design end-to-end NMS su misura per l'implementazione edge e la scalabilità della produzione.
Questa guida fornisce un'analisi tecnica approfondita di questi due modelli, confrontandone le architetture, le metriche delle prestazioni e l'idoneità per applicazioni reali.
YOLO: Innovazione nella ricerca dell'architettura neurale
Sviluppato dalla DAMO Academy di Alibaba, YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) si concentra sull'automazione della progettazione di backbone di rilevamento per massimizzare le prestazioni in presenza di specifici vincoli di latenza.
Caratteristiche architettoniche chiave
YOLO siYOLO per diverse tecnologie avanzate:
- Ricerca dell'architettura neurale (NAS): a differenza delle strutture portanti progettate manualmente (come CSPDarknet),YOLO MAE-NAS (Metodo di ricerca automatizzata dell'architettura neurale efficiente) per individuare le strutture ottimali. Ciò si traduce in una topologia di rete specificamente ottimizzata per il compromesso tra operazioni in virgola mobile (FLOP) e precisione.
- RepGFPN: un design heavy neck che utilizza reti piramidali di caratteristiche generalizzate (GFPN) combinate con la riparametrizzazione. Ciò consente una fusione efficiente delle caratteristiche su scale diverse, migliorando il rilevamento di oggetti di dimensioni variabili.
- ZeroHead: una testa di rilevamento semplificata che riduce il carico computazionale durante l'inferenza.
- AlignedOTA: Una strategia di assegnazione dinamica delle etichette che risolve il disallineamento tra i task di classificazione e regressione durante il training.
Prestazioni e limitazioni
YOLO un significativo passo avanti nel 2022, superando le precedenti iterazioni come YOLOv6 e YOLOv7 in benchmark specifici. Tuttavia, la sua dipendenza da pipeline di addestramento complesse, in particolare la necessità di una fase di distillazione con un modello teacher di grandi dimensioni, può renderlo macchinoso per gli sviluppatori che hanno bisogno di iterare rapidamente su set di dati personalizzati. Inoltre, sebbene il suo RepGFPN sia potente, può essere dispendioso in termini di memoria rispetto alle architetture moderne ottimizzate.
Dettagli di DAMO-YOLO:
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organizzazione: Alibaba Group
- Data: 23 novembre 2022
- Arxiv: 2211.15444v2
- GitHub: YOLO
Ultralytics : la rivoluzione end-to-end dell'edge computing
Rilasciato nel gennaio 2026, Ultralytics si basa sull'eredità di YOLOv8 e YOLO11, introducendo un cambiamento fondamentale nel modo in cui vengono elaborati i rilevamenti. È progettato non solo per ottenere punteggi di benchmark elevati, ma anche per un'implementazione pratica e senza soluzione di continuità su qualsiasi dispositivo, dai server cloud ai dispositivi IoT con risorse limitate.
Architettura innovativa
YOLO26 incorpora diversi avanzamenti all'avanguardia che lo distinguono dai tradizionali rilevatori basati su anchor o senza anchor:
- Progettazione end-to-end NMS: forse il cambiamento più significativo è la rimozione della soppressione non massima (NMS). Adottando una strategia di abbinamento uno a uno durante l'addestramento (introdotta per la prima volta in YOLOv10), il modello produce direttamente le previsioni finali. Ciò elimina la varianza di latenza causata dalla NMS , che spesso rappresenta un collo di bottiglia nelle scene affollate.
- Ottimizzatore MuSGD: ispirato alle innovazioni nella formazione dei modelli linguistici di grandi dimensioni (LLM) come Kimi K2 di Moonshot AI, YOLO26 utilizza un ottimizzatore ibrido che combina SGD Muon. Ciò conferisce una stabilità senza precedenti alla formazione della visione artificiale, consentendo una convergenza più rapida.
- Rimozione DFL: rimuovendo la perdita focale di distribuzione, lo strato di output viene semplificato. Ciò rende l'esportazione in formati come ONNX e TensorRT , migliorando significativamente la compatibilità con dispositivi edge e microcontrollori a bassa potenza.
- ProgLoss + STAL: l'integrazione di Progressive Loss e Soft-Target Anchor Labeling (STAL) offre notevoli miglioramenti nel rilevamento di oggetti di piccole dimensioni, un requisito fondamentale per le immagini aeree e la robotica.
Superiorità nell'implementazione
YOLO26 è progettato per garantire velocità. Offre CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo la scelta ideale per applicazioni in esecuzione su Raspberry Pi, CPU mobili o PC Intel .
Dettagli YOLO26:
- Autori: Glenn Jocher e Jing Qiu
- Organizzazione: Ultralytics
- Data: 14 gennaio 2026
- Documentazione: Documentazione YOLO26
- GitHub: ultralytics
Analisi comparativa delle prestazioni
La tabella seguente mette a confronto le prestazioni diYOLO YOLO26 su modelli di varie dimensioni. YOLO26 dimostra un'efficienza superiore, raggiungendo mAP comparabile o migliore mAP una latenza significativamente inferiore, in particolare su CPU dove NMS dà il meglio di sé.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Vantaggio in termini di latenza
Il CPU ONNX per YOLO26 evidenziano l'enorme vantaggio del design NMS. Eliminando la fase di post-elaborazione, YOLO26 garantisce che il tempo di inferenza sia deterministico e costantemente basso, il che è fondamentale per l'analisi video in tempo reale.
Il vantaggio di Ultralytics
MentreYOLO interessanti approfondimenti accademici sulla ricerca architettonica, Ultralytics fornisce una soluzione olistica progettata per i moderni flussi di lavoro di sviluppo.
1. Facilità d'uso ed ecosistema
La complessità dell'addestramento basato sulla distillazioneYOLO può rappresentare una barriera all'ingresso. Al contrario, Ultralytics un'esperienza "zero-to-hero". Grazie a Python unificata, gli sviluppatori possono caricare, addestrare e implementare modelli in pochi minuti. La Ultralytics semplifica ulteriormente questo processo offrendo strumenti di addestramento cloud, gestione dei set di dati e annotazione automatica.
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)
2. Versatilità dei Compiti
YOLO principalmente un'architettura di rilevamento oggetti. Ultralytics , invece, è un potente strumento multi-task. Un unico framework supporta:
- Segmentazione delle istanze: include miglioramenti specifici per attività come la perdita di segmentazione semantica.
- Stima della posa: utilizzo della stima della log-verosimiglianza residua (RLE) per punti chiave ad alta precisione.
- OBB: perdita angolare specializzata per i riquadri orientati (Oriented Bounding Boxes), essenziale per l'analisi delle immagini satellitari.
- Classificazione: Classificazione di immagini ad alta velocità.
3. Efficienza dell'allenamento e memoria
YOLO26 è ottimizzato per hardware di livello consumer. Tecniche come l'ottimizzatore MuSGD consentono un addestramento stabile con batch di dimensioni maggiori rispetto agli ibridi transformer che richiedono molta memoria o alle architetture NAS precedenti. Questa democratizzazione dell'addestramento dell'IA significa che non è necessario un cluster H100 aziendale per mettere a punto un modello all'avanguardia.
Casi d'uso ideali
La scelta del modello giusto dipende dai vostri vincoli specifici, ma per la maggior parte degli scenari di produzione, YOLO26 offre il miglior ritorno sull'investimento.
- ScegliYOLO : sei un ricercatore che studia specificatamente le metodologie di ricerca dell'architettura neurale o disponi di una pipeline legacy basata sul codice tinyvision.
- Scegli Ultralytics se:
- Implementazione edge: è necessario eseguire il programma su Raspberry Pi, dispositivi mobili o CPU in cui il design NMS garantisce un notevole aumento della velocità.
- Sviluppo rapido: è necessario un modello facile da addestrare, convalidare ed esportare in formati come CoreML TFLite configurazioni complesse.
- Compiti visivi complessi: il tuo progetto richiede più di semplici riquadri di delimitazione, come la segmentazione di oggetti o il tracciamento della postura umana.
- Manutenzione a lungo termine: è necessario un modello supportato da una comunità attiva, aggiornamenti frequenti e documentazione completa.
Conclusione
SiaYOLO YOLO26 rappresentano pietre miliari significative nel campo del rilevamento degli oggetti.YOLO il potenziale della ricerca automatizzata dell'architettura, ampliando i confini di ciò che era possibile nel 2022. Tuttavia, YOLO26 rappresenta la scelta definitiva per il 2026 e oltre. Risolvendo il NMS , ottimizzando CPU e integrando tecniche di formazione avanzate come MuSGD, Ultralytics creato un modello che non solo è più veloce e accurato, ma anche significativamente più facile da usare.
Per gli sviluppatori che desiderano creare applicazioni di visione artificiale robuste e a prova di futuro, Ultralytics fornisce gli strumenti, i modelli e il supporto necessari per avere successo.
Per chi fosse interessato a esplorare altre architetture ad alte prestazioni, consigliamo di dare un'occhiata a YOLO11 per il rilevamento generico o RT-DETR per applicazioni basate su trasformatori.