YOLO11 .YOLO: Evoluzione delle architetture di rilevamento oggetti in tempo reale
La ricerca nel campo della visione artificiale procede a un ritmo vertiginoso, con nuove architetture che ridefiniscono costantemente i limiti di velocità e precisione. Due contributi significativi in questo campo sono YOLO11 di Ultralytics YOLO di Alibaba Group. Sebbene entrambi i modelli mirino a risolvere il problema del rilevamento di oggetti in tempo reale, lo affrontano con filosofie diverse: uno si concentra su un'usabilità e un'implementazione senza soluzione di continuità, l'altro su una rigorosa ricerca dell'architettura neurale (NAS) e sull'esplorazione accademica.
Questa guida offre un approfondito confronto tecnico per aiutare sviluppatori, ricercatori e ingegneri a scegliere lo strumento più adatto alle loro specifiche applicazioni di visione artificiale.
Panoramiche dei modelli
YOLO11
YOLO11 rappresenta il culmine di anni di perfezionamento iterativo nella famiglia YOLO You Only Look Once). Rilasciato alla fine del 2024 da Ultralytics, si basa sul successo di YOLOv8 introducendo miglioramenti architettonici che aumentano l'efficienza dell'estrazione delle caratteristiche, pur mantenendo la filosofia "bag-of-freebies" (sacchetto di omaggi), offrendo prestazioni elevate senza richiedere complesse configurazioni di addestramento.
- Autori: Glenn Jocher e Jing Qiu
- Organizzazione:Ultralytics
- Data: 27 settembre 2024
- GitHub:ultralytics/ultralytics
- Documentazione:Documentazione YOLO11
DAMO-YOLO
YOLO è un modello incentrato sulla ricerca sviluppato dalla DAMO Academy (Alibaba Group). Introduce diverse tecnologie innovative, tra cui la ricerca dell'architettura neurale (NAS) per l'ottimizzazione della struttura portante, l'efficiente Reparameterized Generalized-FPN (RepGFPN) e un framework di formazione basato sulla distillazione. Si concentra principalmente sulla massimizzazione del compromesso tra latenza e precisione attraverso la ricerca automatizzata del design.
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
- Organizzazione: Alibaba Group
- Data: 23 novembre 2022
- Arxiv:DAMO-YOLO: A Report on Real-Time Object Detection Design
- GitHub:tinyvision/DAMO-YOLO
Confronto Tecnico
Architettura e filosofia di progettazione
La differenza fondamentale tra questi due modelli risiede nelle loro origini progettuali. YOLO11 è realizzato artigianalmente per garantire versatilità e facilità d'uso. Impiega un backbone C3k2 (Cross Stage Partial) perfezionato e una detect migliorata che bilancia il numero di parametri con la rappresentazione delle caratteristiche. Questo design garantisce che il modello sia robusto in un'ampia varietà di compiti, non solo nel rilevamento di oggetti, ma anche nella segmentazione di istanze, nella stima della posa, nella classificazione e nei compiti di Oriented Bounding Box (OBB).
YOLO, al contrario, utilizza MAE-NAS (Method for Automated Efficient Neural Architecture Search) per individuare la sua struttura portante. Ciò si traduce in una topologia di rete teoricamente ottimale per specifici vincoli hardware, ma che può risultare opaca e difficile da modificare manualmente. Inoltre,YOLO in larga misura su una complessa pipeline di addestramento che coinvolge un design "ZeroHead" e la distillazione da modelli teacher più grandi, il che aumenta la complessità dell'addestramento su set di dati personalizzati.
Metriche di performance
La tabella seguente mette a confronto le prestazioni di vari modelli su scala diversa. YOLO11 un'efficienza superiore, in particolare in scenari a bassa latenza (modelli N/S/M), mantenendo al contempo un'accuratezza all'avanguardia.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analisi delle prestazioni
YOLO11 ottiene costantemente mAP più elevati con un numero inferiore di parametri rispettoYOLO equivalenti. Ad esempio, YOLO11s supera DAMO-YOLOs di 1,0 mAP quasi il 40% in meno di parametri (9,4 milioni contro 16,3 milioni). Questa efficienza si traduce direttamente in un minore utilizzo di memoria e in un'inferenza più rapida sui dispositivi edge.
Efficienza e usabilità della formazione
YOLO11 brilla per la sua accessibilità. Integrato nel ultralytics Python , addestrare un modello è semplice come definire un file YAML del set di dati ed eseguire un singolo comando. L'ecosistema gestisce la regolazione degli iperparametri, l'aumento dei dati e monitoraggio degli esperimenti automaticamente.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Al contrario, YOLO utilizza un processo di addestramento in più fasi. Spesso richiede prima l'addestramento di un modello "insegnante" pesante per distillare la conoscenza nel modello "studente" più piccolo. Ciò aumenta significativamente il tempo GPU e la VRAM necessaria per l'addestramento. Sebbene efficace per spremere fino all'ultima frazione di precisione per i benchmark accademici, questa complessità può rappresentare un collo di bottiglia per i team di ingegneri agili.
Casi d'uso ideali
Perché scegliere i modelli Ultralytics?
Per la stragrande maggioranza delle applicazioni nel mondo reale, YOLO11 (e il più recente YOLO26) offre il miglior equilibrio tra prestazioni e praticità.
- Facilità d'uso: Ultralytics è progettata per soddisfare le esigenze degli sviluppatori. Guide complete e una CLI unificata CLI il passaggio dal prototipo alla produzione.
- Ecosistema ben mantenuto: a differenza di molti archivi di ricerca che diventano inattivi dopo la pubblicazione, Ultralytics vengono mantenuti attivamente. Gli aggiornamenti regolari garantiscono la compatibilità con le ultime versioni di PyTorch , CUDA e formati di esportazione come OpenVINO e CoreML.
- Versatilità: mentreYOLO esclusivamente un rilevatore di oggetti, YOLO11 nativamente la stima della posa (punti chiave) e la segmentazione delle istanze. Ciò consente a un'unica famiglia di architetture di gestire diverse attività di visione in pipeline complesse.
- Efficienza della memoria:YOLO Ultralytics sono ottimizzati per un basso utilizzo della VRAM. Evitano il pesante sovraccarico di memoria spesso associato alle architetture basate su trasformatori o alle complesse pipeline di distillazione, rendendoli addestrabili su hardware di livello consumer.
Quando usare DAMO-YOLO
- Ricerca accademica: se il tuo obiettivo è studiare la ricerca dell'architettura neurale (NAS) o la riproduzione di specifiche tecniche di parametrizzazione dei rappresentanti presentate nel YOLO .
- Limiti hardware specifici: se disponi delle risorse necessarie per eseguire ricerche approfondite nel NAS al fine di trovare una dorsale perfettamente adatta a un acceleratore hardware molto specifico e non standard.
Applicazioni nel mondo reale
YOLO11 è ampiamente utilizzato in tutti i settori industriali grazie alla sua robustezza:
- Smart Retail:analisi del comportamento dei clienti e gestione automatizzata dell'inventario tramite il rilevamento degli oggetti.
- Assistenza sanitaria:individuazione dei tumori nell'imaging medico, dove la velocità consente uno screening rapido.
- Produzione: sistemidi controllo qualità che richiedono un'elevata velocità di inferenza sui dispositivi edge per detect sulle linee di assemblaggio.
Andare avanti: il vantaggio di YOLO26
Sebbene YOLO11 un modello eccellente, il settore ha continuato a progredire. Per i nuovi progetti che inizieranno nel 2026, YOLO26 è la scelta consigliata.
YOLO26 introduce diverse funzionalità innovative:
- End-to-End NMS: eliminando la Non-Maximum Suppression (NMS), YOLO26 semplifica la logica di implementazione e riduce la variabilità della latenza, un concetto introdotto per la prima volta in YOLOv10.
- MuSGD Optimizer: un ottimizzatore ibrido ispirato all'addestramento LLM che garantisce una convergenza stabile.
- Rilevamento migliorato di oggetti di piccole dimensioni: funzioni di perdita come ProgLoss e STAL migliorano significativamente le prestazioni su obiettivi di piccole dimensioni, fondamentali per le immagini dei droni e i sensori IoT.
Conclusione
Entrambi YOLO11 e YOLO hanno contribuito in modo significativo al progresso nel campo del rilevamento degli oggetti.YOLO il potenziale della ricerca automatizzata dell'architettura. Tuttavia, YOLO11 rimane la scelta migliore per le applicazioni pratiche grazie al suo flusso di lavoro semplificato, all'ampio supporto delle attività e all'uso efficiente dei parametri.
Per gli sviluppatori che desiderano rimanere all'avanguardia, la migrazione a YOLO26 offre una velocità e una semplicità ancora maggiori, garantendo che i vostri progetti di visione artificiale rimangano a prova di futuro.
Avvia il tuo progetto
Sei pronto per iniziare la formazione? Visita la Ultralytics per annotare, addestrare e implementare i tuoi modelli in pochi minuti senza dover gestire infrastrutture complesse.