YOLOv10 YOLO11: collegare l'innovazione accademica e la scala del mondo reale
L'evoluzione del rilevamento di oggetti in tempo reale è stata caratterizzata da rapidi progressi in termini di velocità, precisione ed efficienza architettonica. Due protagonisti chiave di questa storia recente sono YOLOv10 e YOLO11. Sebbene entrambi i modelli amplino i confini delle possibilità offerte dalla visione artificiale, essi nascono da filosofie di progettazione diverse e rispondono a esigenze distinte all'interno della comunità AI. Questo confronto esplora le specifiche tecniche, le differenze architetturali e le applicazioni pratiche di entrambi i modelli per aiutare gli sviluppatori a scegliere lo strumento più adatto alle loro esigenze specifiche.
YOLOv10: il pioniere accademico del rilevamento end-to-end
Pubblicato nel maggio 2024 dai ricercatori dell'Università di Tsinghua, YOLOv10 ha introdotto un cambiamento paradigmatico nella YOLO concentrandosi su una strategia di addestramentoNMS. Storicamente, YOLO si basavano sulla soppressione non massima (NMS) per filtrare i riquadri di delimitazione sovrapposti durante l'inferenza. Sebbene efficace, NMS un collo di bottiglia nella latenza di implementazione e complica il processo di esportazione in formati come TensorRT o ONNX.
Innovazioni Architetturali Chiave
YOLOv10 queste sfide attraverso una strategia a doppia assegnazione durante l'addestramento. Utilizza un head one-to-many per una supervisione approfondita durante l'apprendimento e un head one-to-one per l'inferenza, consentendo al modello di prevedere direttamente un unico box ottimale per ogni oggetto. Ciò elimina la necessità di NMS , riducendo significativamente la latenza sui dispositivi edge.
Inoltre, YOLOv10 un modello di progettazione olistico basato sull'efficienza e l'accuratezza. Questo include teste di classificazione leggere, downsampling con disaccoppiamento dei canali spaziali e progettazione di blocchi guidata dal rango, che insieme riducono la ridondanza computazionale.
Metadati tecnici:
- Autori: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organizzazione:Tsinghua University
- Data: 2024-05-23
- Arxiv:YOLOv10: Real-Time End-to-End Object Detection
- GitHub:THU-MIG/yolov10
Ultralytics YOLO11: perfezionato per le aziende di grandi dimensioni
Pubblicato nel settembre 2024, Ultralytics YOLO11 si basa sul solido framework di YOLOv8 e YOLOv9. Pur mantenendo un approccio tradizionale NMS(a differenza dello YOLOv10 nativamente end-to-end), YOLO11 fortemente sull'efficienza dell'estrazione delle caratteristiche e sull'ottimizzazione dei parametri. È progettato per essere il "coltellino svizzero" della visione artificiale, eccellendo non solo nel rilevamento, ma anche in una vasta gamma di attività, tra cui la segmentazione delle istanze, la stima della posa, la classificazione e il rilevamento dei bounding box orientati (OBB).
Progressi in YOLO11
YOLO11 un'architettura backbone perfezionata (C3k2) che migliora l'integrazione delle caratteristiche su tutte le scale. Ciò consente al modello di catturare dettagli intricati in scene complesse, come piccoli oggetti nelle immagini aeree, in modo più efficace rispetto ai modelli precedenti. Inoltre, la sua integrazione Ultralytics garantisce un supporto continuo per la formazione, la convalida e l'implementazione su diverse piattaforme hardware, da NVIDIA alle CPU di base.
Metadati tecnici:
- Autori: Glenn Jocher e Jing Qiu
- Organizzazione:Ultralytics
- Data: 2024-09-27
- Documentazione:Documentazione YOLO11
- GitHub:ultralytics/ultralytics
Confronto delle prestazioni
Quando si confrontano le prestazioni, è fondamentale guardare oltre mAP semplici mAP e considerare i compromessi tra velocità, dimensioni del modello (parametri) e costo computazionale (FLOP).
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analisi dei dati
Mentre YOLOv10 vanta un numero inferiore di parametri in alcune configurazioni (come il modello "M"), YOLO11 raggiunge spesso un mAP mAP e velocità di inferenza competitive o superiori su GPU T4, dimostrando l'efficacia della sua architettura backbone ottimizzata.
Casi d'uso ideali
Quando scegliere YOLOv10
YOLOv10 una scelta eccellente per progetti orientati alla ricerca o scenari specifici di implementazione edge in cui l'eliminazione della NMS è fondamentale per ridurre la latenza. La sua architettura end-to-end semplifica la pipeline di esportazione per alcuni sistemi integrati in cui è difficile implementare in modo efficiente la logica di post-elaborazione.
- Sistemi integrati: dispositivi con CPU limitati per la post-elaborazione.
- Ricerca accademica: studio delle architetture NMS e delle strategie di addestramento a doppia assegnazione.
- Applicazioni critiche in termini di latenza: robotica ad alta velocità in cui ogni millisecondo di latenza di inferenza è fondamentale.
Quando scegliere Ultralytics YOLO11
YOLO11 la soluzione preferita per applicazioni di livello produttivo che richiedono un equilibrio tra elevata precisione, versatilità e facilità d'uso. Supportato dalla Ultralytics , offre un flusso di lavoro semplificato dall'annotazione dei dati al monitoraggio dei modelli.
- Soluzioni aziendali: implementazioni su larga scala che richiedono codici affidabili e sottoposti a manutenzione e licenze commerciali.
- Compiti visivi complessi: progetti che richiedono la stima della posizione o la segmentazione oltre al rilevamento.
- Formazione sul cloud: integrazione perfetta con la Ultralytics per la gestione dei set di dati e dei cicli di formazione.
- Versatilità: sviluppatori che necessitano di un unico framework per gestire classificazione, rilevamento e segmentazione con un'API unificata.
Il vantaggio dell'ecosistema Ultralytics
Uno dei fattori di differenziazione più significativi per YOLO11 è l'ecosistema circostante. Mentre YOLOv10 un contributo accademico impressionante, YOLO11 di aggiornamenti continui, documentazione completa e stretta integrazione con strumenti come Ultralytics .
- Facilità d'uso: una semplice Python consente di addestrare un modello con poche righe di codice.
- Efficienza della memoria: Ultralytics sono ottimizzati per un utilizzo ridotto della memoria durante l'addestramento rispetto a molte alternative basate su Transformer, rendendoli accessibili su GPU di livello consumer.
- Ampia compatibilità: esporta YOLO11 tuo YOLO11 in CoreML, OpenVINO, TensorRTe altro ancora con un unico comando.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Guardando al futuro: il futuro con YOLO26
Sebbene YOLOv10 YOLO11 traguardi significativi, il settore è in rapida evoluzione. Per gli sviluppatori alla ricerca della tecnologia più all'avanguardia, YOLO26 (rilasciato nel gennaio 2026) combina il meglio dei due mondi.
YOLO26 adotta il design end-to-endNMS introdotto da YOLOv10 lo perfeziona con l'ottimizzazione tipica Ultralytics per le aziende di grandi dimensioni. È dotato della rimozione DFL (Distribution Focal Loss) per esportazioni più semplici e dell'innovativo ottimizzatore MuSGD per una convergenza di addestramento stabile e ispirata all'LLM. Con CPU fino al 43% più veloce rispetto alle generazioni precedenti e funzioni di perdita migliorate come ProgLoss + STAL, YOLO26 è la soluzione ideale per i moderni progetti di visione artificiale.
Per gli utenti interessati ad altre architetture specializzate, la documentazione copre anche RT-DETR per il rilevamento basato su trasformatori e YOLO per attività con vocabolario aperto.