YOLOv10 vs. YOLO11: Esplorando le frontiere del rilevamento di oggetti in tempo reale

La scelta del modello di computer vision giusto è fondamentale per il successo di qualsiasi progetto di IA, bilanciando i compromessi tra velocità, accuratezza e facilità di implementazione. Questa guida fornisce un confronto tecnico dettagliato tra YOLOv10, una release accademica incentrata sull'addestramento senza NMS, e Ultralytics YOLO11, l'ultima evoluzione della rinomata serie YOLO progettata per prestazioni e versatilità di livello enterprise.

Sebbene YOLOv10 introduca interessanti concetti architetturali per ridurre la latenza, YOLO11 perfeziona lo stato dell'arte con una precisione superiore, un supporto più ampio per le attività e un ecosistema robusto che semplifica il flusso di lavoro dall'annotazione dei dati all'implementazione del modello.

YOLOv10: Lo specialista senza NMS

YOLOv10 è emerso dalla ricerca accademica con un obiettivo specifico: ottimizzare la pipeline di inferenza eliminando la necessità di Non-Maximum Suppression (NMS). Questo approccio mira a ridurre la latenza in specifici scenari edge.

Autori: Ao Wang, Hui Chen, Lihao Liu, et al.
Organizzazione:Tsinghua University
Data: 2024-05-23
Arxiv:2405.14458
GitHub:THU-MIG/yolov10
Documentazione:Documentazione YOLOv10

Architettura e innovazione

La caratteristica distintiva di YOLOv10 è la sua strategia di assegnazione duale coerente per l'addestramento senza NMS. I modelli YOLO tradizionali spesso prevedono più bounding box per un singolo oggetto, richiedendo una post-elaborazione NMS per filtrare i duplicati. YOLOv10 modifica la loss di addestramento per incoraggiare il modello a produrre direttamente una singola bounding box migliore per oggetto. Inoltre, impiega un design del modello olistico guidato dall'efficienza e dall'accuratezza, utilizzando head di classificazione leggeri per ridurre i FLOPs e il numero di parametri.

Punti di forza e debolezze

Punti di forza:

Inferenza senza NMS: Rimuovendo il passaggio NMS, il modello riduce la latenza di post-elaborazione, il che può essere vantaggioso su hardware con potenza di CPU limitata per operazioni non matriciali.
Efficienza dei parametri: L'architettura è progettata per essere leggera, ottenendo una buona accuratezza con un numero relativamente inferiore di parametri.

Punti deboli:

Versatilità limitata: YOLOv10 si concentra quasi esclusivamente sul rilevamento di oggetti. Manca il supporto nativo per attività complesse come la segmentation di istanze o la stima della posa, limitandone l'utilità nelle applicazioni AI multiformi.
Supporto incentrato sulla ricerca: Essendo un progetto accademico, potrebbe non offrire lo stesso livello di manutenzione a lungo termine, frequenza di aggiornamento o integrazione con gli strumenti di distribuzione dei modelli supportati a livello aziendale.

Caso d'uso ideale

YOLOv10 è più adatto per applicazioni altamente specializzate e single-task in cui la rimozione del passaggio NMS è fondamentale per soddisfare budget di latenza rigorosi su hardware embedded specifici.

Scopri di più su YOLOv10

Ultralytics YOLO11: L'apice della versatilità e delle prestazioni

Ultralytics YOLO11 rappresenta l'avanguardia della vision AI, basandosi sull'eredità di YOLOv8 e YOLOv5. È progettato non solo come un modello, ma come una soluzione completa per le sfide dell'IA nel mondo reale.

Autori: Glenn Jocher, Jing Qiu
Organizzazione:Ultralytics
Data: 2024-09-27
GitHub:ultralytics/ultralytics
Documentazione:Documentazione YOLO11

Architettura ed ecosistema

YOLO11 perfeziona il meccanismo di detection anchor-free con un'architettura backbone e neck migliorata, incorporando i moduli C3k2 e C2PSA che migliorano l'efficienza dell'estrazione delle caratteristiche. A differenza dei suoi concorrenti, YOLO11 è una potenza multi-task. Un singolo framework supporta detection, segmentation, classification, stima della posa e Oriented Bounding Boxes (OBB), consentendo agli sviluppatori di consolidare il proprio stack AI.

Fondamentalmente, YOLO11 è supportato dall'Ecosistema Ultralytics. Ciò garantisce un'integrazione perfetta con gli strumenti per la gestione dei dati, una facile esportazione del modello in formati come ONNX e TensorRT, e un solido supporto della community.

Vantaggi chiave

Bilanciamento delle Prestazioni Superiore: YOLO11 raggiunge costantemente punteggi mAP più elevati pur mantenendo velocità di inferenza eccezionali, spesso superando le alternative senza NMS nella produttività del mondo reale sulle GPU.
Versatilità senza pari: Sia che tu debba tenere traccia dei giocatori negli sport, segmentare immagini mediche o detect oggetti ruotati in viste aeree, YOLO11 gestisce tutto all'interno di un'unica API Python.
Facilità d'uso: L'interfaccia Ultralytics è rinomata per la sua semplicità. L'addestramento di un modello all'avanguardia richiede solo poche righe di codice, democratizzando l'accesso all'IA avanzata.
Efficienza dell'addestramento: Routine di addestramento ottimizzate e pesi pre-addestrati di alta qualità consentono una convergenza più rapida, risparmiando tempo e risorse di calcolo.
Requisiti di memoria inferiori: Rispetto alle architetture basate su transformer come RT-DETR, YOLO11 è significativamente più efficiente in termini di memoria durante l'addestramento, rendendolo accessibile su una gamma più ampia di hardware.

Vantaggio dell'ecosistema

L'utilizzo di YOLO11 garantisce l'accesso a una suite di integrazioni, tra cui MLFlow per il monitoraggio degli esperimenti e OpenVINO per l'inferenza ottimizzata su hardware Intel, garantendo che il tuo progetto si adatti senza problemi dal prototipo alla produzione.

Scopri di più su YOLO11

Confronto delle prestazioni: Velocità, accuratezza ed efficienza

Quando si confrontano YOLOv10 e YOLO11, è essenziale guardare oltre il conteggio dei parametri ed esaminare le metriche di prestazioni nel mondo reale. Mentre YOLOv10 riduce la complessità teorica rimuovendo NMS, YOLO11 dimostra velocità di inferenza superiori su configurazioni hardware standard come la GPU T4 con TensorRT.

I dati rivelano che YOLO11 offre un compromesso migliore per la maggior parte delle applicazioni. Ad esempio, YOLO11n raggiunge la stessa precisione (39,5 mAP) di YOLOv10n, ma con un'architettura più robusta supportata dall'API Ultralytics. All'aumentare delle dimensioni del modello, i vantaggi di YOLO11 in termini di precisione diventano più pronunciati, con YOLO11x che raggiunge 54,7 mAP, stabilendo un livello elevato per la precisione di detect.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Analisi

Velocità: YOLO11 fornisce un'inferenza più veloce su GPU (TensorRT) in quasi tutte le dimensioni dei modelli. Ad esempio, YOLO11l viene eseguito a 6.2 ms rispetto agli 8.33 ms di YOLOv10l, rappresentando un significativo vantaggio di throughput per l'analisi video in tempo reale.
Accuratezza: YOLO11 supera costantemente YOLOv10 in mAP, garantendo meno falsi negativi e una migliore localizzazione, il che è fondamentale per attività critiche per la sicurezza come la navigazione autonoma o il rilevamento di difetti.
Calcolo: Mentre YOLOv10 riduce al minimo i parametri, YOLO11 ottimizza il grafico computazionale effettivo per offrire tempi di esecuzione più rapidi, dimostrando che il conteggio dei parametri da solo non determina la velocità.

Applicazione nel mondo reale ed esempio di codice

La vera prova di un modello è la facilità con cui si integra in un flusso di lavoro di produzione. YOLO11 eccelle in questo con la sua semplice interfaccia Python. Di seguito è riportato un esempio di come caricare un modello YOLO11 pre-addestrato ed eseguire l'inferenza su un'immagine.

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Questo semplice snippet garantisce l'accesso a prestazioni all'avanguardia. La stessa API ti consente di passare senza sforzo all'addestramento su dataset personalizzati, alla convalida delle prestazioni del modello o al tracking di oggetti in flussi video.

Conclusione: il verdetto

Mentre YOLOv10 offre uno sguardo innovativo alle architetture NMS-free ed è una scelta rispettabile per la ricerca accademica o scenari edge altamente vincolati, Ultralytics YOLO11 si distingue come la scelta superiore per la stragrande maggioranza degli sviluppatori e delle aziende.

La combinazione di maggiore accuratezza, velocità di inferenza in tempo reale più elevata e versatilità senza pari di YOLO11 la rende la soluzione definitiva per la computer vision moderna. Supportati dall'ecosistema Ultralytics, attivamente manutenuto, gli sviluppatori ottengono non solo un modello, ma un partner a lungo termine nel loro percorso di IA, garantendo che le loro applicazioni rimangano robuste, scalabili e all'avanguardia.

Per coloro che desiderano approfondire, i confronti con altri modelli come YOLOv9 o RT-DETR possono fornire un ulteriore contesto sull'evoluzione del panorama della object detection.