YOLOv10 vs. YOLOv5: Analisi approfondita dell'architettura e delle prestazioni

Nel panorama in rapida evoluzione della computer vision, la scelta del modello di object detection giusto è fondamentale per il successo del progetto. Questo confronto esplora le differenze tecniche tra YOLOv10, una recente release accademica incentrata sull'addestramento senza NMS, e YOLOv5, il leggendario modello di Ultralytics noto per la sua robustezza e l'adozione a livello industriale. Sebbene entrambi i modelli derivino dalla linea You Only Look Once, soddisfano diverse priorità ingegneristiche e ambienti di implementazione.

Panoramiche dei modelli

YOLOv10: Lo specialista dell'efficienza

Rilasciato nel maggio 2024 dai ricercatori della Tsinghua University, YOLOv10 introduce meccanismi architetturali progettati per eliminare la necessità di Non-Maximum Suppression (NMS) durante l'inferenza. Utilizzando assegnazioni duali coerenti durante l'addestramento, YOLOv10 mira a ridurre la latenza end-to-end, rendendolo un forte candidato per le applicazioni edge in cui ogni millisecondo di latenza di inferenza conta.

Autori: Ao Wang, Hui Chen, Lihao Liu, et al.
Organizzazione: Tsinghua University
Data: 2024-05-23
Arxiv:YOLOv10: Real-Time End-to-End Object Detection
GitHub:THU-MIG/yolov10

Scopri di più su YOLOv10

Ultralytics YOLOv5: Lo standard industriale

Dal suo rilascio nel 2020 da Ultralytics, YOLOv5 ha definito la facilità d'uso nella comunità dell'IA. Dà priorità a un equilibrio tra velocità, accuratezza e utilità ingegneristica. Oltre alle metriche grezze, YOLOv5 offre un ecosistema maturo, integrandosi perfettamente con gli strumenti di distribuzione mobile, le piattaforme di monitoraggio degli esperimenti e i flussi di lavoro di gestione dei set di dati. La sua versatilità si estende oltre il detect per includere la classificazione delle immagini e la segmentazione di istanze.

Autore: Glenn Jocher
Organizzazione: Ultralytics
Data: 2020-06-26
GitHub:ultralytics/yolov5

Scopri di più su YOLOv5

Differenze Architetturali

La divergenza principale risiede nel modo in cui vengono elaborate le previsioni. YOLOv5 utilizza un'architettura basata su ancore altamente ottimizzata che si basa su NMS per filtrare le bounding box sovrapposte. Questo metodo è collaudato e robusto su vari dataset.

Al contrario, YOLOv10 impiega una strategia di assegnazione duale coerente. Ciò consente al modello di prevedere una singola box migliore per ogni oggetto durante l'inferenza, rimuovendo teoricamente del tutto il passaggio NMS. Questa riduzione del sovraccarico di post-elaborazione è il principale punto di forza di YOLOv10, offrendo una latenza inferiore su dispositivi edge come NVIDIA Jetson Orin Nano. Inoltre, YOLOv10 incorpora design di efficienza olistica nel suo backbone e nella sua head per ridurre al minimo i parametri (params) e le operazioni in virgola mobile (FLOP).

Efficienza della Memoria

Un segno distintivo dei modelli Ultralytics come YOLOv5 (e il più recente YOLO11) è il loro footprint di memoria ottimizzato. A differenza di alcuni detector basati su transformer che consumano grandi quantità di memoria CUDA, i modelli Ultralytics sono progettati per essere addestrati in modo efficiente su hardware di livello consumer, democratizzando l'accesso all'AI all'avanguardia.

Metriche di performance

La tabella seguente evidenzia i compromessi in termini di prestazioni. YOLOv10 generalmente raggiunge una Mean Average Precision (mAP) più alta con meno parametri rispetto alla precedente architettura YOLOv5. Tuttavia, YOLOv5 rimane competitivo in termini di velocità di inferenza pura su determinate configurazioni hardware, in particolare quando si utilizzano formati di esportazione ottimizzati come TensorRT o ONNX.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Punti di forza e debolezze

Analisi di YOLOv10

Punti di forza:

NMS-Free: La rimozione della fase di soppressione non massima semplifica la pipeline di distribuzione e stabilizza la latenza di inferenza.
Efficienza dei parametri: Ottiene un'elevata precisione con pesi del modello inferiori, il che è vantaggioso per i dispositivi con vincoli di archiviazione.
Accuratezza all'avanguardia: Supera le versioni YOLO precedenti nelle metriche mAP pure sul benchmark COCO.

Punti deboli:

Versatilità limitata: Principalmente focalizzato sul rilevamento di oggetti, privo di supporto nativo per attività complesse come la stima della posa o il detect di Oriented Bounding Box (OBB) presenti nei modelli Ultralytics più recenti.
Ecosistema in sviluppo: Essendo un modello incentrato sulla ricerca, potrebbe mancare dei numerosi plugin della comunità, delle integrazioni collaudate e del supporto aziendale disponibili per i modelli nativi di Ultralytics.

Analisi di YOLOv5

Punti di forza:

Versatilità senza pari: Supporta detection, segmentazione e classificazione pronte all'uso.
Ecosistema Robusto: Supportato da Ultralytics, si integra facilmente con strumenti come Ultralytics HUB, Roboflow e Comet ML.
Pronto per l'implementazione: Esiste un'ampia documentazione per l'esportazione in CoreML, TFLite, TensorRT e OpenVINO, garantendo implementazioni di produzione fluide.
Efficienza dell'addestramento: Noto per le dinamiche di addestramento stabili e il basso utilizzo di memoria, che lo rendono accessibile agli sviluppatori con configurazioni a singola GPU.

Punti deboli:

Architettura datata: Sebbene sia ancora potente, il suo puro rapporto mAP/FLOPs è stato superato da iterazioni più recenti come YOLOv8 e YOLO11.
Dipendenza dagli anchor: Si basa su anchor boxes che potrebbero richiedere una messa a punto manuale per dataset con proporzioni estreme degli oggetti.

Casi d'uso ideali

La scelta tra questi due modelli spesso si riduce ai vincoli specifici del tuo ambiente di implementazione.

Scegli YOLOv10 se: Stai costruendo un sistema dedicato al rilevamento di oggetti per un dispositivo embedded dove l'eliminazione del sovraccarico computazionale di NMS fornisce un vantaggio di velocità critico, o se richiedi il mAP più alto possibile da un modello con un ingombro ridotto.
Scegli YOLOv5 se: Hai bisogno di un modello multi-tasking affidabile per una pipeline di produzione. La sua capacità di gestire la segmentazione di istanze e la classificazione lo rende un "coltellino svizzero" per l'AI visiva. Inoltre, se il tuo team si affida a flussi di lavoro MLOps standard, l'integrazione perfetta di YOLOv5 nell'ecosistema Ultralytics riduce significativamente i tempi di sviluppo.

Esperienza utente ed ecosistema

Una delle caratteristiche distintive dei modelli Ultralytics è l'attenzione all'esperienza dello sviluppatore. YOLOv5 ha stabilito lo standard per "funziona e basta", e questa filosofia continua. Gli utenti possono addestrare un modello YOLOv5 su dati personalizzati con poche righe di codice, sfruttando i pesi pre-addestrati per accelerare la convergenza.

Al contrario, mentre YOLOv10 fornisce eccellenti risultati accademici, l'integrazione in pipeline di produzione complesse potrebbe richiedere un'ingegneria più personalizzata. Ultralytics mantiene una vivace comunità open-source, garantendo che i bug vengano corretti rapidamente e che le funzionalità vengano aggiunte in base al feedback degli utenti nel mondo reale.

Confronto tra codici

Eseguire questi modelli è semplice. Di seguito sono riportati esempi di come caricare ed eseguire la prediction con ciascuno usando python.

Utilizzo di YOLOv10:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform inference on an image
results = model("path/to/image.jpg")
results[0].show()

Utilizzo di YOLOv5 (tramite PyTorch Hub):

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference
results = model("path/to/image.jpg")
results.show()

Conclusione

Entrambi i modelli rappresentano risultati significativi nella computer vision. YOLOv10 spinge i confini dell'ottimizzazione della latenza con il suo design NMS-free, rendendolo una scelta interessante per attività di detect specializzate e ad alta velocità.

Tuttavia, per la maggior parte degli sviluppatori e delle imprese, l'ecosistema Ultralytics—rappresentato qui dall'affidabilità duratura di YOLOv5 e dalle prestazioni all'avanguardia di YOLO11—offre una soluzione più completa. La combinazione di facilità d'uso, ampia documentazione e capacità multi-task assicura che tu spenda meno tempo nel debug e più tempo nell'implementazione del valore.

Per chi desidera aggiornare da YOLOv5 mantenendo i vantaggi dell'ecosistema, consigliamo vivamente di esplorare YOLO11, che offre prestazioni all'avanguardia, detect anchor-free e supporto per l'intero spettro di attività di visione, tra cui OBB e stima della posa.