Vai al contenuto

YOLO . YOLOv5: un confronto tecnico tra architettura e prestazioni

Nel panorama in rapida evoluzione della visione artificiale, la scelta dell'architettura di rilevamento degli oggetti più adeguata è fondamentale per garantire un equilibrio tra precisione, velocità ed efficienza delle risorse. Questa guida fornisce un confronto tecnico completo tra YOLO, un modello basato sulla ricerca di architetture neurali (NAS) di Alibaba Group, e YOLOv5, il leggendario modello ampiamente adottato di Ultralytics.

Riepilogo

Mentre YOLO introduce concetti innovativi come Neural Architecture Search (NAS) e una pesante riparametrizzazione per ottenere una maggiore precisione sul COCO , YOLOv5 rimane lo standard del settore in termini di usabilità, prontezza di implementazione e supporto dell'ecosistema.

Per gli sviluppatori alla ricerca dell'assoluta avanguardia nel 2026, YOLO26 è il percorso di aggiornamento consigliato. Combina la facilità d'uso di YOLOv5 innovazioni architetturali come un design end-to-end NMS e l'ottimizzatore MuSGD, superando entrambi i modelli precedenti in termini di efficienza e velocità.

YOLO: Architettura e innovazioni

Sviluppato dai ricercatori di Alibaba Group,YOLO a superare i limiti di velocità e precisione attraverso la progettazione automatizzata dell'architettura.

  • Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
  • Organizzazione: Alibaba Group
  • Data: 23 novembre 2022
  • Link:Arxiv, GitHub

Caratteristiche architettoniche chiave

  1. Ricerca dell'architettura neurale (NAS): a differenza delle strutture portanti realizzate manualmente,YOLO MAE-NAS (Method of Auxiliary Early-stopping) per individuare automaticamente strutture portanti efficienti su misura per diversi vincoli di latenza.
  2. RepGFPN (Reparametrizzato FPN generalizzato efficiente): impiega un nuovo collo di fusione delle caratteristiche che ottimizza il percorso del flusso di informazioni su diverse scale, sfruttando la riparametrizzazione per mantenere veloce l'inferenza e massimizzare la ricchezza delle caratteristiche.
  3. ZeroHead: una testa di rilevamento leggera che riduce significativamente il carico computazionale rispetto alle tradizionali teste disaccoppiate.
  4. AlignedOTA: una strategia dinamica di assegnazione delle etichette che risolve i problemi di disallineamento tra le attività di classificazione e regressione durante l'addestramento.

Punti di forza e debolezze

YOLO nei benchmark accademici, mostrando spesso mAP superiori per un determinato numero di parametri rispetto YOLO precedenti YOLO . Tuttavia, la sua dipendenza da strutture NAS complesse può rendere più difficile la modifica o la messa a punto per hardware personalizzato. La ricetta di addestramento "distillation-first", che spesso richiede un modello teacher pesante, può anche complicare la pipeline di addestramento per gli utenti con risorse limitate.

Scopri di più su DAMO-YOLO

YOLOv5: lo standard del settore

Rilasciato da Ultralytics 2020, YOLOv5 l'esperienza utente per il rilevamento degli oggetti. Non era solo un modello, ma un framework completo e pronto per la produzione.

Caratteristiche architettoniche chiave

  1. CSP-Darknet Backbone: utilizza reti Cross Stage Partial per migliorare il flusso gradiente e ridurre il calcolo, un design robusto realizzato artigianalmente che bilancia efficacemente profondità e ampiezza.
  2. PANet Neck: Path Aggregation Network migliora significativamente il flusso di informazioni, aiutando il modello a localizzare meglio gli oggetti fondendo caratteristiche provenienti da diversi livelli della struttura portante.
  3. Aumento mosaico: una tecnica pionieristica di aumento dei dati che combina quattro immagini di addestramento in una sola, consentendo al modello di imparare a detect su scale e contesti diversi in modo efficace.
  4. Auto-Anchor: calcola automaticamente i migliori riquadri di ancoraggio per il tuo set di dati specifico, semplificando il processo di configurazione dei dati personalizzati.

Punti di forza e debolezze

Il punto di forza principale YOLOv5 è la sua universalità. Funziona su qualsiasi dispositivo, dai server cloud ai Raspberry Pi e agli iPhone tramite CoreML. La sua strategia di addestramento "bag-of-freebies" garantisce prestazioni elevate senza configurazioni complesse. Sebbene mAP suo mAP grezzo mAP COCO inferiore rispetto a modelli di ricerca più recenti comeYOLO, la sua affidabilità nel mondo reale, la sua esportabilità e il massiccio supporto della comunità lo rendono ancora molto rilevante.

Scopri di più su YOLOv5

Benchmark delle prestazioni

La tabella seguente mette a confronto le prestazioni dei due modelli. Si noti cheYOLO mAP un'ottimizzazione NAS intensiva, mentre YOLOv5 velocità e facilità di esportazione.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Contesto delle prestazioni

SebbeneYOLO mAP più elevato mAP modelli di dimensioni simili, la velocità di inferenza nel mondo reale dipende spesso dal supporto hardware per livelli specifici (come i blocchi RepVGG) che potrebbero richiedere passaggi di esportazione specifici per essere ripiegati correttamente. Le operazioni standard YOLOv5 sono ottimizzate universalmente su quasi tutti i motori di inferenza.

Raccomandazioni sui casi d'uso

Quando si deve scegliere tra queste due architetture, occorre considerare le esigenze specifiche dell'ambiente di implementazione.

Scenari ideali per DAMO-YOLO

  • Ricerca accademica: se il tuo obiettivo è studiare il NAS o spremere l'ultimo 0,1% mAP una competizione, la nuova architetturaYOLO offre un terreno fertile per la sperimentazione.
  • GPU di fascia alta: dove i vincoli di memoria e calcolo sono minimi e il parametro principale è l'accuratezza su benchmark complessi.

Scenari ideali per Ultralytics YOLOv5

  • Implementazione edge: per dispositivi come NVIDIA o Raspberry Pi, la semplice architettura YOLOv5 si esporta senza problemi su TensorRT e TFLite.
  • Prototipazione rapida: l'esperienza "da zero a eroe" consente di addestrarsi su un set di dati personalizzato e vedere i risultati in pochi minuti.
  • Sistemi di produzione: la stabilità è fondamentale. YOLOv5 stato testato in milioni di implementazioni, riducendo il rischio di guasti imprevisti nelle pipeline di produzione.

Il vantaggio di Ultralytics

SebbeneYOLO interessanti contributi alla ricerca, Ultralytics offre vantaggi distintivi agli sviluppatori che realizzano applicazioni per il mondo reale.

1. Facilità d'uso ed ecosistema

Ultralytics unifica l'intero flusso di lavoro. È possibile gestire set di dati, addestrare modelli nel cloud e distribuirli su vari endpoint senza uscire dall'ecosistema. La documentazione è completa e la community è attiva, garantendo che non rimarrete mai bloccati a lungo su un bug.

2. Versatilità oltre ogni immaginazione

YOLO principalmente un rilevatore di oggetti. Al contrario, Ultralytics supportano una gamma più ampia di attività essenziali per le moderne applicazioni di IA:

3. Memoria ed efficienza delle risorse

YOLO Ultralytics sono rinomati per il loro efficiente utilizzo della memoria. A differenza delle architetture basate su trasformatori o delle complesse pipeline di distillazione che occupano molta VRAM, modelli come YOLOv5 YOLO26 possono spesso essere addestrati su GPU di fascia consumer (come una RTX 3060), democratizzando l'accesso all'addestramento AI di fascia alta.

4. Efficienza della formazione

L'addestramento diYOLO comporta spesso una complessa fase di "distillazione" che richiede un modello insegnante pre-addestrato. Ultralytics utilizzano un approccio semplificato denominato "bag-of-freebies". È sufficiente caricare i pesi pre-addestrati, indicare la configurazione dei dati e l'addestramento inizia immediatamente con iperparametri ottimizzati.

Guardando al futuro: YOLO26

Se state avviando un nuovo progetto nel 2026, il vincitore indiscusso non è nessuno dei due. YOLO26 rappresenta l'apice dell'efficienza.

  • End-to-End NMS: eliminando la Non-Maximum Suppression (NMS), YOLO26 semplifica la logica di implementazione e riduce la varianza della latenza di inferenza.
  • MuSGD Optimizer: Ispirato all'addestramento LLM, questo ottimizzatore garantisce una convergenza stabile e tempi di addestramento più rapidi.
  • Ottimizzazione dei bordi: grazie alla rimozione della Distribution Focal Loss (DFL) e ai blocchi ottimizzati, YOLO26 raggiunge un'inferenza fino al 43% più veloce sulle CPU rispetto alle generazioni precedenti, rendendolo la scelta ideale per le applicazioni mobili e IoT.

Scopri di più su YOLO26

Esempio di codice: Inferenza con Ultralytics

La semplicità Ultralytics consente di passare da una generazione di modelli all'altra senza alcuno sforzo.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize and save the results
for result in results:
    result.show()  # Display to screen
    result.save(filename="output.jpg")  # Save image to disk

Conclusione

SiaYOLO YOLOv5 svolto un ruolo significativo nella storia del rilevamento degli oggetti.YOLO il potenziale della ricerca dell'architettura neurale, mentre YOLOv5 lo standard in termini di usabilità e implementazione. Tuttavia, il settore è in rapida evoluzione. Per chi richiede il miglior equilibrio tra velocità, precisione ed esperienza di sviluppo, Ultralytics rappresenta la scelta definitiva per le moderne applicazioni di visione artificiale.

Per approfondire ulteriormente l'argomento, ti invitiamo a consultare i confronti con altre architetture, come YOLO11 . EfficientDet o RT-DETR . YOLOv8.


Commenti