Vai al contenuto

YOLOv5 .YOLO: un confronto tecnico completo

Il panorama della visione artificiale in tempo reale è in continua evoluzione, con ricercatori e ingegneri che si sforzano di trovare il perfetto equilibrio tra accuratezza, velocità e usabilità. Due modelli di spicco che hanno plasmato questo percorso sono Ultralytics YOLOv5 e DAMO-YOLO di Alibaba.

Questa guida offre un'analisi tecnica approfondita delle loro architetture, metriche di performance e metodologie di addestramento per aiutarti a scegliere il modello giusto per il tuo prossimo deployment.

Contesti del Modello

Prima di addentrarci nelle sfumature tecniche, è importante comprendere le origini e le filosofie di progettazione primarie dietro ciascuno di questi influenti modelli di visione.

Ultralytics YOLOv5

Sviluppato da Glenn Jocher e dal team di Ultralytics, YOLOv5 è diventato uno standard industriale sin dal suo rilascio. Costruito nativamente sul framework PyTorch, ha dato priorità a un'esperienza di sviluppo semplificata e a robuste capacità di deployment fin da subito.

Scopri di più su YOLOv5

DAMO-YOLO

Sviluppato dai ricercatori di Alibaba Group, DAMO-YOLO si concentra intensamente sulla Neural Architecture Search (NAS) e su tecniche di distillazione avanzate. Spinge i limiti teorici delle prestazioni specifiche dell'hardware, rivolgendosi fortemente agli ambienti di ricerca e edge che richiedono una messa a punto estrema.

Scopri di più su DAMO-YOLO

Innovazioni Architetturali

Entrambi i modelli sfruttano concetti strutturali unici per raggiungere le loro prestazioni in tempo reale, sebbene i loro approcci differiscano significativamente.

YOLOv5: Stabilità e Versatilità

YOLOv5 utilizza un backbone CSP (Cross Stage Partial) modificato abbinato a un neck PANet (Path Aggregation Network). Questa struttura è altamente efficiente, riducendo al minimo l'utilizzo della memoria CUDA sia durante l'addestramento che l'inferenza.

Uno dei maggiori punti di forza di YOLOv5 è la sua versatilità tra i compiti. Oltre alle previsioni di bounding box, offre architetture dedicate per la segmentazione di immagini e la classificazione di immagini, consentendo agli sviluppatori di standardizzare le loro pipeline di visione attorno a un unico framework coeso.

L'innovazione principale di DAMO-YOLO è il suo Backbone MAE-NAS. Utilizzando una ricerca evolutiva multi-obiettivo, il team di Alibaba ha scoperto backbone che bilanciano dinamicamente l'accuratezza del rilevamento e la velocità di inferenza.

Inoltre, presenta il collo Efficient RepGFPN per una fusione delle feature migliorata, estremamente vantaggioso per le complesse variazioni di scala spesso riscontrate nell'analisi di immagini satellitari. Il suo design ZeroHead semplifica gli strati di previsione finali per ridurre la latenza, sebbene questa complessa generazione strutturale possa rendere l'architettura rigida e più difficile da modificare per applicazioni personalizzate.

Requisiti di Memoria

Le architetture basate su Transformer spesso soffrono di un elevato consumo di VRAM. Sia YOLOv5 che DAMO-YOLO utilizzano design convoluzionali efficienti per mantenere basso l'ingombro di memoria, ma i modelli Ultralytics sono notevolmente ottimizzati per GPU di livello consumer, rendendoli molto più accessibili per ricercatori indipendenti e startup.

Prestazioni e metriche

La valutazione dei rilevatori di oggetti in tempo reale richiede l'analisi di una matrice di mAP (mean Average Precision), velocità di inferenza e parametri di dimensione del modello.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Sebbene DAMO-YOLO raggiunga punteggi mAP altamente competitivi per determinati conteggi di parametri, YOLOv5 dimostra costantemente velocità TensorRT eccezionali e conteggi di parametri incredibilmente bassi per le sue configurazioni nano e small. Questo equilibrio prestazionale garantisce che YOLOv5 operi in modo efficiente in diversi scenari di deployment edge.

Efficienza dell'addestramento ed ecosistema

L'accuratezza teorica di un modello è valida solo quanto la sua implementabilità pratica. È qui che i modelli divergono considerevolmente.

La Complessità della Distillazione

DAMO-YOLO si basa fortemente su una metodologia di addestramento multi-stadio. Implementa una tecnica di distillazione della conoscenza insegnante-studente nota come AlignedOTA. Sebbene ciò estragga le massime prestazioni dal modello studente, richiede l'addestramento iniziale di un modello insegnante massiccio. Questo aumenta drasticamente il tempo di calcolo, i costi energetici e l'hardware richiesto, rappresentando un collo di bottiglia per i team ML agili.

Il Vantaggio Ultralytics: Facilità d'Uso

Al contrario, l'ecosistema Ultralytics è rinomato a livello mondiale per le sue API intuitive e la sua efficienza di addestramento. Supportato da uno sviluppo attivo e da un'enorme comunità open-source, gli sviluppatori possono addestrare, validare e distribuire modelli senza interruzioni.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

Ultralytics fornisce anche supporto integrato per il monitoraggio degli esperimenti tramite strumenti come Weights & Biases e Comet ML, creando un flusso di lavoro senza attriti.

Casi d'uso reali

  • YOLOv5 eccelle in ambienti di produzione ad alta velocità. La sua semplice esportabilità lo rende la scelta principale per l'analisi smart del retail, il rilevamento ad alta velocità dei difetti di produzione e l'integrazione in applicazioni mobili tramite CoreML.
  • DAMO-YOLO è altamente adatto per benchmark accademici rigorosi e scenari in cui sono disponibili vaste risorse computazionali per eseguire lunghe sessioni di addestramento distillato, volte a ottenere miglioramenti frazionari di mAP per specifici target hardware fissi.

Casi d'Uso e Raccomandazioni

La scelta tra YOLOv5 e DAMO-YOLO dipende dai requisiti specifici del progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Quando scegliere YOLOv5

YOLOv5 è una scelta eccellente per:

  • Sistemi di Produzione Collaudati: Implementazioni esistenti in cui sono apprezzati il lungo track record di stabilità di YOLOv5, la documentazione estesa e il massiccio supporto della community.
  • Addestramento con risorse limitate: Ambienti con risorse GPU limitate dove la pipeline di addestramento efficiente di YOLOv5 e i requisiti di memoria inferiori sono vantaggiosi.
  • Supporto Esteso per Formati di Esportazione: Progetti che richiedono il deployment su molti formati, inclusi ONNX, TensorRT, CoreML e TFLite.

Quando scegliere DAMO-YOLO

DAMO-YOLO è raccomandato per:

  • Analisi Video ad Alto Throughput: Elaborazione di flussi video ad alto FPS su infrastruttura NVIDIA GPU fissa dove il throughput batch-1 è la metrica primaria.
  • Linee di Produzione Industriali: Scenari con rigorosi vincoli di latenza della GPU su hardware dedicato, come l'ispezione di qualità in tempo reale su linee di assemblaggio.
  • Ricerca sulla Ricerca di Architettura Neurale: Studio degli effetti della ricerca automatizzata di architettura (MAE-NAS) e dei backbone riparametrizzati efficienti sulle prestazioni di rilevamento.

Quando scegliere Ultralytics (YOLO26)

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Deployment Edge NMS-Free: Applicazioni che richiedono inferenza consistente e a bassa latenza senza la complessità della post-elaborazione Non-Maximum Suppression.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 offre un vantaggio decisivo.
  • Rilevamento di Oggetti Piccoli: Scenari impegnativi come immagini aeree da drone o analisi di sensori IoT dove ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

La Prossima Evoluzione: YOLO26

Se stai avviando un nuovo progetto, è altamente raccomandato guardare al futuro. Ultralytics YOLO26 si basa sull'incredibile fondazione di YOLOv5, incorporando progressi rivoluzionari che ridefiniscono l'IA di visione all'avanguardia.

Perché passare a YOLO26?

Acclamato universalmente, YOLO26 è nativamente end-to-end. Presenta un design end-to-end senza NMS, eliminando completamente il post-processing di Non-Maximum Suppression per un deployment notevolmente più rapido e semplice.

Le principali innovazioni in YOLO26 includono:

  • Ottimizzatore MuSGD: Ispirato alle innovazioni nell'addestramento dei modelli LLM, questo ibrido di SGD e Muon garantisce un addestramento altamente stabile e una rapida convergenza.
  • Fino al 43% più veloce nell'inferenza su CPU: Fortemente ottimizzato per l'edge computing, rendendolo perfetto per i dispositivi IoT che operano senza GPU dedicate.
  • ProgLoss + STAL: Funzioni di perdita avanzate che migliorano drasticamente il riconoscimento di oggetti di piccole dimensioni, il che è critico per l'imaging aereo da drone e la robotica.
  • Miglioramenti Specifici per Task: Dalla perdita angolare specializzata per le Bounding Box Orientate (OBB) alla Stima della Log-Verosimiglianza Residua (RLE) per una stima accurata della Posa, YOLO26 gestisce domini complessi con facilità.

Conclusione

Sia YOLOv5 che DAMO-YOLO hanno consolidato il loro posto nella storia del rilevamento di oggetti. DAMO-YOLO rimane uno studio affascinante nella ricerca e distillazione di architetture neurali. Tuttavia, per le organizzazioni che privilegiano un ecosistema ben mantenuto, la facilità d'uso e un rapido percorso verso la produzione, i modelli Ultralytics rimangono ineguagliabili.

Raccomandiamo vivamente di utilizzare la Piattaforma Ultralytics per annotare, addestrare e distribuire la prossima generazione di modelli, come YOLO26, assicurando che la tua pipeline di visione artificiale sia a prova di futuro, veloce e straordinariamente accurata.

Letture aggiuntive

  • Esplora l'RT-DETR basato su transformer per applicazioni ad alta precisione.
  • Scopri il modello di generazione precedente YOLO11.
  • Scopri come ottimizzare le distribuzioni con OpenVINO.

Commenti