YOLOv5 .YOLO: un'analisi tecnica approfondita sull'evoluzione del rilevamento degli oggetti
Nel mondo in rapida evoluzione della visione artificiale, la scelta del modello di rilevamento degli oggetti più adeguato è fondamentale per il successo di un progetto. Questa guida mette a confronto YOLOv5, il leggendario repository che ha democratizzato l'accessibilità dell'IA, e YOLO, un'architettura incentrata sulla ricerca sviluppata dal team TinyVision di Alibaba. Sebbene entrambi i modelli mirino a un'elevata efficienza, affrontano il problema con filosofie diverse in termini di architettura, facilità d'uso e prontezza di implementazione.
Panoramica e Origini del Modello
YOLOv5
Pubblicato a metà del 2020 da Ultralytics, YOLOv5 uno standard del settore non solo per la sua architettura, ma anche per la sua ingegnerizzazione. Ha posto l'accento sull'usabilità, su pipeline di formazione robuste e su un'esportabilità senza soluzione di continuità. Rimane uno dei modelli di visione AI più ampiamente implementati a livello globale.
- Autori: Glenn Jocher
- Organizzazione:Ultralytics
- Data: 2020-06-26
- GitHub:ultralytics/yolov5
DAMO-YOLO
Proposto alla fine del 2022 dal Gruppo Alibaba,YOLO Distillation-Augmented MOdel) integra tecnologie all'avanguardia come Neural Architecture Search (NAS), Reparameterized Generalized-FPN (RepGFPN) ed è fortemente basato sulla distillazione per migliorare le prestazioni.
- Autori: Xianzhe Xu, Yiqi Jiang, et al.
- Organizzazione: Alibaba Group
- Data: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Confronto dell'Architettura Tecnica
Le differenze architetturali tra questi due modelli evidenziano il passaggio da progetti euristici "bag-of-freebies" ad architetture automatizzate basate sulla ricerca.
YOLOv5: lo standard CSP-Darknet
YOLOv5 una struttura CSP-Darknet53 modificata collegata a un collo PANet (Path Aggregation Network). Il suo punto di forza principale risiede nel suo design modulare e nei "bag-of-freebies" applicati durante l'addestramento, come l'aumento Mosaic e l'evoluzione degli iperparametri dell'algoritmo genetico.
- Backbone: CSP-Darknet
- Collo: PANet con blocchi CSP
- Testa: testa accoppiata basata su ancoraggio in stile YOLOv3
YOLO: NAS e distillazione
YOLO dai modelli manuali standard utilizzando la ricerca dell'architettura neurale (NAS) per trovare la struttura di base ottimale (MAE-NAS).
- Backbone: MAE-NAS (basato sulla ricerca)
- Collo: RepGFPN (Reparameterized Generalized FPN) che consente un'efficiente fusione delle caratteristiche.
- Testa: ZeroHead (livelli di proiezione dual-task) combinato con AlignedOTA per l'assegnazione delle etichette.
- Distillazione: una componente fondamentale in cui un modello "insegnante" più grande guida l'addestramento del modello "studente" più piccolo, il che aggiunge complessità alla pipeline di addestramento ma migliora la precisione finale.
Complessità della distillazione
Sebbene la distillazione migliori la precisione diYOLO, complica notevolmente il flusso di lavoro di addestramento rispetto a YOLOv5. Gli utenti devono spesso addestrare o scaricare prima un modello teacher, aumentando la barriera all'ingresso per i set di dati personalizzati.
Metriche di performance
La tabella seguente mette a confronto le prestazioni di vari modelli su scala ridotta sul set di dati COCO . MentreYOLO ottimi risultati nelle metriche accademiche, YOLOv5 competitivo in termini di produttività e versatilità di implementazione.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Analisi dei risultati
- Efficienza: YOLOv5n (Nano) rimane il re dell'inferenza leggera, con un numero di parametri (2,6 milioni contro 8,5 milioni) e FLOP significativamente inferiori rispetto aYOLO, rendendolo molto più adatto per casi estremi su CPU standard.
- Precisione:YOLO la sua pipeline di distillazione per ottenere una maggiore mAP da conteggi di parametri simili, in particolare nelle gamme Small e Medium.
- Velocità di inferenza: YOLOv5 offre YOLOv5 CPU più veloce tramite ONNX grazie a blocchi architetturali più semplici altamente ottimizzati nelle librerie standard.
Addestramento e usabilità
Questo è il principale elemento di differenziazione per gli sviluppatori. Ultralytics privilegia un'esperienza "zero-to-hero", mentre gli archivi di ricerca richiedono spesso una configurazione approfondita.
YOLOv5: Esperienza semplificata
YOLOv5 un'interfaccia a riga di comando intuitiva e Python che sono diventate lo standard del settore. L'addestramento su un set di dati personalizzato richiede una configurazione minima.
import torch
# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt
YOLO: Ricerca sulla complessità
L'addestramentoYOLO comportaYOLO un sistema di configurazione più complesso. La dipendenza da un programma di distillazione significa che gli utenti devono spesso gestire due modelli (insegnante e studente) durante la fase di addestramento, il che aumentai requisiti di memoria GPU e il sovraccarico di configurazione.
Ultralytics di Ultralytics : ecosistema e versatilità
MentreYOLO un potente rilevatore di oggetti puro, il Ultralytics offre una suite più ampia di funzionalità richieste dai moderni progetti di IA.
- Versatilità: oltre ai semplici riquadri di delimitazione, Ultralytics la segmentazione delle istanze, la stima della posa, la classificazione e il rilevamento dei riquadri di delimitazione orientati (OBB).YOLO concentra principalmente sul rilevamento standard.
- Implementazione: Ultralytics possono essere esportati senza problemi in formati come TensorRT, CoreML, TFLite e OpenVINO un unico comando.
- Supporto della community: con milioni di utenti, la Ultralytics offre risorse complete, tutorial e integrazioni di terze parti che i repository di ricerca non sono in grado di eguagliare.
La prossima generazione: YOLO26
Per gli sviluppatori che apprezzano l'efficienza dei modelli basati su NAS ma necessitano della facilità d'uso di YOLOv5, YOLO26 è il successore consigliato. Rilasciato nel 2026, incorpora il meglio di entrambi i mondi.
- End-to-End NMS: come le recenti scoperte accademiche, YOLO26 elimina la Non-Maximum Suppression (NMS), semplificando le pipeline di implementazione.
- Ottimizzatore MuSGD: Ispirato all'addestramento degli LLM, questo ottimizzatore ibrido garantisce una convergenza stabile.
- Ottimizzato per l'edge: YOLO26 è fino al 43% più veloce sulle CPU, rendendolo la scelta migliore per l'edge computing rispetto sia a YOLOv5 YOLO.
Conclusione
YOLO è un eccellente contributo al campo della ricerca sulla visione artificiale, che dimostra la potenza della ricerca dell'architettura neurale e della distillazione. È un valido candidato per i ricercatori che desiderano studiare metodi avanzati di ricerca architettonica o ottenere la massima precisione da specifici vincoli hardware in cui la complessità dell'addestramento non rappresenta un ostacolo.
YOLOv5e il suo moderno successore YOLO26 rimangono la scelta preferita per praticamente tutte le implementazioni di produzione. La combinazione di un basso utilizzo di memoria, un ampio supporto delle attività (segmentazione, posa, OBB) e la robusta Ultralytics garantisce che i progetti passino dal prototipo alla produzione con il minimo attrito.
Per chi desidera il massimo in termini di prestazioni e funzionalità, consigliamo vivamente di provare YOLO26, che offre l'efficienza end-to-end tanto apprezzata dai ricercatori e la facilità d'uso Ultralytics .
Letture aggiuntive
- Esplora l'ultima documentazione YOLO26.
- Dai un'occhiata al repository YOLOv5 .
- Scopri i fondamenti del rilevamento degli oggetti in tempo reale.
- Confronta altri modelli come RT-DETR per soluzioni basate su trasformatori.