Vai al contenuto

YOLOv6.0 controYOLO: un confronto tecnico

Il panorama del rilevamento di oggetti in tempo reale è caratterizzato da rapide iterazioni e dalla competizione per il raggiungimento dell'equilibrio ottimale tra velocità e precisione. Due contributi significativi in questo campo sono YOLOv6.YOLOv6, sviluppato da Meituan, e YOLO, della DAMO Academy di Alibaba. Questo confronto esplora le innovazioni architetturali, i benchmark delle prestazioni e gli scenari di implementazione ideali per entrambi i modelli, evidenziando al contempo come il moderno Ultralytics continui a spingere i confini della visione artificiale.

Benchmark delle prestazioni

Entrambi i modelli sono destinati ad applicazioni industriali in tempo reale, ma ottengono i loro risultati attraverso strategie di ottimizzazione diverse. La tabella sottostante illustra in dettaglio le loro prestazioni sul set di dati COCO .

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Panoramica di YOLOv6-3.0

Rilasciato da Meituan all'inizio del 2023, YOLOv6.YOLOv6 rappresenta una "ricarica completa" della loro precedente architettura. Si concentra fortemente su modelli ingegneristici ottimizzati per l'implementazione su hardware dedicato come le GPU, rendendolo uno dei preferiti per l'automazione industriale.

Caratteristiche principali:

  • Concatenazione bidirezionale (BiC): un metodo migliorato di fusione delle caratteristiche nella zona del collo che aumenta la precisione della localizzazione senza costi computazionali significativi.
  • Formazione assistita da ancoraggio (AAT): una strategia di formazione ibrida che combina paradigmi basati su ancoraggio e senza ancoraggio per stabilizzare la convergenza e migliorare la precisione finale.
  • Testa disaccoppiata: separa le attività di classificazione e regressione, uno standard nei moderni rilevatori, consentendo perfezionamenti più precisi dei riquadri di delimitazione.
  • Quantizzazione ottimizzata: l'architettura è progettata specificamente per ridurre al minimo la perdita di precisione durante la quantizzazione a INT8 utilizzando tecniche come RepOptimizer e la distillazione per canale.

Scopri di più su YOLOv6

Panoramica su DAMO-YOLO

Sviluppato dal Gruppo Alibaba e lanciato alla fine del 2022, YOLO introduce diverse tecnologie innovative volte a superare i limiti del compromesso tra velocità e precisione, in particolare attraverso la ricerca di architetture neurali (NAS).

Caratteristiche principali:

  • Backbone MAE-NAS: utilizza un backbone individuato tramite Neural Architecture Search (NAS) basato sul principio della massima entropia, garantendo un elevato flusso di informazioni ed efficienza.
  • RepGFPN efficiente: un design heavyneck che sostituisce il PANet standard con una rete piramidale generalizzata (GFPN), offrendo una migliore fusione delle caratteristiche multiscala.
  • ZeroHead: una testa di rilevamento estremamente leggera progettata per ridurre il sovraccarico computazionale tipicamente associato alle teste disaccoppiate "pesanti".
  • AlignedOTA: una strategia aggiornata di assegnazione delle etichette che allinea in modo più efficace le attività di classificazione e regressione durante l'addestramento.

Analisi comparativa

Architettura e filosofia di progettazione

La differenza principale risiede nella loro origine progettuale. YOLOv6.YOLOv6 è stato progettato manualmente con una forte attenzione alla "facilità di implementazione", mirando in particolare TensorRT sulle NVIDIA . Il suo utilizzo di convoluzioni standard e blocchi in stile RepVGG lo rende altamente prevedibile negli ambienti di produzione.

Al contrario, YOLO si affida fortemente alla ricerca automatizzata (NAS) per trovare strutture ottimali. Sebbene ciò garantisca un'eccellente efficienza teorica (FLOP), le complesse strutture ramificate presenti nei backbone derivati dal NAS possono talvolta risultare più difficili da ottimizzare per specifici compilatori hardware rispetto al design lineare di YOLOv6.

Prestazioni sui dispositivi Edge

Per attività che coinvolgono edge AI, entrambi i modelli offrono varianti competitive "Tiny" o "Nano". YOLOv6 è eccezionalmente leggero (4,7 milioni di parametri), il che lo rende adatto a dispositivi con forti limitazioni.YOLO, sebbene leggermente più grande, spesso offre una maggiore precisione (42,0 mAP) fin da subito, giustificando potenzialmente il costo computazionale aggiuntivo per applicazioni che richiedono dettagli più precisi.

Metodologie di addestramento

YOLOv6 ampiamente l'autodistillazione, in cui un modello insegnante più grande guida il modello studente durante l'addestramento. Ciò è fondamentale per le sue elevate prestazioni, ma aggiunge complessità alla pipeline di addestramento.YOLO un modulo di potenziamento della distillazione, ma pone l'accento sull'assegnazione dell'etichetta AlignedOTA per gestire in modo più efficace i campioni difficili durante il processo di apprendimento.

Considerazioni sulla distribuzione

Quando si esegue il deployment in produzione, considerare che YOLOv6 spesso offre un supporto immediato migliore per la quantizzazione INT8 tramite TensorRT, che può raddoppiare la velocità di inferenza su hardware compatibile come NVIDIA Orin.

Il vantaggio di Ultralytics

SebbeneYOLO YOLOv6 risultati di ricerca impressionanti, Ultralytics offre un vantaggio distintivo agli sviluppatori che danno priorità alla facilità d'uso, alla manutenibilità e alla prontezza alla produzione.

Esperienza di sviluppo senza soluzione di continuità

Ultralytics , tra cui YOLO11 e l'innovativo YOLO26, sono basati su un framework unificato. Ciò significa che è possibile addestrare, convalidare e implementare modelli utilizzando un'API semplice e coerente.

from ultralytics import YOLO

# Load a model (switch freely between versions)
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

Versatilità tra le attività

A differenza di molti repository specializzati, il Ultralytics supporta un'ampia gamma di attività di visione artificiale che vanno oltre il semplice rilevamento. Queste includono la segmentazione delle istanze, la stima della posa, la classificazione e il rilevamento dei bounding box orientati (OBB). Questa versatilità consente ai team di consolidare i propri strumenti di IA in un unico flusso di lavoro.

Integrazione della piattaforma

La Ultralytics semplifica ulteriormente il ciclo di vita fornendo strumenti per la gestione dei set di dati, l'annotazione automatica e la formazione cloud con un solo clic. Questo approccio integrato elimina l'attrito derivante dalla configurazione di ambienti locali complessi e dalla gestione di set di dati disparati.

Il futuro: Ultralytics

Per gli sviluppatori alla ricerca delle prestazioni più avanzate e delle innovazioni architetturali più recenti, YOLO26 definisce un nuovo standard.

  • End-to-End NMS: eliminando la Non-Maximum Suppression (NMS), YOLO26 semplifica la pipeline di implementazione e riduce la varianza della latenza, una caratteristica fondamentale per i sistemi di sicurezza in tempo reale.
  • CPU : grazie alla rimozione della Distribution Focal Loss (DFL) e all'ottimizzazione per i vincoli di bordo, YOLO26 raggiunge CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo una scelta superiore per i dispositivi senza GPU dedicate.
  • Stabilità dell'addestramento avanzato: l'integrazione del MuSGD Optimizer, ispirato alle tecniche di addestramento LLM, garantisce una stabilità senza precedenti all'addestramento dei modelli di visione, assicurando una convergenza più rapida e una migliore generalizzazione.
  • Miglioramenti specifici per determinate attività: che si tratti della stima della verosimiglianza logaritmica residua (RLE) per una stima precisa della posa o delle perdite angolari specializzate per OBB, YOLO26 offre miglioramenti mirati per casi d'uso complessi.

Scopri di più su YOLO26

Riepilogo

  • Scegli YOLOv6. YOLOv6 se il tuo obiettivo di implementazione principale sono NVIDIA ad alta produttività (ad esempio, T4, A100) e hai bisogno di un supporto di quantizzazione maturo per l'ispezione industriale o l'analisi video.
  • ScegliYOLO se sei interessato alle architetture basate su NAS e hai bisogno di una dorsale altamente efficiente per la ricerca o scenari specifici in cui RepGFPN offre una migliore fusione delle caratteristiche.
  • Scegli Ultralytics per il miglior equilibrio complessivo tra velocità, precisione ed esperienza di sviluppo. Il suo designNMS, i bassi requisiti di memoria durante l'addestramento e l'ampio supporto dell'ecosistema lo rendono la scelta ideale per passare da prototipi rapidi a soluzioni aziendali di produzione.

Letture aggiuntive

Esplora altri confronti e modelli nella Ultralytics :

  • YOLOv8 vs YOLOv6
  • RT-DETR - Trasformatore di rilevamento in tempo reale.
  • YOLOv10 - Rilevamento di oggetti end-to-end in tempo reale.
  • COCO - Il benchmark standard per il rilevamento di oggetti.

Commenti