Vai al contenuto

YOLO YOLOv6.0: una sfida tecnica per il rilevamento di oggetti in tempo reale

Il panorama del rilevamento di oggetti in tempo reale è caratterizzato da una rapida innovazione, in cui l'efficienza architettonica e la velocità di inferenza sono fondamentali. Due importanti contendenti in questo settore sono YOLO, sviluppato da Alibaba Group, e YOLOv6.YOLOv6, un solido framework di Meituan. Entrambi i modelli mirano a raggiungere il perfetto equilibrio tra latenza e precisione, ma lo ottengono attraverso metodologie distinte.

Questa guida completa analizza le sfumature tecniche di entrambe le architetture, offrendo a sviluppatori e ricercatori le informazioni necessarie per scegliere lo strumento giusto per le loro applicazioni di visione artificiale. Che si tratti di dispositivi edge o server cloud ad alta produttività, comprendere queste differenze è fondamentale.

Benchmark delle prestazioni

La tabella seguente illustra le metriche di prestazione sul COCO . YOLOv6.YOLOv6 offre generalmente un throughput superiore su GPU grazie al suo design TensorRT, mentre YOLO dimostra una forte efficienza dei parametri.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

DAMO-YOLO: Neural Architecture Search Incontra l'Efficienza

YOLO introduce un approccio innovativo integrando la ricerca dell'architettura neurale (NAS) direttamente nel design della struttura portante. Sviluppato dal Gruppo Alibaba, si concentra sulla massimizzazione delle prestazioni in condizioni di latenza molto rigide.

Caratteristiche architettoniche chiave

  • MAE-NAS Backbone: utilizza una ricerca di architettura neurale con autoencoder multibranch (MAE-NAS) per individuare strutture di rete ottimali. Il risultato è un backbone che estrae le caratteristiche in modo più efficiente rispetto alle controparti realizzate manualmente come CSPDarknet.
  • RepGFPN efficiente: il modello sostituisce la Feature Pyramid Network (FPN) standard con una Reparameterized Generalized FPN (RepGFPN). Ciò migliora la fusione delle caratteristiche su scale diverse mantenendo la velocità di inferenza, poiché i rami complessi vengono fusi in un unico percorso durante l'implementazione.
  • ZeroHead: Per ridurre ulteriormente i costi di calcolo,YOLO un "ZeroHead" leggero, che semplifica il design della testa di rilevamento senza una significativa perdita di precisione.
  • AlignedOTA: il processo di addestramento utilizza l'assegnazione di etichette Aligned One-to-Many (AlignedOTA), che assegna dinamicamente le etichette per migliorare la velocità di convergenza e gestire l'ambiguità in scene affollate.

YOLO :
Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione: Alibaba Group
Data: 23 novembre 2022
Arxiv | GitHub | Docs

YOLOv6.0: lo standard industriale per le GPU

YOLOv6.YOLOv6, spesso definito come un "ricaricamento completo" del framework, è progettato specificamente per applicazioni industriali in cui GPU tramite TensorRT è la norma.

Caratteristiche architettoniche chiave

  • Fusione bidirezionale (BiFusion): YOLOv6.0 potenzia il collo con BiFusion, migliorando il flusso di informazioni semantiche tra diversi livelli di caratteristiche.
  • Formazione assistita da anchor (AAT): a differenza dei rilevatori puramente senza anchor, YOLOv6. YOLOv6 introduce un ramo ausiliario basato su anchor durante la formazione. Ciò stabilizza il processo di apprendimento e aumenta il richiamo, mentre l'inferenza rimane senza anchor per garantire la velocità.
  • RepOptimizer: il modello sfrutta tecniche di riparametrizzazione non solo nell'architettura (blocchi RepVGG), ma anche nel processo di ottimizzazione stesso, garantendo che i passaggi di discesa del gradiente siano più efficaci per le specifiche strutture riparametrizzate.
  • Quantization Aware Training (QAT): uno dei principali punti di forza è il supporto nativo per QAT, che consente al modello di mantenere un'elevata precisione anche quando compresso a precisione INT8 per l'implementazione su GPU edge.

DettagliYOLOv6.YOLOv6:
Autori: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu e Xiangxiang Chu
Organizzazione: Meituan
Data: 13/01/2023
Arxiv | GitHub | Docs

Scopri di più su YOLOv6

Ultralytics di Ultralytics : perché scegliere YOLO moderni YOLO ?

SebbeneYOLO YOLOv6.0 offrano punti di forza distinti, il Ultralytics fornisce una soluzione unificata che risponde alle esigenze più ampie dello sviluppo moderno dell'IA. Scegliere un Ultralytics significa assicurarsi non solo un'architettura, ma un flusso di lavoro completo e supportato.

1. Facilità d'uso senza pari

Ultralytics all'esperienza degli sviluppatori ("zero-to-hero"). Processi complessi come l'aumento dei dati, la regolazione degli iperparametri e l'esportazione dei modelli sono astratti dietro una semplice Python .

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)

2. Versatilità tra le Attività

A differenza diYOLO YOLOv6, che si concentrano principalmente sul rilevamento dei riquadri di delimitazione, Ultralytics sono intrinsecamente multimodali. Un unico codice base supporta:

3. Efficienza dell'addestramento e utilizzo della memoria

Ultralytics sono ottimizzate per ridurre al minimo l'utilizzo della VRAM durante l'addestramento. Questa efficienza consente a ricercatori e appassionati di addestrare modelli all'avanguardia su GPU di livello consumer, un vantaggio significativo rispetto agli ibridi transformer che richiedono molta memoria come RT-DETR.

4. Ecosistema ben conservato

Ultralytics è uno dei più attivi nella comunità della visione artificiale. Gli aggiornamenti frequenti garantiscono la compatibilità con le ultime versioni di PyTorch, CUDA e Python, evitando il "code rot" che spesso si riscontra nei repository di ricerca statici.

Il futuro della visione artificiale: YOLO26

Per gli sviluppatori alla ricerca del massimo in termini di prestazioni e facilità di implementazione, Ultralytics rappresenta la nuova generazione dell'intelligenza artificiale visiva.

Perché passare a YOLO26?

YOLO26 integra funzionalità all'avanguardia che semplificano l'implementazione aumentando al contempo la velocità e la precisione:

  • End-to-End NMS: elimina la post-elaborazione Non-Maximum Suppression (NMS), semplificando l'esportazione in CoreML e TFLite.
  • CPU : CPU fino al 43% più veloce rispetto alle generazioni precedenti, che sblocca prestazioni in tempo reale su dispositivi edge privi di GPU potenti.
  • MuSGD Optimizer: un ottimizzatore ibrido che sfrutta le innovazioni della formazione LLM (ispirato al Kimi K2 di Moonshot AI) per una convergenza e una stabilità più rapide.
  • Rilevamento avanzato di oggetti di piccole dimensioni: Il nuovo ProgLoss e STAL Le funzioni di perdita migliorano significativamente il rilevamento di bersagli piccoli e difficili, fondamentali per applicazioni dei droni.

Scopri di più su YOLO26

Raccomandazioni sui casi d'uso

Quando si decide tra queste architetture, considerare il proprio ambiente di implementazione specifico:

Ideale perYOLO

  • Ricerca e sviluppo: eccellente per studiare l'impatto della ricerca sull'architettura neurale (NAS) sulle strutture di base della visione.
  • Hardware personalizzato: la struttura può offrire vantaggi su specifici NPU che favoriscono il design RepGFPN.
  • Requisiti di bassa latenza: il design ZeroHead consente di risparmiare millisecondi in ambienti con vincoli temporali rigorosi.

Ideale per YOLOv6.0

  • GPU industriali: grande attenzione a TensorRT lo rende un vero mostro di potenza sulle schede NVIDIA e A100.
  • Esigenze di quantizzazione: se la tua pipeline si basa fortemente sul Quantization Aware Training (QAT) per l'implementazione INT8, YOLOv6 strumenti nativi.
  • Analisi ad alta produttività: scenari come l'elaborazione simultanea di più flussi video, in cui la produttività batch è fondamentale.

Ideale per Ultralytics YOLO11 YOLO26)

  • Implementazione per uso generico: possibilità di esportare in ONNX, OpenVINO, TensorRT, CoreML e TFLite un unico comando copre tutte le basi.
  • CPU mobile ed edge: CPU specifiche CPU di YOLO26 e il design NMS lo rendono la scelta ideale per le implementazioni iOS, Android e Raspberry Pi.
  • Compiti complessi: quando il tuo progetto richiede più di semplici scatole, come maschere di segmentazione o punti chiave di posa,Ultralytics l'unico framework unificato in grado di soddisfare le tue esigenze.
  • Prototipazione rapida: la Ultralytics consente una gestione, un addestramento e un'implementazione rapidi dei set di dati senza dover gestire infrastrutture complesse.

Conclusione

Sia YOLO che YOLOv6.YOLOv6 rappresentano contributi significativi nel campo della visione artificiale.YOLO i confini della ricerca automatizzata di architetture, mentre YOLOv6 l'arte dell'inferenza GPU.

Tuttavia, per la stragrande maggioranza delle applicazioni reali, YOLO Ultralytics offrono una soluzione più equilibrata, versatile e gestibile. Con il rilascio di YOLO26, il divario si è ulteriormente ampliato, offrendo un'efficienza end-to-end e CPU che i modelli concorrenti non sono ancora in grado di eguagliare. Che siate una startup che sta sviluppando il suo primo prodotto di intelligenza artificiale o un'azienda che sta scalando fino a milioni di utenti, la stabilità e le prestazioni Ultralytics forniscono una solida base per il successo.

Letture aggiuntive

Esplora altri modelli e strumenti all'avanguardia nella Ultralytics :

  • YOLOv8 - Il classico modello SOTA noto per la sua stabilità.
  • RT-DETR - Trasformatore di rilevamento in tempo reale per attività ad alta precisione.
  • YOLOv9 - Con informazioni sul gradiente programmabile (PGI).
  • YOLOv10 - Il pioniere dell'addestramento NMS.
  • YOLO11 - Un potente predecessore dell'attuale generazione.

Commenti