Vai al contenuto

YOLOv9 .YOLO: progressi nel rilevamento di oggetti in tempo reale

L'evoluzione del rilevamento degli oggetti in tempo reale è stata caratterizzata dalla costante ricerca dell'equilibrio ottimale tra accuratezza e latenza. In questo confronto dettagliato, esploriamo due architetture significative: YOLOv9, nota per le sue informazioni sul gradiente programmabile (PGI) e la rete di aggregazione dei livelli generalizzata ed efficiente (GELAN), e YOLO, una famiglia di modelli ottimizzati attraverso la ricerca dell'architettura neurale (NAS) e tecniche di riparametrizzazione.

Presentiamo anche l'ultima generazione, YOLO26, che amplia ulteriormente questi confini con un design end-to-end NMS e l'ottimizzazione per i dispositivi edge.

Metriche comparative delle prestazioni

La tabella seguente presenta un confronto diretto delle metriche chiave di prestazione sul set di dati COCO . YOLOv9 un'efficienza dei parametri superiore e spesso una maggiore accuratezza per modelli di dimensioni comparabili.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv9: Informazioni di gradiente programmabili

YOLOv9 rappresenta un significativo balzo in avanti nella progettazione dell'architettura di deep learning, risolvendo il problema del collo di bottiglia delle informazioni insito nelle reti profonde.

Innovazioni Architetturali Chiave

  1. Informazioni sul gradiente programmabile (PGI): man mano che le reti diventano più profonde, le informazioni sulle caratteristiche critiche spesso vanno perse durante il processo di feed-forward. Il PGI introduce un ramo ausiliario reversibile che fornisce informazioni affidabili sul gradiente al ramo principale durante l'addestramento. Ciò garantisce che la rete conservi le caratteristiche essenziali per un rilevamento accurato, risolvendo efficacemente il problema del "colli di bottiglia delle informazioni" senza aggiungere costi di inferenza.
  2. GELAN Backbone: la rete GELAN (Generalized Efficient Layer Aggregation Network) combina gli aspetti migliori di CSPNet ed ELAN. Consente scelte flessibili dei blocchi computazionali (come ResBlocks o blocchi CSP) massimizzando al contempo l'utilizzo dei parametri. Il risultato sono modelli leggeri ma incredibilmente potenti.

Queste innovazioni rendono YOLOv9 efficace per il rilevamento di oggetti generici e particolarmente adatto a conservare dettagli minuziosi in scene complesse.

Scopri di più su YOLOv9

YOLO: Ottimizzazione della ricerca dell'architettura neurale

YOLO si concentra sulla scoperta automatica di architetture efficienti e sull'utilizzo di tecniche di distillazione per migliorare le prestazioni.

Punti salienti dell'architettura

YOLO una tecnologia chiamata Neural Architecture Search (NAS) per costruire la sua struttura portante, MAE-NAS. Questo approccio mira a trovare la struttura di rete ottimale entro specifici vincoli di latenza. Inoltre, impiega un Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network) per fondere caratteristiche su scale diverse. Il modello si basa anche in larga misura su "ZeroHead" e sul miglioramento della distillazione, in cui un modello insegnante più grande guida l'addestramento del modello studente più piccolo per migliorarne l'accuratezza.

Sebbene innovativo, l'utilizzo di NAS e complesse pipeline di distillazione può rendere più difficile riprodurre i risultati o modificare l'architettura per attività personalizzate rispetto al design modulare di YOLOv9.

Ultralytics di Ultralytics : ecosistema e facilità d'uso

Sebbene entrambe le architetture offrano importanti contributi teorici, l'esperienza pratica per gli sviluppatori differisce in modo significativo. Ultralytics , inclusi YOLOv9 YOLO26, offrono un'esperienza fluida e senza attriti.

Flusso di lavoro semplificato

L'addestramento diYOLO spesso richiede file di configurazione complessi e impostazioni ambientali specifiche (come PaddlePaddle CUDA specifiche). Al contrario,Python Ultralytics standardizza il flusso di lavoro. È possibile caricare, addestrare e implementare modelli all'avanguardia in pochi minuti.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Versatilità e supporto per i task

Ultralytics non si limitano ai bounding box. Il framework supporta in modo nativo la segmentazione delle istanze, la stima della posa e il rilevamento dei bounding box orientati (OBB). Questa versatilità consente ai team di passare da un'attività all'altra senza dover apprendere nuove librerie. Al contrario,YOLO concentra principalmente sul rilevamento standard, con un supporto meno integrato per queste complesse attività a valle.

Efficienza dell'addestramento e memoria

YOLO Ultralytics sono progettati per garantire efficienza. In genere richiedono meno GPU durante l'addestramento rispetto alle architetture basate su trasformatori o ai modelli generati da NAS che possono avere modelli di accesso alla memoria irregolari. Ciò consente ai ricercatori di addestrare modelli robusti su hardware di livello consumer, democratizzando l'accesso alla visione artificiale di fascia alta.

Applicazioni nel mondo reale

La scelta del modello giusto dipende dai vincoli di implementazione e dagli obiettivi di prestazioni.

Casi d'uso ideali per YOLOv9

  • Analisi dei dati di vendita al dettaglio: l'elevata precisione di YOLOv9c lo rende eccellente per il rilevamento dei prodotti su scaffali affollati dove l'occlusione è comune.
  • Imaging medico: l'architettura PGI aiuta a conservare le informazioni relative alle caratteristiche critiche, fondamentali per rilevare piccole anomalie nelle scansioni mediche o identificare fratture.
  • Sorveglianza generica: per feed di sicurezza standard in cui è richiesto un equilibrio tra mAP elevato mAP FPS ragionevole.

Casi d'uso ideali perYOLO

  • Ricerca hardware limitata: se stai conducendo una ricerca sui NAS per trovare una dorsale specificamente adattata a un vincolo hardware molto particolare in cui le dorsali standard non funzionano.
  • Benchmarking accademico: per i ricercatori che confrontano l'efficacia delle tecniche di distillazione rispetto alla riparametrizzazione strutturale.

Perché YOLO26 è il futuro

Per gli sviluppatori che iniziano nuovi progetti nel 2026, YOLO26 offre le funzionalità più interessanti. Si basa sui punti di forza di YOLOv9 introduce un design end-to-end NMS, eliminando la necessità della post-elaborazione Non-Maximum Suppression. Ciò semplifica notevolmente l'implementazione e riduce la latenza, in particolare sui dispositivi edge.

Scopri di più su YOLO26

Le principali innovazioni di YOLO26 includono:

  • MuSGD Optimizer: un ibrido tra SGD Muon che stabilizza l'addestramento e accelera la convergenza, portando la stabilità dell'addestramento dei modelli linguistici di grandi dimensioni (LLM) alla visione.
  • Rimozione DFL: la rimozione della perdita focale di distribuzione semplifica il grafico del modello, facilitando l'esportazione in formati come ONNX e TensorRT più fluida.
  • Rilevamento avanzato di piccoli oggetti: grazie a ProgLoss e STAL, YOLO26 eccelle nelle immagini aeree e nelle applicazioni con droni.

Rendi la tua implementazione a prova di futuro

La migrazione a YOLO26 garantisce alla tua applicazione i vantaggi delle ultime innovazioni nell'ottimizzazione edge. Il design nativo end-to-end consente un'inferenza più rapida su CPU e NPU, fondamentale per i dispositivi IoT alimentati a batteria.

Conclusione

MentreYOLO concetti interessanti riguardanti la ricerca dell'architettura neurale e la distillazione, YOLOv9 e il più recente YOLO26 offrono una soluzione più pratica, potente e intuitiva per la stragrande maggioranza delle applicazioni di visione artificiale. Ultralytics garantisce agli sviluppatori l'accesso ai migliori strumenti per l'addestramento, il monitoraggio e l'implementazione dei modelli, supportati da una documentazione completa e dall'assistenza della community.

Per approfondire ulteriormente le architetture dei modelli, ti invitiamo a consultare i nostri confronti tra YOLOv10 YOLO o YOLO11 YOLOv9.


Commenti