Vai al contenuto

YOLOv9 . YOLOv7: alla scoperta dell'evoluzione del rilevamento di oggetti all'avanguardia

Nel campo in rapida evoluzione della visione artificiale, rimanere aggiornati sulle ultime architetture è fondamentale per creare applicazioni efficienti e accurate. Questo confronto approfondisce due pietre miliari significative nella linea YOLO You Only Look Once): YOLOv9, introdotto all'inizio del 2024 con nuove tecniche di ottimizzazione del gradiente, e YOLOv7, il punto di riferimento del 2022 per il rilevamento in tempo reale. Entrambi i modelli hanno plasmato il panorama del rilevamento degli oggetti, offrendo vantaggi unici sia ai ricercatori che agli sviluppatori.

Benchmark delle prestazioni

La tabella seguente evidenzia le metriche di prestazione di YOLOv9 YOLOv7 COCO . Mentre YOLOv7 standard elevati in termini di velocità e precisione nel 2022, YOLOv9 perfezionamenti architetturali che spingono ulteriormente questi limiti, in particolare nell'efficienza dei parametri.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: Informazioni di gradiente programmabili

YOLOv9 un cambiamento nel modo in cui le architetture di deep learning gestiscono il flusso di informazioni. Rilasciato nel febbraio 2024 da Chien-Yao Wang e Hong-Yuan Mark Liao, affronta il problema del "colli di bottiglia informativi", ovvero la perdita di dati durante il passaggio attraverso livelli profondi.

Innovazioni Architetturali Chiave

L'innovazione principale di YOLOv9 il PGI (Programmable Gradient Information). Il PGI fornisce un framework di supervisione ausiliario che garantisce che il ramo principale conservi le informazioni critiche sulle caratteristiche durante tutto il processo di addestramento. Questo è integrato dall'architettura GELAN (Generalized Efficient Layer Aggregation Network), che ottimizza l'utilizzo dei parametri oltre i metodi precedenti come CSPNet.

Scopri di più su YOLOv9

YOLOv7: Il "Bag-of-Freebies" Addestrabile

YOLOv7 progettato per essere il rilevatore di oggetti in tempo reale più veloce e preciso al momento del suo lancio nel luglio 2022. Ha introdotto diversi metodi di ottimizzazione "bag-of-freebies" che migliorano la precisione senza aumentare i costi di inferenza.

Innovazioni Architetturali Chiave

YOLOv7 su E-ELAN (Extended Efficient Layer Aggregation Network), che consente alla rete di apprendere caratteristiche più diversificate controllando i percorsi di gradiente più brevi e più lunghi. Ha anche aperto la strada a tecniche di ridimensionamento dei modelli che regolano simultaneamente profondità e larghezza, rendendolo altamente adattabile a diversi vincoli hardware.

Scopri di più su YOLOv7

Analisi comparativa: architettura e casi d'uso

Precisione e conservazione delle caratteristiche

YOLOv9 offre YOLOv9 prestazioni superiori rispetto a YOLOv7 scenari che richiedono il rilevamento di oggetti piccoli o occlusi. Il framework PGI garantisce che i gradienti non vengano diluiti, il che è particolarmente vantaggioso per l'analisi di immagini mediche, dove la mancata individuazione di una piccola anomalia può essere critica. YOLOv7 una scelta valida per il rilevamento generico, ma può avere qualche difficoltà in più con i colli di bottiglia informativi estremi nelle reti molto profonde.

Velocità ed efficienza dell'inferenza

Sebbene entrambi i modelli siano progettati per applicazioni in tempo reale, YOLOv9 un miglior compromesso tra parametri e precisione. Ad esempio, YOLOv9c raggiunge una precisione simile a quella di YOLOv7x, ma con un numero significativamente inferiore di parametri (25,3 milioni contro 71,3 milioni) e FLOP. Ciò rende YOLOv9 adatto all'implementazione su dispositivi in cui la larghezza di banda della memoria è un vincolo, come le telecamere AI edge.

Flessibilità di distribuzione

Ultralytics sono rinomati per la loro portabilità. Sia YOLOv9 YOLOv7 essere facilmente esportati in formati come ONNX e TensorRT utilizzandoPython Ultralytics , semplificando il percorso dalla ricerca alla produzione.

Efficienza dell'addestramento

Uno dei principali vantaggi Ultralytics è l'ottimizzazione dell'utilizzo della memoria durante l'addestramento. YOLOv9, integrato in modo nativo in Ultralytics, beneficia di caricatori di dati e gestione della memoria efficienti. Ciò consente agli sviluppatori di addestrare modelli competitivi su GPU di livello consumer (ad esempio RTX 3060 o 4070) senza incorrere in errori di memoria insufficiente (OOM) che sono comuni con architetture pesanti dal punto di vista dei trasformatori o repository non ottimizzati.

Applicazioni nel mondo reale

La scelta tra questi modelli spesso dipende dall'ambiente di implementazione specifico.

  • Veicoli autonomi:YOLOv7 è stato ampiamente testato in scenari di guida autonoma, dimostrando la sua affidabilità nel rilevare pedoni e segnali stradali ad alta frequenza di fotogrammi.
  • Imaging sanitario:YOLOv9 eccellente nell'imaging medico, come il rilevamento di tumori o fratture, dove è fondamentale preservare i dettagli più minuti attraverso livelli profondi.
  • Analisi dei dati di vendita al dettaglio: per la gestione dell'inventario, YOLOv9 offre un'elevata precisione nel conteggio di articoli densamente disposti sugli scaffali, sfruttando le sue eccellenti capacità di integrazione delle caratteristiche.
  • Città intelligenti: i sistemi di monitoraggio del traffico traggono vantaggio da YOLOv7, essenziali per la gestione del traffico in tempo reale.

Il vantaggio di Ultralytics

L'utilizzo di entrambi i modelli all'interno Ultralytics offre vantaggi distintivi rispetto alle implementazioni autonome:

  1. Facilità d'uso: un'API unificata consente di passare da YOLOv7, YOLOv9 e modelli più recenti con una sola riga di codice.
  2. Ecosistema ben mantenuto: il supporto attivo della comunità e gli aggiornamenti frequenti garantiscono la compatibilità con le ultime versioni di PyTorch e CUDA .
  3. Versatilità: oltre al rilevamento, il Ultralytics supporta attività di segmentazione delle istanze, stima della posa e bounding box orientato (OBB), consentendo di ampliare l'ambito del progetto senza dover apprendere l'uso di nuovi strumenti.

Esempio di codice: Formazione con Ultralytics

L'addestramento di entrambi i modelli è semplice. Ecco come addestrare un YOLOv9 su un set di dati personalizzato:

from ultralytics import YOLO

# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt")  # or "yolov7.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

A prova di futuro con YOLO26

Sebbene YOLOv9 YOLOv7 strumenti potenti, il settore è in rapida evoluzione. L'ultima versione YOLO26, rilasciata nel gennaio 2026, rappresenta l'avanguardia della visione artificiale.

YOLO26 presenta un design nativo end-to-end NMS, che elimina la latenza di post-elaborazione per una distribuzione più semplice. Rimuove la Distribution Focal Loss (DFL) per una migliore compatibilità edge e introduce l'ottimizzatore MuSGD, un ibrido di SGD Muon ispirato all'addestramento LLM, per una stabilità senza precedenti. Con funzioni di perdita specializzate come ProgLoss + STAL, YOLO26 migliora significativamente il riconoscimento di oggetti di piccole dimensioni, rendendolo la scelta consigliata per le nuove applicazioni ad alte prestazioni.

Scopri di più su YOLO26

Per chi sta valutando altre opzioni, modelli come YOLO11 e RT-DETR offrono anche vantaggi unici per casi d'uso specifici all'interno della Ultralytics .


Commenti