Vai al contenuto

YOLOv9 . YOLOv6.0: innovazione architettonica e analisi delle prestazioni

Il panorama del rilevamento di oggetti in tempo reale cambia rapidamente, con i ricercatori che spingono costantemente i limiti della precisione e dell'efficienza. Due pietre miliari significative in questa evoluzione sono YOLOv9, introdotto dall'Accademia Sinica all'inizio del 2024, e YOLOv6.YOLOv6, una versione robusta rilasciata da Meituan nel 2023. Sebbene entrambi i modelli mirino a risolvere le sfide industriali, adottano approcci architettonici fondamentalmente diversi per ottenere prestazioni elevate.

Filosofie Architetturali

La differenza fondamentale tra questi due modelli risiede nel modo in cui gestiscono il flusso di informazioni e l'estrazione delle caratteristiche attraverso la rete neurale.

YOLOv9: recupero delle informazioni perse

YOLOv9 affronta una questione fondamentale nel deep learning: la perdita di informazioni durante la propagazione dei dati attraverso livelli profondi. Gli autori, Chien-Yao Wang e Hong-Yuan Mark Liao, hanno introdotto il Programmable Gradient Information (PGI). Il PGI fornisce un ramo di supervisione ausiliario che garantisce la conservazione delle informazioni semantiche critiche, consentendo al modello di apprendere caratteristiche più robuste senza aggiungere costi di inferenza.

Inoltre, YOLOv9 l'architettura GELAN (Generalized Efficient Layer Aggregation Network). GELAN ottimizza l'utilizzo dei parametri, combinando i punti di forza di CSPNet ed ELAN per ottenere una precisione superiore con un numero inferiore di FLOP rispetto alle generazioni precedenti.

Scopri di più su YOLOv9

YOLOv6-3.0: Ottimizzazione Industriale

YOLOv6.YOLOv6, sviluppato dal team di visione Meituan, si concentra principalmente sull'implementazione industriale pratica. Soprannominata "A Full-Scale Reloading" (Ricarica completa), questa versione ha introdotto l'Anchor-Aided Training (AAT), che combina i vantaggi dei rilevatori basati su anchor e senza anchor per stabilizzare l'addestramento. Presenta inoltre un design del collo rinnovato che utilizza la concatenazione bidirezionale (BiC) per migliorare la fusione delle caratteristiche.

YOLOv6 noto per il suo uso intensivo della riparametrizzazione in stile RepVGG, che consente strutture di addestramento complesse che si riducono a blocchi di inferenza più semplici e veloci.

Scopri di più su YOLOv6

Confronto delle prestazioni

Quando si confrontano le prestazioni, YOLOv9 dimostra YOLOv9 una precisione media (mAP) più elevata a costi computazionali simili o inferiori. L'architettura GELAN consente YOLOv9 elaborare le immagini con elevata efficienza, rendendolo una scelta formidabile per attività che richiedono un'elevata precisione.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Mentre YOLOv6. YOLOv6 mostra TensorRT competitive, in gran parte grazie al suo design backbone compatibile con l'hardware,YOLOv9 raggiungeYOLOv9 una maggiore precisione per parametro. Ad esempio, YOLOv9m supera YOLOv6.YOLOv6 in termini di precisione (51,4% contro 50,0%) utilizzando un numero significativamente inferiore di parametri (20,0 milioni contro 34,9 milioni).

Ecosistema e facilità d'uso

Uno dei fattori più critici per gli sviluppatori è l'ecosistema che circonda un modello. È qui che la Ultralytics e la libreria Ultralytics offrono un vantaggio distintivo.

Il vantaggio di Ultralytics

YOLOv9 completamente integrato Ultralytics e offre un'API unificata che semplifica l'intero ciclo di vita delle operazioni di machine learning (MLOps).

  • Formazione semplice: è possibile addestrare un YOLOv9 su dati personalizzati con poche righe di Python.
  • Efficienza della memoria: Ultralytics sono ottimizzati per ridurre l'utilizzo GPU durante l'addestramento, prevenendo gli errori di memoria insufficiente (OOM) comuni con altri repository.
  • Versatilità: l'ecosistema supporta l'esportazione in formati come ONNX, OpenVINOe TensorRT.

Flusso di lavoro semplificato

L'utilizzo Ultralytics molto tempo in termini di progettazione rispetto alla configurazione di archivi di ricerca autonomi.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Al contrario, l'utilizzo YOLOv6 comporta la clonazione del repository specifico di Meituan, la configurazione di un ambiente dedicato e la gestione manuale dei file di configurazione e delle pipeline di aumento dei dati.

Applicazioni nel mondo reale

La scelta tra questi modelli dipende spesso dai vincoli specifici dell'ambiente di implementazione.

Scenari ad alta precisione (YOLOv9)

La capacità YOLOv9 di conservare le informazioni semantiche lo rende ideale per compiti di rilevamento complessi in cui i piccoli dettagli sono fondamentali.

  • Imaging medico: in attività come il rilevamento dei tumori, l'architettura PGI aiuta a preservare caratteristiche deboli che altrimenti potrebbero andare perse nei livelli profondi della rete.
  • Sorveglianza aerea: per rilevare piccoli oggetti come veicoli o persone dalle immagini dei droni, la funzione di ritenzione migliorata YOLOv9 aumenta i tassi di richiamo.

Automazione industriale (YOLOv6.0)

YOLOv6 progettato espressamente per applicazioni industriali in cui l'hardware è fisso e la produttività è fondamentale.

  • Linee di produzione: in ambienti controllati come quelli dedicati alla produzione di batterie, dove le telecamere ispezionano i componenti su un nastro trasportatore, le TensorRT di YOLOv6 rivelarsi estremamente efficaci.

Prospettive Future: La Potenza di YOLO26

Sebbene YOLOv9 YOLOv6. YOLOv6 siano modelli eccellenti, il settore ha continuato a progredire. L'ultimo YOLO26 rappresenta lo stato dell'arte attuale per gli sviluppatori che cercano il massimo equilibrio tra velocità, precisione e facilità d'uso.

YOLO26 introduce diverse funzionalità innovative:

  • End-to-End NMS: eliminando la Non-Maximum Suppression (NMS), YOLO26 semplifica le pipeline di implementazione e riduce la variabilità della latenza.
  • MuSGD Optimizer: un ibrido di SGD e Muon, questo ottimizzatore apporta miglioramenti alla stabilità ispirati all'addestramento dei modelli linguistici di grandi dimensioni (LLM).
  • Maggiore efficienza: grazie all'eliminazione della perdita focale di distribuzione (DFL) e ad altre ottimizzazioni, YOLO26 raggiunge CPU fino al 43% più veloce, rendendolo perfetto per dispositivi edge come il Raspberry Pi.
  • Versatilità delle attività: oltre al rilevamento, YOLO26 offre miglioramenti specifici per la stima della posa (utilizzando la stima della log-verosimiglianza residua) e la segmentazione.

Scopri di più su YOLO26

Conclusione

Entrambi YOLOv9 e YOLOv6.YOLOv6 offrono funzionalità impressionanti. YOLOv6. YOLOv6 rimane un forte concorrente per specifici flussi di lavoro industriali TensorRT. Tuttavia, per la maggior parte dei ricercatori e degli sviluppatori, YOLOv9 offre un'efficienza e una precisione dei parametri superiori. Inoltre, far parte Ultralytics garantisce un supporto a lungo termine, un facile accesso ai pesi pre-addestrati e un percorso di aggiornamento senza soluzione di continuità verso architetture più recenti come YOLO26.

Riferimenti

  1. YOLOv9: Wang, C.-Y., & Liao, H.-Y. M. (2024). "YOLOv9: Imparare ciò che si desidera imparare utilizzando informazioni di gradiente programmabili." arXiv:2402.13616.
  2. YOLOv6 .0: Li, C., et al. (2023). "YOLOv6 .0: A Full-Scale Reloading." arXiv:2301.05586.
  3. Ultralytics :ultralytics

Commenti