Vai al contenuto

YOLO11 . YOLOv9: approfondimento sull'architettura e le prestazioni

La scelta del modello di rilevamento oggetti più adatto è una decisione fondamentale che influisce sulla velocità, sulla precisione e sulla scalabilità delle applicazioni di visione artificiale. Questa guida fornisce un confronto tecnico completo tra YOLO11, la potente iterazione di Ultralytics, e YOLOv9, un'architettura nota per le sue informazioni sul gradiente programmabile (PGI).

Entrambi i modelli rappresentano un significativo passo avanti nella storia dei modelli di visione, ma rispondono a esigenze leggermente diverse nel panorama dello sviluppo dell'IA.

Panoramica del modello

YOLO11

YOLO11 si basa sul solido Ultralytics , perfezionando l'equilibrio tra efficienza computazionale e accuratezza di rilevamento. È progettato come un modello versatile e pronto per la produzione che si integra perfettamente con i moderni flussi di lavoro MLOps.

  • Autori: Glenn Jocher e Jing Qiu
  • Organizzazione:Ultralytics
  • Data: settembre 2024
  • Focus: velocità in tempo reale, facilità d'uso, ampio supporto delle attività (rilevamento, segmentazione, classificazione, posa, OBB).

Scopri di più su YOLO11

YOLOv9

YOLOv9 ha introdotto concetti innovativi come GELAN (Generalized Efficient Layer Aggregation Network) e PGI per affrontare la perdita di informazioni nelle reti profonde. Sebbene raggiunga un'elevata precisione nei benchmark accademici, spesso richiede maggiori risorse computazionali per l'addestramento.

  • Autori: Chien-Yao Wang e Hong-Yuan Mark Liao
  • Organizzazione: Institute of Information Science, Academia Sinica, Taiwan
  • Data: febbraio 2024
  • Obiettivo: massimizzare l'efficienza dei parametri e ridurre il collo di bottiglia delle informazioni nelle CNN profonde.

Scopri di più su YOLOv9

Analisi delle prestazioni

Nel valutare questi modelli, il compromesso tra latenza (velocità) e mAP (precisione) è fondamentale. Ultralytics hanno ottimizzato YOLO11 offrire un throughput superiore sia sui dispositivi edge che sulle GPU.

Confronto delle metriche chiave

La tabella seguente evidenzia le differenze di prestazioni sul COCO . Si noti come YOLO11 un'accuratezza comparabile o superiore con una latenza significativamente inferiore, un fattore critico per le applicazioni di inferenza in tempo reale.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Interpretazione dei dati

Sebbene YOLOv9e spinga al massimo i limiti di precisione (55,6% mAP), lo fa a un costo significativo in termini di velocità (16,77 ms contro gli 11,3 ms di YOLO11x). Per la maggior parte delle applicazioni commerciali, il YOLO11 offre un "punto di equilibrio" più pratico, garantendo un'elevata precisione a velocità in grado di elaborare flussi video ad alto fps.

Differenze Architetturali

La differenza fondamentale risiede nella loro filosofia di progettazione. YOLOv9 su miglioramenti teorici approfonditi al flusso di gradiente, mentre YOLO11 sull'ingegneria pratica per l'implementazione e la versatilità.

YOLOv9: PGI e GELAN

YOLOv9 le informazioni di gradiente programmabili (PGI) per prevenire la perdita di informazioni semantiche durante il passaggio dei dati attraverso livelli profondi. Essenzialmente fornisce un ramo di supervisione ausiliario durante l'addestramento che viene rimosso durante l'inferenza. In combinazione con l'architettura GELAN, consente al modello di essere leggero ma accurato. Questo lo rende un argomento affascinante per chi studia la ricerca dell'architettura neurale e il flusso di gradiente.

YOLO11: C3k2 e C2PSA perfezionati

YOLO11 il blocco C3k2, una versione migliorata del collo di bottiglia CSP utilizzato nelle iterazioni precedenti, ottimizzato per GPU . Incorpora anche C2PSA (Cross-Stage Partial with Spatial Attention), che migliora la capacità del modello di concentrarsi sulle caratteristiche critiche in scene complesse. Questa architettura è specificamente ottimizzata per ridurre i FLOP senza sacrificare le capacità di estrazione delle caratteristiche, con il risultato di ottenere le impressionanti metriche di velocità viste sopra.

Efficienza dell'addestramento ed ecosistema

Uno dei vantaggi più significativi della scelta di un Ultralytics è l'ecosistema circostante.

Facilità d'uso e documentazione

L'addestramento YOLO11 un codice boilerplate minimo.Python Ultralytics standardizza il processo, rendendolo accessibile anche ai principianti. Al contrario, sebbene YOLOv9 supportato, la sua implementazione nativa può richiedere file di configurazione più complessi e impostazioni manuali.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 with just one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Requisiti di Memoria

Ultralytics sono rinomati per la loro efficienza in termini di memoria. YOLO11 è ottimizzato per l'addestramento su hardware di livello consumer con CUDA limitata. Questo rappresenta un netto vantaggio rispetto a molti modelli basati su trasformatori o architetture più datate che soffrono di un sovraccarico di memoria durante le fasi di retropropagazione.

Versatilità tra le attività

Mentre YOLOv9 principalmente un rilevatore di oggetti, YOLO11 è un potente strumento multi-task. All'interno dello stesso framework, è possibile passare senza soluzione di continuità da:

Il futuro della visione artificiale: YOLO26

Per gli sviluppatori alla ricerca della tecnologia più all'avanguardia, Ultralytics rilasciato YOLO26. Questo modello rappresenta la prossima generazione di IA visiva, incorporando gli insegnamenti tratti sia da YOLO11 da YOLOv10.

YOLO26 presenta un design nativo end-to-end NMS, che elimina la necessità di post-elaborazione con soppressione non massima. Ciò si traduce in un'inferenza più rapida e in pipeline di implementazione più semplici. Utilizza inoltre l'ottimizzatore MuSGD, un ibrido tra SGD Muon, che garantisce dinamiche di addestramento stabili simili a quelle riscontrate nell'addestramento dei modelli linguistici di grandi dimensioni (LLM). Con funzioni di perdita ottimizzate come ProgLoss + STAL, YOLO26 eccelle nel rilevamento di oggetti di piccole dimensioni, rendendolo la scelta ideale per il 2026 e oltre.

Scopri di più su YOLO26

Casi d'uso ideali

Quando scegliere YOLOv9

  • Ricerca accademica: eccellente per lo studio dei limiti teorici della conservazione delle informazioni CNN e della programmazione dei gradienti.
  • Analisi di immagini statiche: in scenari come l'imaging medico (ad esempio, il rilevamento di tumori) in cui la velocità di inferenza è secondaria rispetto all'estrazione del massimo dettaglio da un singolo fotogramma.

Quando scegliere YOLO11

  • Implementazione dell'Edge AI: ideale per dispositivi come Raspberry Pi o NVIDIA , dove TFLite essenziali formati di esportazione come TensorRT TFLite .
  • Produzione commerciale: per analisi di vendita al dettaglio, monitoraggio delle smart city o controllo qualità nella produzione, dove affidabilità, velocità e assistenza sono fondamentali.
  • Pipeline complesse: quando la tua applicazione richiede più attività di visione (ad esempio, rilevare una persona e poi stimarne la posizione) utilizzando un'unica API unificata.

Conclusione

Sia YOLO11 YOLOv9 strumenti eccezionali nell'arsenale degli ingegneri di visione artificiale. Tuttavia, per la maggior parte delle applicazioni nel mondo reale, YOLO11 (e il più recente YOLO26) offre un equilibrio superiore tra velocità, precisione ed esperienza di sviluppo. Supportato dalla vivace Ultralytics e da frequenti aggiornamenti, garantisce che i vostri progetti rimangano efficienti e a prova di futuro.

Per approfondire ulteriormente l'argomento, potresti anche essere interessato a confrontare questi modelli con RT-DETR per il rilevamento basato su trasformatori o esplorare il leggero YOLOv10 .


Commenti