Vai al contenuto

YOLO11 vs YOLOv9: un confronto tecnico completo

Nel campo in rapida evoluzione della computer vision, la scelta del giusto modello di rilevamento degli oggetti è fondamentale per il successo del progetto. Questo confronto esplora le sfumature tecniche tra Ultralytics YOLO11, l'ultimo modello all'avanguardia progettato per l'efficienza nel mondo reale, e YOLOv9, un'architettura incentrata sulla ricerca e nota per le sue innovazioni teoriche. Analizziamo le loro differenze architettoniche, le metriche delle prestazioni e l'idoneità a diversi scenari di implementazione.

Ultralytics YOLO11: lo standard per l'AI di produzione

Pubblicato il 27 settembre 2024 da Glenn Jocher e Jing Qiu a UltralyticsYOLO11 rappresenta il culmine di un'intensa attività di ricerca e sviluppo sulla progettazione di reti neurali efficienti. A differenza dei modelli accademici, che spesso privilegiano le metriche teoriche rispetto all'usabilità pratica, YOLO11 è stato progettato per offrire un equilibrio ottimale tra velocità, precisione ed efficienza delle risorse per sviluppatori e aziende.

Dettagli tecnici:

Architettura e Funzionalità

YOLO11 introduce un'architettura raffinata che migliora l'estrazione delle caratteristiche mantenendo un fattore di forma compatto. Utilizza una struttura migliorata della spina dorsale e del collo, specificamente progettata per catturare modelli intricati con un numero inferiore di parametri rispetto alle generazioni precedenti, come ad esempio YOLOv8. Questa filosofia di progettazione garantisce che i modelli YOLO11 funzionino in modo eccezionale su hardware con risorse limitate, come i dispositivi edge, senza sacrificare la capacità di rilevamento.

Una caratteristica distintiva di YOLO11 è la sua versatilità nativa. Mentre molti modelli sono esclusivamente rilevatori di oggetti, YOLO11 supporta un'ampia gamma di attività di computer vision all'interno di un unico framework:

Punti di forza nella produzione

Per gli sviluppatori, il vantaggio principale di YOLO11 è la sua integrazione nell'ecosistemaUltralytics . Ciò garantisce un'esperienza utente semplificata grazie a una semplice APIPython e a una CLI completa.

Perché gli sviluppatori scelgono YOLO11

YOLO11 riduce drasticamente il "time-to-market" delle soluzioni di intelligenza artificiale. I suoi requisiti di memoria ridotti durante l'addestramento e l'inferenza lo rendono accessibile a una gamma più ampia di hardware, evitando gli elevati costi di VRAM associati alle alternative basate su trasformatori.

Scopri di più su YOLO11

YOLOv9: affrontare i colli di bottiglia delle informazioni

Presentato all'inizio del 2024 da Chien-Yao Wang e Hong-Yuan Mark Liao, YOLOv9 si concentra sulla risoluzione delle sfide della teoria dell'apprendimento profondo, in particolare sul problema del collo di bottiglia dell'informazione. È una testimonianza di rigore accademico, che spinge i confini di ciò che è possibile fare nella conservazione delle caratteristiche.

Dettagli tecnici:

Innovazioni architettoniche

YOLOv9 si basa su due concetti fondamentali: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN). L'obiettivo di PGI è quello di preservare le informazioni in ingresso durante il passaggio attraverso gli strati profondi, calcolando un gradiente affidabile per la funzione di perdita. GELAN ottimizza l'utilizzo dei parametri, consentendo al modello di raggiungere un'elevata precisione sul set di datiCOCO rispetto alle sue dimensioni.

Prestazioni e compromessi

YOLOv9 eccelle nei benchmark di precisione grezza e la sua variante più grande, YOLOv9, ottiene punteggi mAP impressionanti. Tuttavia, questa attenzione accademica può tradursi in una maggiore complessità nell'implementazione. Pur essendo potente, l'implementazione originale manca della versatilità multi-task nativa del framework Ultralytics , concentrandosi principalmente sul rilevamento. Inoltre, l'addestramento di queste architetture può richiedere più risorse rispetto alle pipeline altamente ottimizzate di YOLO11.

Per saperne di più su YOLOv9

Metriche delle prestazioni: Velocità e precisione

Quando si sceglie un modello, è fondamentale capire il compromesso tra velocità di inferenza e precisione di rilevamento. La tabella seguente mette a confronto le prestazioni di entrambe le famiglie di modelli sul set di dati COCO .

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Analisi

I dati evidenziano il Performance Balance inserito in YOLO11.

  • Efficienza: YOLO11n supera YOLOv9t in termini di accuratezza (39,5% contro 38,3%) pur consumando meno FLOP (6,5B contro 7,7B), il che lo rende superiore per la distribuzione mobile.
  • Velocità: In generale, YOLO11 dimostra tempi di inferenza più rapidi sulle GPU T4 utilizzando TensorRT, un fattore critico per l'analisi video in tempo reale.
  • Precisione: Sebbene YOLOv9 detenga il primato per quanto riguarda la mAP grezza, ciò avviene al costo di una latenza significativamente più elevata (16,77 ms contro gli 11,3 ms di YOLO11x). Per la maggior parte delle applicazioni pratiche, il vantaggio di velocità di YOLO11 supera il guadagno marginale in termini di mAP.

Usabilità ed ecosistema

La differenza nelle "soft skills" - facilità d'uso, documentazione e supporto - è l'aspetto in cui i modelli Ultralytics brillano davvero.

Facilità d'uso ed efficienza formativa

YOLO11 è stato progettato per essere accessibile. Con uno standard Python è possibile addestrare, convalidare e distribuire i modelli in poche righe di codice. Ultralytics fornisce pesi pre-addestrati che consentono l'apprendimento per trasferimento, riducendo significativamente il tempo di addestramento e l'impronta di carbonio dello sviluppo dell'IA.

Al contrario, mentre YOLOv9 è disponibile all'interno del pacchetto Ultralytics , la sua base di codice di ricerca originale richiede una conoscenza più approfondita delle configurazioni di deep learning. Gli utenti di YOLO11 beneficiano di un'interfaccia unificata che funziona in modo identico sia per la segmentazione che per la classificazione.

Confronto tra codici: Semplicità di YOLO11

L'addestramento di un modello YOLO11 è semplice grazie all'APIPython di Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Ecosistema ben curato

Scegliere YOLO11 significa entrare in un ambiente supportato. L'ecosistemaUltralytics comprende:

Casi d'uso ideali

Quando scegliere YOLO11

YOLO11 è la scelta consigliata per il 95% dei progetti commerciali e hobbistici grazie alla sua versatilità e velocità.

  • Edge AI: distribuzione su dispositivi come Raspberry Pi o NVIDIA Jetson dove la memoria e i FLOP sono limitati.
  • Sorveglianza in tempo reale: Applicazioni che richiedono FPS elevati per il monitoraggio della sicurezza.
  • Applicazioni multi-task: Progetti che necessitano di rilevamento, segmentazione e stima della posa simultanei senza dover gestire più architetture di modello distinte.

Quando scegliere YOLOv9

YOLOv9 è più adatto a scenari specifici di tipo accademico o di alta precisione.

  • Benchmarking di ricerca: Quando l'obiettivo principale è confrontare le architetture teoriche o battere uno specifico punteggio mAP su un set di dati come COCO.
  • Elaborazione offline: Scenari in cui la velocità di inferenza non è un vincolo e ogni frazione di punto percentuale di accuratezza è importante, come ad esempio l'analisi offline di immagini mediche.

Conclusione

Mentre YOLOv9 introduce nella comunità accademica concetti affascinanti come IGP e GELAN, Ultralytics YOLO11 si distingue come scelta pratica superiore per la realizzazione di prodotti di intelligenza artificiale. La sua impareggiabile combinazione di velocità, precisione, versatilità e facilità d'uso lo rende il modello di riferimento per la moderna computer vision. Sostenuto da un robusto ecosistema e progettato per l'efficienza, YOLO11 consente agli sviluppatori di passare dall'ideazione alla distribuzione con fiducia.

Esplora altri modelli

Se siete interessati a ulteriori confronti, considerate l'opportunità di esplorare questi altri modelli ad alte prestazioni nella libreria di Ultralytics :

  • YOLOv10: rilevamento di oggetti end-to-end in tempo reale.
  • YOLOv8: il predecessore di YOLO11, ancora ampiamente utilizzato in produzione.
  • RT-DETR: un rilevatore basato su trasformatore che offre un'elevata precisione per gli ambienti GPU.

Commenti