Vai al contenuto

YOLO26 vs YOLOv9: La prossima evoluzione nella rilevazione di oggetti in tempo reale

Il panorama della visione artificiale avanza rapidamente, con nuove architetture che spingono continuamente i confini di velocità e precisione. In questo confronto tecnico, esaminiamo le differenze tra YOLO26 e YOLOv9, due modelli altamente influenti nel campo del rilevamento di oggetti in tempo reale. Sebbene entrambi i modelli offrano distinte innovazioni architettoniche, comprendere i loro compromessi prestazionali, le capacità di deployment e i requisiti hardware è cruciale per selezionare lo strumento giusto per il vostro prossimo progetto di visione.

YOLO26: La potenza ottimizzata per l'Edge

Rilasciato all'inizio del 2026, Ultralytics YOLO26 rappresenta un salto generazionale nell'efficienza di deployment e nella stabilità dell'addestramento del modello. Progettato per essere un framework nativamente end-to-end, affronta direttamente i colli di bottiglia di deployment che hanno storicamente afflitto le applicazioni AI edge.

Dettagli del Modello:

Architettura e Innovazioni

YOLO26 riprogetta fondamentalmente la pipeline di post-elaborazione introducendo un Design End-to-End NMS-Free. Eliminando la necessità di Non-Maximum Suppression (NMS), il modello raggiunge una variabilità della latenza drasticamente inferiore. Ciò rende il deployment su piattaforme mobili ed edge significativamente più semplice, specialmente quando si esporta verso framework come ONNX e Apple CoreML.

Inoltre, la rimozione della Distribution Focal Loss (DFL) semplifica il processo di esportazione e aumenta la compatibilità con i microcontrollori a bassa potenza. Per migliorare la stabilità dell'addestramento, YOLO26 integra il nuovo MuSGD Optimizer, un ibrido di Stochastic Gradient Descent (SGD) e Muon (ispirato alle innovazioni nell'addestramento dei Large Language Model). Ciò si traduce in una convergenza più rapida e un'estrazione di feature più robusta su dataset difficili.

Inferenza su Dispositivi Edge

Grazie alle semplificazioni architetturali e alla rimozione di DFL, YOLO26 raggiunge fino al 43% di inferenza CPU più veloce, rendendolo la scelta ideale per dispositivi edge con risorse limitate come il Raspberry Pi o l'NVIDIA Jetson Nano.

Per il rilevamento di elementi estremamente complessi in scene come le immagini aeree da drone, YOLO26 utilizza le funzioni di perdita ProgLoss + STAL aggiornate. Queste forniscono miglioramenti notevoli nel recall del riconoscimento di oggetti di piccole dimensioni. Inoltre, vanta miglioramenti specifici per il compito, inclusi proto multi-scala per l'instance segmentation, la Stima della Log-Verosimiglianza Residua (RLE) per la pose estimation e una perdita angolare specializzata per il rilevamento di Oriented Bounding Boxes (OBB).

Scopri di più su YOLO26

YOLOv9: Informazioni di gradiente programmabili

Introdotto all'inizio del 2024, YOLOv9 ha introdotto progressi teorici nel modo in cui le reti neurali gestiscono il flusso del gradiente durante la fase di addestramento, concentrandosi sull'efficienza dei parametri e sulla ritenzione delle feature profonde.

Dettagli del Modello:

Architettura e punti di forza

YOLOv9 è costruito attorno al concetto di Programmable Gradient Information (PGI) e alla Generalized Efficient Layer Aggregation Network (GELAN). Questi concetti affrontano il problema del collo di bottiglia informativo spesso osservato nelle reti neurali profonde. Preservando le informazioni essenziali attraverso il processo di feed-forward, GELAN assicura che i gradienti utilizzati per gli aggiornamenti dei pesi rimangano affidabili. Questa architettura offre un'elevata accuratezza e rende YOLOv9 un forte candidato per la ricerca accademica sulla teoria delle reti neurali e l'ottimizzazione del percorso dei gradienti utilizzando il framework PyTorch.

Limitazioni

Nonostante la sua eccellente efficienza dei parametri, YOLOv9 si affida pesantemente alla tradizionale NMS per la post-elaborazione dei bounding box, il che può creare colli di bottiglia computazionali durante l'inferenza su dispositivi edge. Inoltre, il repository ufficiale è ampiamente focalizzato sul rilevamento di oggetti, richiedendo una significativa ingegneria personalizzata per adattarlo a compiti specializzati come il tracking o la stima della posa.

Scopri di più su YOLOv9

Confronto delle prestazioni

Nella valutazione di questi modelli per il deployment nel mondo reale, bilanciare l'accuratezza (mAP), la velocità di inferenza e l'utilizzo della memoria è critico. I modelli Ultralytics sono rinomati per i loro bassi requisiti di memoria sia durante l'addestramento che l'inferenza, richiedendo molta meno memoria CUDA rispetto ad alternative basate su transformer come RT-DETR.

Di seguito è un confronto diretto delle prestazioni di YOLO26 e YOLOv9 sul dataset COCO. I valori migliori in ogni colonna sono evidenziati in grassetto.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Nota: Le velocità della CPU per YOLOv9 sono omesse poiché variano notevolmente in base alla configurazione NMS e sono generalmente più lente rispetto all'implementazione nativa NMS-free di YOLO26.

Casi d'Uso e Raccomandazioni

La scelta tra YOLO26 e YOLOv9 dipende dai requisiti specifici del progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Quando Scegliere YOLO26

YOLO26 è una scelta eccellente per:

  • Deployment Edge NMS-Free: Applicazioni che richiedono inferenza consistente e a bassa latenza senza la complessità della post-elaborazione Non-Maximum Suppression.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 offre un vantaggio decisivo.
  • Rilevamento di Oggetti Piccoli: Scenari impegnativi come immagini aeree da drone o analisi di sensori IoT dove ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Quando scegliere YOLOv9

YOLOv9 è raccomandato per:

  • Ricerca sul Collo di Bottiglia dell'Informazione: Progetti accademici che studiano le architetture Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
  • Studi di Ottimizzazione del Flusso di Gradiente: Ricerca incentrata sulla comprensione e la mitigazione della perdita di informazioni negli strati profondi delle reti neurali durante l'addestramento.
  • Benchmarking di Detect ad Alta Precisione: Scenari in cui le elevate prestazioni di benchmarking COCO di YOLOv9 sono necessarie come punto di riferimento per confronti architetturali.

Il vantaggio di Ultralytics

La scelta di un modello implica più che leggere un benchmark di accuratezza; l'ecosistema software circostante detta la velocità con cui si può passare dalla raccolta dati alla produzione.

Facilità d'uso ed ecosistema

Il API Python di Ultralytics offre un'esperienza "zero-to-hero" senza interruzioni. Invece di clonare repository complessi o configurare manualmente script di addestramento distribuiti, gli sviluppatori possono installare il pacchetto tramite pip e avviare l'addestramento immediatamente. Il progetto attivamente mantenuto ecosistema Ultralytics garantisce aggiornamenti frequenti, integrazioni automatizzate con piattaforme ML come Weights & Biases, e documentazione esaustiva.

Altri Modelli Ultralytics

Se sei interessato a esplorare altri modelli all'interno dell'ecosistema Ultralytics, potresti anche considerare di confrontare YOLO11 o il classico YOLOv8, entrambi i quali offrono una flessibilità eccezionale per applicazioni personalizzate.

Versatilità nelle attività di visione

Mentre YOLOv9 è principalmente un motore di detect, YOLO26 è uno strumento di visione per scopi generali. Utilizzando una singola sintassi unificata, è possibile passare facilmente dal rilevamento di oggetti alla segmentazione delle immagini pixel-perfect o alla classificazione dell'intera immagine. Questa versatilità riduce il debito tecnico derivante dal mantenimento di più codebase disgiunte per diverse funzionalità di visione artificiale.

Addestramento e Deployment Efficienti

L'efficienza di addestramento è un pilastro della filosofia Ultralytics. YOLO26 utilizza pesi pre-addestrati prontamente disponibili e vanta un utilizzo della memoria significativamente inferiore rispetto ai voluminosi trasformatori di visione. Una volta addestrati, le pipeline di esportazione integrate consentono conversioni con un solo clic a formati ottimizzati come TensorRT o TensorFlow Lite, facilitando il percorso verso la produzione.

Esempio di Codice: Iniziare con YOLO26

L'implementazione di YOLO26 è straordinariamente semplice. Il seguente snippet python dimostra come caricare un modello pre-addestrato, addestrarlo su dati personalizzati ed eseguire l'inferenza utilizzando l'API Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Sfruttando la velocità, l'architettura semplificata e il robusto ecosistema di YOLO26, i team possono introdurre applicazioni avanzate di visione AI sul mercato più rapidamente e con meno ostacoli tecnici che mai.


Commenti