Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs YOLOv10: Un approfondimento tecnico sull'evoluzione del rilevamento oggetti in tempo reale#

Il panorama della visione artificiale in tempo reale ha visto immensi progressi, guidati in gran parte da ricercatori che spingono continuamente il confine tra prestazioni ed efficienza. Analizzando l'evoluzione dei modelli di visione allo stato dell'arte, YOLOv9 e YOLOv10 rappresentano due traguardi fondamentali. Rilasciati all'inizio del 2024, entrambi i modelli hanno introdotto design architetturali che cambiano il paradigma per affrontare le sfide di lunga data nelle reti neurali profonde, dai colli di bottiglia dell'informazione alla latenza di post-elaborazione.

Questo confronto tecnico completo esplora le loro architetture, le metriche delle prestazioni e gli scenari di distribuzione ideali, aiutandoti a navigare nelle complessità dei moderni ecosistemi di rilevamento oggetti.

Link to this sectionOrigini dei modelli e innovazioni architetturali#

Comprendere la discendenza e le basi teoriche di questi modelli è fondamentale per selezionare l'architettura giusta per il tuo specifico progetto di visione artificiale.

Link to this sectionYOLOv9: Padroneggiare il flusso di informazioni#

Introdotto il 21 febbraio 2024, YOLOv9 affronta il problema teorico della perdita di informazioni man mano che i dati passano attraverso le reti neurali profonde.

YOLOv9 introduce la Generalized Efficient Layer Aggregation Network (GELAN), che massimizza l'utilizzo dei parametri combinando i punti di forza di CSPNet e ELAN. Inoltre, impiega la Programmable Gradient Information (PGI), un meccanismo di supervisione ausiliario che garantisce che gli strati profondi conservino informazioni spaziali critiche. Ciò rende YOLOv9 eccezionalmente forte per compiti che richiedono un'alta fedeltà delle caratteristiche, come l'analisi di immagini mediche o la sorveglianza a distanza.

Scopri di più su YOLOv9

Link to this sectionYOLOv10: Efficienza end-to-end in tempo reale#

Rilasciato poco dopo, il 23 maggio 2024, YOLOv10 reimmagina la pipeline di distribuzione eliminando uno dei colli di bottiglia più famosi in termini di latenza nel rilevamento oggetti: la Non-Maximum Suppression (NMS).

YOLOv10 utilizza assegnazioni duali coerenti durante l'addestramento, consentendo un design nativamente privo di NMS. Ciò rimuove il sovraccarico di post-elaborazione durante l'inferenza, riducendo drasticamente la latenza. Combinato con un design del modello olistico orientato all'efficienza e alla precisione, YOLOv10 raggiunge un equilibrio eccezionale, riducendo il carico computazionale (FLOPs) pur mantenendo una precisione competitiva, rendendolo estremamente interessante per le applicazioni di edge computing.

Scopri di più su YOLOv10

Link to this sectionConfronto tra prestazioni e metriche#

Quando si confrontano questi due colossi sul set di dati standard MS COCO, emergono chiari compromessi tra pura precisione e latenza di inferenza.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this sectionAnalisi dei dati#

  1. Latenza vs. Precisione: I modelli YOLOv10 offrono generalmente velocità di inferenza superiori. Ad esempio, YOLOv10s raggiunge il 46.7% di mAP in soli 2.66ms su TensorRT, rispetto a YOLOv9s che richiede 3.54ms per un mAP quasi identico del 46.8%.
  2. Precisione di alto livello: Per scenari di ricerca che richiedono la massima precisione di rilevamento, YOLOv9e rimane una scelta formidabile, raggiungendo un impressionante 55.6% di mAP. La sua architettura PGI garantisce che le caratteristiche sottili vengano estratte in modo affidabile.
  3. Efficienza: YOLOv10 eccelle nell'efficienza dei FLOPs. Ciò si traduce direttamente in un minor consumo energetico, una metrica cruciale per i dispositivi alimentati a batteria che eseguono modelli di visione AI.
Suggerimento per la distribuzione

Se stai distribuendo su CPU o hardware edge con risorse limitate come un Raspberry Pi, l'architettura priva di NMS di YOLOv10 fornirà solitamente una pipeline più fluida eliminando i passaggi di post-elaborazione non deterministici.

Link to this sectionIl vantaggio di Ultralytics: formazione ed ecosistema#

Sebbene le differenze architetturali siano critiche, l'ecosistema software circostante determina pesantemente il successo di un progetto. Sia YOLOv9 che YOLOv10 sono completamente integrati nell'ecosistema Ultralytics, offrendo un'esperienza di sviluppo senza pari.

Link to this sectionFacilità d'uso ed efficienza della memoria#

A differenza delle complesse architetture basate su Transformer che soffrono di un enorme gonfiore della memoria, i modelli Ultralytics YOLO sono progettati per un utilizzo ottimale della memoria GPU. Ciò consente ai ricercatori di utilizzare dimensioni batch più grandi su hardware di livello consumer, rendendo accessibile l'IA allo stato dell'arte.

L'API Python unificata astrae le complessità dell'aumento dei dati e della regolazione degli iperparametri. Puoi passare da un'architettura all'altra senza problemi semplicemente modificando la stringa del file dei pesi.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Che tu abbia bisogno di registrare le metriche su MLflow o di esportare su TensorRT per una distribuzione hardware ad alta velocità, la piattaforma Ultralytics gestisce tutto nativamente.

Link to this sectionCasi d'uso ideali#

La scelta tra questi modelli dipende dai tuoi vincoli di distribuzione:

Link to this sectionA prova di futuro: il passaggio a YOLO26#

Sebbene YOLOv8, YOLOv9 e YOLOv10 siano modelli eccellenti, gli sviluppatori che cercano di costruire moderne soluzioni di IA dovrebbero prendere in considerazione Ultralytics YOLO26, rilasciato nel gennaio 2026.

YOLO26 rappresenta la sintesi definitiva delle generazioni precedenti, combinando i migliori aspetti della precisione di YOLOv9 e dell'efficienza di YOLOv10.

Link to this sectionPrincipali innovazioni di YOLO26#

  • Design end-to-end senza NMS: Basandosi sulle basi gettate da YOLOv10, YOLO26 elimina nativamente la post-elaborazione NMS per una distribuzione più semplice.
  • Ottimizzatore MuSGD: Un ibrido di SGD e Muon, che porta le innovazioni avanzate nell'addestramento dei LLM nella visione artificiale per una convergenza incredibilmente stabile e veloce.
  • Inferenza CPU fino al 43% più veloce: Specificamente ottimizzato per l'edge computing e i dispositivi senza GPU dedicate.
  • Rimozione DFL: La Distribution Focal Loss è stata rimossa per semplificare l'esportazione del modello e aumentare la compatibilità con i dispositivi a basso consumo.
  • ProgLoss + STAL: Queste funzioni di perdita migliorate apportano notevoli miglioramenti nel riconoscimento di piccoli oggetti, eguagliando o superando le capacità di YOLOv9.

Per i ricercatori che valutano architetture legacy, anche RT-DETR e YOLO11 sono alternative ben documentate all'interno dell'ecosistema Ultralytics. Tuttavia, per la massima versatilità in tutte le attività di visione, il passaggio a YOLO26 sulla piattaforma Ultralytics ti assicura di sfruttare l'apice dell'IA di visione open source.

Collaboratori

Commenti