Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 vs. YOLOv9: Un confronto tecnico approfondito#

Il panorama della computer vision e del rilevamento oggetti in tempo reale ha visto notevoli progressi negli ultimi anni. Destreggiarsi nella scelta tra modelli consolidati e collaudati e nuove architetture di ricerca è una sfida comune per gli ingegneri di machine learning. Questa guida fornisce un confronto tecnico completo tra due modelli altamente influenti della famiglia YOLO: YOLOv5 e YOLOv9.

Che tu stia eseguendo il deployment su dispositivi edge limitati, conducendo ricerche sull'estrazione di feature ad alta fedeltà o costruendo complesse pipeline di object detection, comprendere le sfumature architettoniche, le metriche di prestazione e le differenze nell'ecosistema di questi modelli è fondamentale.

Link to this sectionPanoramica dei modelli#

Prima di immergerci nei confronti architettonici, è utile comprendere le origini e gli obiettivi primari di ciascun modello.

Link to this sectionUltralytics YOLOv5#

Sviluppato da Glenn Jocher e rilasciato da Ultralytics il 26 giugno 2020, YOLOv5 ha segnato un cambio di paradigma nel modo in cui gli sviluppatori interagiscono con i modelli di visione. Abbracciando completamente il framework PyTorch, YOLOv5 ha sostituito i complessi passaggi di compilazione dei precedenti modelli basati su Darknet con un'esperienza utente intuitiva e basata su Python.

YOLOv5 è rinomato per la sua Facilità d'Uso e le prestazioni stabili in diversi ambienti hardware. Supporta non solo il rilevamento, ma anche la classificazione delle immagini e la segmentazione di istanze.

Scopri di più su YOLOv5

Link to this sectionYOLOv9#

Introdotto da Chien-Yao Wang e Hong-Yuan Mark Liao dell'Institute of Information Science presso l'Academia Sinica, Taiwan, YOLOv9 si concentra pesantemente sulla teoria architettonica per mitigare i problemi di collo di bottiglia informativo nelle reti neurali profonde.

Il cuore di YOLOv9 si basa su due importanti innovazioni teoriche: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN). Questi concetti aiutano il modello a mantenere caratteristiche spaziali critiche attraverso i profondi layer della rete.

Scopri di più su YOLOv9

Rendi i tuoi deployment a prova di futuro

Sebbene YOLOv5 e YOLOv9 siano potenti, il nuovo YOLO26 rappresenta l'equilibrio definitivo tra velocità e precisione. Caratterizzato da un design end-to-end senza NMS e un'inferenza CPU fino al 43% più veloce, YOLO26 è altamente raccomandato per l'edge computing moderno e i deployment di produzione.

Link to this sectionDifferenze architettoniche e tecniche#

Capire cosa alimenta questi modelli di visione è vitale per ottimizzare le strategie di model deployment.

Link to this sectionEstrazione di feature e ritenzione delle informazioni#

YOLOv5 utilizza una backbone Cross Stage Partial Network (CSPNet), che riduce efficacemente l'overhead di calcolo mantenendo un flusso di gradiente accurato durante la backpropagation. Questo design è altamente ottimizzato per le classiche operazioni GPU e garantisce minori requisiti di memoria durante l'addestramento rispetto alle pesanti alternative basate su Transformer.

YOLOv9 introduce GELAN, un'architettura generica che estende i principi di CSPNet. Accoppiato con PGI — un ramo reversibile ausiliario — YOLOv9 assicura che i layer profondi non perdano i dati semantici necessari per precise funzioni obiettivo. Ciò consente a YOLOv9 di ottenere un'elevata accuratezza, in particolare sugli oggetti più piccoli, sebbene il complesso branching ausiliario possa talvolta complicare le pipeline di esportazione verso hardware edge pesantemente limitato.

Link to this sectionRequisiti di memoria ed efficienza di addestramento#

Per quanto riguarda l'efficienza dell'addestramento, YOLOv5 rimane incredibilmente robusto. Il ben mantenuto ecosistema Ultralytics assicura che i modelli YOLOv5 consumino molta meno memoria CUDA, consentendo ai ricercatori di massimizzare le batch sizes su GPU consumer. Sebbene YOLOv9 raggiunga un'eccellente efficienza dei parametri (alta accuratezza rispetto alle dimensioni), il suo processo di addestramento può essere più intensivo in termini di risorse se non si utilizzano framework ottimizzati. Fortunatamente, l'integrazione di YOLOv9 nell'API Ultralytics lo porta a una parità quasi totale con la gestione ottimizzata delle risorse di YOLOv5.

Link to this sectionPrestazioni e metriche#

Per valutare oggettivamente queste architetture, confrontiamo le loro prestazioni su set di dati standard come COCO. Di seguito è riportata una ripartizione dettagliata di metriche come mAP (Mean Average Precision), velocità di inferenza e conteggio dei parametri.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Come mostra la tabella, YOLOv9 raggiunge un'accuratezza raw superiore a parità di livelli, riflettendo la sua architettura più recente. Tuttavia, YOLOv5n mantiene una latenza TensorRT incredibilmente bassa di 1.12ms, evidenziando la sua duratura forza per applicazioni di edge computing ad alta velocità e localizzate.

Link to this sectionMetodologie di addestramento e facilità d'uso#

Il vero vantaggio di sfruttare la computer vision oggi risiede nell'accessibilità del toolchain.

Link to this sectionIl vantaggio di Ultralytics#

Sebbene i repository di ricerca originali per modelli come YOLOv9 siano fondamentali, spesso sono dotati di complesse matrici di dipendenze e script boilerplate. L'API Python di Ultralytics astrae completamente questa complessità. Con l'ecosistema Ultralytics, puoi addestrare, valutare ed esportare sia YOLOv5 che YOLOv9 con una sintassi identica e unificata.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")

# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")

# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX
model_v9.export(format="onnx")

Questo approccio single-API offre un'immensa Versatilità, supportando non solo il rilevamento, ma anche la stima della posa e oriented bounding boxes (OBB) a seconda del modello scelto. Inoltre, robuste integrazioni con strumenti come Comet ML e Weights & Biases sono integrate direttamente nel ciclo di addestramento.

Link to this sectionCasi d'uso ideali e applicazioni nel mondo reale#

Scegliere tra queste architetture dipende in gran parte dai vincoli del tuo hardware e dalla precisione richiesta dal tuo dominio applicativo.

Link to this sectionQuando scegliere YOLOv5#

YOLOv5 è un veterano collaudato che brilla nei deployment che privilegiano stabilità, footprint di memoria ridotto ed estrema compatibilità di esportazione.

  • Mobile Deployments: Esportare YOLOv5 in TFLite o CoreML per l'inferenza on-device su smartphone meno recenti è incredibilmente semplice.
  • Legacy Edge Hardware: Per dispositivi come Raspberry Pi o le prime generazioni di NVIDIA Jetson Nano, le semplici convoluzioni di YOLOv5 garantiscono frame rate costanti per applicazioni come la gestione intelligente dei parcheggi.
  • Rapid Prototyping: L'ampia disponibilità di tutorial della community, pesi pre-addestrati personalizzati e la compatibilità con enormi dataset lo rendono il modo più veloce per convalidare un proof-of-concept.

Link to this sectionQuando scegliere YOLOv9#

YOLOv9 è ideale per scenari in cui catturare dettagli complessi e ridurre al minimo i falsi negativi è assolutamente critico, anche se richiede un po' più di overhead di calcolo.

  • Aerial and Satellite Imagery: The PGI framework is highly adept at maintaining the fidelity of small objects, making YOLOv9 excellent for drone-based agricultural monitoring.
  • Medical Imaging Diagnostics: Quando si rilevano anomalie o lesioni minime in scansioni ad alta risoluzione, l'accurato flusso di gradiente di GELAN fornisce un vantaggio necessario nel richiamo.
  • High-End Retail Analytics: Il tracciamento di prodotti sovrapposti su scaffali densi beneficia significativamente delle capacità di ritenzione delle feature superiori di YOLOv9.

Link to this sectionEspandi i tuoi orizzonti#

Sebbene il confronto tra YOLOv5 e YOLOv9 offra una visione chiara di come le architetture si siano evolute dal 2020 al 2024, il campo dell'IA si muove più velocemente che mai. Per gli sviluppatori che cercano la frontiera assoluta delle prestazioni, esplorare gli ultimi modelli YOLO26 è vivamente incoraggiato. Sostituendo la tradizionale Non-Maximum Suppression con un design NMS-Free End-to-End nativo e utilizzando l'avanzato ottimizzatore MuSGD, YOLO26 colma il divario tra accuratezza a livello di ricerca e velocità a livello di produzione. Con la rimozione di DFL (Distribution Focal Loss rimossa per un'esportazione semplificata e una migliore compatibilità con dispositivi edge/low-power), YOLO26 raggiunge un'inferenza CPU fino al 43% più veloce, rendendolo ideale per l'edge computing. Inoltre, ProgLoss + STAL fornisce migliori funzioni di loss con notevoli miglioramenti nel riconoscimento di piccoli oggetti, critici per IoT, robotica e immagini aeree.

Potresti anche essere interessato a confrontare queste architetture con altri modelli allo stato dell'arte come RT-DETR o il validissimo YOLO11. Utilizzare il framework unificato Ultralytics assicura che, indipendentemente dal modello scelto, la tua pipeline di sviluppo rimanga pulita, efficiente e pronta a scalare.

Collaboratori

Commenti