Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 contro DAMO-YOLO#

La rapida evoluzione della computer vision ha prodotto una serie di potenti architetture pensate per diversi vincoli di distribuzione e requisiti di precisione. Due proposte notevoli in questo campo sono YOLOv9, celebre per la sua gestione efficace dei colli di bottiglia informativi, e DAMO-YOLO, che si concentra pesantemente sulla Neural Architecture Search (NAS) e su efficienti piramidi di feature.

Questa guida fornisce un confronto tecnico approfondito tra YOLOv9 e DAMO-YOLO, mettendone in evidenza le differenze architettoniche, le metodologie di addestramento e gli scenari di implementazione ideali. Esploreremo anche come l'ecosistema Ultralytics offra un percorso fluido dallo sviluppo alla produzione e perché modelli moderni come YOLO26 siano diventati lo standard raccomandato per i nuovi progetti.

Link to this sectionApprofondimento architettonico#

Comprendere i meccanismi fondamentali alla base di ogni modello rivela perché le loro prestazioni differiscano in base a varie metriche.

Link to this sectionYOLOv9: Programmable Gradient Information#

YOLOv9 è stato progettato per affrontare direttamente la perdita di informazioni che si verifica quando i dati fluiscono attraverso reti neurali profonde.

Autori: Chien-Yao Wang, Hong-Yuan Mark Liao Organizzazione: Institute of Information Science, Academia Sinica, Taiwan Data: 21 febbraio 2024 Link: Arxiv, GitHub, Documentazione

Scopri di più su YOLOv9

YOLOv9 introduce la Programmable Gradient Information (PGI) e la Generalized Efficient Layer Aggregation Network (GELAN). La PGI garantisce che le informazioni spaziali e semantiche vitali vengano conservate durante il processo feed-forward, prevenendo il degrado dei gradienti utilizzati per gli aggiornamenti dei pesi. La GELAN completa questo aspetto massimizzando l'efficienza dei parametri, consentendo al modello di raggiungere una mean Average Precision (mAP) allo stato dell'arte con meno FLOP rispetto a molte CNN convenzionali.

Link to this sectionDAMO-YOLO: efficienza basata su NAS#

Sviluppato da Alibaba Group, DAMO-YOLO adotta un approccio diverso, sfruttando la ricerca architettonica automatizzata per trovare l'equilibrio ottimale tra velocità e precisione.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun Organizzazione: Alibaba Group Data: 23 novembre 2022 Link: Arxiv, GitHub

Scopri di più su DAMO-YOLO

DAMO-YOLO si affida a un backbone MAE-NAS (Masked Autoencoders for Neural Architecture Search) per generare automaticamente strutture di rete efficienti. Utilizza una RepGFPN (Reparameterized Generalized Feature Pyramid Network) per una fusione robusta delle feature e un design "ZeroHead" per ridurre al minimo il carico computazionale della head di rilevamento. Inoltre, incorpora AlignedOTA per l'assegnazione delle etichette e la knowledge distillation per potenziare le prestazioni delle sue varianti più piccole.

Il ruolo della NAS nella computer vision

La Neural Architecture Search (NAS) automatizza la progettazione di reti neurali artificiali. Sebbene possa produrre modelli altamente efficienti come DAMO-YOLO, spesso richiede enormi risorse computazionali per esplorare lo spazio dell'architettura, in contrasto con la filosofia di progettazione più deterministica di modelli come YOLOv9.

Link to this sectionConfronto tra prestazioni e metriche#

Quando selezioni un modello di object detection, bilanciare precisione, velocità e ingombro computazionale è fondamentale.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionAnalisi#

  • Precisione vs. Parametri: YOLOv9 dimostra generalmente un rapporto parametri-precisione superiore. Ad esempio, YOLOv9c raggiunge il 53,0% di mAP con 25,3M di parametri, mentre DAMO-YOLOl raggiunge il 50,8% di mAP ma richiede significativamente più parametri (42,1M).
  • Velocità di inferenza: L'architettura di DAMO-YOLO fornisce velocità di inferenza TensorRT competitive su GPU T4, superando leggermente YOLOv9 nelle fasce medie. Tuttavia, l'efficienza di YOLOv9 in termini di FLOP e conteggio dei parametri si traduce in un'eccezionale efficienza della memoria GPU.
  • Requisiti di memoria: I modelli Ultralytics YOLO, incluso YOLOv9, mostrano solitamente un minore utilizzo di memoria sia durante l'addestramento che durante l'inferenza rispetto a complessi modelli generati da NAS o pesanti architetture Transformer, rendendoli altamente accessibili per la distribuzione su hardware edge limitato.

Link to this sectionIl vantaggio dell'ecosistema Ultralytics#

Sebbene le metriche teoriche siano importanti, l'implementazione pratica determina fortemente il successo di un progetto. È qui che la Piattaforma Ultralytics e il suo ecosistema software completo superano repository standalone come DAMO-YOLO.

Link to this sectionFacilità d'uso ed efficienza nell'addestramento#

Addestrare un modello YOLOv9 personalizzato richiede un boilerplate minimo. L'API Python di Ultralytics astrae processi complessi come la data augmentation, l'addestramento distribuito e l'ottimizzazione dell'hardware.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Al contrario, utilizzare DAMO-YOLO richiede spesso di districarsi tra rigidi file di configurazione e complesse catene di dipendenze specifiche per la sua pipeline di addestramento unica, con il risultato di una curva di apprendimento più ripida.

Link to this sectionVersatilità tra i compiti#

Un segno distintivo dei modelli Ultralytics è la loro intrinseca versatilità. Oltre al rilevamento standard di bounding box, il framework Ultralytics supporta perfettamente attività come Instance Segmentation, Pose Estimation, Image Classification e rilevamento Oriented Bounding Box (OBB). DAMO-YOLO è rigorosamente ottimizzato per l'object detection 2D, richiedendo una significativa re-ingegnerizzazione per adattarsi ad altri paradigmi visivi.

Esportazione su dispositivi Edge

Ultralytics semplifica la pipeline di distribuzione offrendo l'esportazione del modello con un clic verso formati come TensorRT, OpenVINO e CoreML, garantendo le massime prestazioni indipendentemente dall'hardware di destinazione.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra YOLOv9 e DAMO-YOLO dipende dai requisiti specifici del tuo progetto, dai vincoli di distribuzione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere YOLOv9#

YOLOv9 è una scelta solida per:

  • Ricerca sul collo di bottiglia dell'informazione: Progetti accademici che studiano le architetture Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
  • Studi sull'ottimizzazione del flusso di gradienti: Ricerca focalizzata sulla comprensione e sulla mitigazione della perdita di informazioni negli strati profondi della rete durante l'addestramento.
  • Benchmarking del rilevamento ad alta precisione: Scenari in cui le forti prestazioni del benchmark COCO di YOLOv9 sono necessarie come punto di riferimento per i confronti architettonici.

Link to this sectionQuando scegliere DAMO-YOLO#

DAMO-YOLO è raccomandato per:

  • Video Analytics ad alto throughput: Elaborazione di flussi video ad alto FPS su infrastruttura GPU NVIDIA fissa dove il throughput batch-1 è la metrica principale.
  • Linee di produzione industriale: Scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione di qualità in tempo reale sulle linee di assemblaggio.
  • Ricerca sulla Neural Architecture Search: Studiare gli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e delle efficienti backbone riparametrizzate sulle prestazioni di rilevamento.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl futuro: passare a YOLO26#

Mentre YOLOv9 e DAMO-YOLO rappresentano importanti pietre miliari storiche, la moderna computer vision si è spostata verso architetture nativamente end-to-end. Per qualsiasi nuovo sviluppo, YOLO26 è lo standard raccomandato.

Rilasciato nel 2026, YOLO26 si basa sui successi dei suoi predecessori, offrendo un salto in avanti sia nella precisione che nella semplicità di distribuzione.

Link to this sectionPrincipali innovazioni di YOLO26#

  • Design end-to-end senza NMS: YOLO26 elimina completamente la post-elaborazione Non-Maximum Suppression (NMS). Questo crea una pipeline di distribuzione semplificata che è nativamente end-to-end, un progresso introdotto per la prima volta in YOLOv10.
  • Rimozione della DFL: Distribution Focal Loss rimossa per un'esportazione semplificata e una migliore compatibilità con dispositivi edge/a basso consumo.
  • Inferenza CPU fino al 43% più veloce: Eliminando la complessa post-elaborazione e ottimizzando le convoluzioni principali, YOLO26 è specificamente adatto per scenari di edge computing privi di GPU dedicate.
  • Ottimizzatore MuSGD: Ispirato dalle innovazioni nell'addestramento dei LLM, YOLO26 utilizza un ibrido di SGD e Muon (MuSGD) per garantire esecuzioni di addestramento più stabili e tempi di convergenza sensibilmente più rapidi.
  • ProgLoss + STAL: Queste funzioni di perdita avanzate offrono notevoli miglioramenti nel riconoscimento di piccoli oggetti, rendendo YOLO26 ideale per immagini aeree ad alta quota e dispositivi IoT.

Se stai attualmente ricercando YOLO11 o YOLOv8 per il tuo prossimo progetto, passare a YOLO26 ti assicura di utilizzare il framework di visione AI più ottimizzato e all'avanguardia oggi disponibile.

Scegliere il modello giusto dipende dai tuoi specifici vincoli operativi:

  • DAMO-YOLO offre un affascinante scorcio sull'ottimizzazione basata su NAS, fornendo velocità competitive per profili hardware molto specifici dove la sua architettura RepGFPN eccelle.
  • YOLOv9 è una scelta eccellente per i ricercatori che si concentrano sul mantenimento di dettagli visivi a grana fine, sfruttando la sua architettura PGI per prevenire la perdita di informazioni nelle reti profonde.
  • Ultralytics YOLO26 rappresenta la scelta definitiva per le applicazioni aziendali e di ricerca moderne. La sua facilità d'uso senza pari, l'architettura senza NMS e le ottimizzazioni di addestramento all'avanguardia MuSGD lo rendono il modello più affidabile, preciso e facilmente distribuibile nel panorama della computer vision.
Collaboratori

Commenti