Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOv9#

Il panorama del rilevamento di oggetti in tempo reale continua a evolversi a un ritmo vertiginoso. Mentre i team di ingegneria e i ricercatori si sforzano di trovare il perfetto equilibrio tra precisione, velocità di inferenza ed efficienza computazionale, sono emerse due architetture degne di nota dalla comunità di ricerca: DAMO-YOLO e YOLOv9. Entrambi i modelli introducono innovazioni architetturali significative volte a superare i limiti di ciò che è possibile fare nella computer vision.

Questa guida tecnica dettagliata fornisce un'analisi approfondita di questi due modelli, confrontando i loro approcci architetturali unici, le metodologie di addestramento e le capacità di implementazione nel mondo reale. Esploreremo anche come il più ampio ecosistema software svolga un ruolo cruciale nello sviluppo moderno dell'IA, evidenziando i vantaggi di piattaforme integrate come la Piattaforma Ultralytics e la nuova generazione di modelli come YOLO26.

Link to this sectionRiepilogo esecutivo: scegliere l'architettura giusta#

Sebbene entrambi i modelli rappresentino pietre miliari significative nella ricerca sul deep learning, rispondono a filosofie di implementazione leggermente diverse.

DAMO-YOLO eccelle in ambienti in cui è possibile utilizzare la ricerca sull'architettura neurale (NAS) per ottenere profili di prestazioni specifici, rendendolo uno studio interessante per l'implementazione edge personalizzata. Al contrario, YOLOv9 si concentra pesantemente sulla risoluzione dei colli di bottiglia informativi del deep learning, offrendo un'efficienza dei parametri eccezionalmente elevata.

Tuttavia, per le implementazioni pronte per la produzione, i team di ingegneria consigliano costantemente di sfruttare l'ecosistema Ultralytics unificato. Per i nuovi progetti, l'ultimo modello YOLO26 offre il meglio di entrambi i mondi: precisione all'avanguardia combinata con un design nativo end-to-end che elimina la necessità di complessi processi di post-elaborazione.

Prepara la tua pipeline di computer vision per il futuro

Sebbene DAMO-YOLO e YOLOv9 siano potenti modelli accademici, distribuirli in produzione richiede spesso una notevole ingegnerizzazione personalizzata. Utilizzare Ultralytics YOLO26 ti fornisce l'accesso a prestazioni all'avanguardia con un'API semplificata e manutenibile.

Link to this sectionSpecifiche tecniche e paternità#

Comprendere le origini e l'obiettivo di sviluppo di questi modelli fornisce un contesto essenziale per le loro rispettive caratteristiche.

Link to this sectionDAMO-YOLO#

Sviluppato dai ricercatori di Alibaba Group, DAMO-YOLO si concentra pesantemente sulla generazione automatizzata dell'architettura e sulla fusione efficiente delle feature.

Scopri di più su DAMO-YOLO

Link to this sectionYOLOv9#

Introdotto come soluzione alla perdita di informazioni nelle reti convoluzionali profonde, YOLOv9 spinge i limiti teorici della conservazione del gradiente durante l'addestramento.

Scopri di più su YOLOv9

Link to this sectionInnovazioni architettoniche#

Link to this sectionDAMO-YOLO: guidato dalla ricerca sull'architettura neurale#

DAMO-YOLO si distingue per i componenti altamente personalizzati generati automaticamente. Il suo backbone viene creato utilizzando la Neural Architecture Search (NAS), puntando specificamente alla bassa latenza di inferenza su diversi hardware.

L'architettura presenta un'efficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) per la fusione delle feature, che migliora il rilevamento di oggetti multi-scala senza aumentare eccessivamente il carico computazionale. Inoltre, impiega un design ZeroHead per semplificare la head di rilevamento e utilizza AlignedOTA per l'assegnazione delle etichette, abbinato a un sofisticato processo di miglioramento della distillazione durante l'addestramento. Sebbene queste tecniche producano un'inferenza rapida, il processo di distillazione a più stadi richiede spesso una notevole quantità di VRAM e tempi di addestramento prolungati.

Link to this sectionYOLOv9: Risolvere il collo di bottiglia dell'informazione#

YOLOv9 affronta un problema fondamentale nelle reti profonde: la perdita graduale di informazioni dei dati di input mentre attraversano strati successivi.

Per combattere questo fenomeno, gli autori hanno introdotto Programmable Gradient Information (PGI), un framework di supervisione ausiliario progettato per conservare dettagli cruciali per gli strati profondi, generando gradienti altamente affidabili per gli aggiornamenti dei pesi. Ad accompagnare la PGI c'è l'architettura GELAN (Generalized Efficient Layer Aggregation Network). GELAN ottimizza l'efficienza dei parametri combinando i punti di forza di CSPNet ed ELAN, massimizzando il flusso di informazioni e riducendo rigorosamente le operazioni in virgola mobile (FLOP).

Link to this sectionAnalisi delle prestazioni e metriche#

Quando si valutano le prestazioni, entrambi i modelli dimostrano una solida mean Average Precision (mAP) su benchmark standard come COCO. YOLOv9 raggiunge una precisione assoluta maggiore su dimensioni del modello equivalenti, sfruttando la sua architettura PGI per mantenere un'alta fedeltà su dataset difficili.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Come mostrato sopra, YOLOv9-E raggiunge la massima precisione, mentre le varianti più piccole di DAMO-YOLO e YOLOv9 mantengono velocità di inferenza altamente competitive tramite ottimizzazioni TensorRT.

Link to this sectionMetodologie di Addestramento ed Ecosistema#

Sebbene l'architettura grezza sia importante, l'usabilità e l'efficienza di addestramento dettate dall'ecosistema di un modello sono fondamentali per l'applicazione nel mondo reale.

La dipendenza di DAMO-YOLO dalla distillazione della conoscenza richiede spesso l'addestramento di un ingombrante modello "insegnante" prima di trasferire la conoscenza al modello "studente" di destinazione. Questo approccio di ricerca tradizionale aumenta significativamente i requisiti di memoria e i tempi dei cicli di addestramento. Allo stesso modo, il repository originale di YOLOv9 richiede la navigazione in complessi file di configurazione che possono rallentare lo sviluppo agile.

Al contrario, l'integrazione dei modelli nella Piattaforma Ultralytics trasforma completamente l'esperienza dello sviluppatore. Il pacchetto Python di Ultralytics astrae il codice boilerplate, consentendo ai team di gestire facilmente l'aumento dei dati, la regolazione degli iperparametri e l'esportazione del modello.

Link to this sectionApplicazioni reali e casi d'uso#

Architetture diverse eccellono naturalmente in settori specifici in base ai loro requisiti di risorse e profili di precisione.

  • DAMO-YOLO nell'Edge AI: Grazie ai suoi backbone ottimizzati tramite NAS, DAMO-YOLO viene spesso esplorato nei sistemi embedded in cui la ri-parametrizzazione specifica per l'hardware è una necessità rigorosa, come l'implementazione ASIC personalizzata nel controllo qualità della produzione.
  • YOLOv9 nell'analisi di precisione: Con la sua elevata efficienza dei parametri e la conservazione del gradiente basata su PGI, YOLOv9 è eccellente per scenari di rilevamento di oggetti densi, come l'analisi di immagini aeree o il tracciamento di piccoli oggetti in ambienti di vendita al dettaglio affollati.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra DAMO-YOLO e YOLOv9 dipende dai requisiti specifici del tuo progetto, dai vincoli di distribuzione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere DAMO-YOLO#

DAMO-YOLO è una scelta valida per:

  • Video Analytics ad alto throughput: Elaborazione di flussi video ad alto FPS su infrastruttura GPU NVIDIA fissa dove il throughput batch-1 è la metrica principale.
  • Linee di produzione industriale: Scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione di qualità in tempo reale sulle linee di assemblaggio.
  • Ricerca sulla Neural Architecture Search: Studiare gli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e delle efficienti backbone riparametrizzate sulle prestazioni di rilevamento.

Link to this sectionQuando scegliere YOLOv9#

YOLOv9 è consigliato per:

  • Ricerca sul collo di bottiglia dell'informazione: Progetti accademici che studiano le architetture Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
  • Studi sull'ottimizzazione del flusso di gradienti: Ricerca focalizzata sulla comprensione e sulla mitigazione della perdita di informazioni negli strati profondi della rete durante l'addestramento.
  • Benchmarking del rilevamento ad alta precisione: Scenari in cui le forti prestazioni del benchmark COCO di YOLOv9 sono necessarie come punto di riferimento per i confronti architettonici.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: passare a YOLO26#

Per gli utenti che confrontano architetture legacy, la transizione verso il moderno ecosistema Ultralytics—nello specifico verso i più recenti modelli YOLO26—fornisce un vantaggio senza pari.

YOLO26 modifica radicalmente il panorama della distribuzione grazie al suo design End-to-End NMS-Free. Eliminando completamente la post-elaborazione Non-Maximum Suppression (NMS), offre architetture di distribuzione più veloci e decisamente più semplici. Accoppiato con la rimozione della Distribution Focal Loss (DFL), YOLO26 offre una compatibilità superiore per dispositivi edge e a basso consumo.

Inoltre, YOLO26 incorpora il rivoluzionario ottimizzatore MuSGD, un ibrido di Stochastic Gradient Descent e ottimizzazioni Muon ispirato alle innovazioni nell'addestramento degli LLM. Ciò produce una convergenza di addestramento altamente stabile mantenendo un utilizzo della memoria notevolmente basso rispetto alle alternative basate sui Transformer.

Addestramento semplificato con YOLO26

Grazie all'intuitiva API di Ultralytics, puoi addestrare un modello YOLO26 all'avanguardia con monitoraggio integrato degli esperimenti in poche righe di Python.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Indipendentemente dal fatto che tu richieda segmentazione di istanze avanzata, stima della posa altamente precisa o il rilevamento standard di bounding box, la versatilità del framework Ultralytics assicura che il tuo team dedichi meno tempo alla configurazione di ambienti di deep learning e più tempo alla distribuzione di robuste soluzioni di IA. Con miglioramenti specifici alle attività come ProgLoss + STAL per un migliore riconoscimento di piccoli oggetti, YOLO26 si pone come la scelta principale per la prossima generazione di applicazioni di visione.

Contributori

Commenti