Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOv10#

Il campo della computer vision ha assistito a una rapida evoluzione nelle architetture di object detection in tempo reale. Confrontando DAMO-YOLO e YOLOv10, osserviamo due filosofie distinte nella progettazione dei modelli: la ricerca automatizzata dell'architettura contro l'ottimizzazione end-to-end senza NMS. Sebbene entrambi spingano oltre i confini di precisione e velocità, le loro strutture sottostanti e i casi d'uso ideali differiscono significativamente.

Link to this sectionDAMO-YOLO: Ricerca dell'architettura neurale su larga scala#

Sviluppato da Alibaba Group, DAMO-YOLO è emerso come un potente detector focalizzato sullo sfruttamento della scoperta automatizzata per l'efficienza strutturale.

Link to this sectionPunti salienti dell'architettura#

DAMO-YOLO si affida pesantemente alla Neural Architecture Search (NAS) per bilanciare prestazioni e latenza. Il suo backbone, chiamato MAE-NAS, utilizza una ricerca evolutiva multi-obiettivo sotto rigidi budget computazionali per trovare la profondità e la larghezza ottimali dei layer.

Per gestire la fusione delle caratteristiche tra le scale, il modello impiega un efficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network). Questo design a collo pesante è particolarmente abile nell'estrarre complesse gerarchie spaziali, rendendolo utile in scenari come l'analisi delle immagini aeree. Inoltre, DAMO-YOLO introduce la ZeroHead, una testa di rilevamento snella che riduce pesantemente la complessità dei layer di previsione finale, affidandosi a un robusto processo di miglioramento della distillazione durante l'addestramento.

Addestramento tramite distillazione

DAMO-YOLO utilizza spesso un processo di distillazione della conoscenza multi-stadio. Richiede l'addestramento di un modello "insegnante" più pesante per guidare il modello "studente" più piccolo, il che estrae una mAP (mean Average Precision) più alta, ma aumenta significativamente il tempo di calcolo GPU richiesto.

Scopri di più su DAMO-YOLO

Link to this sectionYOLOv10: Pionieristico nel rilevamento oggetti end-to-end#

Rilasciato un anno e mezzo dopo, YOLOv10 ha introdotto un cambio di paradigma eliminando completamente la necessità di Non-Maximum Suppression (NMS) durante l'inferenza.

Link to this sectionPunti salienti dell'architettura#

La caratteristica distintiva di YOLOv10 sono i suoi consistent dual assignments per l'addestramento senza NMS. I detector tradizionali prevedono molteplici bounding box sovrapposti per un singolo oggetto, richiedendo la NMS per filtrare i duplicati. Questo passaggio di post-elaborazione crea un collo di bottiglia, specialmente sui dispositivi edge. YOLOv10 risolve questo problema permettendo al modello di prevedere naturalmente una singola e accurata bounding box per oggetto.

Gli autori si sono anche concentrati su una progettazione del modello olistica basata su efficienza e precisione. Analizzando attentamente la ridondanza computazionale nelle architetture esistenti, hanno ottimizzato il backbone e la testa per ridurre il numero di FLOPs e parametri. Questo design leggero assicura che YOLOv10 offra un'eccezionale latenza di inferenza quando esportato in formati come TensorRT o OpenVINO.

Scopri di più su YOLOv10

Link to this sectionPrestazioni e benchmark#

La tabella sottostante illustra le metriche di prestazioni grezze sul dataset COCO. I migliori valori complessivi in ogni colonna sono evidenziati in grassetto.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Mentre DAMO-YOLO mantiene la sua posizione in termini di precisione, YOLOv10 fornisce costantemente una latenza inferiore e pesi del modello significativamente più piccoli. Ad esempio, YOLOv10s raggiunge una mAP leggermente più alta (46,7%) rispetto a DAMO-YOLOs (46,0%) utilizzando meno della metà dei parametri (7,2M contro 16,3M). I minori requisiti di memoria rendono YOLOv10 una scelta eccezionalmente versatile per i sistemi embedded.

Link to this sectionEfficienza di addestramento e usabilità#

Nel passaggio dalla ricerca accademica alla produzione, la facilità d'uso è fondamentale. Il processo di distillazione multi-stadio di DAMO-YOLO e le complesse configurazioni NAS possono presentare ripide curve di apprendimento per i team di ingegneria.

Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.

from ultralytics import YOLO

# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()
Prototipazione rapida

L'utilizzo dell'ecosistema Ultralytics permette agli sviluppatori di passare da un prototipo a un modello ONNX esportato in poche righe di codice, evitando le complesse configurazioni di ambiente richieste dai framework più datati.

Link to this sectionCasi d'uso nel mondo reale#

  • Smart Retail (DAMO-YOLO): La precisione di DAMO-YOLO è ben adatta per ambienti server ad alta densità che analizzano il comportamento del cliente dove le GPU sono abbondanti e i colli di bottiglia della NMS in tempo reale sono gestibili.
  • Veicoli Autonomi (YOLOv10): L'architettura senza NMS garantisce una latenza deterministica e prevedibile, che è critica per i sistemi di sicurezza nella guida autonoma.
  • Industrial Automation (YOLOv10): Detecting defects on fast-moving assembly lines requires models that maximize real-time inference speeds without consuming vast VRAM, making YOLOv10 a prime candidate for edge deployment.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra DAMO-YOLO e YOLOv10 dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere DAMO-YOLO#

DAMO-YOLO è una scelta valida per:

  • Video Analytics ad alto throughput: Elaborazione di flussi video ad alto FPS su infrastruttura GPU NVIDIA fissa dove il throughput batch-1 è la metrica principale.
  • Linee di produzione industriale: Scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione di qualità in tempo reale sulle linee di assemblaggio.
  • Ricerca sulla Neural Architecture Search: Studiare gli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e delle efficienti backbone riparametrizzate sulle prestazioni di rilevamento.

Link to this sectionQuando scegliere YOLOv10#

YOLOv10 è consigliato per:

  • Rilevamento in tempo reale senza NMS: Applicazioni che traggono vantaggio dal rilevamento end-to-end senza Non-Maximum Suppression, riducendo la complessità di distribuzione.
  • Compromessi bilanciati tra velocità e precisione: Progetti che richiedono un ottimo equilibrio tra velocità di inferenza e precisione di rilevamento su diverse scale di modello.
  • Applicazioni a latenza costante: Scenari di distribuzione in cui tempi di inferenza prevedibili sono fondamentali, come nella robotica o nei sistemi autonomi.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionLa Nuova Generazione: entra in scena Ultralytics YOLO26#

Sebbene YOLOv10 abbia gettato le basi per il rilevamento senza NMS, la tecnologia si è evoluta rapidamente. Per le applicazioni moderne, il modello Ultralytics YOLO26 offre prestazioni e usabilità senza pari, prendendo il meglio dalle generazioni precedenti e perfezionandole per la produzione.

YOLO26 features a strictly natively end-to-end design, eliminating NMS post-processing for simpler deployment pipelines across edge devices. Furthermore, the removal of Distribution Focal Loss (DFL) has dramatically improved compatibility with low-power edge AI hardware.

Sul fronte dell'addestramento, YOLO26 introduce il MuSGD Optimizer, un ibrido ispirato alle tecniche di addestramento dei Large Language Model (LLM). Ciò garantisce un addestramento più stabile e una convergenza più rapida. Insieme alle funzioni di perdita ProgLoss + STAL, YOLO26 mostra notevoli miglioramenti nel riconoscimento di piccoli oggetti, una caratteristica critica per la conservazione della fauna selvatica e le operazioni con droni.

Fondamentalmente, YOLO26 non è solo un rilevatore di oggetti. Offre miglioramenti specifici per ogni task, supportando nativamente Instance Segmentation, Pose Estimation tramite Residual Log-Likelihood Estimation (RLE) e perdite angolari specializzate per Oriented Bounding Boxes (OBB). Con un'inferenza CPU fino al 43% più veloce rispetto ai suoi predecessori, è la scelta definitiva per i team di ingegneria agili.

Per la gestione centralizzata, l'annotazione e l'addestramento in cloud dei modelli YOLO26, la Ultralytics Platform fornisce un'interfaccia intuitiva che ottimizza l'intero ciclo di vita della computer vision.

Gli sviluppatori interessati a esplorare altri recenti progressi possono anche valutare Ultralytics YOLO11 o il framework RT-DETR basato su Transformer per scenari che richiedono soluzioni architetturali distinte.

Commenti