Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO contro YOLOv6-3.0#

La rapida evoluzione della visione artificiale ha prodotto architetture altamente specializzate, progettate per applicazioni industriali. Tra queste, due pesi massimi si distinguono per l'attenzione alle prestazioni in tempo reale e all'efficienza di implementazione: DAMO-YOLO e YOLOv6-3.0. Questa pagina fornisce un approfondimento tecnico sulle loro architetture, metriche di performance e metodologie di addestramento, per aiutarti a orientarti nelle tue scelte di implementazione.

Link to this sectionDAMO-YOLO: quando la Neural Architecture Search incontra il rilevamento di oggetti#

Sviluppato dai ricercatori di Alibaba Group, DAMO-YOLO introduce un approccio innovativo alla famiglia YOLO, integrando pesantemente la Neural Architecture Search (NAS) nella progettazione del suo backbone.

Link to this sectionInnovazioni architettoniche#

DAMO-YOLO utilizza un backbone ottimizzato tramite NAS chiamato MAE-NAS, che ricerca automaticamente le strutture di rete ottimali entro specifici vincoli di latenza. Ciò garantisce che il modello si adatti in modo efficiente a diversi profili hardware. Per migliorare la fusione delle caratteristiche, l'architettura impiega un Efficient RepGFPN (Reparameterized Generalized Feature Pyramid Network), che potenzia significativamente la rappresentazione multiscala.

Inoltre, il modello introduce un design "ZeroHead". Rimuovendo le complesse strutture a più rami nell'head di rilevamento, preserva le informazioni spaziali in modo più efficace riducendo al contempo il carico computazionale. La metodologia di addestramento sfrutta anche AlignedOTA (Aligned Optimal Transport Assignment) e una solida distillazione della conoscenza, consentendo a modelli student più piccoli di apprendere da reti teacher più pesanti.

Scopri di più su DAMO-YOLO

Complessità della distillazione

Sebbene la distillazione della conoscenza aiuti DAMO-YOLO a ottenere un'elevata precisione, richiede una pipeline di addestramento a più stadi. Ciò aumenta drasticamente il GPU compute necessario rispetto all'addestramento di modelli standard a stadio singolo.

Link to this sectionYOLOv6-3.0: massimizzare la produttività industriale#

Ideato dal dipartimento Meituan Vision AI, YOLOv6-3.0 è etichettato esplicitamente come un rilevatore di oggetti industriale, progettato specificamente per massimizzare la produttività su hardware NVIDIA.

  • Autori: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, e Xiangxiang Chu
  • Organizzazione: Meituan
  • Data: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Link to this sectionCaratteristiche principali e miglioramenti#

YOLOv6-3.0 è basato sul backbone EfficientRep, ottimizzato per l'hardware, il che lo rende eccezionalmente veloce quando sfrutta ottimizzazioni come TensorRT su GPU moderne. Nella sua iterazione v3.0, la rete integra un modulo di concatenazione bidirezionale (BiC) per migliorare la localizzazione di oggetti di dimensioni variabili.

Un'altra caratteristica distintiva è la strategia Anchor-Aided Training (AAT). AAT combina la stabilità dei rilevatori anchor-based durante l'addestramento con la velocità di inferenza di un design anchor-free. Questo approccio ibrido offre un'eccellente convergenza senza sacrificare la latenza di implementazione, rendendolo una scelta potente per l'elaborazione di massicci flussi video in analisi di smart city e sistemi di checkout automatizzati.

Scopri di più su YOLOv6

Link to this sectionConfronto delle Prestazioni#

Quando valuti questi modelli per l'inferenza in tempo reale, bilanciare parametri, FLOP e precisione è fondamentale. Di seguito è riportata una valutazione dettagliata che confronta le loro prestazioni.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Mentre DAMO-YOLO mostra un leggero vantaggio nella categoria small (46.0 mAP contro 45.0 mAP), YOLOv6-3.0 dimostra una scalabilità superiore, prevalendo nelle categorie medium e large pur mantenendo i parametri assolutamente più bassi nella sua configurazione nano.

Scegliere tra i due

Se il tuo ambiente hardware consente pesanti ricerche automatizzate per personalizzare il tuo backbone, l'approccio NAS di DAMO-YOLO è altamente efficace. Tuttavia, se fai affidamento interamente sulla standardizzata accelerazione GPU (come T4 o A100), le strutture EfficientRep di YOLOv6 si traducono spesso in FPS grezzi più elevati.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra DAMO-YOLO e YOLOv6 dipende dai requisiti specifici del tuo progetto, dai vincoli di implementazione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere DAMO-YOLO#

DAMO-YOLO è una scelta valida per:

  • Video Analytics ad alto throughput: Elaborazione di flussi video ad alto FPS su infrastruttura GPU NVIDIA fissa dove il throughput batch-1 è la metrica principale.
  • Linee di produzione industriale: Scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione di qualità in tempo reale sulle linee di assemblaggio.
  • Ricerca sulla Neural Architecture Search: Studiare gli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e delle efficienti backbone riparametrizzate sulle prestazioni di rilevamento.

Link to this sectionQuando scegliere YOLOv6#

YOLOv6 è consigliato per:

  • Deployment industriale consapevole dell'hardware: Scenari in cui il design consapevole dell'hardware del modello e l'efficiente riparametrizzazione forniscono prestazioni ottimizzate su specifici hardware target.
  • Rilevamento single-stage rapido: Applicazioni che danno priorità alla velocità di inferenza grezza su GPU per l'elaborazione video in tempo reale in ambienti controllati.
  • Integrazione nell'ecosistema Meituan: Team che lavorano già all'interno dello stack tecnologico e dell'infrastruttura di deployment di Meituan.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: introduzione a YOLO26#

Sebbene sia DAMO-YOLO che YOLOv6-3.0 siano altamente capaci, soffrono di ecosistemi frammentati, limitazioni di singola attività e complesse pipeline di implementazione. Per i moderni team di ingegneria, i modelli Ultralytics offrono un'esperienza di sviluppo sostanzialmente migliore, che culmina nel rivoluzionario YOLO26.

Rilasciato a gennaio 2026, YOLO26 rappresenta il nuovo standard per l'implementazione su edge e cloud, ottimizzando pesantemente i requisiti di memoria e l'efficienza computazionale.

Link to this sectionPerché scegliere YOLO26?#

  1. Design end-to-end NMS-Free: basandosi sui concetti di YOLOv10, YOLO26 elimina nativamente la post-elaborazione Non-Maximum Suppression. Ciò semplifica significativamente il codice di implementazione e riduce la varianza della latenza di inferenza su tutti i dispositivi edge.
  2. Ottimizzazione superiore: YOLO26 impiega l'ottimizzatore MuSGD, un ibrido tra SGD e Muon (ispirato ai modelli linguistici di grandi dimensioni), che produce cicli di addestramento altamente stabili e una convergenza più rapida.
  3. Versatilità hardware: implementando la rimozione DFL (Distribution Focal Loss), le teste di output sono semplificate, migliorando la compatibilità con i dispositivi edge. Infatti, YOLO26 ottiene un'inferenza su CPU fino al 43% più veloce, rendendolo notevolmente superiore a YOLOv6 per ambienti mobile o IoT edge.
  4. Precisione migliorata: utilizzando ProgLoss + STAL, YOLO26 vede miglioramenti drastici nel rilevamento di oggetti piccoli, rendendolo la scelta ottimale per immagini aeree e ispezioni di difetti.
  5. Versatilità impareggiabile: a differenza dei modelli industriali che eseguono solo bounding box, la famiglia YOLO26 supporta attività multimodali, tra cui Classificazione immagini, Segmentazione di istanze, Stima della posa e Oriented Bounding Boxes (OBB).

Scopri di più su YOLO26

Link to this sectionEsperienza d'ecosistema senza interruzioni#

La piattaforma Ultralytics trasforma l'intero ciclo di vita del machine learning. Addestrare un modello non è più un grattacapo di distillazione a più stadi. Con l'aumento automatico dei dati, l'ottimizzazione unificata degli iperparametri e l'esportazione con un clic verso formati come ONNX, OpenVINO e CoreML, passi dal dataset alla produzione in ore, non settimane.

Inoltre, i modelli Ultralytics sono noti per la loro efficienza di memoria, evitando i massicci colli di bottiglia della VRAM che affliggono le architetture Transformer come RT-DETR.

Link to this sectionEsempio di codice di avvio rapido#

L'addestramento e l'inferenza con un modello Ultralytics come YOLO26 sono elegantemente semplici. Il seguente script Python dimostra come puoi iniziare immediatamente a tracciare oggetti con poche righe di codice:

from ultralytics import YOLO

# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)

Link to this sectionConclusione#

Sia DAMO-YOLO che YOLOv6-3.0 sono impressionanti prodezze ingegneristiche che spingono i confini del rilevamento di oggetti industriale. Tuttavia, sono strumenti altamente specializzati che richiedono spesso configurazioni complesse e rigidi vincoli hardware.

Per sviluppatori e ricercatori che richiedono un perfetto equilibrio di prestazioni, capacità multi-task e un ecosistema attivamente ben mantenuto, Ultralytics YOLO26 non ha rivali. Fondendo ottimizzatori ispirati ai LLM con un'architettura pulita e NMS-free, YOLO26 semplifica l'implementazione AI offrendo al contempo una precisione all'avanguardia in ambienti edge e cloud.

Se stai valutando modelli per un nuovo progetto di visione artificiale, ti consigliamo vivamente di esplorare le funzionalità dell'ecosistema Ultralytics YOLO. Potresti anche trovare utile confrontarli con altre architetture come EfficientDet o pietre miliari precedenti come YOLO11 per comprendere appieno l'evoluzione della visione AI in tempo reale.

Collaboratori

Commenti