Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO vs YOLOv8#

Il panorama della computer vision in tempo reale è in continua evoluzione, poiché ricercatori e ingegneri spingono costantemente i confini di velocità e precisione. Due pietre miliari in questo percorso sono DAMO-YOLO e Ultralytics YOLOv8. Sebbene entrambi i modelli mirino a ottimizzare il compromesso tra latenza e mAP (mean Average Precision), adottano approcci architetturali e filosofici fondamentalmente diversi per risolvere le sfide di object detection.

Questa analisi tecnica completa confronterà le loro architetture sottostanti, le metodologie di addestramento e le implementazioni pratiche per aiutarti a scegliere lo strumento giusto per il tuo prossimo progetto di intelligenza artificiale.

Link to this sectionLineaggio e specifiche dei modelli#

Comprendere le origini di questi modelli di deep learning fornisce un contesto prezioso riguardo ai loro obiettivi di progettazione e agli ecosistemi di implementazione.

Link to this sectionDettagli di DAMO-YOLO#

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione: Alibaba Group
Data: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Scopri di più su DAMO-YOLO

Link to this sectionDettagli di Ultralytics YOLOv8#

Autori: Glenn Jocher, Ayush Chaurasia e Jing Qiu
Organizzazione: Ultralytics
Data: 2023-01-10
GitHub: ultralytics/ultralytics
Documentazione: Documentazione YOLOv8

Scopri di più su YOLOv8

Link to this sectionInnovazioni architettoniche#

Le caratteristiche prestazionali di entrambe le architetture derivano dalle loro decisioni strutturali uniche.

Link to this sectionDAMO-YOLO: Guidato dalla ricerca dell'architettura#

DAMO-YOLO si affida fortemente alla NAS (Neural Architecture Search) per scoprire automaticamente le strutture di rete ottimali. Introduce un concetto chiamato MAE-NAS, che ricerca backbone in grado di offrire alte prestazioni con bassa latenza. Inoltre, utilizza un efficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) per migliorare la fusione delle caratteristiche su diverse scale spaziali.

Per migliorare l'addestramento, il team di Alibaba ha incorporato un design ZeroHead e l'assegnazione delle etichette AlignedOTA. Inoltre, si basano pesantemente su un complesso processo di distillazione della conoscenza, in cui un pesante modello teacher guida il leggero modello student, ottenendo metriche di precisione più elevate nei benchmark accademici.

Link to this sectionYOLOv8: snello e versatile#

Ultralytics ha adottato un approccio più incentrato sullo sviluppatore con YOLOv8. È passato dal design basato su ancoraggi di YOLOv5 a un'architettura priva di ancoraggi (anchor-free), riducendo significativamente il numero di previsioni delle bounding box e accelerando l'inferenza. L'introduzione del modulo C2f (Cross-Stage Partial Bottleneck with 2 convolutions) ha migliorato il flusso dei gradienti e la rappresentazione delle caratteristiche senza aggiungere un eccessivo carico computazionale.

A differenza dei modelli che mirano rigorosamente alle bounding box, YOLOv8 è stato progettato fin dall'inizio per essere multimodale. Una codebase unificata in PyTorch supporta nativamente l'instance segmentation, la pose estimation e l'image classification, evitando agli ingegneri di dover assemblare repository disparate.

Addestramento efficiente

I modelli Ultralytics richiedono intrinsecamente meno memoria durante l'addestramento rispetto alle pesanti architetture basate su Transformer, consentendo risultati allo stato dell'arte su GPU consumer standard.

Link to this sectionScontro sulle prestazioni#

Quando si confrontano le metriche grezze, è fondamentale analizzare come le capacità teoriche si traducono in prestazioni hardware. La tabella sottostante illustra i compromessi tra le varie dimensioni dei modelli.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Mentre DAMO-YOLO mostra forti rapporti parametri-precisione grazie alle sue tecniche di distillazione, YOLOv8 offre una gamma più ampia di dimensioni del modello (da Nano a Extra-large). Il modello YOLOv8 Nano rappresenta un esempio magistrale di ottimizzazione per l'edge, consumando meno risorse pur offrendo una precisione altamente utilizzabile.

Link to this sectionEcosistema ed esperienza dello sviluppatore#

Il vero elemento di differenziazione tra gli articoli accademici e i sistemi pronti per la produzione è l'ecosistema.

La dipendenza di DAMO-YOLO da ampie pipeline di distillazione della conoscenza può rendere l'addestramento personalizzato macchinoso. Generare un modello teacher, trasferire la conoscenza e ottimizzare i backbone basati su NAS richiede molta memoria CUDA e una configurazione avanzata, rallentando spesso i team di ingegneria agile.

Al contrario, l'ecosistema Ultralytics promuove la facilità d'uso. Attraverso la piattaforma Ultralytics, gli sviluppatori possono accedere ad API semplici, documentazione completa e integrazioni robuste per il monitoraggio degli esperimenti. Il framework Python unificato rende banale la costruzione di pipeline complesse.

from ultralytics import YOLO

# Load a pretrained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on a custom dataset with built-in augmentations
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Questo flusso di lavoro ottimizzato, unito a esportazioni senza problemi verso OpenVINO e TensorRT, garantisce un percorso fluido dalla prototipazione locale alle implementazioni nel cloud o sull'edge.

Link to this sectionApplicazioni nel mondo reale e casi d'uso ideali#

La scelta tra queste architetture spesso si riduce ai vincoli operativi del tuo ambiente.

Link to this sectionDove si adatta DAMO-YOLO#

DAMO-YOLO è una scelta eccellente per gli ambienti accademici che studiano la NAS o per i ricercatori che cercano di replicare complesse strategie di ri-parametrizzazione. Può anche eccellere in applicazioni industriali altamente controllate, come il rilevamento dei difetti ad alta velocità sulle linee di produzione, a condizione che il team disponga delle risorse di calcolo per gestire il suo addestramento multistadio.

Link to this sectionPerché Ultralytics è leader nella produzione#

Per la stragrande maggioranza dei progetti commerciali, i modelli Ultralytics offrono un equilibrio delle prestazioni superiore.

  • Smart Retail: utilizzo delle capacità multi-task di YOLOv8 per gestire sia il rilevamento tramite bounding box per l'inventario che la pose estimation per l'analisi del comportamento dei clienti.
  • Agricoltura: impiego dell'instance segmentation per rilevare i confini esatti delle piante e le erbacce nei feed in tempo reale dei trattori.
  • Immagini aeree: sfruttamento delle Oriented Bounding Boxes (OBB) per tracciare accuratamente veicoli e navi ruotati da droni o satelliti.
Altri modelli degni di nota

Se stai esplorando un panorama più ampio, potresti essere interessato anche a confrontare YOLOv10 o YOLO11, che apportano ulteriori progressi al rilevamento anchor-free.

Link to this sectionA prova di futuro: arriva YOLO26#

Sebbene YOLOv8 rimanga un modello fondamentale, il campo ha continuato ad avanzare. Per tutti i nuovi sviluppi, YOLO26 è lo standard raccomandato. Rilasciato a gennaio 2026, rappresenta un balzo monumentale nella gamma Ultralytics.

YOLO26 è pioniere di un design nativo end-to-end NMS-free, eliminando completamente il tradizionale collo di bottiglia del Non-Maximum Suppression. Questa svolta strutturale produce un'inferenza su CPU fino al 43% più veloce, rendendolo un vero punto di forza per l'edge computing e l'hardware IoT.

Inoltre, YOLO26 introduce l'ottimizzatore MuSGD, un ibrido ispirato alle tecniche di addestramento dei modelli linguistici di grandi dimensioni (LLM) che garantisce una convergenza più rapida e cicli di addestramento altamente stabili. Insieme ai nuovi algoritmi ProgLoss + STAL, YOLO26 mostra miglioramenti drammatici nel riconoscimento di piccoli oggetti, garantendo che le tue implementazioni non siano solo veloci, ma anche assolutamente accurate.

Scopri di più su YOLO26

Commenti