Vai al contenuto

Set di dati

I dataset di Ultralytics Platform offrono una soluzione ottimizzata per la gestione dei dati di addestramento. Una volta caricati, i dataset possono essere immediatamente utilizzati per l'addestramento del modello, con elaborazione automatica e generazione di statistiche.

Carica dataset

Ultralytics accetta diversi formati di caricamento per garantire la massima flessibilità.

Formati supportati

FormatoEstensioniNoteDimensione massima
JPEG.jpg, .jpegPiù comune, consigliato50 MB
PNG.pngSupporta la trasparenza50 MB
WebP.webpModerno, buona compressione50 MB
BMP.bmpNon compresso50 MB
TIFF.tiff, .tifAlta qualità50 MB
HEIC.heicFoto iPhone50 MB
AVIF.avifFormato di nuova generazione50 MB
JP2.jp2JPEG 200050 MB
DNG.dngFotocamera grezza50 MB
MPO.mpoOggetto multi-immagine50 MB

I video vengono automaticamente estratti in fotogrammi sul lato client a 1 FPS (max 100 fotogrammi per video).

FormatoEstensioniEstrazioneDimensione massima
MP4.mp41 FPS, massimo 100 fotogrammi1 GB
WebM.webm1 FPS, massimo 100 fotogrammi1 GB
MOV.mov1 FPS, massimo 100 fotogrammi1 GB
AVI.avi1 FPS, massimo 100 fotogrammi1 GB
MKV.mkv1 FPS, massimo 100 fotogrammi1 GB
M4V.m4v1 FPS, massimo 100 fotogrammi1 GB

Estrazione di frame video

I fotogrammi video vengono estratti al ritmo di 1 fotogramma al secondo nel browser prima del caricamento. Un video di 60 secondi produce 60 fotogrammi. Il massimo è di 100 fotogrammi per video, quindi i video più lunghi di ~100 secondi verranno campionati.

Gli archivi vengono estratti ed elaborati automaticamente.

FormatoEstensioniNoteDimensione massima
ZIP.zipPiù comune10 GB
TAR.tarArchivio non compresso10 GB
TAR.GZ.tar.gz, .tgzArchivio compresso10 GB
GZ.gzCompresso con Gzip10 GB

Preparazione del tuo dataset

La piattaforma supporta due formati di annotazione oltre ai caricamenti grezzi: Ultralytics YOLO, COCOe raw (immagini non annotate):

Utilizza la struttura YOLO standard con un data.yaml file:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Il file yaml definisce la configurazione del tuo dataset:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Utilizza file di annotazione JSON con la COCO standard:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

Il file JSON contiene images, annotations, e categories matrici:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO vengono convertite automaticamente durante il caricamento. Rilevamento (bbox), segmentazione (segmentation poligoni) e posa (keypoints) sono supportate. Gli ID delle categorie vengono rimappati su una sequenza densa indicizzata a partire da 0 in tutti i file di annotazione. Per la conversione tra i formati, vedere strumenti di conversione dei formati.

Caricamenti grezzi

Raw: carica immagini senza annotazioni (senza etichette). Utile quando si intende annotare direttamente sulla piattaforma utilizzando l'editor di annotazioni.

Struttura piatta delle directory

È anche possibile caricare immagini senza la struttura di cartelle train/val. Le immagini caricate senza cartelle separate vengono assegnate alla cartella train divisi per impostazione predefinita. È possibile riassegnarli in un secondo momento utilizzando la funzione di spostamento in blocco per la divisione.

Rilevamento automatico del formato

Il formato viene rilevato automaticamente: i set di dati con un data.yaml contenente names, train, oppure val le chiavi sono trattate come YOLO. Set di dati con file COCO (contenenti images, annotations, e categories gli array) vengono trattati come COCO. I set di dati contenenti solo immagini e nessuna annotazione vengono trattati come grezzi.

Per i dettagli sul formato specifico dell'attività, consultare le attività supportate e la panoramica dei set di dati.

Processo di caricamento

  1. Vai a Datasets nella barra laterale
  2. Clicca New Dataset oppure trascinare i file nell'area di caricamento
  3. Selezionare il tipo di attività (vedere attività supportate)
  4. Aggiungi un nome e una descrizione opzionale
  5. Imposta la visibilità (pubblica o privata) e la licenza opzionale (vedi licenze disponibili)
  6. Clicca Create

Ultralytics Set di dati Finestra di dialogo Caricamento Selettore attività

Dopo il caricamento, la piattaforma elabora i tuoi dati attraverso una pipeline in più fasi:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Convalida: controlli di formato e dimensioni
  2. Normalizzazione: immagini di grandi dimensioni ridimensionate (max 4096px, dimensione minima 28px)
  3. Miniature: anteprime WebP generate da 256px
  4. Analisi delle etichette: YOLO ed etichette COCO estratte
  5. Statistiche: distribuzioni delle classi e dimensioni delle immagini calcolate

Barra di avanzamento caricamento set di dati Ultralytics

Convalida Prima del Caricamento

Puoi convalidare il tuo dataset localmente prima del caricamento:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Requisiti relativi alle dimensioni delle immagini

Le immagini devono avere una dimensione minima di 28 px sul lato più corto. Le immagini più piccole di questa dimensione vengono rifiutate durante l'elaborazione. Le immagini più grandi di 4096 px sul lato più lungo vengono automaticamente ridimensionate mantenendo le proporzioni.

Sfoglia immagini

Visualizza le immagini del tuo dataset in diversi layout:

VisualizzaDescrizione
GrigliaGriglia di miniature con sovrapposizioni di annotazioni (impostazione predefinita)
CompattoMiniature più piccole per una scansione rapida
TabellaElenco con miniatura, nome file, dimensioni, grandezza, divisione, classi e conteggio etichette

Galleria dei set di dati Ultralytics Visualizzazione a griglia con annotazioni

Ordinamento e filtraggio

Le immagini possono essere ordinate e filtrate per una navigazione efficiente:

OrdinaDescrizione
Più recenteAggiunti più di recente
Il più vecchioAggiunto più di recente
Nome A-ZAlfabetico
Nome Z-AAlfabeto inverso
Dimensioni (minime)Prima i file più piccoli
Dimensione (massima)Prima i file più grandi
La maggior parte delle etichetteLa maggior parte delle annotazioni
Etichette minimeMeno annotazioni
FiltraOpzioni
Filtro divisoTreno, Val, Test o Tutti
Filtro etichettaTutte le immagini, annotate o non annotate
CercaFiltra le immagini per nome file

Ricerca di immagini senza etichetta

Utilizza il filtro etichetta impostato su Unannotated per trovare rapidamente le immagini che necessitano ancora di annotazione. Ciò è particolarmente utile per set di dati di grandi dimensioni in cui si desidera track lo stato di avanzamento track .

Visualizzatore a schermo intero

Clicca su qualsiasi immagine per aprire il visualizzatore a schermo intero con:

  • Navigazione: tasti freccia o anteprime in miniatura per sfogliare
  • Metadati: nome file, dimensioni, badge diviso, numero di annotazioni
  • Annotazioni: Attiva/disattiva la visibilità della sovrapposizione delle annotazioni
  • Ripartizione delle classi: conteggio delle etichette per classe con indicatori di colore
  • Modifica: entra in modalità annotazione per aggiungere o modificare le etichette
  • Scarica: Scarica il file immagine originale
  • Elimina: elimina l'immagine dal set di dati
  • Zoom: Cmd/Ctrl+Scroll per ingrandire/ridurre
  • Visualizzazione pixel: attiva/disattiva il rendering pixelato per un'ispezione ravvicinata

Ultralytics Set di dati Visualizzatore a schermo intero con pannello dei metadati

Filtra per split

Filtra le immagini in base alla loro suddivisione del dataset:

SuddivisioneScopo
AddestramentoUtilizzato per l'addestramento del modello
ValutazioneUtilizzato per la validazione durante l'addestramento
TestUtilizzato per la valutazione finale

Schede del set di dati

Ogni pagina del set di dati presenta cinque schede accessibili dalla barra delle schede:

Scheda Immagini

La visualizzazione predefinita mostra la galleria immagini con le annotazioni sovrapposte. Supporta le modalità di visualizzazione griglia, compatta e tabella. Trascinare i file qui per aggiungere altre immagini.

Scheda Classi

Gestisci le classi di annotazione per il tuo set di dati:

  • Istogramma delle classi: grafico a barre che mostra il numero di annotazioni per classe con commutazione tra scala lineare e logaritmica.
  • Tabella delle classi: tabella ordinabile e ricercabile con nome della classe, numero di etichette e numero di immagini
  • Modifica i nomi delle classi: clicca su qualsiasi nome di classe per rinominarlo in linea
  • Modifica i colori della classe: clicca su un campione di colore per cambiare il colore della classe.
  • Aggiungi nuova classe: utilizza il campo di immissione in basso per aggiungere classi

Ultralytics Set di dati Scheda Classi Istogramma e tabella

Scala logaritmica per set di dati sbilanciati

Se il tuo set di dati presenta uno squilibrio di classe (ad esempio, 10.000 annotazioni "persona" ma solo 50 "bicicletta"), utilizza il Log Scale Attiva l'istogramma delle classi per visualizzare chiaramente tutte le classi.

Scheda Grafici

Statistiche automatiche calcolate dal tuo set di dati:

GraficoDescrizione
Distribuzione divisaGrafico ad anello del conteggio delle immagini train/val/test e percentuale etichettata
Classi superioriGrafico ad anello delle 10 classi di annotazione più frequenti
Larghezza delle immaginiIstogramma della distribuzione della larghezza dell'immagine con media
Altezze dell'immagineIstogramma della distribuzione dell'altezza dell'immagine con media
Punti per istanzaNumero di vertici poligonali o punti chiave per annotazione (segment)
Posizioni delle annotazioniMappa termica 2D delle posizioni centrali dei riquadri di delimitazione
Dimensioni immagineMappa termica 2D larghezza vs altezza con linee guida delle proporzioni

Ultralytics Set di dati Scheda Grafici Griglia statistica

Caching delle statistiche

Le statistiche vengono memorizzate nella cache per 5 minuti. Le modifiche alle annotazioni saranno riflesse dopo la scadenza della cache.

Mappe di calore a schermo intero

Clicca sul pulsante di espansione su qualsiasi mappa termica per visualizzarla in modalità a schermo intero. Ciò consente una visione più ampia e dettagliata, utile per comprendere i modelli spaziali in grandi set di dati.

Scheda Modelli

Visualizza tutti i modelli addestrati su questo set di dati in una tabella ricercabile:

ColonnaDescrizione
NomeNome del modello con link
ProgettoProgetto principale con icona
StatoBadge dello stato di allenamento
TaskTipo YOLO
EpocheMiglior epoca / epoche totali
mAP50-95Precisione media ponderata
mAP50mAP IoU ,50
CreataData di creazione

Ultralytics Scheda Modelli Tabella dei modelli addestrati

Scheda Errori

Le immagini che non sono state elaborate correttamente sono elencate qui con:

  • Banner di errore: conteggio totale delle immagini non riuscite e indicazioni
  • Tabella degli errori: nome file, descrizione dell'errore intuitiva, suggerimenti per la risoluzione e anteprima in miniatura
  • Gli errori più comuni includono file danneggiati, formati non supportati, immagini troppo piccole (minimo 28 px) e modalità colore non supportate.
Errori comuni di elaborazione
ErroreCausaCorrezione
Impossibile leggere il file immagineFormato danneggiato o non supportatoRiesportazione dall'editor di immagini
Incompleto o danneggiatoIl file è stato troncato durante il trasferimentoScarica nuovamente il file originale
Immagine troppo piccolaDimensione minima inferiore a 28pxUtilizza immagini sorgente con risoluzione più alta
Modalità colore non supportataCMYK o modalità colore indicizzataConverti in modalità RGB

Esporta Dataset

Esporta il tuo set di dati in formato NDJSON per l'utilizzo offline:

  1. Clicca sull'icona di download nell'intestazione del set di dati
  2. Il file NDJSON viene scaricato automaticamente

Esportazione dei set di dati Ultralytics Download Ndjson

Il formato NDJSON memorizza un oggetto JSON per riga. La prima riga contiene i metadati del set di dati, seguiti da una riga per ogni immagine:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

URL firmati

Gli URL delle immagini nel NDJSON esportato sono firmati e validi per 7 giorni. Se hai bisogno di URL aggiornati, riesporta il set di dati.

Consulta la documentazione del formato NDJSON di Ultralytics per la specifica completa.

Operazioni in blocco

Gestisci le immagini in blocco utilizzando il menu contestuale della vista tabella:

Trasferirsi a Spalato

Riassegnare le immagini selezionate a una divisione diversa all'interno dello stesso set di dati:

  1. Passa alla visualizzazione tabella
  2. Seleziona le immagini utilizzando le caselle di controllo
  3. Clicca con il tasto destro per aprire il menu contestuale
  4. Scegli Move to split > Addestramento, Validazione, oppure Test

È anche possibile trascinare e rilasciare le immagini sulle schede dei filtri divisi nella visualizzazione a griglia.

Organizzazione delle divisioni treno/val

Carica tutte le immagini in un unico set di dati, quindi utilizza lo spostamento in blocco per organizzare i sottoinsiemi in divisioni di addestramento, convalida e test.

Eliminazione in blocco

Elimina più immagini contemporaneamente:

  1. Seleziona le immagini nella visualizzazione tabella
  2. Clicca con il tasto destro del mouse e seleziona Delete
  3. Conferma eliminazione

URI del Dataset

Fai riferimento ai dataset della Piattaforma utilizzando il ul:// Formato URI (vedi Utilizzo dei dataset della piattaforma):

ul://username/datasets/dataset-slug

Usa questo URI per addestrare modelli da qualsiasi luogo:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Addestra ovunque con i dati della Piattaforma

Il ul:// URI funziona da qualsiasi ambiente:

  • Macchina locale: Addestra sul tuo hardware, i dati vengono scaricati automaticamente
  • Google Colab: Accedi ai tuoi dataset della Piattaforma nei notebook
  • Server remoti: Addestra su VM cloud con accesso completo ai dataset

Licenze disponibili

La piattaforma supporta le seguenti licenze per i set di dati:

LicenzaTipo
NessunoNessuna licenza selezionata
CC0-1.0Pubblico dominio
CC-BY-2.5Permissivo
CC-BY-4.0Permissivo
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Non commerciale
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Nessun derivato
CC-BY-NC-ND-4.0Non commerciale
Apache-2.0Permissivo
MITPermissivo
AGPL-3.0Copyleft
GPL-3.0Copyleft
Solo ricercaLimitato
AltroPersonalizzato

Licenze Copyleft

Quando si clona un set di dati con una licenza copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), il clone eredita la licenza e il selettore di licenza viene bloccato.

Impostazioni di Visibilità

Controlla chi può visualizzare il tuo dataset:

ImpostazioneDescrizione
PrivatoSolo tu puoi accedere
PubblicoChiunque può visualizzare sulla pagina Esplora

La visibilità viene impostata durante la creazione di un set di dati nel New Dataset dialogo utilizzando un interruttore a levetta. I set di dati pubblici sono visibili su Esplora pagina.

Modifica Set di Dati

I metadati del set di dati vengono modificati direttamente nella pagina del set di dati, senza bisogno di finestre di dialogo:

  • Nome: Fare clic sul nome del set di dati per modificarlo. Le modifiche vengono salvate automaticamente quando si sfoca o Enter.
  • Descrizione: clicca sulla descrizione (o sul segnaposto "Aggiungi una descrizione...") per modificarla. Le modifiche vengono salvate automaticamente.
  • Tipo di attività: fare clic sul badge dell'attività per selezionare un tipo di attività diverso.
  • Licenza: clicca sul selettore della licenza per modificare la licenza del set di dati.

Modifica del tipo di attività

La modifica del tipo di attività può influire sulla visualizzazione delle annotazioni esistenti. Le annotazioni incompatibili non verranno visualizzate.

Clona Dataset

Quando visualizzi un set di dati pubblico che non ti appartiene, clicca su Clone Dataset per creare una copia nel tuo spazio di lavoro. Il clone include tutte le immagini, le annotazioni e le definizioni delle classi. Se il set di dati originale ha una licenza copyleft, il clone la eredita e il selettore della licenza viene bloccato.

Stella e Condividi

  • Stella: clicca sul pulsante con la stella per aggiungere un set di dati ai preferiti. Il numero di stelle è visibile a tutti gli utenti.
  • Condividi: per i set di dati pubblici, clicca sul pulsante Condividi per copiare un link o condividere sui social network.

Elimina dataset

Elimina un dataset che non ti serve più:

  1. Apri il menu delle azioni del dataset
  2. Clicca Delete
  3. Conferma nella finestra di dialogo: "Questo sposterà [nome] nel cestino. Puoi ripristinarlo entro 30 giorni."

Cestino e Ripristino

I set di dati eliminati vengono spostati nel Cestino, non eliminati in modo permanente. È possibile ripristinarli entro 30 giorni dalla Settings > Trash.

Addestra sul Dataset

Avvia l'addestramento direttamente dal tuo dataset:

  1. Clicca New Model nella pagina del set di dati
  2. Seleziona un progetto o creane uno nuovo
  3. Configura i parametri di addestramento
  4. Avvia l'addestramento
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Vedi Addestramento Cloud per i dettagli.

FAQ

Cosa succede ai miei dati dopo l'upload?

I tuoi dati vengono elaborati e archiviati nella regione selezionata (USA, UE o AP). Le immagini sono:

  1. Convalidato per formato e dimensione
  2. Rifiutato se la dimensione minima è inferiore a 28px
  3. Normalizzato se superiore a 4096px (mantenendo le proporzioni; codificato per un'archiviazione ottimizzata)
  4. Archiviato utilizzando Content-Addressable Storage (CAS) con hash XXH3-128
  5. Miniature generate a 256px WebP per una navigazione veloce

Come funziona l'archiviazione?

La piattaforma Ultralytics utilizza lo Storage Indirizzabile per Contenuto (CAS) per un'archiviazione efficiente:

  • Deduplicazione: Immagini identiche caricate da utenti diversi vengono archiviate una sola volta
  • Integrità: l'hashing XXH3-128 garantisce l'integrità dei dati
  • Efficienza: Riduce i costi di archiviazione e accelera l'elaborazione
  • Regionale: I dati rimangono nella regione selezionata (US, EU o AP)

Posso aggiungere immagini a un dataset esistente?

Sì, trascina i file sulla pagina del set di dati o utilizza il pulsante di caricamento per aggiungere altre immagini. Le nuove statistiche verranno calcolate automaticamente.

Come posso spostare le immagini tra le sezioni?

Utilizza la funzione di spostamento in blocco per dividere:

  1. Seleziona le immagini nella visualizzazione tabella
  2. Clicca con il tasto destro del mouse e seleziona Move to split
  3. Seleziona la suddivisione desiderata (Addestramento, Convalida o Test)

Quali formati di etichette sono supportati?

Ultralytics supporta due formati di annotazione per il caricamento:

Uno .txt file per immagine con coordinate normalizzate (intervallo 0-1):

TaskFormatoEsempio
Rilevaclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentazioneclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Posaclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassificazioneStruttura delle directorytrain/cats/, train/dogs/

Flag di visibilità delle pose: 0=non etichettata, 1=etichettata ma occlusa, 2=etichettata e visibile.

File JSON con images, annotations, e categories array. Supporta il rilevamento (bbox), segmentazione (poligono) e posa (keypoints). COCO coordinate pixel assolute che vengono automaticamente convertite in formato normalizzato durante il caricamento.



📅 Creato 1 mese fa ✏️ Aggiornato 5 giorni fa
glenn-jochersergiuwaxmannLaughing-q

Commenti