Set di dati
I dataset di Ultralytics Platform offrono una soluzione ottimizzata per la gestione dei dati di addestramento. Una volta caricati, i dataset possono essere immediatamente utilizzati per l'addestramento del modello, con elaborazione automatica e generazione di statistiche.
Carica dataset
Ultralytics accetta diversi formati di caricamento per garantire la massima flessibilità.
Formati immagine supportati
| Formato | Estensioni | Note |
|---|---|---|
| JPEG | .jpg, .jpeg | Più comune, consigliato |
| PNG | .png | Supporta la trasparenza |
| WebP | .webp | Moderno, buona compressione |
| BMP | .bmp | Non compresso |
| GIF | .gif | Primo fotogramma estratto |
| TIFF | .tiff, .tif | Alta qualità |
| HEIC | .heic | Foto iPhone |
| AVIF | .avif | Formato di nuova generazione |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Fotocamera grezza |
Formati video supportati
I video vengono automaticamente estratti in fotogrammi:
| Formato | Estensioni | Estrazione |
|---|---|---|
| MP4 | .mp4 | 1 FPS, massimo 100 fotogrammi |
| WebM | .webm | 1 FPS, massimo 100 fotogrammi |
| MOV | .mov | 1 FPS, massimo 100 fotogrammi |
| AVI | .avi | 1 FPS, massimo 100 fotogrammi |
| MKV | .mkv | 1 FPS, massimo 100 fotogrammi |
| M4V | .m4v | 1 FPS, massimo 100 fotogrammi |
Limiti di dimensione dei file
| Tipo | Dimensione massima |
|---|---|
| Immagini | 50 MB ciascuno |
| Video | 1 GB ciascuno |
| file ZIP | 50 GB |
Archivi
Sono supportati file ZIP fino a 50 GB con struttura delle cartelle preservata ed estrazione e elaborazione automatiche.
Preparazione del tuo dataset
Per i dataset etichettati, utilizzare il formato YOLO standard:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Il file yaml definisce la configurazione del tuo dataset:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Processo di caricamento
- Naviga su Dataset nella barra laterale
- Clicca Carica Dataset o trascina i file nella zona di caricamento
- Seleziona il tipo di attività (detect, segment, pose, obb, classify)
- Aggiungi un nome e una descrizione opzionale
- Clicca Carica
Dopo il caricamento, la Piattaforma elabora i tuoi dati:
- Normalizzazione: Immagini grandi ridimensionate (max 4096px)
- Miniature: Anteprime da 256px generate
- Parsing delle Etichette: Etichette in formato YOLO estratte
- Statistiche: Distribuzioni delle classi calcolate
Convalida Prima del Caricamento
Puoi convalidare il tuo dataset localmente prima del caricamento:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Sfoglia immagini
Visualizza le immagini del tuo dataset in diversi layout:
| Visualizza | Descrizione |
|---|---|
| Griglia | Griglia di miniature con sovrapposizioni di annotazioni |
| Compatto | Miniature più piccole per una scansione rapida |
| Tabella | Elenco con nome file, dimensioni e conteggi delle etichette |
Visualizzatore a schermo intero
Clicca su qualsiasi immagine per aprire il visualizzatore a schermo intero con:
- Navigazione: Tasti freccia o clic per sfogliare
- Metadati: Nome file, dimensioni, suddivisione, conteggio etichette
- Annotazioni: Attiva/disattiva visibilità annotazioni
- Ripartizione per classe: Conteggi etichette per classe
Filtra per split
Filtra le immagini in base alla loro suddivisione del dataset:
| Suddivisione | Scopo |
|---|---|
| Addestramento | Utilizzato per l'addestramento del modello |
| Valutazione | Utilizzato per la validazione durante l'addestramento |
| Test | Utilizzato per la valutazione finale |
| Sconosciuto | Nessuna suddivisione assegnata |
Statistiche del Dataset
La scheda Statistiche fornisce un'analisi automatica del tuo dataset:
Distribuzione delle classi
Grafico a barre che mostra il numero di annotazioni per classe:
Heatmap della posizione
Visualizzazione di dove le annotazioni appaiono nelle immagini:
Analisi delle Dimensioni
Grafico a dispersione delle dimensioni dell'immagine (larghezza vs altezza):
Caching delle statistiche
Le statistiche vengono memorizzate nella cache per 5 minuti. Le modifiche alle annotazioni saranno riflesse dopo la scadenza della cache.
Esporta Dataset
Esporta il tuo dataset in formato NDJSON per l'uso offline:
- Apri il menu delle azioni del dataset
- Clicca su Esporta
- Scarica il file NDJSON
Il formato NDJSON memorizza un oggetto JSON per riga:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Consulta la documentazione del formato NDJSON di Ultralytics per la specifica completa.
URI del Dataset
Fai riferimento ai dataset della Piattaforma utilizzando il ul:// formato URI:
ul://username/datasets/dataset-slug
Usa questo URI per addestrare modelli da qualsiasi luogo:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Addestra ovunque con i dati della Piattaforma
Il ul:// URI funziona da qualsiasi ambiente:
- Macchina locale: Addestra sul tuo hardware, i dati vengono scaricati automaticamente
- Google Colab: Accedi ai tuoi dataset della Piattaforma nei notebook
- Server remoti: Addestra su VM cloud con accesso completo ai dataset
Impostazioni di Visibilità
Controlla chi può visualizzare il tuo dataset:
| Impostazione | Descrizione |
|---|---|
| Privato | Solo tu puoi accedere |
| Pubblico | Chiunque può visualizzare sulla pagina Esplora |
Per modificare la visibilità:
- Apri il menu delle azioni del dataset
- Clicca Modifica
- Attiva/disattiva l'impostazione di visibilità
- Clicca Salva
Modifica Set di Dati
Aggiorna nome, descrizione o visibilità del dataset:
- Apri il menu delle azioni del dataset
- Clicca Modifica
- Applica modifiche
- Clicca Salva
Elimina dataset
Elimina un dataset che non ti serve più:
- Apri il menu delle azioni del dataset
- Clicca su Elimina
- Conferma eliminazione
Cestino e Ripristino
I dataset eliminati vengono spostati nel Cestino per 30 giorni. Puoi ripristinarli dalla pagina Cestino in Impostazioni.
Addestra sul Dataset
Avvia l'addestramento direttamente dal tuo dataset:
- Clicca su Addestra Modello sulla pagina del dataset
- Seleziona un progetto o creane uno nuovo
- Configura i parametri di addestramento
- Avvia l'addestramento
Vedi Addestramento Cloud per i dettagli.
FAQ
Cosa succede ai miei dati dopo l'upload?
I tuoi dati vengono elaborati e archiviati nella regione selezionata (USA, UE o AP). Le immagini sono:
- Convalidato per formato e dimensione
- Normalizzato se superiore a 4096px (preservando il rapporto d'aspetto)
- Archiviato utilizzando Content-Addressable Storage (CAS) con hashing SHA-256
- Miniature generate a 256px per una navigazione rapida
Come funziona l'archiviazione?
La piattaforma Ultralytics utilizza lo Storage Indirizzabile per Contenuto (CAS) per un'archiviazione efficiente:
- Deduplicazione: Immagini identiche caricate da utenti diversi vengono archiviate una sola volta
- Integrità: L'hashing SHA-256 garantisce l'integrità dei dati
- Efficienza: Riduce i costi di archiviazione e accelera l'elaborazione
- Regionale: I dati rimangono nella regione selezionata (US, EU o AP)
Posso aggiungere immagini a un dataset esistente?
Sì, utilizza il pulsante Aggiungi Immagini nella pagina del dataset per caricare immagini aggiuntive. Le nuove statistiche verranno calcolate automaticamente.
Come sposto le immagini tra i dataset?
Utilizza la funzione di selezione in blocco:
- Seleziona le immagini nella galleria
- Clicca su Sposta o Copia
- Seleziona il dataset di destinazione
Quali formati di etichette sono supportati?
La piattaforma Ultralytics supporta le etichette in formato YOLO:
| Task | Formato | Esempio |
|---|---|---|
| Rileva | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmentazione | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Posa | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classificazione | Struttura delle directory | train/cats/, train/dogs/ |
Tutte le coordinate sono normalizzate (intervallo 0-1). Indicatori di visibilità della posa: 0=non etichettata, 1=etichettata ma occlusa, 2=etichettata e visibile.