Vai al contenuto

Preparazione dei Dati

La preparazione dei dati è la base per modelli di visione artificiale di successo. La Piattaforma Ultralytics fornisce strumenti completi per la gestione dei dati di training, dal caricamento all'annotazione, fino all'analisi.



Guarda: Inizia a utilizzare Ultralytics - Dati

Panoramica

La sezione Dati della Piattaforma Ultralytics ti aiuta a:

  • Caricamento immagini, video e file di set di dati (ZIP, TAR, tra cui .tar.gz/.tgz, NDJSON)
  • Annota con strumenti di disegno manuale e etichettatura intelligente basata su SAM — scegli tra SAM 2.1 o il nuovo SAM 3
  • Analizzare i tuoi dati con statistiche e visualizzazioni
  • Esporta in formato NDJSON per l'addestramento locale

Piattaforma Ultralytics Panoramica Dati Dataset Barra Laterale

Flusso di Lavoro

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
FaseDescrizione
CaricamentoImporta immagini, video o archivi con elaborazione automatica
AnnotaEtichetta i dati con strumenti manuali per tutti i 5 tipi di attività, oppure usa l'annotazione SAM per detect, segment e OBB
AnalizzaVisualizza distribuzioni di classe, heatmap spaziali e statistiche dimensionali
EsportazioneScarica in formato NDJSON per uso offline

Attività supportate

La Piattaforma Ultralytics supporta tutti i 5 tipi di task YOLO:

TaskDescrizioneStrumento di Annotazione
RilevaObject detection con bounding boxStrumento rettangolo
SegmentazioneInstance segmentation con maschere di pixelStrumento poligono
PosaStima dei punti chiave con modelli di scheletro predefiniti e personalizzatiStrumento keypoint
OBBBounding box orientate per oggetti ruotatiStrumento box orientato
ClassificazioneClassificazione a livello di immagineSelettore di classe

Selezione del Tipo di Task

Il tipo di attività viene impostato durante la creazione di un dataset e determina quali strumenti di annotazione sono disponibili. È possibile modificarlo in seguito dalle impostazioni del dataset, ma le annotazioni incompatibili non verranno visualizzate dopo il cambio.

Caratteristiche principali

Archiviazione Intelligente

La piattaforma Ultralytics utilizza il Content-Addressable Storage (CAS) per una gestione efficiente dei dati:

  • Deduplicazione: Immagini identiche archiviate una sola volta tramite hashing XXH3-128
  • Integrità: L'indirizzamento basato su hash garantisce l'integrità dei dati
  • Efficienza: Archiviazione ottimizzata e elaborazione rapida

URI dei Dataset

Riferisci i dataset usando il ul:// Formato URI (vedi Utilizzo dei dataset della piattaforma):

yolo train data=ul://username/datasets/my-dataset

Ciò consente l'addestramento sui dataset della piattaforma da qualsiasi macchina con la tua chiave API configurata.

Utilizzare i dati della piattaforma da Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Versionamento del Dataset

Crea istantanee NDJSON immutabili del tuo dataset per un addestramento riproducibile. Ogni versione acquisisce il conteggio di immagini, classi e annotazioni al momento della creazione. Vedi la scheda Versioni per i dettagli.

Schede del Dataset

Ogni pagina del dataset fornisce sei schede:

SchedaDescrizione
ImmaginiSfoglia le immagini in visualizzazione a griglia, compatta o a tabella con overlay di annotazioni
ClassiVisualizza e modifica i nomi delle classi, i colori e il conteggio delle etichette per classe
GraficiStatistiche automatiche: distribuzione dello split, conteggi delle classi, heatmap
ModelliModelli addestrati su questo dataset con metriche e stato
VersioniCrea e scarica istantanee NDJSON immutabili per un addestramento riproducibile
ErroriImmagini la cui elaborazione è fallita, con dettagli sull'errore e indicazioni per la correzione

Statistiche e Visualizzazione

Il Charts scheda fornisce un'analisi automatica che include:

  • Distribuzione dello Split: Grafico a ciambella dei conteggi delle immagini di train/val/test
  • Classi Principali: Grafico a ciambella delle classi di annotazione più frequenti
  • Larghezze delle immagini: Istogramma della distribuzione delle larghezze delle immagini
  • Altezze Immagine: Istogramma della distribuzione dell'altezza delle immagini
  • Punti per Istanza: Distribuzione del conteggio dei vertici del poligono o dei keypoint (dataset di segment/pose)
  • Posizioni delle annotazioni: Heatmap 2D delle posizioni centrali dei bounding box
  • Dimensioni Immagine: Heatmap 2D di larghezza vs altezza con linee guida per il rapporto d'aspetto

FAQ

Quali formati di file sono supportati per il caricamento?

La Piattaforma Ultralytics supporta:

Immagini: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (max 50MB ciascuna)

Video: MP4, WebM, MOV, AVI, MKV, M4V (max 1GB, frame estratti a 1 FPS, max 100 frame)

File dei set di dati: archivi ZIP o TAR contenenti .tar.gz e .tgz (max 10GB su Free, 20GB su Pro, 50GB su Enterprise) contenente immagini con opzionali Etichette YOLO, più esportazioni NDJSON

Qual è la dimensione massima del dataset?

I limiti di archiviazione dipendono dal tuo piano:

PianoLimite di Archiviazione
Gratuito100 GB
Pro500 GB
EnterpriseIllimitato

Limiti per singolo file: immagini 50 MB, video 1 GB, set di dati 10 GB nella versione gratuita / 20 GB nella versione Pro / 50 GB nella versione Enterprise

Posso usare i miei dataset della Piattaforma per il training locale?

Sì! Usa il formato URI del dataset per il training locale:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Oppure esporta il tuo dataset in formato NDJSON per un addestramento completamente offline.



📅 Creato 2 mesi fa ✏️ Aggiornato 3 giorni fa
glenn-jocherRizwanMunawaramanharshxsergiuwaxmann

Commenti