Vai al contenuto

Operazioni di gestione dei dataset con Ultralytics HUB-SDK

Benvenuto nella documentazione sulla gestione dei dataset di Ultralytics HUB-SDK! 👋

Gestire i dataset in modo efficiente è fondamentale nel mondo del Machine Learning. Che tu sia uno scienziato dei dati esperto o un principiante del settore, sapere come gestire le operazioni sui dataset può ottimizzare il tuo flusso di lavoro. Questa pagina illustra le basi per eseguire operazioni sui dataset utilizzando Ultralytics HUB-SDK in Python. Gli esempi forniti illustrano come ottenere, creare, aggiornare, cancellare, elencare i dataset, ottenere un URL per accedere ai dataset e caricare i dataset.

Tuffiamoci! 🚀

Ottenere un set di dati per ID

Stai cercando un set di dati specifico? Recuperalo rapidamente utilizzando il suo ID univoco con il frammento di codice qui sotto. In questo modo potrai accedere alle informazioni essenziali, compresi i dati.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset('<Dataset ID>')  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Creare un set di dati

Sei pronto a iniziare un nuovo progetto? Segui i passi seguenti per creare un nuovo set di dati. Tutto ciò che ti serve è definire un nome amichevole per il tuo set di dati e utilizzare il comando create_dataset metodo.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Aggiornare un set di dati

Con l'evoluzione dei progetti, anche i tuoi dataset dovrebbero evolversi. Se hai bisogno di modificare i metadati del tuo set di dati, è semplice eseguire il seguente codice con i nuovi dettagli.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Cancellare un set di dati

Se dovessi aver bisogno di rimuovere un set di dati, sia per riordinare il tuo spazio di lavoro sia perché non è più necessario, puoi eliminarlo in modo permanente invocando il comando delete come mostrato qui.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset('<Dataset ID>')  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Elenco dei set di dati

Per sfogliare i tuoi set di dati o trovare quello che ti serve, puoi elencare tutti i tuoi set di dati con la paginazione. È utile quando si ha a che fare con un gran numero di set di dati.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Ottieni l'URL dall'archivio

Questa comoda funzione recupera un URL per l'accesso all'archivio dei dati, rendendo semplice il download di file o artefatti archiviati in remoto.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link 
dataset = client.dataset("<Dataset ID>")    # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Carica il set di dati

Caricare il tuo set di dati è un processo semplice. Imposta l'ID del tuo set di dati e il percorso del file che desideri caricare, quindi utilizza il pulsante upload_dataset come descritto di seguito.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")    # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Ricorda che quando lavori con i dataset è sempre buona norma controllare e verificare ogni fase del processo. Ricontrolla gli ID dei dataset e i percorsi dei file per assicurarti che tutto fili liscio.

Se dovessi riscontrare dei problemi o avere delle domande, il nostro cordiale team di assistenza è a tua disposizione per aiutarti a superare qualsiasi difficoltà. 🤝

Buona gestione dei dati, e che i tuoi modelli siano accurati e perspicaci! 🌟


Commenti