Vai al contenuto

Gestione dei dataset con Ultralytics HUB-SDK

Benvenuti nella documentazione sulla gestione dei dataset di Ultralytics HUB-SDK! 👋

Un' efficiente gestione dei dataset è fondamentale nel machine learning. Che tu sia un data scientist esperto o un principiante, sapere come gestire le operazioni sui dataset può ottimizzare il tuo flusso di lavoro. Questa pagina tratta le basi dell'esecuzione di operazioni sui dataset utilizzando l'Ultralytics HUB-SDK in Python. Gli esempi forniti illustrano come ottenere, creare, aggiornare, eliminare ed elencare i dataset, e anche come ottenere un URL per l'accesso al dataset e caricare i dataset.

Immergiamoci! 🚀

Ottieni un set di dati tramite ID

Per recuperare rapidamente un dataset specifico utilizzando il suo ID univoco, usa il frammento di codice qui sotto. Questo ti permette di accedere a informazioni essenziali, inclusi i suoi dati.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Per maggiori dettagli sul Datasets classe e i suoi metodi, consulta il Riferimento per hub_sdk/modules/datasets.py.

Crea un dataset

Per creare un nuovo set di dati, definisci un nome descrittivo per il tuo set di dati e usa il create_dataset method come mostrato di seguito:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Vedere il file create_dataset metodo nella documentazione dell'API per ulteriori informazioni.

Aggiorna un dataset

Man mano che i progetti evolvono, potrebbe essere necessario modificare i metadati del dataset. Questo è semplice come eseguire il seguente codice con i nuovi dettagli:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Il update Il metodo fornisce maggiori dettagli sull'aggiornamento dei dataset.

Elimina un dataset

Per rimuovere un dataset, sia per riordinare il tuo spazio di lavoro sia perché non è più necessario, puoi eliminarlo definitivamente invocando il delete metodo:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Per maggiori informazioni sulle opzioni di eliminazione, incluse le eliminazioni definitive, consultare delete documentazione del metodo.

Elenca i dataset

Per sfogliare i tuoi set di dati, elenca tutti i tuoi set di dati con la paginazione. Questo è utile quando si ha a che fare con un gran numero di set di dati.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

Il DatasetList classe fornisce maggiori dettagli sull'elenco e l'impaginazione dei dataset.

Ottieni URL da Storage

Questa funzione recupera un URL per l'accesso all'archiviazione del set di dati, semplificando il download di file di set di dati o artefatti archiviati in remoto.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Il get_download_link documentazione del metodo fornisce ulteriori dettagli.

Carica dataset

Caricare il tuo dataset è semplice. Imposta l'ID del tuo dataset e il percorso del file, quindi usa il upload_dataset funzione:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

Il upload_dataset Il metodo fornisce ulteriori dettagli sul caricamento dei dataset. Puoi anche saperne di più sul relativo DatasetUpload class.

Ricorda di ricontrollare gli ID dei tuoi Dataset e i percorsi dei file per assicurarti che tutto funzioni correttamente.

In caso di problemi o domande, il nostro team di supporto è qui per aiutarti. 🤝

Buon lavoro con i dati e che i vostri modelli siano accurati e perspicaci! 🌟



📅 Creato 1 anno fa ✏️ Aggiornato 1 mese fa

Commenti