Gestione dei dataset con Ultralytics HUB-SDK

Benvenuti nella documentazione di Ultralytics HUB-SDK Dataset Management! 👋

Una gestione efficiente dei dataset è fondamentale nell'apprendimento automatico. Che siate data scientist esperti o principianti, sapere come gestire le operazioni sui dataset può semplificare il vostro flusso di lavoro. Questa pagina illustra le basi dell'esecuzione di operazioni sugli insiemi di dati utilizzando Ultralytics HUB-SDK in Python. Gli esempi forniti illustrano come ottenere, creare, aggiornare, cancellare ed elencare i dataset, nonché come ottenere un URL per l'accesso ai dataset e caricare i dataset.

Tuffiamoci! 🚀

Ottenere un set di dati per ID

Per recuperare rapidamente un set di dati specifico utilizzando il suo ID univoco, utilizzare lo snippet di codice riportato di seguito. In questo modo è possibile accedere alle informazioni essenziali, compresi i dati.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Per maggiori dettagli sul Datasets e i suoi metodi, vedere la sezione Riferimento per hub_sdk/modules/datasets.py.

Creare un set di dati

Per creare un nuovo set di dati, definire un nome amichevole per il set di dati e utilizzare il metodo create_dataset come mostrato di seguito:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Vedere il create_dataset per ulteriori informazioni.

Aggiornare un set di dati

Con l'evoluzione dei progetti, potrebbe essere necessario modificare i metadati del dataset. Per farlo è sufficiente eseguire il codice seguente con i nuovi dettagli:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Il update fornisce maggiori dettagli sull'aggiornamento dei set di dati.

Cancellare un set di dati

Per rimuovere un set di dati, sia per riordinare lo spazio di lavoro sia perché non è più necessario, è possibile eliminarlo definitivamente invocando il metodo delete metodo:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Per ulteriori informazioni sulle opzioni di cancellazione, comprese le cancellazioni definitive, vedere la sezione delete documentazione del metodo.

Elenco dei set di dati

Per sfogliare i dataset, elencare tutti i dataset con la paginazione. Questo è utile quando si ha a che fare con un gran numero di set di dati.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

Il DatasetList fornisce maggiori dettagli sull'elencazione e la paginazione degli insiemi di dati.

Ottenere l'URL dall'archivio

Questa funzione recupera un URL per l'accesso all'archivio dei dati, facilitando il download di file o artefatti archiviati in remoto.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Il get_download_link La documentazione del metodo fornisce ulteriori dettagli.

Caricare il set di dati

Il caricamento del set di dati è semplice. Impostare l'ID del set di dati e il percorso del file, quindi utilizzare il comando upload_dataset funzione:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

Il upload_dataset fornisce ulteriori dettagli sul caricamento dei set di dati. È inoltre possibile conoscere il metodo DatasetUpload classe.

Ricordate di ricontrollare gli ID dei dataset e i percorsi dei file per assicurarvi che tutto funzioni correttamente.

In caso di problemi o domande, il nostro team di assistenza è a disposizione per aiutarvi. 🤝

Buona gestione dei dati e che i vostri modelli siano accurati e perspicaci! 🌟

📅C reato 1 anno fa ✏️ Aggiornato 1 mese fa