Operazioni di gestione dei dataset con Ultralytics HUB-SDK
Benvenuti nella documentazione sulla gestione dei dataset di Ultralytics HUB-SDK! 👋
La gestione efficiente dei dataset è fondamentale nel mondo del Machine Learning. Che siate data scientist esperti o principianti, sapere come gestire le operazioni sui dataset può semplificare il vostro flusso di lavoro. Questa pagina illustra le basi dell'esecuzione di operazioni sui dataset utilizzando Ultralytics HUB-SDK in Python. Gli esempi forniti illustrano come ottenere, creare, aggiornare, cancellare, elencare i dataset, ottenere un URL per l'accesso ai dataset e caricare i dataset.
Tuffiamoci! 🚀
Ottenere un set di dati per ID
Cercate un set di dati specifico? Recuperatelo rapidamente utilizzando il suo ID univoco con lo snippet di codice qui sotto. Questo vi permetterà di accedere alle informazioni essenziali, compresi i dati.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Creare un set di dati
Siete pronti a iniziare un nuovo progetto? Seguite i passaggi seguenti per creare un nuovo set di dati. È sufficiente definire un nome amichevole per il set di dati e utilizzare l'opzione create_dataset
metodo.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Aggiornare un set di dati
Con l'evoluzione dei progetti, anche i dataset dovrebbero evolversi. Se è necessario modificare i metadati del dataset, è sufficiente eseguire il codice seguente con i nuovi dettagli.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Cancellare un set di dati
Se si ha la necessità di rimuovere un set di dati, per riordinare lo spazio di lavoro o perché non è più necessario, è possibile eliminarlo definitivamente invocando il metodo delete
come mostrato qui.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Elenco dei set di dati
Per sfogliare i dataset o trovare quello di cui si ha bisogno, è possibile elencare tutti i dataset con la paginazione. È utile quando si ha a che fare con un gran numero di insiemi di dati.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results) # Show the datasets on the current page
# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)
# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)
Ottenere l'URL dall'archivio
Questa comoda funzione recupera un URL per l'accesso all'archivio dei dati, rendendo semplice il download di file di dati o artefatti archiviati in remoto.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Don't forget to replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Caricare il set di dati
Il caricamento del set di dati è un processo semplice. Impostare l'ID del set di dati e il percorso del file che si desidera caricare, quindi utilizzare il comando upload_dataset
come descritto di seguito.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Make sure to specify the correct file path
print("Dataset has been uploaded.")
Quando si lavora con i set di dati, è sempre buona norma controllare e verificare ogni fase del processo. Ricontrollate gli ID dei dataset e i percorsi dei file per assicurarvi che tutto fili liscio.
In caso di problemi o domande, il nostro team di assistenza è a disposizione per aiutarvi a superare qualsiasi difficoltà. 🤝
Buona gestione dei dati e che i vostri modelli siano accurati e perspicaci! 🌟