Gestione dei dataset con Ultralytics HUB-SDK
Benvenuti nella documentazione di Ultralytics HUB-SDK Dataset Management! 👋
Una gestione efficiente dei dataset è fondamentale nell'apprendimento automatico. Che siate data scientist esperti o principianti, sapere come gestire le operazioni sui dataset può semplificare il vostro flusso di lavoro. Questa pagina illustra le basi dell'esecuzione di operazioni sugli insiemi di dati utilizzando Ultralytics HUB-SDK in Python. Gli esempi forniti illustrano come ottenere, creare, aggiornare, cancellare ed elencare i dataset, nonché come ottenere un URL per l'accesso ai dataset e caricare i dataset.
Tuffiamoci! 🚀
Ottenere un set di dati per ID
Per recuperare rapidamente un set di dati specifico utilizzando il suo ID univoco, utilizzare lo snippet di codice riportato di seguito. In questo modo è possibile accedere alle informazioni essenziali, compresi i dati.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Per maggiori dettagli sul Datasets
e i suoi metodi, vedere la sezione Riferimento per hub_sdk/modules/datasets.py
.
Creare un set di dati
Per creare un nuovo set di dati, definire un nome amichevole per il set di dati e utilizzare il metodo create_dataset
come mostrato di seguito:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Vedere il create_dataset
per ulteriori informazioni.
Aggiornare un set di dati
Con l'evoluzione dei progetti, potrebbe essere necessario modificare i metadati del dataset. Per farlo è sufficiente eseguire il codice seguente con i nuovi dettagli:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Il update
fornisce maggiori dettagli sull'aggiornamento dei set di dati.
Cancellare un set di dati
Per rimuovere un set di dati, sia per riordinare lo spazio di lavoro sia perché non è più necessario, è possibile eliminarlo definitivamente invocando il metodo delete
metodo:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Per ulteriori informazioni sulle opzioni di cancellazione, comprese le cancellazioni definitive, vedere la sezione delete
documentazione del metodo.
Elenco dei set di dati
Per sfogliare i dataset, elencare tutti i dataset con la paginazione. Questo è utile quando si ha a che fare con un gran numero di set di dati.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
Il DatasetList
fornisce maggiori dettagli sull'elencazione e la paginazione degli insiemi di dati.
Ottenere l'URL dall'archivio
Questa funzione recupera un URL per l'accesso all'archivio dei dati, facilitando il download di file o artefatti archiviati in remoto.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Il get_download_link
La documentazione del metodo fornisce ulteriori dettagli.
Caricare il set di dati
Il caricamento del set di dati è semplice. Impostare l'ID del set di dati e il percorso del file, quindi utilizzare il comando upload_dataset
funzione:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
Il upload_dataset
fornisce ulteriori dettagli sul caricamento dei set di dati. È inoltre possibile conoscere il metodo DatasetUpload
classe.
Ricordate di ricontrollare gli ID dei dataset e i percorsi dei file per assicurarvi che tutto funzioni correttamente.
In caso di problemi o domande, il nostro team di assistenza è a disposizione per aiutarvi. 🤝
Buona gestione dei dati e che i vostri modelli siano accurati e perspicaci! 🌟