Beheer van datasets met Ultralytics HUB-SDK

Welkom bij de Ultralytics HUB-SDK documentatie over datasetbeheer! 👋

Datasets efficiënt beheren is cruciaal in de wereld van Machine Learning. Of je nu een doorgewinterde datawetenschapper bent of een beginner op dit gebied, weten hoe je datasetbewerkingen moet uitvoeren kan je werkstroom stroomlijnen. Deze pagina behandelt de basis van het uitvoeren van bewerkingen op datasets met Ultralytics HUB-SDK in Python. De voorbeelden laten zien hoe je datasets kunt ophalen, creëren, bijwerken, verwijderen, opsommen, een URL kunt krijgen voor toegang tot een dataset en hoe je datasets kunt uploaden.

Laten we erin duiken! 🚀

Een dataset ophalen op ID

Op zoek naar een specifieke dataset? Haal het snel op met behulp van zijn unieke ID met het onderstaande codefragment. Hiermee krijg je toegang tot essentiële informatie, inclusief de gegevens.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset('<Dataset ID>')  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Een dataset maken

Klaar om een nieuw project te starten? Volg de onderstaande stappen om een nieuwe dataset te maken. Je hoeft alleen maar een vriendelijke naam voor je dataset op te geven en de optie create_dataset methode.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Een dataset bijwerken

Als projecten evolueren, moeten je datasets dat ook doen. Als je de metagegevens van je dataset moet aanpassen, is het zo eenvoudig als het uitvoeren van de volgende code met de nieuwe gegevens.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Een dataset verwijderen

Als je ooit een dataset moet verwijderen, om je werkruimte op te ruimen of omdat je hem niet meer nodig hebt, kun je hem permanent verwijderen door de optie delete methode zoals hier getoond.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset('<Dataset ID>')  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Lijst Datasets

Om door je datasets te bladeren of de dataset te vinden die je nodig hebt, kun je een lijst maken van al je datasets met paginering. Dit is handig bij een groot aantal datasets.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

URL ophalen uit opslag

Deze handige functie haalt een URL op voor toegang tot de opslag van datasets, waardoor het een fluitje van een cent wordt om bestanden of artefacten die op afstand zijn opgeslagen te downloaden.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link 
dataset = client.dataset("<Dataset ID>")    # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Dataset uploaden

Het uploaden van je dataset is een eenvoudig proces. Stel de ID van je dataset in en het bestandspad dat je wilt uploaden en gebruik dan de optie upload_dataset functie zoals hieronder beschreven.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")    # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Onthoud dat wanneer je met datasets werkt, het altijd een goede gewoonte is om elke stap in het proces te controleren en te verifiëren. Dubbelcheck je Dataset ID's en bestandspaden om er zeker van te zijn dat alles soepel verloopt.

Mocht je problemen ondervinden of vragen hebben, dan staat ons vriendelijke supportteam klaar om je te helpen. 🤝

Veel plezier met het verzamelen van gegevens en moge je modellen nauwkeurig en inzichtelijk zijn! 🌟