Skip to content

Opérations de gestion de données avec Ultralytics HUB-SDK

Bienvenue sur le site Ultralytics HUB-SDK Dataset Management Documentation ! đź‘‹

La gestion efficace des ensembles de données est cruciale dans le monde de l'apprentissage automatique. Que vous soyez un data scientist chevronné ou un débutant dans le domaine, savoir comment gérer les opérations sur les ensembles de données peut rationaliser votre flux de travail. Cette page couvre les bases de l'exécution d'opérations sur les ensembles de données à l'aide de Ultralytics HUB-SDK dans Python. Les exemples fournis illustrent comment obtenir, créer, mettre à jour, supprimer, lister des ensembles de données, obtenir une URL pour l'accès aux ensembles de données et télécharger des ensembles de données.

Plongeons dans l'aventure ! 🚀

Obtenir un ensemble de données par ID

Vous recherchez un ensemble de données spécifique ? Récupérez-le rapidement à l'aide de son identifiant unique grâce à l'extrait de code ci-dessous. Cela vous permettra d'accéder à des informations essentielles, y compris ses données.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Créer un jeu de données

Prêt à démarrer un nouveau projet ? Suivez les étapes ci-dessous pour créer un nouvel ensemble de données. Il vous suffit de définir un nom convivial pour votre jeu de données et d'utiliser la commande create_dataset méthode.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Mise à jour d'un ensemble de données

Au fur et à mesure que les projets évoluent, vos jeux de données doivent également évoluer. Si vous avez besoin de modifier les métadonnées de votre jeu de données, il suffit d'exécuter le code suivant avec les nouveaux détails.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Supprimer un ensemble de données

Si vous devez supprimer un jeu de données, que ce soit pour désencombrer votre espace de travail ou parce que vous n'en avez plus besoin, vous pouvez le supprimer définitivement en invoquant la commande delete comme indiqué ici.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Lister les ensembles de données

Pour parcourir vos ensembles de données ou trouver celui dont vous avez besoin, vous pouvez dresser une liste de tous vos ensembles de données avec pagination. Cette fonction est utile lorsqu'il s'agit d'un grand nombre d'ensembles de données.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Obtenir l'URL Ă  partir du stockage

Cette fonction pratique permet de récupérer une URL pour l'accès au stockage des ensembles de données, ce qui facilite le téléchargement des fichiers d'ensembles de données ou des artefacts stockés à distance.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Télécharger l'ensemble de données

Le téléchargement de votre jeu de données est un processus simple. Définissez l'identifiant de votre jeu de données et le chemin d'accès au fichier que vous souhaitez télécharger, puis utilisez la fonction upload_dataset comme indiqué ci-dessous.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

N'oubliez pas que lorsque vous travaillez avec des ensembles de données, il est toujours bon de contrôler et de vérifier chaque étape du processus. Vérifiez à nouveau les ID des ensembles de données et les chemins d'accès aux fichiers pour vous assurer que tout se passe bien.

Si vous rencontrez des problèmes ou si vous avez des questions, notre équipe d'assistance amicale est là pour vous aider à surmonter les difficultés. 🤝

Bonne manipulation des données, et que vos modèles soient précis et perspicaces ! 🌟

Commentaires