Opérations de gestion de données avec Ultralytics HUB-SDK
Bienvenue dans la documentation sur la gestion des jeux de données de Ultralytics HUB-SDK ! 👋
Gérer efficacement les ensembles de données est crucial dans le monde de l'apprentissage automatique. Que tu sois un data scientist chevronné ou un débutant dans le domaine, savoir comment gérer les opérations sur les jeux de données peut rationaliser ton flux de travail. Cette page couvre les bases de l'exécution d'opérations sur les jeux de données à l'aide de Ultralytics HUB-SDK dans Python. Les exemples fournis illustrent comment obtenir, créer, mettre à jour, supprimer, lister des jeux de données, obtenir une URL pour accéder aux jeux de données et télécharger des jeux de données.
Plongeons-y ! 🚀
Obtenir un ensemble de données par ID
Tu cherches un ensemble de données spécifique ? Récupère-le rapidement en utilisant son identifiant unique grâce à l'extrait de code ci-dessous. Cela te permettra d'accéder à des informations essentielles, notamment à ses données.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Créer un jeu de données
Prêt à démarrer un nouveau projet ? Suis les étapes ci-dessous pour créer un nouvel ensemble de données. Tout ce dont tu as besoin, c'est de définir un nom convivial pour ton jeu de données et d'utiliser la fonction create_dataset
méthode.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Mettre à jour un ensemble de données
Au fur et à mesure que les projets évoluent, tes jeux de données doivent aussi évoluer. Si tu as besoin de modifier les métadonnées de ton jeu de données, il te suffit d'exécuter le code suivant avec les nouveaux détails.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Supprimer un jeu de données
Si tu as besoin de supprimer un jeu de données, que ce soit pour désencombrer ton espace de travail ou parce que tu n'en as plus besoin, tu peux le supprimer de façon permanente en invoquant la commande delete
comme indiqué ici.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Lister les ensembles de données
Pour parcourir tes ensembles de données ou trouver celui dont tu as besoin, tu peux dresser une liste de tous tes ensembles de données avec pagination. C'est utile lorsqu'on a affaire à un grand nombre d'ensembles de données.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results) # Show the datasets on the current page
# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)
# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)
Obtenir l'URL du stockage
Cette fonction pratique permet de récupérer une URL pour l'accès au stockage des ensembles de données, ce qui facilite le téléchargement des fichiers d'ensembles de données ou des artefacts stockés à distance.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Don't forget to replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Télécharger l'ensemble des données
Le téléchargement de ton jeu de données est un processus simple. Définis l'identifiant de ton jeu de données et le chemin d'accès au fichier que tu souhaites télécharger, puis utilise la commande upload_dataset
comme indiqué ci-dessous.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Make sure to specify the correct file path
print("Dataset has been uploaded.")
Rappelle-toi que lorsque tu travailles avec des ensembles de données, il est toujours bon de vérifier chaque étape du processus. Vérifie à nouveau les identifiants des jeux de données et les chemins d'accès aux fichiers pour t'assurer que tout se passe bien.
Si tu rencontres des problèmes ou si tu as des questions, notre sympathique équipe d'assistance est là pour t'aider à naviguer à travers les difficultés. 🤝
Bonne manipulation des données, et que vos modèles soient précis et perspicaces ! 🌟