Passer au contenu

Gestion des ensembles de données avec Ultralytics HUB-SDK

Bienvenue dans la documentation de gestion des ensembles de données du HUB-SDK Ultralytics ! 👋

Une gestion efficace des ensembles de données est cruciale dans l'apprentissage automatique. Que vous soyez un scientifique des données chevronné ou un débutant, savoir comment gérer les opérations sur les ensembles de données peut rationaliser votre flux de travail. Cette page couvre les bases de l'exécution d'opérations sur les ensembles de données à l'aide du SDK Ultralytics HUB en Python. Les exemples fournis illustrent comment obtenir, créer, mettre à jour, supprimer et lister des ensembles de données, et également comment obtenir une URL pour l'accès aux ensembles de données et télécharger des ensembles de données.

Plongeons-nous dedans ! 🚀

Obtenir un ensemble de données par ID

Pour extraire rapidement un ensemble de données spécifique à l'aide de son ID unique, utilisez l'extrait de code ci-dessous. Cela vous permet d'accéder aux informations essentielles, y compris ses données.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Pour plus de détails sur le Datasets class et ses méthodes, consultez le Référence pour hub_sdk/modules/datasets.py.

Créer un jeu de données

Pour créer un nouvel ensemble de données, définissez un nom convivial pour votre ensemble de données et utilisez le create_dataset méthode comme indiqué ci-dessous :

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Consultez le fichier create_dataset méthode dans la référence de l'API pour plus d'informations.

Mettre à jour un ensemble de données

À mesure que les projets évoluent, vous devrez peut-être modifier les métadonnées de votre ensemble de données. C'est aussi simple que d'exécuter le code suivant avec les nouveaux détails :

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

L'argument update la méthode fournit plus de détails sur la mise à jour des ensembles de données.

Supprimer un ensemble de données

Pour supprimer un ensemble de données, que ce soit pour désencombrer votre espace de travail ou parce qu'il n'est plus nécessaire, vous pouvez le supprimer définitivement en invoquant le delete méthode :

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Pour plus d'informations sur les options de suppression, y compris les suppressions définitives, consultez la section delete documentation de la méthode.

Lister les ensembles de données

Pour parcourir vos ensembles de données, répertoriez tous vos ensembles de données avec pagination. Ceci est utile lorsque vous traitez un grand nombre d'ensembles de données.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

L'argument DatasetList class fournit plus de détails sur la liste et la pagination des ensembles de données.

Obtenir l'URL depuis le stockage

Cette fonction récupère une URL pour l'accès au stockage de l'ensemble de données, ce qui facilite le téléchargement des fichiers ou des artefacts de l'ensemble de données stockés à distance.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

L'argument get_download_link la documentation de la méthode fournit des détails supplémentaires.

Télécharger l'ensemble de données

Le chargement de votre ensemble de données est simple. Définissez l'ID de votre ensemble de données et le chemin d'accès au fichier, puis utilisez le upload_dataset fonction :

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

L'argument upload_dataset la méthode fournit plus de détails sur le téléchargement des ensembles de données. Vous pouvez également en savoir plus sur la DatasetUpload class.

N'oubliez pas de vérifier vos identifiants d'ensemble de données et les chemins de fichiers pour vous assurer que tout fonctionne correctement.

Si vous rencontrez des problèmes ou avez des questions, notre équipe de support est là pour vous aider. 🤝

Bon courage pour la gestion des données, et que vos modèles soient précis et perspicaces ! 🌟



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires