Gestion des ensembles de données avec Ultralytics HUB-SDK
Bienvenue dans la documentation sur la gestion des jeux de données d'Ultralytics HUB-SDK ! 👋
La gestion efficace des ensembles de données est cruciale pour l'apprentissage automatique. Que vous soyez un data scientist chevronné ou un débutant, savoir comment gérer les opérations sur les jeux de données peut rationaliser votre flux de travail. Cette page couvre les bases de l'exécution d'opérations sur les ensembles de données à l'aide du HUB-SDKUltralytics en Python. Les exemples fournis illustrent comment obtenir, créer, mettre à jour, supprimer et lister des ensembles de données, ainsi que comment obtenir une URL pour l'accès aux ensembles de données et télécharger des ensembles de données.
Plongeons dans l'aventure ! 🚀
Obtenir un ensemble de données par ID
Pour récupérer rapidement un ensemble de données spécifique à l'aide de son identifiant unique, utilisez l'extrait de code ci-dessous. Cela vous permet d'accéder à des informations essentielles, y compris ses données.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Pour plus de détails sur le Datasets
et ses méthodes, voir la page Référence pour hub_sdk/modules/datasets.py
.
Créer un jeu de données
Pour créer un nouveau jeu de données, définissez un nom convivial pour votre jeu de données et utilisez la commande create_dataset
comme indiqué ci-dessous :
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Voir le create_dataset
dans la référence de l'API pour plus d'informations.
Mise à jour d'un ensemble de données
Au fur et à mesure que les projets évoluent, vous pouvez avoir besoin de modifier les métadonnées de votre jeu de données. Pour ce faire, il suffit d'exécuter le code suivant avec les nouveaux détails :
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Le update
fournit plus de détails sur la mise à jour des ensembles de données.
Supprimer un ensemble de données
Pour supprimer un jeu de données, que ce soit pour désencombrer votre espace de travail ou parce qu'il n'est plus nécessaire, vous pouvez le supprimer définitivement en invoquant la commande delete
méthode :
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Pour plus d'informations sur les options de suppression, y compris les suppressions dures, voir la section delete
la documentation sur la méthode.
Lister les ensembles de données
Pour parcourir vos ensembles de données, listez tous vos ensembles de données avec pagination. Cette fonction est utile lorsqu'il s'agit d'un grand nombre d'ensembles de données.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
Le DatasetList
fournit plus de détails sur l'énumération et la pagination des ensembles de données.
Obtenir l'URL à partir du stockage
Cette fonction récupère une URL pour l'accès au stockage des ensembles de données, ce qui facilite le téléchargement des fichiers d'ensembles de données ou des artefacts stockés à distance.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Le get_download_link
fournit des détails supplémentaires.
Télécharger l'ensemble de données
Le téléchargement de votre jeu de données est simple. Définissez l'identifiant de votre jeu de données et le chemin d'accès au fichier, puis utilisez la commande upload_dataset
fonction :
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
Le upload_dataset
fournit de plus amples informations sur le téléchargement des ensembles de données. Vous pouvez également vous renseigner sur la méthode DatasetUpload
classe.
N'oubliez pas de vérifier les ID des jeux de données et les chemins d'accès aux fichiers pour vous assurer que tout se passe bien.
Si vous rencontrez des problèmes ou si vous avez des questions, notre équipe d'assistance est là pour vous aider. 🤝
Bonne manipulation des données, et que vos modèles soient précis et perspicaces ! 🌟