Ir al contenido

Gestión de conjuntos de datos con Ultralytics HUB-SDK

¡Bienvenido a la documentación de gestión de conjuntos de datos de Ultralytics HUB-SDK! 👋

La gestión eficiente de conjuntos de datos es crucial en el aprendizaje automático. Tanto si eres un científico de datos experimentado como si eres un principiante, saber cómo manejar las operaciones de conjuntos de datos puede agilizar tu flujo de trabajo. Esta página cubre los aspectos básicos de la realización de operaciones en conjuntos de datos utilizando el HUB de Ultralytics-SDK en Python. Los ejemplos proporcionados ilustran cómo obtener, crear, actualizar, eliminar y listar conjuntos de datos, y también cómo obtener una URL para el acceso al conjunto de datos y cargar conjuntos de datos.

¡Vamos a sumergirnos! 🚀

Obtener un conjunto de datos por ID

Para obtener un conjunto de datos específico rápidamente utilizando su ID único, utilice el fragmento de código a continuación. Esto le permite acceder a información esencial, incluidos sus datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Para obtener más detalles sobre el Datasets clase y sus métodos, consulte el Referencia para hub_sdk/modules/datasets.py.

Crear un conjunto de datos

Para crear un nuevo conjunto de datos, define un nombre descriptivo para tu conjunto de datos y utiliza el create_dataset método como se muestra a continuación:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Consulte la create_dataset método en la referencia de la API para obtener más información.

Actualizar un conjunto de datos

A medida que los proyectos evolucionan, es posible que necesite modificar los metadatos de su conjunto de datos. Esto es tan simple como ejecutar el siguiente código con los nuevos detalles:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

El update método proporciona más detalles sobre la actualización de conjuntos de datos.

Eliminar un conjunto de datos

Para eliminar un conjunto de datos, ya sea para ordenar su espacio de trabajo o porque ya no es necesario, puede eliminarlo permanentemente invocando el delete método:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Para obtener más información sobre las opciones de eliminación, incluidas las eliminaciones definitivas, consulta delete documentación del método.

Listar conjuntos de datos

Para navegar por tus conjuntos de datos, enumera todos tus conjuntos de datos con paginación. Esto es útil cuando se trabaja con un gran número de conjuntos de datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

El DatasetList La clase proporciona más detalles sobre cómo listar y paginar conjuntos de datos.

Obtener URL del almacenamiento

Esta función obtiene una URL para el acceso al almacenamiento del conjunto de datos, lo que facilita la descarga de archivos del conjunto de datos o artefactos almacenados de forma remota.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

El get_download_link La documentación del método proporciona detalles adicionales.

Subir conjunto de datos

Subir tu conjunto de datos es sencillo. Establece el ID de tu conjunto de datos y la ruta del archivo, luego usa el upload_dataset función:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

El upload_dataset método proporciona más detalles sobre la carga de conjuntos de datos. También puede obtener información sobre los DatasetUpload clase.

Recuerda verificar detenidamente los IDs de tu Dataset y las rutas de los archivos para asegurar que todo funcione correctamente.

Si tiene algún problema o pregunta, nuestro equipo de soporte está aquí para ayudarle. 🤝

¡Feliz manejo de datos, y que sus modelos sean precisos y reveladores! 🌟



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios