Gestión de conjuntos de datos con Ultralytics HUB-SDK

¡Bienvenido a la documentación de gestión de conjuntos de datos de Ultralytics HUB-SDK! 👋

La gestión eficiente de los conjuntos de datos es crucial en el aprendizaje automático. Tanto si es un científico de datos experimentado como un principiante, saber cómo manejar las operaciones de conjuntos de datos puede agilizar su flujo de trabajo. Esta página cubre los aspectos básicos de la realización de operaciones en conjuntos de datos utilizando Ultralytics HUB-SDK en Python. Los ejemplos proporcionados ilustran cómo obtener, crear, actualizar, eliminar y listar conjuntos de datos, y también cómo obtener una URL para acceder a los conjuntos de datos y cargarlos.

¡Vamos a sumergirnos! 🚀

Obtener un conjunto de datos por ID

Para obtener rápidamente un conjunto de datos específico utilizando su ID único, utilice el siguiente fragmento de código. Esto le permitirá acceder a información esencial, incluidos sus datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Para más información sobre el Datasets y sus métodos, consulte la sección Referencia para hub_sdk/modules/datasets.py.

Crear un conjunto de datos

Para crear un nuevo conjunto de datos, defina un nombre descriptivo y utilice la función create_dataset como se muestra a continuación:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Véase el create_dataset en la referencia de la API.

Actualizar un conjunto de datos

A medida que los proyectos evolucionan, es posible que necesite modificar los metadatos de su conjunto de datos. Esto es tan sencillo como ejecutar el siguiente código con los nuevos datos:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

En update proporciona más detalles sobre la actualización de conjuntos de datos.

Eliminar un conjunto de datos

Para eliminar un conjunto de datos, ya sea para despejar su espacio de trabajo o porque ya no lo necesita, puede eliminarlo permanentemente invocando la función delete método:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Para obtener más información sobre las opciones de borrado, incluido el borrado total, consulte la sección delete documentación del método.

Lista de conjuntos de datos

Para navegar por sus conjuntos de datos, liste todos sus conjuntos de datos con paginación. Esto resulta útil cuando se trata de un gran número de conjuntos de datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

En DatasetList proporciona más detalles sobre la enumeración y paginación de conjuntos de datos.

Obtener URL del almacén

Esta función obtiene una URL de acceso al almacenamiento de conjuntos de datos, lo que facilita la descarga de archivos de conjuntos de datos o artefactos almacenados a distancia.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

En get_download_link proporciona información adicional.

Cargar conjunto de datos

Cargar su conjunto de datos es muy sencillo. Establezca el ID del conjunto de datos y la ruta del archivo y, a continuación, utilice la función upload_dataset función:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

En upload_dataset proporciona más detalles sobre la carga de conjuntos de datos. También puede obtener información sobre el método DatasetUpload clase.

No olvide volver a comprobar los ID de los conjuntos de datos y las rutas de los archivos para asegurarse de que todo funciona correctamente.

Si te encuentras con algún problema o tienes alguna pregunta, nuestro equipo de asistencia está aquí para ayudarte. 🤝

Feliz lucha con los datos, ¡y que tus modelos sean precisos y perspicaces! 🌟

Creado hace 1 año ✏️ Actualizado hace 1 mes