Saltar al contenido

Operaciones de gestión de conjuntos de datos con Ultralytics HUB-SDK

¡Bienvenido a la Documentación de Gestión de Conjuntos de Datos de Ultralytics HUB-SDK! 👋

Gestionar conjuntos de datos de forma eficiente es crucial en el mundo del Aprendizaje Automático. Tanto si eres un científico de datos experimentado como un principiante en este campo, saber cómo manejar las operaciones de los conjuntos de datos puede agilizar tu flujo de trabajo. Esta página cubre los aspectos básicos de la realización de operaciones con conjuntos de datos utilizando Ultralytics HUB-SDK en Python. Los ejemplos que se ofrecen ilustran cómo obtener, crear, actualizar, eliminar, listar conjuntos de datos, obtener una URL para acceder a conjuntos de datos y cargar conjuntos de datos.

¡Vamos a sumergirnos! 🚀

Obtener un conjunto de datos por ID

¿Buscas un conjunto de datos concreto? Obténlo rápidamente utilizando su ID único con el fragmento de código que aparece a continuación. Esto te permitirá acceder a información esencial, incluidos sus datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Crear un conjunto de datos

¿Listo para empezar un nuevo proyecto? Sigue los pasos que se indican a continuación para crear un nuevo conjunto de datos. Todo lo que necesitas es definir un nombre amigable para tu conjunto de datos y utilizar la función create_dataset método.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Actualizar un conjunto de datos

A medida que los proyectos evolucionan, también deberían hacerlo tus conjuntos de datos. Si necesitas modificar los metadatos de tu conjunto de datos, es tan sencillo como ejecutar el código siguiente con los nuevos datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Eliminar un conjunto de datos

Si alguna vez necesitas eliminar un conjunto de datos, ya sea para despejar tu espacio de trabajo o porque ya no lo necesitas, puedes eliminarlo permanentemente invocando la función delete como se muestra aquí.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Lista de conjuntos de datos

Para navegar por tus conjuntos de datos o encontrar el que necesitas, puedes listar todos tus conjuntos de datos con paginación. Es útil cuando se trata de un gran número de conjuntos de datos.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Obtener URL del almacén

Esta práctica función obtiene una URL para acceder al almacenamiento de conjuntos de datos, lo que facilita la descarga de archivos de conjuntos de datos o artefactos almacenados a distancia.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Cargar conjunto de datos

Cargar tu conjunto de datos es un proceso sencillo. Establece el ID de tu conjunto de datos y la ruta del archivo que deseas cargar y, a continuación, utiliza el botón upload_dataset como se detalla a continuación.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Recuerda que, cuando trabajes con conjuntos de datos, siempre es una buena práctica comprobar y verificar cada paso del proceso. Comprueba dos veces los ID de tus conjuntos de datos y las rutas de los archivos para asegurarte de que todo funciona correctamente.

Si te encuentras con algún problema o tienes alguna pregunta, nuestro amable equipo de asistencia está aquí para ayudarte a superar cualquier reto. 🤝

¡Feliz lucha con los datos, y que tus modelos sean precisos y perspicaces! 🌟

Comentarios