Saltar para o conteúdo

Gestão de conjuntos de dados com o Ultralytics HUB-SDK

Bem-vindo à documentação do Ultralytics HUB-SDK Dataset Management! 👋

A gestão eficiente de conjuntos de dados é crucial na aprendizagem automática. Quer seja um cientista de dados experiente ou um principiante, saber como lidar com operações de conjuntos de dados pode simplificar o seu fluxo de trabalho. Esta página aborda os princípios básicos da execução de operações em conjuntos de dados utilizando o Ultralytics HUB-SDK em Python. Os exemplos fornecidos ilustram como obter, criar, atualizar, eliminar e listar conjuntos de dados, e também como obter um URL para acesso ao conjunto de dados e carregar conjuntos de dados.

Vamos mergulhar! 🚀

Obter um conjunto de dados por ID

Para obter rapidamente um conjunto de dados específico utilizando o seu ID único, utilize o fragmento de código abaixo. Isto permite-lhe aceder a informações essenciais, incluindo os seus dados.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Para mais pormenores sobre o Datasets e os seus métodos, ver a secção Referência para hub_sdk/modules/datasets.py.

Criar um conjunto de dados

Para criar um novo conjunto de dados, defina um nome amigável para o seu conjunto de dados e utilize o comando create_dataset como mostrado abaixo:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Ver o create_dataset na referência da API para mais informações.

Atualizar um conjunto de dados

À medida que os projectos evoluem, pode ser necessário modificar os metadados do seu conjunto de dados. Isto é tão simples como executar o seguinte código com os novos detalhes:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

O update fornece mais detalhes sobre a atualização de conjuntos de dados.

Eliminar um conjunto de dados

Para remover um conjunto de dados, seja para organizar o seu espaço de trabalho ou porque já não é necessário, pode eliminá-lo permanentemente invocando o comando delete método:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Para mais informações sobre as opções de eliminação, incluindo as eliminações definitivas, consulte a secção delete documentação do método.

Listar conjuntos de dados

Para navegar pelos seus conjuntos de dados, liste todos os seus conjuntos de dados com paginação. Isto é útil quando se lida com um grande número de conjuntos de dados.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

O DatasetList fornece mais pormenores sobre a listagem e paginação de conjuntos de dados.

Obter URL do armazenamento

Esta função obtém um URL para acesso ao armazenamento de conjuntos de dados, facilitando o download de ficheiros de conjuntos de dados ou artefactos armazenados remotamente.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

O get_download_link A documentação do método fornece detalhes adicionais.

Carregar conjunto de dados

O carregamento do seu conjunto de dados é simples. Defina o ID do seu conjunto de dados e o caminho do ficheiro e, em seguida, utilize o comando upload_dataset função:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

O upload_dataset fornece mais pormenores sobre o carregamento de conjuntos de dados. Também pode aprender sobre o método DatasetUpload classe.

Lembre-se de verificar novamente os IDs do conjunto de dados e os caminhos dos ficheiros para garantir que tudo corre bem.

Se encontrar algum problema ou tiver dúvidas, a nossa equipa de apoio está aqui para ajudar. 🤝

Boa manipulação de dados, e que os vossos modelos sejam precisos e perspicazes! 🌟

📅C riado há 1 ano ✏️ Atualizado há 1 mês

Comentários