Operações de gestão de conjuntos de dados com Ultralytics HUB-SDK
Bem-vindo à documentação de gestão do conjunto de dados do Ultralytics HUB-SDK! 👋
A gestão eficiente de conjuntos de dados é crucial no mundo da aprendizagem automática. Quer sejas um cientista de dados experiente ou um principiante na área, saber como lidar com operações de conjuntos de dados pode simplificar o teu fluxo de trabalho. Esta página aborda os princípios básicos da execução de operações em conjuntos de dados usando o Ultralytics HUB-SDK em Python. Os exemplos fornecidos ilustram como obter, criar, atualizar, eliminar, listar conjuntos de dados, obter um URL para acesso ao conjunto de dados e carregar conjuntos de dados.
Vamos lá mergulhar! 🚀
Obtém um conjunto de dados por ID
Estás à procura de um conjunto de dados específico? Vai buscá-lo rapidamente utilizando o seu ID único com o fragmento de código abaixo. Isto permitir-te-á aceder a informações essenciais, incluindo os seus dados.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Cria um conjunto de dados
Estás pronto para iniciar um novo projeto? Segue os passos abaixo para criar um novo conjunto de dados. Tudo o que precisas é de definir um nome amigável para o teu conjunto de dados e utilizar a função create_dataset
método.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Actualiza um conjunto de dados
À medida que os projectos evoluem, os teus conjuntos de dados também devem evoluir. Se precisares de modificar os metadados do teu conjunto de dados, é tão simples como executar o seguinte código com os novos detalhes.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Eliminar um conjunto de dados
Se alguma vez precisares de remover um conjunto de dados, seja para organizar o teu espaço de trabalho ou porque já não é necessário, podes eliminá-lo permanentemente invocando o comando delete
como aqui se mostra.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Lista de conjuntos de dados
Para navegar pelos teus conjuntos de dados ou encontrar o que precisas, podes listar todos os teus conjuntos de dados com paginação. É útil quando lida com um grande número de conjuntos de dados.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results) # Show the datasets on the current page
# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)
# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)
Obtém o URL do armazenamento
Esta função conveniente obtém um URL para acesso ao armazenamento de conjuntos de dados, facilitando o download de ficheiros de conjuntos de dados ou artefactos armazenados remotamente.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Don't forget to replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Carrega o conjunto de dados
O carregamento do teu conjunto de dados é um processo simples. Define o ID do teu conjunto de dados e o caminho do ficheiro que pretendes carregar, depois utiliza a função upload_dataset
como indicado a seguir.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Make sure to specify the correct file path
print("Dataset has been uploaded.")
Lembra-te, quando estás a trabalhar com conjuntos de dados, é sempre uma boa prática verificar cada passo do processo. Verifica novamente as IDs do conjunto de dados e os caminhos dos ficheiros para garantir que tudo corre bem.
Se encontrares algum problema ou tiveres alguma dúvida, a nossa simpática equipa de apoio está aqui para te ajudar a ultrapassar quaisquer desafios. 🤝
Boa gestão de dados e que os teus modelos sejam precisos e perspicazes! 🌟