跳转至内容

使用 Ultralytics HUB-SDK 进行数据集管理

欢迎使用 Ultralytics HUB-SDK 数据集管理文档!👋

高效的数据集管理在机器学习中至关重要。无论您是经验丰富的数据科学家还是初学者,了解如何处理数据集操作都可以简化您的工作流程。本页介绍了如何使用Ultralytics HUB-SDK在python中对数据集执行操作的基础知识。提供的示例说明了如何获取、创建、更新、删除和列出数据集,以及如何获取数据集访问的URL和上传数据集。

让我们开始吧!🚀

通过 ID 获取数据集

要使用唯一 ID 快速获取特定数据集,请使用以下代码片段。这使您可以访问重要信息,包括其数据。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

有关更多详细信息,请参见 Datasets 类及其方法,请参见 参考 hub_sdk/modules/datasets.py.

创建数据集

要创建新的数据集,请为您的数据集定义一个友好的名称并使用 create_dataset 方法,如下所示:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

请参阅 create_dataset API 参考中的 方法,了解更多信息。

更新数据集

随着项目的演变,您可能需要修改数据集的元数据。这就像使用新详细信息运行以下代码一样简单:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

字段 update 方法提供了有关更新数据集的更多详细信息。

删除数据集

要删除数据集,无论是为了整理您的工作区还是因为它不再需要,您可以通过调用 delete 方法:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

有关删除选项(包括硬删除)的更多信息,请参阅 delete 方法文档。

列出数据集

要浏览您的数据集,请使用分页列出所有数据集。这在处理大量数据集时非常有用。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

字段 DatasetList 类提供了有关列出数据集和对数据集进行分页的更多详细信息。

从存储获取 URL

此函数获取用于数据集存储访问的 URL,从而可以轻松下载远程存储的数据集文件或工件。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

字段 get_download_link 方法文档提供了更多详细信息。

上传数据集

上传数据集非常简单。设置数据集的 ID 和文件路径,然后使用 upload_dataset 函数:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

字段 upload_dataset 方法提供了有关上传数据集的更多详细信息。您还可以了解相关的 DatasetUpload 类。

请记住仔细检查您的数据集 ID 和文件路径,以确保一切顺利运行。

如果您遇到任何问题或有疑问,我们的支持团队随时为您提供帮助。🤝

祝您数据处理顺利,并祝您的模型准确而富有洞察力!🌟



📅 1 年前创建 ✏️ 1 个月前更新

评论