跳至内容

使用Ultralytics HUB-SDK 管理数据集

欢迎访问Ultralytics HUB-SDK 数据集管理文档!👋

高效的数据集管理在机器学习中至关重要。无论你是经验丰富的数据科学家还是初学者,了解如何处理数据集操作都能简化你的工作流程。本页介绍使用Python 中的Ultralytics HUB-SDK 对数据集进行操作的基础知识。所提供的示例说明了如何获取、创建、更新、删除和列出数据集,以及如何获取数据集访问 URL 和上传数据集。

让我们深入了解!🚀

按 ID 获取数据集

要使用特定数据集的唯一 ID 快速获取该数据集,请使用下面的代码片段。这样,您就可以访问包括数据在内的基本信息。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

有关 Datasets 类及其方法,请参见 参考资料 hub_sdk/modules/datasets.py.

创建数据集

要创建一个新的数据集,请为数据集定义一个友好的名称,并使用 create_dataset 方法,如下图所示:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

参见 create_dataset 方法获取更多信息。

更新数据集

随着项目的发展,您可能需要修改数据集的元数据。只需运行以下代码,并输入新的详细信息即可:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

"(《世界人权宣言》) update 方法提供了更新数据集的更多细节。

删除数据集

要删除一个数据集,无论是为了整理工作区还是因为不再需要它,都可以通过调用 delete 方法:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

有关删除选项(包括硬删除)的更多信息,请参阅 delete 方法文档。

列表数据集

要浏览您的数据集,请按分页列出所有数据集。这对处理大量数据集很有帮助。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

"(《世界人权宣言》) DatasetList 类提供了更多有关列出和分页数据集的详细信息。

从存储器中获取 URL

该函数获取数据集存储访问的 URL,方便下载远程存储的数据集文件或人工制品。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

"(《世界人权宣言》) get_download_link 方法文档提供了更多详细信息。

上传数据集

上传数据集非常简单。设置数据集的 ID 和文件路径,然后使用 upload_dataset 功能:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

"(《世界人权宣言》) upload_dataset 方法提供了有关上传数据集的更多详细信息。您还可以了解相关的 DatasetUpload 类。

切记仔细检查数据集 ID 和文件路径,以确保一切顺利运行。

如果您遇到任何问题或有任何疑问,我们的支持团队将竭诚为您服务。🤝

祝您数据处理愉快,愿您的模型准确无误并富有洞察力!🌟

📅创建于 1 年前 ✏️已更新 1 个月前

评论