使用 Ultralytics HUB-SDK 进行数据集管理
欢迎使用 Ultralytics HUB-SDK 数据集管理文档!👋
高效的数据集管理在机器学习中至关重要。无论您是经验丰富的数据科学家还是初学者,了解如何处理数据集操作都可以简化您的工作流程。本页介绍了如何使用Ultralytics HUB-SDK在python中对数据集执行操作的基础知识。提供的示例说明了如何获取、创建、更新、删除和列出数据集,以及如何获取数据集访问的URL和上传数据集。
让我们开始吧!🚀
通过 ID 获取数据集
要使用唯一 ID 快速获取特定数据集,请使用以下代码片段。这使您可以访问重要信息,包括其数据。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
有关更多详细信息,请参见 Datasets
类及其方法,请参见 参考 hub_sdk/modules/datasets.py
.
创建数据集
要创建新的数据集,请为您的数据集定义一个友好的名称并使用 create_dataset
方法,如下所示:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
请参阅 create_dataset
API 参考中的 方法,了解更多信息。
更新数据集
随着项目的演变,您可能需要修改数据集的元数据。这就像使用新详细信息运行以下代码一样简单:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
字段 update
方法提供了有关更新数据集的更多详细信息。
删除数据集
要删除数据集,无论是为了整理您的工作区还是因为它不再需要,您可以通过调用 delete
方法:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
有关删除选项(包括硬删除)的更多信息,请参阅 delete
方法文档。
列出数据集
要浏览您的数据集,请使用分页列出所有数据集。这在处理大量数据集时非常有用。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
字段 DatasetList
类提供了有关列出数据集和对数据集进行分页的更多详细信息。
从存储获取 URL
此函数获取用于数据集存储访问的 URL,从而可以轻松下载远程存储的数据集文件或工件。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
字段 get_download_link
方法文档提供了更多详细信息。
上传数据集
上传数据集非常简单。设置数据集的 ID 和文件路径,然后使用 upload_dataset
函数:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
字段 upload_dataset
方法提供了有关上传数据集的更多详细信息。您还可以了解相关的 DatasetUpload
类。
请记住仔细检查您的数据集 ID 和文件路径,以确保一切顺利运行。
如果您遇到任何问题或有疑问,我们的支持团队随时为您提供帮助。🤝
祝您数据处理顺利,并祝您的模型准确而富有洞察力!🌟