使用Ultralytics HUB-SDK 进行数据集管理操作
欢迎访问Ultralytics HUB-SDK 数据集管理文档!👋
在机器学习领域,高效管理数据集至关重要。无论您是经验丰富的数据科学家,还是该领域的初学者,了解如何处理数据集操作都能简化您的工作流程。本页介绍了在Python 中使用Ultralytics HUB-SDK 对数据集执行操作的基础知识。所提供的示例说明了如何获取、创建、更新、删除、列出数据集、获取数据集访问 URL 以及上传数据集。
让我们深入了解!🚀
按 ID 获取数据集
寻找特定数据集?使用下面的代码片段,使用其唯一 ID 快速获取。这样,您就可以访问包括数据在内的基本信息。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
创建数据集
准备好开始新项目了吗?请按照以下步骤创建一个新数据集。您只需为数据集定义一个友好的名称,并使用 create_dataset
方法。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
更新数据集
随着项目的发展,您的数据集也应随之发展。如果需要修改数据集的元数据,只需运行以下代码并输入新的详细信息即可。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
删除数据集
如果您需要删除某个数据集,无论是为了整理工作区还是因为不再需要它,您都可以通过调用 delete
方法,如图所示。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
列表数据集
要浏览数据集或找到所需的数据集,可以使用分页列出所有数据集。这对处理大量数据集很有帮助。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results) # Show the datasets on the current page
# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)
# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)
从存储器中获取 URL
这个便捷的功能可以获取数据集存储访问的 URL,从而轻松下载远程存储的数据集文件或人工制品。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Don't forget to replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
上传数据集
上传数据集的过程非常简单。设置数据集 ID 和要上传的文件路径,然后使用 upload_dataset
功能,详见下文。
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Make sure to specify the correct file path
print("Dataset has been uploaded.")
请记住,在处理数据集时,检查和验证过程中的每一步始终是一个好习惯。仔细检查数据集 ID 和文件路径,确保一切顺利。
如果您遇到任何问题或有任何疑问,我们友好的支持团队将帮助您解决任何难题。🤝
祝您数据处理愉快,愿您的模型准确无误并富有洞察力!🌟