Перейти к содержанию

Операции управления наборами данных с помощью Ultralytics HUB-SDK

Добро пожаловать в документацию по управлению набором данных Ultralytics HUB-SDK! 👋

Эффективное управление наборами данных имеет решающее значение в мире машинного обучения. Независимо от того, опытный ли вы специалист по изучению данных или новичок в этой области, знание того, как выполнять операции с наборами данных, может упростить ваш рабочий процесс. На этой странице рассматриваются основы выполнения операций над наборами данных с помощью Ultralytics HUB-SDK в Python. Приведенные примеры показывают, как получить, создать, обновить, удалить, перечислить наборы данных, получить URL-адрес для доступа к набору данных и загрузить наборы данных.

Давайте погрузимся! 🚀

Получение набора данных по идентификатору

Ищете конкретный набор данных? Получите его быстро, используя его уникальный идентификатор, с помощью приведенного ниже фрагмента кода. Это позволит вам получить доступ к основной информации, включая данные.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Создайте набор данных

Готовы начать новый проект? Выполните следующие шаги, чтобы создать новый набор данных. Все, что вам нужно, - это задать дружественное имя набору данных и использовать функцию create_dataset метод.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Обновление набора данных

По мере развития проектов должны развиваться и ваши наборы данных. Если вам нужно изменить метаданные набора данных, просто выполните следующий код с новыми данными.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Удаление набора данных

Если вам когда-нибудь понадобится удалить набор данных, будь то для очистки рабочего пространства или потому, что он больше не нужен, вы можете удалить его навсегда, вызвав команду delete как показано здесь.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Список наборов данных

Чтобы просмотреть наборы данных или найти нужный, можно вывести список всех наборов данных с пагинацией. Это удобно при работе с большим количеством наборов данных.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Получение URL из хранилища

Эта удобная функция получает URL-адрес для доступа к хранилищу данных, позволяя легко загрузить файлы наборов данных или артефакты, хранящиеся в удаленном месте.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Загрузить набор данных

Загрузка набора данных - простой процесс. Задайте идентификатор набора данных и путь к файлу, который вы хотите загрузить, а затем воспользуйтесь функцией upload_dataset как описано ниже.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Помните, что при работе с наборами данных всегда полезно проверять и подтверждать каждый шаг процесса. Дважды проверьте идентификаторы наборов данных и пути к файлам, чтобы все прошло гладко.

Если у вас возникнут какие-либо проблемы или вопросы, наша дружелюбная служба поддержки поможет вам справиться с любыми трудностями. 🤝

Удачной работы с данными, и пусть ваши модели будут точными и проницательными! 🌟

Комментарии