Перейти к содержимому

Операции по управлению наборами данных с помощью Ultralytics HUB-SDK

Добро пожаловать в документацию по управлению наборами данных Ultralytics HUB-SDK! 👋

Эффективное управление наборами данных имеет решающее значение в мире Machine Learning. Будь ты опытным специалистом по изучению данных или новичком в этой области, знание того, как выполнять операции с наборами данных, может оптимизировать твой рабочий процесс. На этой странице мы рассмотрим основы выполнения операций над наборами данных с помощью Ultralytics HUB-SDK на Python. Приведенные примеры показывают, как получать, создавать, обновлять, удалять, составлять список наборов данных, получать URL для доступа к набору данных и загружать наборы данных.

Давай погрузимся! 🚀

Получение набора данных по идентификатору

Ищешь конкретный набор данных? Быстро найди его по уникальному идентификатору с помощью приведенного ниже фрагмента кода. Это позволит тебе получить доступ к основной информации, включая данные о нем.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset('<Dataset ID>')  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Создай набор данных

Готов начать новый проект? Следуй приведенным ниже шагам, чтобы создать свежий набор данных. Все, что тебе нужно, - это задать дружелюбное имя своему набору данных и воспользоваться командой create_dataset метод.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Обновление набора данных

По мере развития проектов должны развиваться и твои наборы данных. Если тебе нужно изменить метаданные своего набора данных, достаточно просто выполнить следующий код с новыми данными.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Удаление набора данных

Если тебе когда-нибудь понадобится удалить набор данных, будь то для очистки рабочего пространства или потому, что он больше не нужен, ты можешь удалить его навсегда, вызвав команду delete метод, как показано здесь.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset('<Dataset ID>')  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Список наборов данных

Чтобы просмотреть свои наборы данных или найти нужный, ты можешь вывести список всех своих наборов с пагинацией. Это полезно при работе с большим количеством наборов данных.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Получите URL из хранилища

Эта удобная функция получает URL-адрес для доступа к хранилищу данных, позволяя без труда загрузить файлы наборов данных или артефакты, хранящиеся удаленно.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link 
dataset = client.dataset("<Dataset ID>")    # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Загрузите набор данных

Загрузка твоего набора данных - это простой процесс. Задай идентификатор своего набора данных и путь к файлу, который ты хочешь загрузить, а затем воспользуйся командой upload_dataset как подробно описано ниже.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")    # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Помни, что когда ты работаешь с наборами данных, всегда полезно проверять и перепроверять каждый шаг процесса. Дважды проверь идентификаторы наборов данных и пути к файлам, чтобы все прошло гладко.

Если ты столкнешься с какими-либо проблемами или у тебя возникнут вопросы, наша дружелюбная служба поддержки поможет тебе справиться с любыми трудностями. 🤝

Счастливой работы с данными, и пусть твои модели будут точными и проницательными! 🌟


Комментарии