Перейти к содержимому

Операции по управлению наборами данных с помощью Ultralytics HUB -SDK

Добро пожаловать на сайт Ultralytics HUB -SDK Dataset Management Documentation! 👋

Эффективное управление наборами данных имеет решающее значение в мире Machine Learning. Будь ты опытным специалистом по изучению данных или новичком в этой области, знание того, как выполнять операции с наборами данных, может оптимизировать твой рабочий процесс. На этой странице рассматриваются основы выполнения операций над наборами данных с помощью Ultralytics HUB -SDK в Python. Приведенные примеры показывают, как получать, создавать, обновлять, удалять, составлять список наборов данных, получать URL для доступа к набору данных и загружать наборы данных.

Давай погрузимся! 🚀

Получение набора данных по идентификатору

Ищешь конкретный набор данных? Быстро найди его по уникальному идентификатору с помощью приведенного ниже фрагмента кода. Это позволит тебе получить доступ к основной информации, включая данные о нем.

# Fetch a dataset by ID
dataset = client.dataset('<Dataset ID>')  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Создай набор данных

Готов начать новый проект? Следуй приведенным ниже шагам, чтобы создать свежий набор данных. Все, что тебе нужно, - это задать дружелюбное имя своему набору данных и использовать команду create_dataset метод.

# Import client library comes before this snippet

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

Обновление набора данных

По мере развития проектов должны развиваться и твои наборы данных. Если тебе нужно изменить метаданные своего набора данных, достаточно просто выполнить следующий код с новыми данными.

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Удаление набора данных

Если тебе когда-нибудь понадобится удалить набор данных, будь то для очистки рабочего пространства или потому, что он больше не нужен, ты можешь удалить его навсегда, вызвав команду delete метод, как показано здесь.

# Select the dataset by its ID
dataset = client.dataset('<Dataset ID>')  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Список наборов данных

Чтобы просмотреть свои наборы данных или найти нужный, ты можешь вывести список всех своих наборов с пагинацией. Это полезно при работе с большим количеством наборов данных.

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

Получите URL из хранилища

Эта удобная функция получает URL-адрес для доступа к хранилищу данных, позволяя без труда загрузить файлы наборов данных или артефакты, хранящиеся удаленно.

# Define the dataset ID for which you want a download link
datasetId = "<Dataset ID>"  # Don't forget to replace this with the actual dataset ID
dataset = client.dataset(datasetId)

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link("archive")
print("Download URL:", url)

Загрузите набор данных

Загрузка твоего набора данных - это простой процесс. Задай идентификатор своего набора данных и путь к файлу, который ты хочешь загрузить, а затем воспользуйся командой upload_dataset как подробно описано ниже.

# Set your dataset ID
dataset_id = "<Dataset ID>"  # Substitute with the real dataset ID

# Select the dataset
dataset = client.dataset(dataset_id)

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

Помни, что когда ты работаешь с наборами данных, всегда полезно проверять и перепроверять каждый шаг процесса. Дважды проверь идентификаторы наборов данных и пути к файлам, чтобы все прошло гладко.

Если ты столкнешься с какими-либо проблемами или у тебя возникнут вопросы, наша дружелюбная служба поддержки поможет тебе справиться с любыми трудностями. 🤝

Счастливой работы с данными, и пусть твои модели будут точными и проницательными! 🌟


Комментарии