Перейти к содержанию

Управление наборами данных с помощью Ultralytics HUB-SDK

Добро пожаловать в документацию по управлению наборами данных Ultralytics HUB-SDK! 👋

Эффективное управление наборами данных имеет решающее значение в машинном обучении. Будь вы опытным специалистом по изучению данных или новичком, знание того, как выполнять операции с наборами данных, может оптимизировать ваш рабочий процесс. На этой странице рассматриваются основы выполнения операций над наборами данных с помощью Ultralytics HUB-SDK на языке Python. Приведенные примеры показывают, как получить, создать, обновить, удалить и перечислить наборы данных, а также как получить URL-адрес для доступа к набору данных и загрузить набор данных.

Давайте погрузимся! 🚀

Получение набора данных по идентификатору

Чтобы быстро получить конкретный набор данных по его уникальному идентификатору, воспользуйтесь приведенным ниже фрагментом кода. Это позволит вам получить доступ к основной информации, включая данные.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

Для получения более подробной информации о Datasets класс и его методы, см. Ссылка для hub_sdk/modules/datasets.py.

Создайте набор данных

Чтобы создать новый набор данных, задайте ему дружественное имя и воспользуйтесь командой create_dataset как показано ниже:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

См. create_dataset метод в справочнике API для получения дополнительной информации.

Обновление набора данных

По мере развития проектов вам может понадобиться изменить метаданные набора данных. Для этого достаточно выполнить следующий код с новыми данными:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

Сайт update Метод содержит более подробную информацию об обновлении наборов данных.

Удаление набора данных

Чтобы удалить набор данных, будь то для очистки рабочего пространства или потому, что он больше не нужен, вы можете удалить его навсегда, вызвав команду delete метод:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

Подробнее о возможностях удаления, включая жесткое удаление, см. delete документация по методу.

Список наборов данных

Чтобы просмотреть наборы данных, выведите список всех наборов данных с постраничной разбивкой. Это удобно при работе с большим количеством наборов данных.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

Сайт DatasetList Класс предоставляет более подробную информацию о перечислении и пагинации наборов данных.

Получение URL из хранилища

Эта функция получает URL-адрес для доступа к хранилищу данных, что упрощает загрузку файлов наборов данных или артефактов, хранящихся удаленно.

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

Сайт get_download_link В документации к методу приведены дополнительные сведения.

Загрузить набор данных

Загрузка набора данных проста. Задайте идентификатор набора данных и путь к файлу, а затем воспользуйтесь командой upload_dataset функция:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

Сайт upload_dataset метод содержит более подробную информацию о загрузке наборов данных. Вы также можете узнать о связанных с ним DatasetUpload класс.

Не забудьте перепроверить идентификаторы наборов данных и пути к файлам, чтобы все прошло гладко.

Если у вас возникнут проблемы или вопросы, наша служба поддержки всегда готова помочь. 🤝

Удачной работы с данными, и пусть ваши модели будут точными и проницательными! 🌟

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии