Управление набором данных с помощью Ultralytics HUB-SDK
Добро пожаловать в документацию Ultralytics HUB-SDK по управлению наборами данных! 👋
Эффективное управление набором данных имеет решающее значение в машинном обучении. Независимо от того, являетесь ли вы опытным специалистом по данным или новичком, знание того, как обрабатывать операции с набором данных, может оптимизировать ваш рабочий процесс. На этой странице рассматриваются основы выполнения операций с наборами данных с использованием Ultralytics HUB-SDK на Python. Приведенные примеры показывают, как получать, создавать, обновлять, удалять и перечислять наборы данных, а также как получить URL-адрес для доступа к набору данных и загружать наборы данных.
Давайте погрузимся! 🚀
Получить набор данных по ID
Чтобы быстро получить конкретный набор данных, используя его уникальный ID, используйте приведенный ниже фрагмент кода. Это позволит вам получить доступ к важной информации, включая его данные.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>") # Replace with your actual Dataset ID
print(dataset.data) # This prints the dataset information
Для получения более подробной информации о Datasets
класс и его методы, см. Справка по hub_sdk/modules/datasets.py
.
Создайте набор данных
Чтобы создать новый набор данных, определите понятное имя для вашего набора данных и используйте create_dataset
метод, как показано ниже:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define your dataset properties
data = {"meta": {"name": "My Dataset"}} # Replace 'My Dataset' with your desired dataset name
# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")
Смотрите create_dataset
метод в справочнике API для получения дополнительной информации.
Обновить набор данных
По мере развития проектов вам может потребоваться изменить метаданные вашего набора данных. Это так же просто, как запустить следующий код с новыми деталями:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Obtain the dataset
dataset = client.dataset("<Dataset ID>") # Insert the correct Dataset ID
# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}}) # Modify 'Updated Name' as required
print("Dataset updated with new information.")
Параметр update
метод предоставляет более подробную информацию об обновлении наборов данных.
Удалить набор данных
Чтобы удалить набор данных, будь то для очистки рабочего пространства или потому, что он больше не нужен, вы можете навсегда удалить его, вызвав delete
метод:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>") # Ensure the Dataset ID is specified
# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")
Подробнее об опциях удаления, включая полное удаление, см. delete
документация метода.
Список наборов данных
Чтобы просмотреть свои наборы данных, перечислите все свои наборы данных с разбивкой на страницы. Это полезно при работе с большим количеством наборов данных.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results) # Show the datasets on the current page
# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)
# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)
Параметр DatasetList
class предоставляет более подробную информацию о листинге и постраничной разбивке наборов данных.
Получить URL-адрес из хранилища
Эта функция извлекает URL-адрес для доступа к хранилищу набора данных, что упрощает загрузку файлов набора данных или артефактов, хранящихся удаленно.
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>") # Replace Dataset ID with the actual dataset ID
# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)
Параметр get_download_link
документация метода содержит дополнительные сведения.
Загрузить набор данных
Загрузка вашего набора данных проста. Установите ID вашего набора данных и путь к файлу, затем используйте upload_dataset
функция:
from hub_sdk import HUBClient
credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)
# Select the dataset
dataset = client.dataset("<Dataset ID>") # Substitute with the real dataset ID
# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>") # Specify the correct file path
print("Dataset has been uploaded.")
Параметр upload_dataset
метод предоставляет более подробную информацию о загрузке наборов данных. Вы также можете узнать о связанных DatasetUpload
class.
Не забудьте перепроверить идентификаторы набора данных и пути к файлам, чтобы все работало без сбоев.
Если у вас возникнут какие-либо проблемы или вопросы, наша служба поддержки здесь, чтобы помочь. 🤝
Успешной обработки данных, и пусть ваши модели будут точными и содержательными! 🌟