Ultralytics HUB-SDK によるデータセット管理操作

Ultralytics HUB-SDK データセット管理ドキュメントへようこそ！👋

機械学習の世界では、データセットを効率的に管理することが重要です。ベテランのデータサイエンティストであれ、この分野の初心者であれ、データセットの操作方法を知っていれば、ワークフローを効率化できる。このページでは、Python のUltralytics HUB-SDK を使ったデータセット操作の基本について説明します。データセットの取得、作成、更新、削除、データセットの一覧表示、データセットアクセス用URLの取得、データセットのアップロードの方法を例示している。

さあ、飛び込もう！🚀

IDによるデータセットの取得

特定のデータセットをお探しですか？以下のコード・スニペットを使って、一意のIDを使って素早くデータセットを取得してください。これでデータを含む重要な情報にアクセスできます。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

データセットの作成

新しいプロジェクトを始める準備はできましたか？以下の手順に従って、新しいデータセットを作成してください。必要なのは、データセットのフレンドリーな名前を定義して create_dataset メソッドを使用する。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

データセットを更新する

プロジェクトが進化するにつれて、データセットも進化するはずです。データセットのメタデータを修正する必要がある場合は、以下のコードに新しい情報を追加して実行するだけでよい。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

データセットを削除する

ワークスペースを整理するため、あるいは不要になったため、データセットを削除する必要が生じた場合は delete メソッドを使用する。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

データセット一覧

データセットをブラウズしたり，必要なデータセットを探したりするために，すべてのデータセットをページネーション付きでリストすることができる．大量のデータセットを扱うときに便利です．

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
dataset = client.dataset_list(page_size=10)
print("Current dataset:", dataset.results)  # Show the datasets on the current page

# Move to the next page and show results
dataset.next()
print("Next page result:", dataset.results)

# Go back to the previous page
dataset.previous()
print("Previous page result:", dataset.results)

ストレージからURLを取得

この便利な機能は、データセット・ストレージにアクセスするためのURLを取得し、遠隔地に保存されているデータセット・ファイルや成果物を簡単にダウンロードすることができます。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Don't forget to replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

データセットのアップロード

データセットのアップロードは簡単です。データセットのIDとアップロードしたいファイルパスを設定してから upload_dataset 機能については後述する。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Make sure to specify the correct file path
print("Dataset has been uploaded.")

データセットを扱うときは、プロセスの各ステップをチェックし、検証することが常に良い習慣であることを忘れないでください。データセットIDとファイルパスをダブルチェックして、すべてがスムーズに進むようにしてください。

何か問題やご質問がございましたら、フレンドリーなサポートチームがお手伝いいたします。🤝

あなたのモデルが正確で洞察に満ちたものでありますように！🌟