コンテンツにスキップ

Ultralytics HUB-SDKによるデータセット管理

Ultralytics HUB-SDKデータセット管理ドキュメントへようこそ! 👋

効率的なデータセット管理は、機械学習において非常に重要です。経験豊富なデータサイエンティストでも初心者でも、データセット操作の処理方法を知っていると、ワークフローを効率化できます。このページでは、Ultralytics HUB-SDKをpythonで使用して、データセットに対する操作を実行するための基本について説明します。提供されている例は、データセットの取得、作成、更新、削除、リスト、およびデータセットアクセス用のURLの取得とデータセットのアップロードの方法を示しています。

さあ、飛び込みましょう! 🚀

IDによるデータセットの取得

一意のIDを使用して特定のデータセットを迅速にフェッチするには、次のコードスニペットを使用します。これにより、データを含む重要な情報にアクセスできます。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Fetch a dataset by ID
dataset = client.dataset("<Dataset ID>")  # Replace with your actual Dataset ID
print(dataset.data)  # This prints the dataset information

詳細については Datasets クラスとそのメソッドについては、以下を参照してください。 参照先 hub_sdk/modules/datasets.py.

データセットを作成する

新しいデータセットを作成するには、データセットのフレンドリ名を定義し、以下を使用します。 create_dataset メソッドを以下に示します。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define your dataset properties
data = {"meta": {"name": "My Dataset"}}  # Replace 'My Dataset' with your desired dataset name

# Create the dataset
dataset = client.dataset()
dataset.create_dataset(data)
print("Dataset created successfully!")

以下を create_dataset 詳細については、APIリファレンスのメソッドを参照してください。

データセットの更新

プロジェクトの進化に伴い、データセットのメタデータを変更する必要がある場合があります。これは、新しい詳細情報とともに次のコードを実行するだけで簡単に行えます。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Obtain the dataset
dataset = client.dataset("<Dataset ID>")  # Insert the correct Dataset ID

# Update the dataset's metadata
dataset.update({"meta": {"name": "Updated Name"}})  # Modify 'Updated Name' as required
print("Dataset updated with new information.")

The update メソッドには、データセットの更新に関する詳細が記載されています。

データセットの削除

ワークスペースを整理したり、不要になったデータセットを削除するには、以下を呼び出して完全に削除できます。 delete メソッド:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset by its ID
dataset = client.dataset("<Dataset ID>")  # Ensure the Dataset ID is specified

# Delete the dataset
dataset.delete()
print("Dataset has been deleted.")

ハード削除を含む削除オプションの詳細については、以下をご覧ください。 delete メソッドのドキュメントを参照してください。

データセットのリスト表示

データセットを閲覧するには、ページネーションを使用してすべてのデータセットを一覧表示します。これは、多数のデータセットを扱う場合に役立ちます。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Retrieve the first page of datasets
datasets = client.dataset_list(page_size=10)
print("Current dataset:", datasets.results)  # Show the datasets on the current page

# Move to the next page and show results
datasets.next()
print("Next page result:", datasets.results)

# Go back to the previous page
datasets.previous()
print("Previous page result:", datasets.results)

The DatasetList クラスは、データセットのリスト表示とページネーションに関する詳細を提供します。

ストレージからURLを取得

この関数は、データセットストレージアクセス用のURLを取得し、リモートに保存されているデータセットファイルまたはアーティファクトを簡単にダウンロードできるようにします。

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Define the dataset ID for which you want a download link
dataset = client.dataset("<Dataset ID>")  # Replace Dataset ID with the actual dataset ID

# Retrieve the URL for downloading dataset contents
url = dataset.get_download_link()
print("Download URL:", url)

The get_download_link メソッドのドキュメントには、追加の詳細が記載されています。

データセットのアップロード

データセットのアップロードは簡単です。データセットのIDとファイルパスを設定し、以下を使用します。 upload_dataset 機能:

from hub_sdk import HUBClient

credentials = {"api_key": "<YOUR-API-KEY>"}
client = HUBClient(credentials)

# Select the dataset
dataset = client.dataset("<Dataset ID>")  # Substitute with the real dataset ID

# Upload the dataset file
dataset.upload_dataset(file="<Dataset File>")  # Specify the correct file path
print("Dataset has been uploaded.")

The upload_dataset メソッドには、データセットのアップロードに関する詳細が記載されています。関連するについても学ぶことができます。 DatasetUpload クラス。

すべてがスムーズに実行されるように、データセットIDとファイルパスを再確認することを忘れないでください。

問題が発生した場合や質問がある場合は、サポートチームがお手伝いします。🤝

データ整理を楽しんで、モデルが正確で洞察力に富むことを願っています!🌟



📅 1年前に作成 ✏️ 1か月前に更新

コメント