VOC探査の例¶。

Ultralytics Explorer API ノートブックへようこそ！このノートブックは、Ultralytics を使用して、セマンティック検索の力を使ってデータセットを探索することを始めるのに役立つ、利用可能なさまざまなリソースを探索するための出発点となります。ベクトル検索やSQLクエリを使用して、特定のタイプのラベルを調べることができるユーティリティをすぐに利用できます。

このノートブックのリソースが、Ultralytics を最大限に活用するための一助となれば幸いです。詳細はエクスプローラ・ドキュメントを参照し、サポートについてはGitHubで問題を提起し、質問や議論についてはDiscordコミュニティに参加してください！

試す yolo explorer エクスプローラAPI

単に pip install ultralytics そして yolo explorer を使えば、ブラウザ上でデータセットのカスタムクエリやセマンティック検索を実行することができます！

セットアップ

ピップインストール ultralytics そして依存関係そしてソフトウェアとハードウェアをチェックする。

で[ ]：

コピーした！

%ピップ をインストールします。 ultralytics[エクスプローラ] openai
インポート ultralytics
ultralytics.チェック()
pip installultralytics[explorer] openai
インポートultralytics
ultralytics .checks()

で[ ]：

コピーした！

から ultralytics インポート エクスプローラ
fromultralytics import Explorer

2.AIに聞く：自然言語で検索またはフィルタリング¶。

エクスプローラー・オブジェクトに見たいデータ・ポイントの種類を入力すると、それを含むデータ・フレームを返そうとする。エクスプローラーはLLMで動いているため、常に正しく動作するとは限りません。その場合はNoneを返します。

スクリーンショット 2024-01-07 at 2 34 53 PM

で[ ]：

コピーした！

df = exp.ask_ai("少なくとも2人の人物が写っている10枚以上のオブジェクトを含む画像を表示してください")
df.ヘッド(5)
df = exp.ask_ai("少なくとも2人の人物が写っている10枚以上のオブジェクトを含む画像を表示してください")
df.head(5)

これらの結果をプロットするには plot_query_result 利用例

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

この画像には説明がありません

で[ ]：

コピーした！





# プロット
から ultralytics.data.explorer インポート プロット
から PIL インポート 画像

plt = プロット・クエリー結果(exp.ask_ai("ちょうど2人の人物を含む画像を10枚見せてください"))
画像.配列から(plt)
# プロット
fromultralytics.data.explorer import plot_query_result
from PIL import イメージ

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

3.データセットに対してSQLクエリーを実行する。

データセット内のある種のエントリーを調査したい場合がある。このような場合、エクスプローラーはSQLクエリーを実行することができる。 SQLクエリーは、以下のいずれかの形式で実行できます：

WHERE "で始まるクエリは、自動的にすべてのカラムを選択する。これはショートハンドクエリと考えることができます。
どのカラムを選択するかを指定できる完全なクエリを書くこともできます。

これは、モデルのパフォーマンスや特定のデータポイントを調査するために使用することができます。例えば

例えば、あなたのモデルが人間と犬のいる画像で格闘しているとしよう。このようなクエリを書いて、少なくとも2人の人間と少なくとも1匹の犬がいるポイントを選択することができます。

SQLクエリーとセマンティック検索を組み合わせることで、特定のタイプの結果を絞り込むことができます。スクリーンショット 2024-01-06 at 9 47 30 PM

で[ ]：

コピーした！

テーブル = 表.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
テーブル
table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
テーブル

類似性検索と同様に、次のようなSQLクエリを直接プロットするユーティリティもある。 exp.plot_sql_query この画像には説明がありません

で[ ]：

コピーした！

.エキスパード.プロット_sql_クエリ("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", ラベル=真)
exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

3.埋め込みを扱う表（上級編）¶。

エクスプローラーはランスDB テーブルを内部的に使用します。このテーブルには Explorer.table オブジェクトを作成し、生のクエリーを実行する。

で[ ]：

コピーした！

テーブル = 表.テーブル
テーブル.スキーマ
テーブル = exp.table
テーブル.スキーマ

生のクエリを実行する¶。

ベクトル検索は、データベースから最も近いベクトルを検索します。推薦システムや検索エンジンでは、検索した商品の類似商品を見つけることができる。LLMや他のAIアプリケーションでは、各データポイントは、いくつかのモデルから生成された埋め込みによって提示することができ、それは最も関連性の高い特徴を返します。

高次元ベクトル空間での検索は、クエリベクトルのK-最近傍（KNN）を見つけることである。

メトリック LanceDB では、Metric はベクトルのペア間の距離を表す方法です。現在、以下のメトリックをサポートしています：

L2
コサイン
ドットエクスプローラーの類似検索はデフォルトでL2を使用する。テーブルに対して直接クエリを実行したり、ランスフォーマットを使用してデータセットを管理するカスタムユーティリティを構築することができます。利用可能な LanceDB テーブル操作の詳細については、ドキュメントを参照してください。

で[ ]：

コピーした！

ダミー画像埋め込み = [i に対して i の 範囲(256)]
テーブル.検索(dummy_img_embedding).制限(5).to_pandas()
dummy_img_embedding = [i for i in range(256)
table.search(dummy_img_embedding).limit(5).to_pandas()

一般的なデータフォーマットへの相互変換

で[ ]：

コピーした！

df = テーブル.to_pandas()
pa_table = テーブル.to_arrow()
df = table.to_pandas()
pa_table = table.to_arrow()

埋め込みを使った作業

lancedbテーブルから生の埋め込みにアクセスし、解析することができます。画像埋め込みは vector

で[ ]：

コピーした！

インポート numpy として np

埋め込み = テーブル.to_pandas()["ベクトル"].トーリスト()
埋め込み = np.配列(埋め込み)
npとしてnumpyをインポートする

embeddings = table.to_pandas()["vector"].tolist()
embeddings = np.array(embeddings)

散布図

埋め込みを分析する前段階の1つは、次元削減によって埋め込みを2次元空間にプロットすることです。例として

で[ ]：

コピーした！

!ピップ インストール scikit-学ぶ --q
pip install scikit-learn --q

で[ ]：

コピーした！





%matplotlib インライン
インポート numpy として np
から sklearn.分解 インポート PCA
インポート matplotlib.pyplot として plt
から mpl_toolkits.mplot3d インポート Axes3D

# 3Dで可視化するためにPCAを用いて3成分に次元を縮小する
pca = PCA(n_components=3)
縮小データ = pca.fit_transform(埋め込み)

# Matplotlib の Axes3D を使って 3D 散布図を作成します。
fig = plt.図(図サイズ=(8, 6))
ax = イチジク.add_subplot(111, 投影='3d')

# 散布図
軸.散布図(縮小データ[:, 0], 縮小データ[:, 1], 縮小データ[:, 2], α=0.5)
軸.set_title('縮小256次元データの3次元散布図(PCA)')
ax.set_xlabel('コンポーネント1')
ax.セットラベル(コンポーネント2)
ax.set_zlabel('コンポーネント3')

plt.表示()
matplotlib インライン
numpy を np としてインポート
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# 3Dで可視化するためにPCAを使って3成分に次元を減らす
pca = PCA(n_components=3)
reduced_data = pca.fit_transform(embeddings)

# Matplotlib の Axes3D を使って3D散布図を作成します。
fig = plt.figure(figsize=(8, 6))
ax=fig.add_subplot(111、projection='3d')

# 散布図
ax.scatter(reduced_data[:, 0], reduced_data[:, 1], reduced_data[:, 2], alpha=0.5)
ax.set_title('3D Scatter Plot of Reduced 256-Dimensional Data (PCA)')
ax.set_xlabel('Component 1')
ax.set_ylabel('Component 2')
ax.set_zlabel('Component 3')

plt.show()

4.類似性指数

埋め込みテーブルを利用した簡単な操作の例を示します。エクスプローラには similarity_index 操作

これは、各データ点がデータセットの残りの部分とどの程度類似しているかを推定しようとするものである。
よりも近い画像埋め込みがいくつあるかをカウントすることでこれを行う。 max_dist を，生成された埋め込み空間内の現在の画像に適用する。 top_k 同じような画像を一度に見ることができる。

与えられたデータセットに対して、モデル、 max_dist & top_k を渡すと、一度生成された類似度インデックスが再利用される。データセットが変更された場合、あるいは単に類似度インデックスを再生成する必要がある場合、次のように渡すことができます。 force=True. ベクトル検索やSQL検索と同様に、これにも直接プロットするためのutilが付属している。まずプロットを見てみよう。スクリーンショット 2024-01-06 at 9 49 36 PM

で[ ]：

コピーした！

.エキスパード.プロット_類似度指数(max_dist=0.2, top_k=0.01)
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

では、操作の出力を見てみよう。

で[ ]：

コピーした！

インポート numpy として np

sim_idx = exp.類似性インデックス(max_dist=0.2, top_k=0.01, 力=偽)
npとしてnumpyをインポートする

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01, force=False)

で[ ]：

コピーした！

sim_idx
sim_idx

類似度が30を超えるデータポイントを確認するクエリを作成し、類似する画像をプロットしてみよう。

で[ ]：

コピーした！

インポート numpy として np

シムカウント = np.配列(sim_idx["count"])
sim_idx['im_file'][sim_count > 30]
npとしてnumpyをインポートする

sim_count = np.array(sim_idx["count"])
sim_idx['im_file'][sim_count > 30].

次のように表示されるはずです。この画像には説明がありません

で[ ]：

コピーした！

.エキスパード.plot_similar(idx=[7146, 14035]) # 2つの画像の埋め込み平均値を使う
exp.plot_similar(idx=[7146, 14035]) # 2つの画像の埋め込み平均値を使う

作成 2024-01-07 更新 2024-01-25
著者RizwanMunawar（1）、AyushExel（2）、glenn-jocher（1）

VOC探査の例¶。

セットアップ

類似検索

2.AIに聞く：自然言語で検索またはフィルタリング¶。

3.データセットに対してSQLクエリーを実行する。

3.埋め込みを扱う 表（上級編）¶。

生のクエリを実行する¶。

一般的なデータフォーマットへの相互変換

埋め込みを使った作業

散布図

4.類似性指数

3.埋め込みを扱う表（上級編）¶。