Пример исследования VOC

Добро пожаловать в блокнот Ultralytics Explorer API. Этот блокнот представляет ресурсы, доступные для исследования наборов данных с помощью семантического поиска, векторного поиска и SQL-запросов.

Попробовать yolo explorer (на базе Explorer API)

Установите ultralytics и запустите yolo explorer в вашем терминале для выполнения пользовательских запросов и семантического поиска в вашем браузере.

Примечание сообщества ⚠️

По состоянию на ultralytics>=8.3.10, поддержка Ultralytics Explorer устарела. Аналогичные (и расширенные) функции исследования наборов данных доступны в Ultralytics Platform.

Настройка

Установите ultralytics и требуемые зависимости, затем проверьте программное и аппаратное обеспечение.

!uv pip install ultralytics[explorer] openai
yolo checks

Поиск по сходству

Используйте возможности поиска векторного сходства, чтобы найти похожие точки данных в вашем наборе данных вместе с их расстоянием в пространстве вложений. Просто создайте таблицу вложений для данной пары набор данных-модель. Это нужно сделать только один раз, и она будет использоваться повторно автоматически.

exp = Explorer("VOC.yaml", model="yolo26n.pt")
exp.create_embeddings_table()

После создания таблицы эмбеддингов вы можете выполнять семантический поиск одним из следующих способов:

По заданному индексу/списку индексов в наборе данных, например, exp.get_similar(idx=[1, 10], limit=10)
На любом изображении/списке изображений, отсутствующих в наборе данных - exp.get_similar(img=["path/to/img1", "path/to/img2"], limit=10). В случае нескольких входных данных используется агрегированное представление их эмбеддингов.

Вы получаете Pandas DataFrame с ограниченным количеством наиболее похожих на входные точки данных, а также их расстоянием в пространстве эмбеддингов. Вы можете использовать этот набор данных для дальнейшей фильтрации.

# Search dataset by index
similar = exp.get_similar(idx=1, limit=10)
similar.head()

Вы также можете построить графики похожих образцов непосредственно с помощью plot_similar util

exp.plot_similar(idx=6500, limit=20)
exp.plot_similar(idx=[100, 101], limit=10)  # Can also pass list of idxs or imgs

exp.plot_similar(img="https://ultralytics.com/images/bus.jpg", limit=10, labels=False)  # Can also pass external images

Спросите ИИ: Поиск или фильтрация с использованием естественного языка

Вы можете запросить объект Explorer о типе точек данных, которые вы хотите увидеть, и он попытается вернуть DataFrame с этими результатами. Поскольку он работает на базе LLM, он не всегда дает точные результаты. В этом случае он вернет None.

Результаты запроса на естественном языке Ultralytics Explorer Ask AI

df = exp.ask_ai("show me images containing more than 10 objects with at least 2 persons")
df.head(5)

Для построения графиков этих результатов вы можете использовать plot_query_result утилиту. Пример:

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Результат запроса Ask AI, показывающий соответствующие изображения

# plot
from PIL import Image
from ultralytics.data.explorer import plot_query_result

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Выполнение SQL-запросов к вашему набору данных

Иногда вам может потребоваться исследовать определенные записи в вашем наборе данных. Для этого Explorer позволяет выполнять SQL-запросы. Он принимает любой из следующих форматов:

Запросы, начинающиеся с «WHERE», автоматически выбирают все столбцы. Это можно рассматривать как сокращенный запрос.
Вы также можете писать полные запросы, где можно указать, какие столбцы выбирать.

Это можно использовать для исследования производительности модели и конкретных точек данных. Например:

предположим, что ваша модель плохо работает с изображениями, на которых есть люди и собаки. Вы можете написать запрос, подобный этому, чтобы выбрать точки, в которых есть как минимум 2 человека И как минимум одна собака.

Вы можете объединить SQL-запрос и семантический поиск, чтобы отфильтровать результаты до определенного типа

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

Таблица результатов SQL-запросов в Explorer

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
print(table)

Как и в случае поиска по сходству, вы также получаете утилиту для непосредственного построения графиков SQL-запросов с использованием exp.plot_sql_query

Визуализация изображений, соответствующих SQL-запросу

exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

Таблица для работы с эмбеддингами (Продвинутый уровень)

Explorer работает на LanceDB таблицы внутри. Вы можете получить прямой доступ к этой таблице, используя Explorer.table объект и выполнять необработанные запросы, передавать предварительные и постобработочные фильтры и т. д.

table = exp.table
print(table.schema)

Выполнение необработанных запросов¶

Vector Search находит ближайшие векторы из базы данных. В системе рекомендаций или поисковой системе вы можете найти похожие продукты на тот, который вы искали. В LLM и других приложениях ИИ каждая точка данных может быть представлена внедрениями, сгенерированными некоторыми моделями, она возвращает наиболее релевантные функции.

Поиск в многомерном векторном пространстве заключается в нахождении K-ближайших соседей (KNN) для вектора запроса.

Метрика. В LanceDB метрика — это способ описания расстояния между парой векторов. В настоящее время поддерживаются следующие метрики:

L2
Косинус
Поиск схожести в Dot Explorer по умолчанию использует L2. Вы можете выполнять запросы непосредственно к таблицам или использовать формат lance для создания пользовательских утилит для управления наборами данных. Более подробная информация о доступных операциях с таблицами LanceDB находится в документации.

Таблица результатов необработанных SQL-запросов в Explorer

dummy_img_embedding = [i for i in range(256)]
table.search(dummy_img_embedding).limit(5).to_pandas()

Взаимное преобразование в популярные форматы данных

df = table.to_pandas()
pa_table = table.to_arrow()

Работа с эмбеддингами

Вы можете получить доступ к необработанным внедрениям из lancedb Table и проанализировать их. Внедрения изображений хранятся в столбце vector

import numpy as np

embeddings = table.to_pandas()["vector"].tolist()
embeddings = np.array(embeddings)

Диаграмма рассеяния

Одним из предварительных шагов в анализе вложений является их построение в 2D-пространстве посредством уменьшения размерности. Давайте попробуем пример

Визуализация диаграммы рассеяния эмбеддингов в Explorer

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA  # pip install scikit-learn

# Reduce dimensions using PCA to 3 components for visualization in 3D
pca = PCA(n_components=3)
reduced_data = pca.fit_transform(embeddings)

# Create a 3D scatter plot using Matplotlib's Axes3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection="3d")

# Scatter plot
ax.scatter(reduced_data[:, 0], reduced_data[:, 1], reduced_data[:, 2], alpha=0.5)
ax.set_title("3D Scatter Plot of Reduced 256-Dimensional Data (PCA)")
ax.set_xlabel("Component 1")
ax.set_ylabel("Component 2")
ax.set_zlabel("Component 3")

plt.show()

Индекс сходства

Вот простой пример операции, основанной на таблице embeddings. Explorer поставляется с similarity_index операция-

Он пытается оценить, насколько схож каждый элемент данных с остальным набором данных.
Это происходит путем подсчета количества вложений изображений, которые находятся ближе, чем max_dist к текущему изображению в сгенерированном пространстве вложений, учитывая top_k похожих изображений за раз.

Для данного набора данных, модели, max_dist & top_k сгенерированный индекс подобия будет использоваться повторно. Если ваш набор данных изменился или вам просто необходимо повторно сгенерировать индекс подобия, вы можете передать force=True. Подобно векторному и SQL-поиску, это также поставляется с утилитой для непосредственного построения графика.

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01)
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Анализ индекса сходства набора данных

Давайте сначала посмотрим на график

exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Теперь давайте посмотрим на результат операции.

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01, force=False)

sim_idx

Давайте создадим запрос, чтобы увидеть, какие точки данных имеют количество сходств более 30, и построим изображения, похожие на них.

import numpy as np

sim_count = np.array(sim_idx["count"])
sim_idx["im_file"][sim_count > 30]

Вы должны увидеть что-то вроде этого

Визуализация индекса сходства для анализа набора данных

exp.plot_similar(idx=[7146, 14035])  # Using avg embeddings of 2 images

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад