Zum Inhalt springen

Beispiel einer VOC-Exploration

Welcome to the Ultralytics Explorer API notebook! This notebook serves as the starting point for exploring the various resources available to help you get started with using Ultralytics to explore your datasets using with the power of semantic search. You can utilities out of the box that allow you to examine specific types of labels using vector search or even SQL queries.

Versuchen Sie yolo explorer powered by Explorer API

Einfach pip install ultralytics und laufen yolo explorer in Ihrem Terminal, um benutzerdefinierte Abfragen und semantische Suchen auf Ihren Datensätzen direkt in Ihrem Browser auszuführen!

Gemeinschaftsnote ⚠️

Ab dem ultralytics>=8.3.10Die Unterstützung von Ultralytics explorer wurde abgeschafft. Aber keine Sorge! Sie können jetzt auf ähnliche und sogar erweiterte Funktionen über Ultralytics HUBunserer intuitiven No-Code-Plattform, die Ihren Arbeitsablauf optimiert. Mit Ultralytics HUB können Sie Ihre Daten mühelos erforschen, visualisieren und verwalten, ohne eine einzige Zeile Code zu schreiben. Probieren Sie es aus und nutzen Sie die Vorteile der leistungsstarken Funktionen!🚀

Einrichtung

Pip installieren ultralytics und Abhängigkeiten und überprüfen Software und Hardware.

%pip install ultralytics[explorer] openai
yolo checks

Utilize the power of vector similarity search to find the similar data points in your dataset along with their distance in the embedding space. Simply create an embeddings table for the given dataset-model pair. It is only needed once, and it is reused automatically.

exp = Explorer("VOC.yaml", model="yolo11n.pt")
exp.create_embeddings_table()

Sobald die Tabelle mit den Einbettungen erstellt ist, können Sie die semantische Suche auf eine der folgenden Arten durchführen:

  • On a given index / list of indices in the dataset like - exp.get_similar(idx=[1,10], limit=10)
  • On any image/ list of images not in the dataset - exp.get_similar(img=["path/to/img1", "path/to/img2"], limit=10) In case of multiple inputs, the aggregate of their embeddings is used.

You get a pandas dataframe with the limit number of most similar data points to the input, along with their distance in the embedding space. You can use this dataset to perform further filtering

Similarity search table

# Search dataset by index
similar = exp.get_similar(idx=1, limit=10)
similar.head()

Sie können die ähnlichen Proben auch direkt mit der Funktion plot_similar verwenden

Similarity search image 1

exp.plot_similar(idx=6500, limit=20)
exp.plot_similar(idx=[100, 101], limit=10)  # Can also pass list of idxs or imgs

exp.plot_similar(img="https://ultralytics.com/images/bus.jpg", limit=10, labels=False)  # Can also pass external images

Similarity search image 2

Ask AI: Search or filter with Natural Language

You can prompt the Explorer object with the kind of data points you want to see, and it'll try to return a dataframe with those. Because it is powered by LLMs, it doesn't always get it right. In that case, it'll return None.

Ask ai table

df = exp.ask_ai("show me images containing more than 10 objects with at least 2 persons")
df.head(5)

Für die Darstellung dieser Ergebnisse können Sie Folgendes verwenden plot_query_result util Example:

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Ask ai image 1

# plot
from PIL import Image

from ultralytics.data.explorer import plot_query_result

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Run SQL queries on your Dataset

Sometimes you might want to investigate a certain type of entries in your dataset. For this Explorer allows you to execute SQL queries. It accepts either of the formats:

  • Queries beginning with "WHERE" will automatically select all columns. This can be thought of as a shorthand query
  • Sie können auch vollständige Abfragen schreiben, bei denen Sie angeben können, welche Spalten ausgewählt werden sollen

Dies kann zur Untersuchung der Modellleistung und bestimmter Datenpunkte verwendet werden. Zum Beispiel:

  • Nehmen wir an, Ihr Modell kämpft mit Bildern, auf denen Menschen und Hunde zu sehen sind. Sie können eine Abfrage wie diese schreiben, um die Punkte auszuwählen, die mindestens 2 Menschen UND mindestens einen Hund enthalten.

Sie können SQL-Abfrage und semantische Suche kombinieren, um bestimmte Arten von Ergebnissen herauszufiltern

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

SQL queries table

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
print(table)

Genau wie bei der Ähnlichkeitssuche können Sie auch die Sql-Abfragen direkt darstellen, indem Sie exp.plot_sql_query

SQL queries image 1

exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

Working with embeddings Table (Advanced)

Explorer arbeitet mit LanceDB Tabellen intern. Sie können direkt auf diese Tabelle zugreifen, indem Sie Explorer.table Objekt und führen Sie Rohabfragen aus, schieben Sie Vor- und Nachfilter ein usw.

table = exp.table
print(table.schema)

Run raw queries¶

Die Vektorsuche findet die nächstgelegenen Vektoren in der Datenbank. In einem Empfehlungssystem oder einer Suchmaschine können Sie ähnliche Produkte finden, wie die, die Sie gesucht haben. In LLM und anderen KI-Anwendungen kann jeder Datenpunkt durch die aus einigen Modellen generierten Einbettungen dargestellt werden und liefert die relevantesten Merkmale.

Eine Suche im hochdimensionalen Vektorraum besteht darin, K-Nächste-Nachbarn (KNN) des Abfragevektors zu finden.

Metric In LanceDB, a Metric is the way to describe the distance between a pair of vectors. Currently, it supports the following metrics:

  • L2
  • Kosinus
  • Dot Explorer's similarity search uses L2 by default. You can run queries on tables directly, or use the lance format to build custom utilities to manage datasets. More details on available LanceDB table ops in the docs

Raw-queries-table

dummy_img_embedding = [i for i in range(256)]
table.search(dummy_img_embedding).limit(5).to_pandas()
df = table.to_pandas()
pa_table = table.to_arrow()

Arbeiten mit Einbettungen

Sie können auf die Rohdaten der Einbettung in der Lancedb-Tabelle zugreifen und sie analysieren. Die Bildeinbettungen werden in der Spalte vector

import numpy as np

embeddings = table.to_pandas()["vector"].tolist()
embeddings = np.array(embeddings)

Streudiagramm

Einer der ersten Schritte bei der Analyse von Einbettungen ist die Darstellung im 2D-Raum mittels Dimensionalitätsreduktion. Versuchen wir ein Beispiel

Scatterplot Example

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA  # pip install scikit-learn

# Reduce dimensions using PCA to 3 components for visualization in 3D
pca = PCA(n_components=3)
reduced_data = pca.fit_transform(embeddings)

# Create a 3D scatter plot using Matplotlib's Axes3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection="3d")

# Scatter plot
ax.scatter(reduced_data[:, 0], reduced_data[:, 1], reduced_data[:, 2], alpha=0.5)
ax.set_title("3D Scatter Plot of Reduced 256-Dimensional Data (PCA)")
ax.set_xlabel("Component 1")
ax.set_ylabel("Component 2")
ax.set_zlabel("Component 3")

plt.show()

Ähnlichkeitsindex

Hier ist ein einfaches Beispiel für eine Operation, die durch die Einbettungstabelle unterstützt wird. Der Explorer kommt mit einer similarity_index Betrieb -

  • Es wird versucht abzuschätzen, wie ähnlich jeder Datenpunkt dem Rest des Datensatzes ist.
  • It does that by counting how many image embeddings lie closer than max_dist to the current image in the generated embedding space, considering top_k similar images at a time.

Für einen bestimmten Datensatz, Modell, max_dist & top_k wird der einmal erstellte Ähnlichkeitsindex wiederverwendet. Falls sich Ihr Datensatz geändert hat oder Sie den Ähnlichkeitsindex einfach neu erstellen müssen, können Sie force=True. Similar to vector and SQL search, this also comes with a util to directly plot it. Let's look

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01)
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Ähnlichkeitsindex

at the plot first

exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Schauen wir uns nun die Ausgabe der Operation an

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01, force=False)

sim_idx

Erstellen wir eine Abfrage, um zu sehen, welche Datenpunkte eine Ähnlichkeitszahl von mehr als 30 haben, und zeichnen wir Bilder, die ihnen ähnlich sind.

import numpy as np

sim_count = np.array(sim_idx["count"])
sim_idx["im_file"][sim_count > 30]

Sie sollten etwa Folgendes sehen

similarity-index-image

exp.plot_similar(idx=[7146, 14035])  # Using avg embeddings of 2 images
📅 Created 11 days ago ✏️ Updated 7 days ago

Kommentare