Ejemplo de exploración de COV¶

No se ha proporcionado ninguna descripción para esta imagen

¡Bienvenido al cuaderno de la API del Explorador Ultralytics ! Este cuaderno sirve como punto de partida para explorar los distintos recursos disponibles que te ayudarán a empezar a utilizar Ultralytics para explorar tus conjuntos de datos utilizando con la potencia de la búsqueda semántica. Puedes utilizar utilidades listas para usar que te permiten examinar tipos específicos de etiquetas utilizando la búsqueda vectorial o incluso consultas SQL.

Esperamos que los recursos de este cuaderno te ayuden a sacar el máximo partido de Ultralytics. Navega por los documentos del Explorador para obtener más detalles, plantea un problema en GitHub para obtener asistencia y únete a nuestra comunidad de Discord para preguntas y debates.

Prueba yolo explorer con la API de Exlorer

Simplemente pip install ultralytics y ejecuta yolo explorer en tu terminal para ejecutar consultas personalizadas y búsquedas semánticas en tus conjuntos de datos ¡directamente desde tu navegador!

Setup¶

Instalación de tuberías ultralytics y dependencias y comprueba el software y el hardware.

En [ ]:

¡Copiado!

%pip instala ultralytics[explorador] openai
importar ultralytics
ultralytics.comprueba()
%pip instalar ultralytics[explorador] openai
importa ultralytics
ultralytics .checks()

En [ ]:

¡Copiado!

de ultralytics importar Explorador
from ultralytics import Explorador

Búsqueda de similitudes¶

Utiliza el poder de la búsqueda de similitud vectorial para encontrar los puntos de datos similares en tu conjunto de datos junto con su distancia en el espacio de incrustación. Basta con crear una tabla de incrustaciones para el par conjunto de datos-modelo dado. Sólo se necesita una vez y se reutiliza automáticamente.

En [ ]:

¡Copiado!

exp = Explorador("VOC.yaml", modelo="yolov8n.pt")
exp.crear_tabla_embeddings()
exp = Explorador("VOC.yaml", model="yolov8n.pt")
exp.crear_tabla_embeddings()

Una vez construida la tabla de incrustaciones, puedes ejecutar la búsqueda semántica de cualquiera de las siguientes formas:

En un índice / lista de índices dados del conjunto de datos como - exp.get_similar(idx=[1,10], limit=10)
En cualquier imagen/lista de imágenes que no esté en el conjunto de datos - exp.get_similar(img=["path/to/img1", "path/to/img2"], limit=10) En caso de múltiples entradas, se utiliza el agregado de sus incrustaciones.

Obtendrás un marco de datos pandas con la función limit número de puntos de datos más similares a los de entrada, junto con su distancia en el espacio de incrustación. Puedes utilizar este conjunto de datos para realizar otros filtrados Captura de pantalla 2024-01-06 a las 9 45 42 PM

En [ ]:

¡Copiado!

similar = exp.obtener_similar(idx=1, límite=10)
similar.cabeza()
similar = exp.get_similar(idx=1, limit=10)
similar.cabeza()

También puedes trazar directamente las muestras similares utilizando la función plot_similar Utiliza

No se ha proporcionado ninguna descripción para esta imagen

En [ ]:

¡Copiado!

exp.trazar_similar(idx=6500, límite=20)
#exp.trazar_similar(idx=[100,101], limit=10) # También puedes pasar una lista de idxs o imgs
exp.trazar_similar(idx=6500, limit=20)
#exp.trazar_similar(idx=[100,101], limit=10) #También puedes pasar una lista de idxs o imgs

En [ ]:

¡Copiado!

exp.trazar_similar(img="https://ultralytics.com/images/bus.jpg", límite=10, etiquetas=Falso) # También puedes pasar cualquier imagen externa
exp.plot_similar(img="https://ultralytics.com/images/bus.jpg", limit=10, labels=False) # También puedes pasar cualquier imagen externa

No se ha proporcionado ninguna descripción para esta imagen

2. Ask AI: Busca o filtra con Lenguaje Natural¶

Puedes indicar al objeto Explorador el tipo de puntos de datos que quieres ver e intentará devolver un marco de datos con ellos. Como funciona con LLMs, no siempre acierta. En ese caso, devolverá Ninguno.

Captura de pantalla 2024-01-07 a las 2 34 53 PM

En [ ]:

¡Copiado!

df = exp.pregunta_ai("muéstrame imágenes que contengan más de 10 objetos con al menos 2 personas")
df.cabeza(5)
df = exp.ask_ai("muéstrame imágenes que contengan más de 10 objetos con al menos 2 personas")
df.head(5)

para trazar estos resultados puedes utilizar plot_query_result Utiliza Ejemplo:

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

No se ha proporcionado ninguna descripción para esta imagen

En [ ]:

¡Copiado!





# trama
de ultralytics.datos.explorador importa trazar_consulta_resultado
de PIL importar Imagen

plt = trazar_consulta_resultado(exp.pregunta_ai("muéstrame 10 imágenes que contengan exactamente 2 personas"))
Imagen.fromarray(plt)
# trazar
from ultralytics.data.explorer import gráfico_consulta_resultado
from PIL import Imagen

plt = plot_query_result(exp.ask_ai("muéstrame 10 imágenes que contengan exactamente 2 personas"))
Imagen.fromarray(plt)

3. Ejecuta consultas SQL en tu Conjunto de datos!¶

A veces puede que quieras investigar un determinado tipo de entradas en tu conjunto de datos. Para ello, el Explorador te permite ejecutar consultas SQL. Acepta cualquiera de los formatos:

Las consultas que empiecen por "WHERE" seleccionarán automáticamente todas las columnas. Esto puede considerarse como una consulta abreviada
También puedes escribir consultas completas en las que puedes especificar qué columnas seleccionar

Esto puede utilizarse para investigar el rendimiento del modelo y puntos de datos específicos. Por ejemplo:

Supongamos que tu modelo lucha con imágenes que tienen humanos y perros. Puedes escribir una consulta como ésta para seleccionar los puntos que tengan al menos 2 humanos Y al menos un perro.

Puedes combinar la consulta SQL y la búsqueda semántica para filtrar hasta un tipo específico de resultados Captura de pantalla 2024-01-06 a las 9 47 30 PM

En [ ]:

¡Copiado!

tabla = exp.sql_consulta("WHERE labels LIKE '%persona, persona%' AND labels LIKE '%dog%' LIMIT 10")
tabla
tabla = exp.sql_query("WHERE etiquetas LIKE '%persona, persona%' AND etiquetas LIKE '%perro%' LIMIT 10")
tabla

Al igual que la búsqueda por similitud, también tienes una utilidad para trazar directamente las consultas sql utilizando exp.plot_sql_query No se ha proporcionado ninguna descripción para esta imagen

En [ ]:

¡Copiado!

exp.plot_sql_consulta("WHERE labels LIKE '%persona, persona%' AND labels LIKE '%dog%' LIMIT 10", etiquetas=Verdadero)
exp.plot_sql_query("WHERE labels LIKE '%persona, persona%' AND labels LIKE '%perro%' LIMIT 10", labels=True)

3. Trabajar con incrustaciones Tabla (Avanzado)¶

El Explorador funciona en LanceDB internamente. Puedes acceder a esta tabla directamente, utilizando Explorer.table y ejecutar consultas sin procesar, introducir filtros previos y posteriores, etc.

En [ ]:

¡Copiado!

tabla = exp.tabla
tabla.esquema
tabla = exp.tabla
tabla.esquema

Ejecuta consultas sin procesar¶

La Búsqueda vectorial encuentra los vectores más cercanos de la base de datos. En un sistema de recomendación o en un motor de búsqueda, puede encontrar productos similares a los buscados. En LLM y otras aplicaciones de IA, cada punto de datos puede ser presentado por las incrustaciones generadas a partir de algunos modelos, devuelve las características más relevantes.

Una búsqueda en un espacio vectorial de alta dimensión, consiste en encontrar los K-Nearest-Neighbors (KNN) del vector de consulta.

Métrica En LanceDB, una Métrica es la forma de describir la distancia entre un par de vectores. Actualmente, admite las siguientes métricas:

L2
Coseno
Punto La búsqueda por similitud de Explorer utiliza L2 por defecto. Puedes ejecutar consultas en las tablas directamente, o utilizar el formato lance para crear utilidades personalizadas para gestionar conjuntos de datos. Más detalles sobre las operaciones de tablas LanceDB disponibles en la documentación

Captura de pantalla 2024-01-06 a las 9 48 35 PM

En [ ]:

¡Copiado!

dummy_img_embedding = [i para i en rango(256)]
tabla.buscar(incrustación_imagen_falsa).limitar(5).to_pandas()
dummy_img_embedding = [i for i in range(256)]
tabla.buscar(imagen_falsa_incrustada).limitar(5).a_pandas()

Interconversión a formatos de datos populares¶

En [ ]:

¡Copiado!

df = tabla.a_pandas()
pa_tabla = tabla.a_flecha()
df = tabla.a_pandas()
pa_tabla = tabla.a_flecha()

Trabajar con incrustaciones¶

Puedes acceder a la incrustación sin procesar desde la Tabla lancedb y analizarla. Las incrustaciones de la imagen se almacenan en la columna vector

En [ ]:

¡Copiado!

importa numpy como np

incrustaciones = tabla.a_pandas()["vector].tolist()
incrustaciones = np.matriz(incrustaciones)
importar numpy como np

incrustaciones = tabla.to_pandas()["vector"].tolist()
incrustaciones = np.array(incrustaciones)

Diagrama de dispersión¶

Uno de los pasos previos al análisis de las incrustaciones es trazarlas en el espacio 2D mediante la reducción de la dimensionalidad. Probemos con un ejemplo

Captura de pantalla 2024-01-06 at 9 48 58 PM

En [ ]:

¡Copiado!

¡!pip instala scikit-aprender --q
pip install scikit-learn --q

En [ ]:

¡Copiado!





%matplotlib en línea
importa numpy como np
de sklearn.descomposición importa PCA
importar matplotlib.pyplot como plt
desde mpl_toolkits.mplot3d importa Ejes3D

# Reduce las dimensiones mediante PCA a 3 componentes para su visualización en 3D
pca = PCA(n_componentes=3)
datos_reducidos = pca.fit_transform(incrustaciones)

# Crea un gráfico de dispersión 3D utilizando Axes3D de Matplotlib
fig = plt.figura(figsize=(8, 6))
ax = fig.add_subplot(111, proyección='3d')

# Diagrama de dispersión
ax.dispersión(datos_reducidos[:, 0], datos_reducidos[:, 1], datos_reducidos[:, 2], alfa=0.5)
ax.establecer_título('Diagrama de dispersión 3D de datos reducidos de 256 dimensiones (PCA)')
ax.set_xlabel('Componente 1)
ax.set_ylabel('Componente 2)
ax.set_zlabel('Componente 3)

plt.muestra()
%matplotlib en línea
importar numpy como np
from sklearn.decomposition import PCA
import matplotlib.pyplot como plt
from mpl_toolkits.mplot3d import Ejes3D

# Reduce las dimensiones mediante PCA a 3 componentes para su visualización en 3D
pca = PCA(n_componentes=3)
datos_reducidos = pca.fit_transform(incrustaciones)

# Crea un gráfico de dispersión 3D utilizando Axes3D de Matplotlib
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')

# Gráfico de dispersión
ax.dispersión(datos_reducidos[:, 0], datos_reducidos[:, 1], datos_reducidos[:, 2], alfa=0,5)
ax.set_title('Gráfico de dispersión 3D de datos reducidos de 256 dimensiones (PCA)')
ax.set_xlabel('Componente 1')
ax.set_ylabel('Componente 2')
ax.set_zlabel('Componente 3')

plt.mostrar()

4. Índice de similitud¶

He aquí un ejemplo sencillo de una operación realizada con la tabla de incrustaciones. El Explorador viene con un similarity_index funcionamiento-

Intenta estimar la similitud de cada punto de datos con el resto del conjunto de datos.
Para ello, cuenta cuántas imágenes incrustadas están más cerca que max_dist a la imagen actual en el espacio de incrustación generado, considerando top_k imágenes similares a la vez.

Para un conjunto de datos dado, modelo, max_dist & top_k se reutilizará el índice de similitud una vez generado. En caso de que tu conjunto de datos haya cambiado, o simplemente necesites regenerar el índice de similitud, puedes pasar force=True. Al igual que la búsqueda vectorial y SQL, también incluye una utilidad para trazarla directamente. Veamos primero el gráfico Captura de pantalla 2024-01-06 a las 9 49 36 PM

En [ ]:

¡Copiado!

exp.trazar_índice_similaridad(distancia_máx=0.2, top_k=0.01)
exp.trazar_índice_similitud(distancia_máx=0,2, top_k=0,01)

Ahora veamos el resultado de la operación

En [ ]:

¡Copiado!

importa numpy como np

sim_idx = exp.índice_de_similitud(distancia_máx=0.2, top_k=0.01, fuerza=Falso)
importar numpy como np

sim_idx = exp.similitud_índice(distancia_máx=0,2, top_k=0,01, force=False)

En [ ]:

¡Copiado!

sim_idx
sim_idx

Vamos a crear una consulta para ver qué puntos de datos tienen un recuento de similitudes superior a 30 y trazar imágenes similares a ellos.

En [ ]:

¡Copiado!

importa numpy como np

sim_count = np.matriz(sim_idx["recuento"])
sim_idx['archivo_im'][recuento_sim > 30]
importar numpy como np

sim_cuenta = np.array(sim_idx["cuenta"])
sim_idx['archivo_im'][sim_conteo > 30]

Deberías ver algo así No se ha proporcionado ninguna descripción para esta imagen

En [ ]:

¡Copiado!

exp.trazar_similar(idx=[7146, 14035]) # Utilizando las incrustaciones medias de 2 imágenes
exp.plot_similar(idx=[7146, 14035]) # Usando la media de las incrustaciones de 2 imágenes

Creado 2024-01-07, Actualizado 2024-01-25
Autores: RizwanMunawar (1), AyushExel (2), glenn-jocher (1)