VOC Keşif Örneği

Ultralytics Explorer API not defterine hoş geldiniz. Bu not defteri, veri setlerini anlamsal arama, vektör arama ve SQL sorguları ile keşfetmek için mevcut kaynakları tanıtır.

Deneyin yolo explorer (Explorer API tarafından desteklenmektedir)

Kurulum ultralytics ve çalıştırın yolo explorer tarayıcınızda özel sorgular ve anlamsal arama çalıştırmak için terminalinizde.

Topluluk Notu ⚠️

İtibarıyla ultralytics>=8.3.10, Ultralytics Explorer desteği kullanımdan kaldırılmıştır. Benzer (ve genişletilmiş) veri seti keşif özellikleri şurada mevcuttur Ultralytics Platform.

Kurulum

Kurulum ultralytics ve gerekli bağımlılıklar, ardından yazılım ve donanımı kontrol edin.

!uv pip install ultralytics[explorer] openai
yolo checks

Benzerlik Arama

Veri kümenizdeki benzer veri noktalarını ve bunların gömme uzayındaki mesafesini bulmak için vektör benzerliği aramasının gücünden yararlanın. Verilen veri kümesi-model çifti için basitçe bir gömme tablosu oluşturun. Bu yalnızca bir kez gereklidir ve otomatik olarak yeniden kullanılır.

exp = Explorer("VOC.yaml", model="yolo26n.pt")
exp.create_embeddings_table()

Gömme tablosu oluşturulduktan sonra, anlamsal aramayı aşağıdaki yollardan herhangi biriyle çalıştırabilirsiniz:

Veri setindeki belirli bir dizin/dizin listesi üzerinde, örn., exp.get_similar(idx=[1, 10], limit=10)
Veri kümesinde olmayan herhangi bir resimde / resim listesinde - exp.get_similar(img=["path/to/img1", "path/to/img2"], limit=10) Birden fazla girdi olması durumunda, bunların gömülmelerinin toplamı kullanılır.

Girişe en benzer veri noktalarının sınırlı sayısını ve gömme uzayındaki mesafelerini içeren bir Pandas DataFrame elde edersiniz. Bu veri setini daha fazla filtreleme yapmak için kullanabilirsiniz.

# Search dataset by index
similar = exp.get_similar(idx=1, limit=10)
similar.head()

Benzer örnekleri doğrudan kullanarak çizebilirsiniz plot_similar util

exp.plot_similar(idx=6500, limit=20)
exp.plot_similar(idx=[100, 101], limit=10)  # Can also pass list of idxs or imgs

exp.plot_similar(img="https://ultralytics.com/images/bus.jpg", limit=10, labels=False)  # Can also pass external images

YZ'ye Sor: Doğal Dil ile Ara veya Filtrele

Explorer nesnesine görmek istediğiniz veri noktalarının türünü sorabilirsiniz ve o sonuçları içeren bir DataFrame döndürmeye çalışacaktır. LLM'ler tarafından desteklendiği için her zaman doğru sonuç vermeyebilir. Bu durumda, şunu döndürecektir: None.

Ultralytics Explorer Ask AI doğal dil sorgu sonuçları

df = exp.ask_ai("show me images containing more than 10 objects with at least 2 persons")
df.head(5)

Bu sonuçları çizmek için şunları kullanabilirsiniz: plot_query_result yardımcı programını. Örnek:

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Eşleşen görüntüleri gösteren Ask AI sorgu sonucu

# plot
from PIL import Image
from ultralytics.data.explorer import plot_query_result

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Veri Setiniz Üzerinde SQL Sorguları Çalıştırın

Bazen veri setinizdeki belirli girişleri incelemek isteyebilirsiniz. Bunun için Explorer, SQL sorguları yürütmenize olanak tanır. Aşağıdaki formatlardan birini kabul eder:

"WHERE" ile başlayan sorgular tüm sütunları otomatik olarak seçecektir. Bu, kısa bir sorgu olarak düşünülebilir.
Ayrıca, hangi sütunları seçeceğinizi belirtebileceğiniz tam sorgular da yazabilirsiniz.

Bu, model performansını ve belirli veri noktalarını araştırmak için kullanılabilir. Örneğin:

diyelim ki modeliniz insanlar ve köpeklerin olduğu görüntülerde zorlanıyor. En az 2 insan VE en az bir köpek içeren noktaları seçmek için şöyle bir sorgu yazabilirsiniz.

Belirli sonuç türlerine filtre uygulamak için SQL sorgusunu ve semantik aramayı birleştirebilirsiniz.

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

Explorer SQL sorgu sonuçları tablosu

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
print(table)

Tıpkı benzerlik araması gibi, sql sorgularını doğrudan çizmek için de bir araç elde edersiniz. exp.plot_sql_query

SQL sorgusu eşleşen görüntüler görselleştirmesi

exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

Gömme Tablosu ile Çalışmak (Gelişmiş)

Explorer üzerinde çalışır LanceDB tabloları dahili olarak kullanır. Bu tabloya doğrudan erişebilirsiniz, kullanarak Explorer.table nesnesi ve ham sorgular çalıştırın, ön ve son filtreleri aşağı itin vb.

table = exp.table
print(table.schema)

Ham sorguları çalıştırın¶

Vektör Araması, veritabanından en yakın vektörleri bulur. Bir öneri sistemi veya arama motorunda, aradığınız ürüne benzer ürünleri bulabilirsiniz. LLM ve diğer yapay zeka uygulamalarında, her veri noktası bazı modellerden oluşturulan gömülerle sunulabilir, bu da en alakalı özellikleri döndürür.

Yüksek boyutlu vektör uzayında bir arama, sorgu vektörünün K-En Yakın Komşularını (KNN) bulmaktır.

LanceDB'de Metrik, bir vektör çifti arasındaki mesafeyi tanımlama yoludur. Şu anda aşağıdaki metrikleri desteklemektedir:

L2
Kosinüs
Dot Explorer'ın benzerlik araması varsayılan olarak L2'yi kullanır. Tablolarda doğrudan sorgular çalıştırabilir veya veri kümelerini yönetmek için özel araçlar oluşturmak üzere lance formatını kullanabilirsiniz. Mevcut LanceDB tablo işlemlerine ilişkin daha fazla ayrıntı için belgelere bakın

Explorer ham SQL sorguları sonuç tablosu

dummy_img_embedding = [i for i in range(256)]
table.search(dummy_img_embedding).limit(5).to_pandas()

Popüler veri formatlarına karşılıklı dönüştürme

df = table.to_pandas()
pa_table = table.to_arrow()

Gömme İşlemleriyle Çalışma

lancedb Tablosundan ham gömme verisine erişebilir ve analiz edebilirsiniz. Görüntü gömmeleri sütunda saklanır vector

import numpy as np

embeddings = table.to_pandas()["vector"].tolist()
embeddings = np.array(embeddings)

Saçılım grafiği

Gömme analizindeki ön adımlardan biri, boyut azaltma yoluyla bunları 2B uzayda çizerek yapmaktır. Bir örnek deneyelim

Explorer embedding'ler saçılım grafiği görselleştirmesi

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA  # pip install scikit-learn

# Reduce dimensions using PCA to 3 components for visualization in 3D
pca = PCA(n_components=3)
reduced_data = pca.fit_transform(embeddings)

# Create a 3D scatter plot using Matplotlib's Axes3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection="3d")

# Scatter plot
ax.scatter(reduced_data[:, 0], reduced_data[:, 1], reduced_data[:, 2], alpha=0.5)
ax.set_title("3D Scatter Plot of Reduced 256-Dimensional Data (PCA)")
ax.set_xlabel("Component 1")
ax.set_ylabel("Component 2")
ax.set_zlabel("Component 3")

plt.show()

Benzerlik Endeksi

İşte gömme tablosu tarafından desteklenen bir işlemin basit bir örneği. Explorer ile birlikte gelir similarity_index işlem-

Her bir veri noktasının veri kümesinin geri kalanıyla ne kadar benzer olduğunu tahmin etmeye çalışır.
Bunu, oluşturulan gömme alanında mevcut görüntüye max_dist'ten daha yakın olan kaç tane görüntü gömmesinin olduğunu sayarak yapar ve aynı anda top_k benzer görüntüleri dikkate alır.

Belirli bir veri kümesi, model için, max_dist & top_k benzerlik indeksi oluşturulduktan sonra yeniden kullanılacaktır. Veri kümeniz değiştiyse veya sadece benzerlik indeksini yeniden oluşturmanız gerekiyorsa, şunu geçirebilirsiniz force=TrueVektör ve SQL aramasına benzer şekilde, bu da doğrudan çizim yapmak için bir yardımcı araçla birlikte gelir.

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01)
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Veri kümesi benzerlik indeksi analizi

Önce grafiğe bakalım

exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Şimdi işlemin çıktısına bakalım

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01, force=False)

sim_idx

30'dan fazla benzerlik sayısına sahip veri noktalarını görmek ve onlara benzer görüntüleri çizmek için bir sorgu oluşturalım.

import numpy as np

sim_count = np.array(sim_idx["count"])
sim_idx["im_file"][sim_count > 30]

Bunun gibi bir şey görmelisiniz

Veri kümesi analizi için benzerlik indeksi görselleştirmesi

exp.plot_similar(idx=[7146, 14035])  # Using avg embeddings of 2 images

📅 1 yıl önce oluşturuldu ✏️ 1 ay önce güncellendi