VOC Keşif Örneği
Ultralytics Explorer API not defterine hoş geldiniz. Bu not defteri, veri setlerini anlamsal arama, vektör arama ve SQL sorguları ile keşfetmek için mevcut kaynakları tanıtır.
Deneyin yolo explorer (Explorer API tarafından desteklenmektedir)
Kurulum ultralytics ve çalıştırın yolo explorer tarayıcınızda özel sorgular ve anlamsal arama çalıştırmak için terminalinizde.
Topluluk Notu ⚠️
İtibarıyla ultralytics>=8.3.10, Ultralytics Explorer desteği kullanımdan kaldırılmıştır. Benzer (ve genişletilmiş) veri seti keşif özellikleri şurada mevcuttur Ultralytics Platform.
Kurulum
Kurulum ultralytics ve gerekli bağımlılıklar, ardından yazılım ve donanımı kontrol edin.
!uv pip install ultralytics[explorer] openai
yolo checks
Benzerlik Arama
Veri kümenizdeki benzer veri noktalarını ve bunların gömme uzayındaki mesafesini bulmak için vektör benzerliği aramasının gücünden yararlanın. Verilen veri kümesi-model çifti için basitçe bir gömme tablosu oluşturun. Bu yalnızca bir kez gereklidir ve otomatik olarak yeniden kullanılır.
exp = Explorer("VOC.yaml", model="yolo26n.pt")
exp.create_embeddings_table()
Gömme tablosu oluşturulduktan sonra, anlamsal aramayı aşağıdaki yollardan herhangi biriyle çalıştırabilirsiniz:
- Veri setindeki belirli bir dizin/dizin listesi üzerinde, örn.,
exp.get_similar(idx=[1, 10], limit=10) - Veri kümesinde olmayan herhangi bir resimde / resim listesinde - exp.get_similar(img=["path/to/img1", "path/to/img2"], limit=10) Birden fazla girdi olması durumunda, bunların gömülmelerinin toplamı kullanılır.
Girişe en benzer veri noktalarının sınırlı sayısını ve gömme uzayındaki mesafelerini içeren bir Pandas DataFrame elde edersiniz. Bu veri setini daha fazla filtreleme yapmak için kullanabilirsiniz.

# Search dataset by index
similar = exp.get_similar(idx=1, limit=10)
similar.head()
Benzer örnekleri doğrudan kullanarak çizebilirsiniz plot_similar util

exp.plot_similar(idx=6500, limit=20)
exp.plot_similar(idx=[100, 101], limit=10) # Can also pass list of idxs or imgs
exp.plot_similar(img="https://ultralytics.com/images/bus.jpg", limit=10, labels=False) # Can also pass external images

YZ'ye Sor: Doğal Dil ile Ara veya Filtrele
Explorer nesnesine görmek istediğiniz veri noktalarının türünü sorabilirsiniz ve o sonuçları içeren bir DataFrame döndürmeye çalışacaktır. LLM'ler tarafından desteklendiği için her zaman doğru sonuç vermeyebilir. Bu durumda, şunu döndürecektir: None.

df = exp.ask_ai("show me images containing more than 10 objects with at least 2 persons")
df.head(5)
Bu sonuçları çizmek için şunları kullanabilirsiniz: plot_query_result yardımcı programını. Örnek:
plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

# plot
from PIL import Image
from ultralytics.data.explorer import plot_query_result
plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)
Veri Setiniz Üzerinde SQL Sorguları Çalıştırın
Bazen veri setinizdeki belirli girişleri incelemek isteyebilirsiniz. Bunun için Explorer, SQL sorguları yürütmenize olanak tanır. Aşağıdaki formatlardan birini kabul eder:
- "WHERE" ile başlayan sorgular tüm sütunları otomatik olarak seçecektir. Bu, kısa bir sorgu olarak düşünülebilir.
- Ayrıca, hangi sütunları seçeceğinizi belirtebileceğiniz tam sorgular da yazabilirsiniz.
Bu, model performansını ve belirli veri noktalarını araştırmak için kullanılabilir. Örneğin:
- diyelim ki modeliniz insanlar ve köpeklerin olduğu görüntülerde zorlanıyor. En az 2 insan VE en az bir köpek içeren noktaları seçmek için şöyle bir sorgu yazabilirsiniz.
Belirli sonuç türlerine filtre uygulamak için SQL sorgusunu ve semantik aramayı birleştirebilirsiniz.
table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
print(table)
Tıpkı benzerlik araması gibi, sql sorgularını doğrudan çizmek için de bir araç elde edersiniz. exp.plot_sql_query

exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)
Gömme Tablosu ile Çalışmak (Gelişmiş)
Explorer üzerinde çalışır LanceDB tabloları dahili olarak kullanır. Bu tabloya doğrudan erişebilirsiniz, kullanarak Explorer.table nesnesi ve ham sorgular çalıştırın, ön ve son filtreleri aşağı itin vb.
table = exp.table
print(table.schema)
Ham sorguları çalıştırın¶
Vektör Araması, veritabanından en yakın vektörleri bulur. Bir öneri sistemi veya arama motorunda, aradığınız ürüne benzer ürünleri bulabilirsiniz. LLM ve diğer yapay zeka uygulamalarında, her veri noktası bazı modellerden oluşturulan gömülerle sunulabilir, bu da en alakalı özellikleri döndürür.
Yüksek boyutlu vektör uzayında bir arama, sorgu vektörünün K-En Yakın Komşularını (KNN) bulmaktır.
LanceDB'de Metrik, bir vektör çifti arasındaki mesafeyi tanımlama yoludur. Şu anda aşağıdaki metrikleri desteklemektedir:
- L2
- Kosinüs
- Dot Explorer'ın benzerlik araması varsayılan olarak L2'yi kullanır. Tablolarda doğrudan sorgular çalıştırabilir veya veri kümelerini yönetmek için özel araçlar oluşturmak üzere lance formatını kullanabilirsiniz. Mevcut LanceDB tablo işlemlerine ilişkin daha fazla ayrıntı için belgelere bakın

dummy_img_embedding = [i for i in range(256)]
table.search(dummy_img_embedding).limit(5).to_pandas()
Popüler veri formatlarına karşılıklı dönüştürme
df = table.to_pandas()
pa_table = table.to_arrow()
Gömme İşlemleriyle Çalışma
lancedb Tablosundan ham gömme verisine erişebilir ve analiz edebilirsiniz. Görüntü gömmeleri sütunda saklanır vector
import numpy as np
embeddings = table.to_pandas()["vector"].tolist()
embeddings = np.array(embeddings)
Saçılım grafiği
Gömme analizindeki ön adımlardan biri, boyut azaltma yoluyla bunları 2B uzayda çizerek yapmaktır. Bir örnek deneyelim

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA # pip install scikit-learn
# Reduce dimensions using PCA to 3 components for visualization in 3D
pca = PCA(n_components=3)
reduced_data = pca.fit_transform(embeddings)
# Create a 3D scatter plot using Matplotlib's Axes3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection="3d")
# Scatter plot
ax.scatter(reduced_data[:, 0], reduced_data[:, 1], reduced_data[:, 2], alpha=0.5)
ax.set_title("3D Scatter Plot of Reduced 256-Dimensional Data (PCA)")
ax.set_xlabel("Component 1")
ax.set_ylabel("Component 2")
ax.set_zlabel("Component 3")
plt.show()
Benzerlik Endeksi
İşte gömme tablosu tarafından desteklenen bir işlemin basit bir örneği. Explorer ile birlikte gelir similarity_index işlem-
- Her bir veri noktasının veri kümesinin geri kalanıyla ne kadar benzer olduğunu tahmin etmeye çalışır.
- Bunu, oluşturulan gömme alanında mevcut görüntüye max_dist'ten daha yakın olan kaç tane görüntü gömmesinin olduğunu sayarak yapar ve aynı anda top_k benzer görüntüleri dikkate alır.
Belirli bir veri kümesi, model için, max_dist & top_k benzerlik indeksi oluşturulduktan sonra yeniden kullanılacaktır. Veri kümeniz değiştiyse veya sadece benzerlik indeksini yeniden oluşturmanız gerekiyorsa, şunu geçirebilirsiniz force=TrueVektör ve SQL aramasına benzer şekilde, bu da doğrudan çizim yapmak için bir yardımcı araçla birlikte gelir.
sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01)
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Önce grafiğe bakalım
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)
Şimdi işlemin çıktısına bakalım
sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01, force=False)
sim_idx
30'dan fazla benzerlik sayısına sahip veri noktalarını görmek ve onlara benzer görüntüleri çizmek için bir sorgu oluşturalım.
import numpy as np
sim_count = np.array(sim_idx["count"])
sim_idx["im_file"][sim_count > 30]
Bunun gibi bir şey görmelisiniz

exp.plot_similar(idx=[7146, 14035]) # Using avg embeddings of 2 images
