İçeriğe geç

VOC Keşif Örneği

Ultralytics API not defterine hoş geldiniz. Bu not defteri, semantik arama, vektör arama ve SQL sorguları ile veri kümelerini keşfetmek için kullanılabilen kaynakları tanıtmaktadır.

Deneyin yolo explorer (Explorer API tarafından desteklenmektedir)

Kurulum ultralytics ve çalıştırın yolo explorer terminalinizde özel sorgular ve anlamsal arama yapmak için tarayıcınızda çalıştırın.

Topluluk Notu ⚠️

İtibarıyla ultralytics>=8.3.10Ultralytics desteği artık kullanılmamaktadır. Benzer (ve genişletilmiş) veri kümesi keşif özellikleri şurada mevcuttur: Ultralytics HUB.

Kurulum

Kurulum ultralytics ve gerekli olan bağımlılıklar, ardından yazılım ve donanımı kontrol edin.

!uv pip install ultralytics[explorer] openai
yolo checks

Veri kümenizdeki benzer veri noktalarını ve bunların gömme uzayındaki mesafesini bulmak için vektör benzerliği aramasının gücünden yararlanın. Verilen veri kümesi-model çifti için basitçe bir gömme tablosu oluşturun. Bu yalnızca bir kez gereklidir ve otomatik olarak yeniden kullanılır.

exp = Explorer("VOC.yaml", model="yolo11n.pt")
exp.create_embeddings_table()

Gömme tablosu oluşturulduktan sonra, aşağıdaki yollardan herhangi biriyle anlamsal arama yapabilirsiniz:

  • Veri kümesindeki belirli bir indeks/indeks listesinde, örneğin, exp.get_similar(idx=[1, 10], limit=10)
  • Veri kümesinde olmayan herhangi bir resimde / resim listesinde - exp.get_similar(img=["path/to/img1", "path/to/img2"], limit=10) Birden fazla girdi olması durumunda, bunların gömülmelerinin toplamı kullanılır.

Girişe en benzer veri noktalarının sınırlı sayıda bulunduğu bir pandas DataFrame ile birlikte, gömme uzayındaki mesafeleri de elde edersiniz. Bu veri kümesini daha ileri filtreleme işlemleri gerçekleştirmek için kullanabilirsiniz.

Benzerlik arama tablosu

# Search dataset by index
similar = exp.get_similar(idx=1, limit=10)
similar.head()

Ayrıca benzer örnekleri doğrudan kullanarak çizebilirsiniz plot_similar util

Benzerlik arama resmi 1

exp.plot_similar(idx=6500, limit=20)
exp.plot_similar(idx=[100, 101], limit=10)  # Can also pass list of idxs or imgs

exp.plot_similar(img="https://ultralytics.com/images/bus.jpg", limit=10, labels=False)  # Can also pass external images

Benzerlik arama resmi 2

AI'ya sor: Doğal dil ile arama veya filtreleme yapın

Explorer nesnesine görmek istediğiniz veri noktalarının türünü belirtebilirsiniz ve nesne bu sonuçları içeren bir DataFrame döndürmeye çalışacaktır. LLM'ler tarafından desteklenildiği için her zaman doğru sonuçları vermez. Bu durumda, None.

AI tablosu sor

df = exp.ask_ai("show me images containing more than 10 objects with at least 2 persons")
df.head(5)

Bu sonuçları grafik olarak göstermek için plot_query_result yardımcı program. Örnek:

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

AI'ya sor 1. resim

# plot
from PIL import Image
from ultralytics.data.explorer import plot_query_result

plt = plot_query_result(exp.ask_ai("show me 10 images containing exactly 2 persons"))
Image.fromarray(plt)

Veri Setinizde SQL Sorguları Çalıştırın

Bazen veri kümenizde belirli girdileri incelemek isteyebilirsiniz. Bunun için Explorer, SQL sorguları yürütmenize olanak tanır. Aşağıdaki formatlardan herhangi birini kabul eder:

  • "WHERE" ile başlayan sorgular otomatik olarak tüm sütunları seçer. Bu, kısayol sorgu olarak düşünülebilir.
  • Seçilecek sütunları belirtebileceğiniz tam sorgular da yazabilirsiniz.

Bu, model performansını ve belirli veri noktalarını araştırmak için kullanılabilir. Örneğin:

  • diyelim ki modeliniz insanlar ve köpeklerin olduğu görüntülerde zorlanıyor. En az 2 insan VE en az bir köpek içeren noktaları seçmek için şöyle bir sorgu yazabilirsiniz.

Belirli sonuç türlerine filtre uygulamak için SQL sorgusunu ve semantik aramayı birleştirebilirsiniz.

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

SQL sorguları tablosu

table = exp.sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10")
print(table)

Tıpkı benzerlik araması gibi, sql sorgularını doğrudan çizmek için de bir araç elde edersiniz. exp.plot_sql_query

SQL sorguları resim 1

exp.plot_sql_query("WHERE labels LIKE '%person, person%' AND labels LIKE '%dog%' LIMIT 10", labels=True)

Gömme Tablosu ile Çalışmak (Gelişmiş)

Explorer üzerinde çalışır LanceDB tabloları dahili olarak kullanır. Bu tabloya doğrudan erişebilirsiniz, kullanarak Explorer.table nesnesi ve ham sorgular çalıştırın, ön ve son filtreleri aşağı itin vb.

table = exp.table
print(table.schema)

Ham sorguları çalıştırın¶

Vektör Araması, veritabanından en yakın vektörleri bulur. Bir öneri sistemi veya arama motorunda, aradığınız ürüne benzer ürünleri bulabilirsiniz. LLM ve diğer yapay zeka uygulamalarında, her veri noktası bazı modellerden oluşturulan gömülerle sunulabilir, bu da en alakalı özellikleri döndürür.

Yüksek boyutlu vektör uzayında bir arama, sorgu vektörünün K-En Yakın Komşularını (KNN) bulmaktır.

LanceDB'de Metrik, bir vektör çifti arasındaki mesafeyi tanımlama yoludur. Şu anda aşağıdaki metrikleri desteklemektedir:

  • L2
  • Kosinüs
  • Dot Explorer'ın benzerlik araması varsayılan olarak L2'yi kullanır. Tablolarda doğrudan sorgular çalıştırabilir veya veri kümelerini yönetmek için özel araçlar oluşturmak üzere lance formatını kullanabilirsiniz. Mevcut LanceDB tablo işlemlerine ilişkin daha fazla ayrıntı için belgelere bakın

Ham-sorgu-tablosu

dummy_img_embedding = [i for i in range(256)]
table.search(dummy_img_embedding).limit(5).to_pandas()
df = table.to_pandas()
pa_table = table.to_arrow()

Gömme İşlemleriyle Çalışma

lancedb Tablosundan ham gömme verisine erişebilir ve analiz edebilirsiniz. Görüntü gömmeleri sütunda saklanır vector

import numpy as np

embeddings = table.to_pandas()["vector"].tolist()
embeddings = np.array(embeddings)

Saçılım grafiği

Gömme analizindeki ön adımlardan biri, boyut azaltma yoluyla bunları 2B uzayda çizerek yapmaktır. Bir örnek deneyelim

Dağılım Grafiği Örneği

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA  # pip install scikit-learn

# Reduce dimensions using PCA to 3 components for visualization in 3D
pca = PCA(n_components=3)
reduced_data = pca.fit_transform(embeddings)

# Create a 3D scatter plot using Matplotlib's Axes3D
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection="3d")

# Scatter plot
ax.scatter(reduced_data[:, 0], reduced_data[:, 1], reduced_data[:, 2], alpha=0.5)
ax.set_title("3D Scatter Plot of Reduced 256-Dimensional Data (PCA)")
ax.set_xlabel("Component 1")
ax.set_ylabel("Component 2")
ax.set_zlabel("Component 3")

plt.show()

Benzerlik Endeksi

İşte gömme tablosu tarafından desteklenen bir işlemin basit bir örneği. Explorer ile birlikte gelir similarity_index işlem-

  • Her bir veri noktasının veri kümesinin geri kalanıyla ne kadar benzer olduğunu tahmin etmeye çalışır.
  • Bunu, oluşturulan gömme alanında mevcut görüntüye max_dist'ten daha yakın olan kaç tane görüntü gömmesinin olduğunu sayarak yapar ve aynı anda top_k benzer görüntüleri dikkate alır.

Belirli bir veri kümesi, model için, max_dist & top_k benzerlik indeksi oluşturulduktan sonra yeniden kullanılacaktır. Veri kümeniz değiştiyse veya sadece benzerlik indeksini yeniden oluşturmanız gerekiyorsa, şunu geçirebilirsiniz force=True. Vektör ve SQL aramasına benzer şekilde, bu da doğrudan çizmek için bir araçla birlikte gelir. Bir bakalım:

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01)
exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Benzerlik Endeksi

önce grafikte

exp.plot_similarity_index(max_dist=0.2, top_k=0.01)

Şimdi işlemin çıktısına bakalım

sim_idx = exp.similarity_index(max_dist=0.2, top_k=0.01, force=False)

sim_idx

30'dan fazla benzerlik sayısına sahip veri noktalarını görmek ve onlara benzer görüntüleri çizmek için bir sorgu oluşturalım.

import numpy as np

sim_count = np.array(sim_idx["count"])
sim_idx["im_file"][sim_count > 30]

Bunun gibi bir şey görmelisiniz

benzerlik-indeksi-resmi

exp.plot_similar(idx=[7146, 14035])  # Using avg embeddings of 2 images


📅 11 ay önce oluşturuldu ✏️ 1 gün önce güncellendi
glenn-jocherRizwanMunawarpderrengerultralyticsonuralpszrpicsalex

Yorumlar