İçeriğe geç

SAM 3: Kavramlarla Her Şeyi Segment Et

Şimdi Ultralytics'te Mevcut

SAM 3, Ultralytics paketine tamamen entegre edilmiştir, itibarıyla sürüm 8.3.237 (PR #22897). Şunu kullanarak kurun veya yükseltin: pip install -U ultralytics metin tabanlı kavram segmentasyonu, görüntü örnek istemleri ve video track etme dahil tüm SAM 3 özelliklerine erişmek için.

SAM 3'e Genel Bakış

SAM 3 (Segment Anything Model 3), Meta'nın İstemlenebilir Kavram Segmentasyonu (PCS) için yayınladığı temel modelidir. SAM 2 üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini algılamak, segmentlere ayırmak ve izlemek. İstem başına tek nesneleri segmentlere ayıran önceki SAM sürümlerinden farklı olarak, SAM 3, modern örnek segmentasyonunda açık kelime dağarcığı hedefleriyle uyumlu olarak, görüntülerde veya videolarda herhangi bir yerde görünen bir kavramın her oluşumunu bulabilir ve segmentlere ayırabilir.

SAM 3 artık tamamen entegre edilmiştir ultralytics paketine, metin istemleri, görüntü örnek istemleri ve video track etme yetenekleriyle kavram segmentasyonu için yerel destek sağlayarak.

Genel Bakış

SAM 3, etkileşimli görsel segmentasyon için SAM 2'nin yeteneklerini korurken ve geliştirirken, İstenebilir Konsept Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı elde ediyor. Model, açık kelime dağarcığı segmentasyonunda mükemmeldir ve kullanıcıların basit isim öbekleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek resimlerini sağlayarak kavramları belirtmelerine olanak tanır. Bu yetenekler, kolaylaştırılmış predict ve track iş akışlarına dayanan üretime hazır işlem hatlarını tamamlar.

SAM 3 Segmentasyonu

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?

PCS görevi bir kavram istemini girdi olarak alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:

  • Metin: Sıfır atışlı öğrenmeye benzer şekilde, "kırmızı elma" veya "şapka takan kişi" gibi basit isim öbekleri
  • Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin (pozitif veya negatif) etrafındaki sınırlayıcı kutular
  • Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada

Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini bölümlere ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.

Temel Performans Metrikleri

MetrikSAM 3 Achievement
LVIS Sıfır Atış Maske AP47.0 (önceki en iyi 38.5'e karşı, +%22 iyileşme)
SA-Co KıyaslamasıMevcut sistemlerden 2 kat daha iyi
Çıkarım Hızı (H200 GPU)100'den fazla detect edilmiş nesne ile görüntü başına 30 ms
Video Performansı~5 eşzamanlı nesne için neredeyse gerçek zamanlı
MOSEv2 VOS Benchmark60.1 J&F (SAM 2.1'e göre +%25.5, önceki SOTA'ya göre +%17)
İnteraktif İyileştirme3 örnek istemden sonra +18.6 CGF1 iyileşme
İnsan Performans BoşluğuSA-Co/Gold üzerinde tahmin edilen alt sınırın %88'ine ulaşıyor

Model metrikleri ve üretimdeki ödünleşimler hakkında bağlam için bkz. model değerlendirme içgörüleri ve YOLO performans metrikleri.

Mimari

SAM 3, bir Algı Kodlayıcı (PE) vizyonu backbone'unu paylaşan bir detect ve track modülünden oluşur. Bu ayrıştırılmış tasarım, hem görüntü düzeyinde algılama hem de video düzeyinde izlemeyi mümkün kılarken görev çakışmalarını önler ve Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüz sunar.

Temel Bileşenler

  • Dedektör: Görüntü seviyesinde konsept algılama için DETR tabanlı mimari

    • İsim öbeği istemleri için metin kodlayıcı
    • Görüntü tabanlı istemler için örnek kodlayıcı
    • İstemlerdeki görüntü özelliklerini koşullandırmak için füzyon kodlayıcı
    • Tanımayı ("ne") yerelleştirmeden ("nerede") ayıran yeni varlık başlığı
    • Örnek segmentasyon maskeleri oluşturmak için maske başlığı
  • İzleyici (Tracker): SAM 2'den devralınan bellek tabanlı video segmentasyonu

    • İstem kodlayıcı, maske kod çözücü, bellek kodlayıcı
    • Çerçeveler arası nesne görünümünü depolamak için bellek bankası
    • Çoklu nesne ayarlarında bir Kalman filtresi gibi tekniklerle desteklenen zamansal belirsizlik giderme
  • Varlık Belirteci: Hedef kavramın görüntüde/karede mevcut olup olmadığını tahmin eden, tanımayı yerelleştirmeden ayırarak detection'ı iyileştiren öğrenilmiş bir global belirteç.

SAM 3 Mimarisi

Temel Yenilikler

  1. Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık kafası, kavram varlığını global olarak tahmin ederken, öneri sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
  2. Birleşik Konsept ve Görsel İstemler: Tek bir modelde hem PCS (kavram istemleri) hem de PVS'yi (SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
  3. Etkileşimli Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapar.
  4. Zamansal Belirsizliği Giderme: Video içindeki tıkanıklıkları, kalabalık sahneleri ve izleme hatalarını ele almak için masklet detect skorlarını ve periyodik yeniden istemleri kullanır ve örnek segmentasyonu ve izleme en iyi uygulamalarıyla uyum sağlar.

SA-Co Veri Kümesi

SAM 3, Segment Anything with Concepts (SA-Co) üzerinde eğitilmiştir; bu, Meta'nın COCO ve LVIS gibi yaygın kıyaslamaların ötesine geçen, bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesidir.

Eğitim Verileri

Veri Kümesi BileşeniAçıklamaÖlçek
SA-Co/HQ4 aşamalı veri motorundan elde edilen yüksek kaliteli, insan tarafından açıklanmış görüntü verileri5.2M resim, 4M benzersiz isim öbeği
SA-Co/SYNİnsan müdahalesi olmaksızın yapay zeka tarafından etiketlenmiş sentetik veri kümesi38M isim öbeği, 1.4B maske
SA-Co/EXTZor negatiflerle zenginleştirilmiş 15 harici veri kümesiKaynağa göre değişir
SA-Co/VIDEOZamansal track ile video açıklamaları52.5K video, 24.8K benzersiz isim öbeği

Kıyaslama Verileri

SA-Co değerlendirme kıstası, 126 bin resim ve video üzerinde 214 bin benzersiz ifade içererek, mevcut kıstaslardan 50 kat daha fazla kavram sunar. İçeriği:

  • SA-Co/Gold: İnsan performansı sınırlarını ölçmek için üçlü olarak açıklanmış 7 alan
  • SA-Co/Silver: Tek insan açıklamalı 10 alan
  • SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri kümesi
  • SA-Co/VEval: 3 alanlı (SA-V, YT-Temporal-1B, SmartGlasses) video kıyaslama

Veri Motoru İnovasyonları

SAM 3'ün ölçeklenebilir insan ve model döngüsündeki veri motoru, aşağıdakiler aracılığıyla 2 kat daha fazla açıklama verimi elde ediyor:

  1. AI Açıklayıcılar: Llama tabanlı modeller, zor negatifler de dahil olmak üzere çeşitli isim öbekleri önerir
  2. AI Doğrulayıcılar: İnce ayarlı çok modlu LLM'ler, insan performansına yakın bir düzeyde maske kalitesini ve eksiksizliğini doğrular
  3. Aktif Madencilik: İnsan çabasını, yapay zekanın zorlandığı zorlu başarısızlık durumlarına odaklar
  4. Ontoloji Odaklı: Kavram kapsamı için Wikidata üzerinde temellendirilmiş geniş bir ontolojiden yararlanır

Kurulum

SAM 3, Ultralytics sürüm 8.3.237 ve sonraki sürümlerinde mevcuttur. Şunu kullanarak kurun veya yükseltin:

pip install -U ultralytics

SAM 3 Model Ağırlıkları Gerekli

Diğer Ultralytics modellerinden farklı olarak, SAM 3 ağırlıkları (sam3.pt) otomatik olarak indirilmez. Model ağırlıklarını şuradan manuel olarak indirmeniz gerekir: resmi SAM 3 deposu SAM 3'ü kullanmadan önce. İndirilen sam3.pt dosyayı çalışma dizininize yerleştirin veya modeli yüklerken tam yolu belirtin.

SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük

SAM 3 hem İstem Tabanlı Kavram Segmentasyonu (PCS) hem de İstem Tabanlı Görsel Segmentasyon (PVS) görevlerini farklı tahminci arayüzleri aracılığıyla destekler:

Desteklenen Görevler ve Modeller

Görev Türüİstem TürleriÇıktı
Konsept Segmentasyonu (PCS)Metin (isim öbekleri), resim örnekleriKavrama uyan tüm örnekler
Görsel segmentasyonu (PVS)Noktalar, kutular, maskelerTek nesne örneği (SAM 2 stili)
İnteraktif İyileştirmeÖrnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırınİyileştirilmiş doğrulukla geliştirilmiş segmentasyon

Konsept Segmentasyonu Örnekleri

Metin İstekleriyle Segmentasyon

Metin Tabanlı Konsept Segmentasyonu

Bir kavramın tüm örneklerini metin açıklaması kullanarak bulun ve segment edin. Metin istemleri şunları gerektirir: SAM3SemanticPredictor arayüzü.

from ultralytics.models.sam import SAM3SemanticPredictor

# Initialize predictor with configuration
overrides = dict(
    conf=0.25,
    task="segment",
    mode="predict",
    model="sam3.pt",
    half=True,  # Use FP16 for faster inference
)
predictor = SAM3SemanticPredictor(overrides=overrides)

# Set image once for multiple queries
predictor.set_image("path/to/image.jpg")

# Query with multiple text prompts
results = predictor(text=["person", "bus", "glasses"], save=True)

# Works with descriptive phrases
results = predictor(text=["person with red cloth", "person with blue cloth"], save=True)

# Query with a single concept
results = predictor(text=["a person"], save=True)

Resim Örnekleriyle Segmentlere Ayırın

Örnek Tabanlı Görüntü Bölütleme

Tüm benzer örnekleri bulmak için sınırlayıcı kutuları görsel istemler olarak kullanın. Bu aynı zamanda şunları da gerektirir: SAM3SemanticPredictor kavram tabanlı eşleştirme için.

from ultralytics.models.sam import SAM3SemanticPredictor

# Initialize predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3SemanticPredictor(overrides=overrides)

# Set image
predictor.set_image("path/to/image.jpg")

# Provide bounding box examples to segment similar objects
results = predictor(bboxes=[[480.0, 290.0, 590.0, 650.0]], save=True)

# Multiple bounding boxes for different concepts
results = predictor(bboxes=[[539, 599, 589, 639], [343, 267, 499, 662]], save=True)

Verimlilik için Özellik Tabanlı Çıkarım

Birden Fazla Sorgu İçin Görüntü Özelliklerini Yeniden Kullanma

Verimliliği artırmak için görüntü özelliklerini bir kez çıkarın ve birden fazla segmentasyon sorgusu için yeniden kullanın.

import cv2

from ultralytics.models.sam import SAM3SemanticPredictor
from ultralytics.utils.plotting import Annotator, colors

# Initialize predictors
overrides = dict(conf=0.50, task="segment", mode="predict", model="sam3.pt", verbose=False)
predictor = SAM3SemanticPredictor(overrides=overrides)
predictor2 = SAM3SemanticPredictor(overrides=overrides)

# Extract features from the first predictor
source = "path/to/image.jpg"
predictor.set_image(source)
src_shape = cv2.imread(source).shape[:2]

# Setup second predictor and reuse features
predictor2.setup_model()

# Perform inference using shared features with text prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, text=["person"])

# Perform inference using shared features with bounding box prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, bboxes=[[439, 437, 524, 709]])

# Visualize results
if masks is not None:
    masks, boxes = masks.cpu().numpy(), boxes.cpu().numpy()
    im = cv2.imread(source)
    annotator = Annotator(im, pil=False)
    annotator.masks(masks, [colors(x, True) for x in range(len(masks))])

    cv2.imshow("result", annotator.result())
    cv2.waitKey(0)

Video Konsept segmentasyonu

Video Boyunca Sınırlayıcı Kutularla Kavramları track Etme

Görsel İstemlerle Video track

Sınırlayıcı kutu istemlerini kullanarak video kareleri boyunca nesne örneklerini detect ve track edin.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3VideoPredictor(overrides=overrides)

# Track objects using bounding box prompts
results = predictor(source="path/to/video.mp4", bboxes=[[706.5, 442.5, 905.25, 555], [598, 635, 725, 750]], stream=True)

# Process and display results
for r in results:
    r.show()  # Display frame with segmentation masks

Metin İstemleriyle Kavramları track Etme

Semantik Sorgularla Video track

Metinle belirtilen kavramların tüm örneklerini video kareleri boyunca track edin.

from ultralytics.models.sam import SAM3VideoSemanticPredictor

# Initialize semantic video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=640, model="sam3.pt", half=True)
predictor = SAM3VideoSemanticPredictor(overrides=overrides)

# Track concepts using text prompts
results = predictor(source="path/to/video.mp4", text=["person", "bicycle"], stream=True, save=True)

# Process results
for r in results:
    r.show()  # Display frame with tracked objects

# Alternative: Track with bounding box prompts
results = predictor(
    source="path/to/video.mp4",
    bboxes=[[864, 383, 975, 620], [705, 229, 782, 402]],
    labels=[1, 1],  # Positive labels
    stream=True,
    save=True,
)

Görsel İstemler (SAM 2 Uyumluluğu)

SAM 3, tek nesne segmentasyonu için SAM 2'nin görsel istemleriyle tam geriye dönük uyumluluğu sürdürür:

SAM 2 Style Visual Prompts

Temel SAM arayüzü, SAM 2 gibi davranır ve yalnızca görsel istemlerle (noktalar, kutular veya maskeler) belirtilen belirli alanı segment eder.

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt - segments object at specific location
results = model.predict(source="path/to/image.jpg", points=[900, 370], labels=[1])
results[0].show()

# Multiple points - segments single object with multiple point hints
results = model.predict(source="path/to/image.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt - segments object within bounding box
results = model.predict(source="path/to/image.jpg", bboxes=[100, 150, 300, 400])
results[0].show()

Görsel İstemler ve Kavram Segmentasyonu

Kullanarak SAM("sam3.pt") görsel istemlerle (noktalar/kutular/maskeler) segment edecektir yalnızca belirli nesneyi o konumda, tıpkı SAM 2 gibi. segment etmek için bir kavramın tüm örneklerini, kullanın SAM3SemanticPredictor yukarıda gösterildiği gibi metin veya örnek istemlerle.

Performans Kıyaslamaları

Görüntü Bölütleme

SAM 3, LVIS ve segmentasyon için COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birden çok kıyaslama genelinde son teknoloji sonuçlar elde ediyor:

KıyaslamaMetrikSAM 3Önceki En İyiİyileştirme
LVIS (sıfır atış)Maske AP47.038.5+22.1%
SA-Co/GoldCGF165.034.3 (OWLv2)+89.5%
COCO (sıfır atış)Kutu AP53.552.2 (T-Rex2)+2.5%
ADE-847 (semantik seg)mIoU14.79.2 (APE-D)+59.8%
PascalConcept-59mIoU59.458.5 (APE-D)+1.5%
Cityscapes (semantik segmentasyon)mIoU65.144.2 (APE-D)+47.3%

Ultralytics veri kümelerinde hızlı denemeler için veri kümesi seçeneklerini keşfedin.

Video segmentasyonu Performansı

SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli iyileştirmeler gösterir:

KıyaslamaMetrikSAM 3SAM 2.1 Lİyileştirme
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Az Veriyle Uyum Sağlama

SAM 3, veri merkezli yapay zeka iş akışları için alakalı olan, minimum örneklerle yeni alanlara uyum sağlama konusunda mükemmeldir:

Kıyaslama0-shot AP10-shot APÖnceki En İyi (10-shot)
ODinW1359.971.667.9 (gDino1.5-Pro)
RF100-VL14.335.733.7 (gDino-T)

İnteraktif İyileştirme Etkinliği

SAM 3'ün örneklerle kavram tabanlı istemi, görsel istemden çok daha hızlı yakınsar:

İstemler EklendiCGF1 PuanıKazanç - Yalnızca MetinKazanç - PVS Temel Çizgisi
Sadece metin46.4temel çizgitemel çizgi
+1 örnek57.6+11.2+6.7
+2 örnek62.2+15.8+9.7
+3 örnek65.0+18.6+11.2
+4 örnek65.7+19.3+11.5 (plato)

Nesne Sayma Doğruluğu

SAM 3, tüm örnekleri bölümlere ayırarak doğru sayım sağlar; bu, nesne sayımında yaygın bir gereksinimdir:

KıyaslamaDoğrulukMAEEn İyi MLLM'ye karşı
CountBench95.6%0.11%92.4 (Gemini 2.5)
PixMo-Count87.3%0.22%88.8 (Molmo-72B)

SAM 3 - SAM 2 - YOLO Karşılaştırması

Burada SAM 3'ün yeteneklerini SAM 2 ve YOLO11 modelleriyle karşılaştırıyoruz:

YetenekSAM 3SAM 2YOLO11n-seg
Konsept Segmentasyonu✅ Metin/örneklerden tüm örnekler❌ Desteklenmiyor❌ Desteklenmiyor
Görsel segmentasyonu✅ Tek örnek (SAM 2 uyumlu)✅ Tek örnek✅ Tüm örnekler
Sıfır Atış Yeteneği✅ Açık kelime dağarcığı✅ Geometrik istemler❌ Kapalı küme
İnteraktif İyileştirme✅ Örnekler + tıklamalar✅ Yalnızca tıklamalar❌ Desteklenmiyor
Video Tracking✅ Kimlikleri olan çoklu nesne✅ Çoklu nesne✅ Çoklu nesne
LVIS Maske AP (sıfır atış)47.0YokYok
MOSEv2 J&F60.147.9Yok
Çıkarım Hızı (H200)30 ms (100+ nesne)~23 ms (nesne başına)2-3 ms (görüntü)
Model Boyutu3,4 GB162 MB (temel)5.9 MB

Temel Çıkarımlar:

  • SAM 3: Açık kelime dağarcığı kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulma
  • SAM 2: Geometrik istemlerle görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
  • YOLO11: ONNX ve TensorRT gibi verimli dışa aktarma hatları kullanılarak kaynak kısıtlı dağıtımlarda gerçek zamanlı, yüksek hızlı segmentasyon için en iyisidir.

Değerlendirme Metrikleri

SAM 3, PCS görevi için tasarlanmış yeni metrikler sunar ve F1 skoru, kesinlik (precision) ve duyarlılık (recall) gibi tanıdık ölçüleri tamamlar.

Sınıflandırma-Geçitli F1 (CGF1)

Yerelleştirme ve sınıflandırmayı birleştiren temel metrik:

CGF1 = 100 × pmF1 × IL_MCC

Nerede:

  • pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
  • IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")

Neden Bu Metrikler?

Geleneksel AP metrikleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün metrikleri, yalnızca 0,5 güvenin üzerindeki tahminleri değerlendirerek iyi kalibrasyonu zorlar ve etkileşimli predict ve track döngülerinde gerçek dünya kullanım kalıplarını taklit eder.

İleri Gelen Eksiltmeler ve Bulgular

Varlık Başlığının Etkisi

Varlık başlığı, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:

YapılandırmaCGF1IL_MCCpmF1
Varlık olmaksızın57.60.7774.7
Varlık ile63.30.8277.1

Varlık başlığı, öncelikle tanıma yeteneğini geliştiren (IL_MCC +%6,5) +%5,7 CGF1 artışı (+%9,9) sağlar.

Zor Negatiflerin Etkisi

Zor Negatifler/GörüntüCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Zor negatifler, açık kelime dağarcığı tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında artırır.

Eğitim Verisi Ölçeklendirme

Veri KaynaklarıCGF1IL_MCCpmF1
Sadece Harici30.90.4666.3
Harici + Sentetik39.70.5770.6
Harici + HQ51.80.7173.2
Üçü de54.30.7473.5

Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamaları hakkında arka plan bilgisi için veri toplama ve açıklama bölümüne bakın.

Uygulamalar

SAM 3'ün kavram segmentasyon yeteneği, yeni kullanım alanları sağlıyor:

  • İçerik Denetimi: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
  • E-ticaret: Katalog resimlerindeki belirli bir türdeki tüm ürünleri segmentlere ayırın, otomatik etiketlemeyi destekler
  • Tıbbi Görüntüleme: Belirli doku türlerinin veya anormalliklerin tüm oluşumlarını belirleyin
  • Otonom Sistemler: Trafik işaretleri, yayalar veya araçların tüm örneklerini kategoriye göre track edin.
  • Video Analitiği: Belirli kıyafetler giyen veya eylemler gerçekleştiren tüm kişileri sayın ve izleyin
  • Veri Kümesi Açıklaması: Nadir nesne kategorilerinin tüm örneklerini hızla açıklayın
  • Bilimsel Araştırma: Belirli kriterlere uyan tüm örnekleri ölçün ve analiz edin

SAM 3 Agent: Genişletilmiş Dil Akıl Yürütme

SAM 3, akıl yürütme gerektiren karmaşık sorguları işlemek için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir; bu, OWLv2 ve T-Rex gibi açık sözlüklü sistemlere benzer bir yaklaşımdır.

Akıl Yürütme Görevlerinde Performans

KıyaslamaMetrikSAM 3 Agent (Gemini 2.5 Pro)Önceki En İyi
ReasonSeg (doğrulama)GIoU76.065.0 (SoTA)
ReasonSeg (test)GIoU73.861.3 (SoTA)
OmniLabel (doğrulama)AP46.736.5 (REAL)
RefCOCO+Hassasiyet91.2%89.3 (LISA)

Örnek Karmaşık Sorgular

SAM 3 Agent, akıl yürütme gerektiren sorguları işleyebilir:

  • "Oturan ama ellerinde hediye kutusu tutmayan insanlar"
  • "Kameraya en yakın olan ve tasması olmayan köpek"
  • "Kişinin elinden daha büyük kırmızı nesneler"

MLLM, SAM 3'e basit isim tamlaması sorguları önerir, döndürülen maskeleri analiz eder ve tatmin olana kadar yineler.

Sınırlamalar

SAM 3 önemli bir ilerlemeyi temsil ederken, bazı sınırlamaları vardır:

  • İfade Karmaşıklığı: Basit isim öbekleri için en uygunudur; uzun gönderme ifadeleri veya karmaşık akıl yürütme, MLLM entegrasyonu gerektirebilir
  • Belirsizlik Yönetimi: Bazı kavramlar doğası gereği belirsizliğini korur (örneğin, "küçük pencere", "rahat oda")
  • Hesaplama Gereksinimleri: YOLO gibi özel algılama modellerinden daha büyük ve daha yavaş
  • Sözcük Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel akıl yürütme sınırlıdır
  • Nadir Kavramlar: Performans, eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince ayrıntılı kavramlarda düşebilir.

Alıntı

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

SSS

SAM 3 Ne Zaman Yayınlandı?

SAM 3, Meta tarafından 20 Kasım 2025 tarihinde yayınlandı ve sürüm 8.3.237 (PR #22897) itibarıyla Ultralytics'e tamamen entegre edilmiştir. Tahmin modu ve track modu için tam destek mevcuttur.

SAM 3, Ultralytics'e Entegre mi?

Evet! SAM 3, kavram segmentasyonu, SAM 2 tarzı görsel istemler ve çok nesneli video track etme dahil olmak üzere Ultralytics Python paketine tamamen entegre edilmiştir. Dağıtım için ONNX ve TensorRT gibi formatlara dışa aktarabilir, basitleştirilmiş Python ve CLI iş akışlarından yararlanabilirsiniz.

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?

PCS, SAM 3'te tanıtılan ve bir görsel kavramın tüm örneklerini bir resim veya videoda segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyondan farklı olarak, PCS bir kategorinin her oluşumunu bulur. Örneğin:

  • Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
  • Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segment eder
  • Kombine: "çizgili kedi" + örnek kutu → örneğe uyan tüm çizgili kedileri segmentlere ayırır

Nesne tespiti ve örnek segmentasyonu ile ilgili arka plan bilgilerine bakın.

SAM 3'ün SAM 2'den Farkı Nedir?

ÖzellikSAM 2SAM 3
GörevÖneri başına tek nesneBir kavramın tüm örnekleri
İstem TürleriNoktalar, kutular, maskeler+ Metin ifadeleri, resim örnekleri
Algılama YeteneğiHarici detector gerektirirYerleşik açık kelime dağarcığı dedektörü
TanımaYalnızca geometri tabanlıMetin ve görsel tanıma
MimariSadece İzleyiciVarlık başlığına sahip Detector + Tracker
Sıfır Atış PerformansıYok (görsel istemler gerektirir)LVIS üzerinde 47.0 AP, SA-Co'da 2 kat daha iyi
İnteraktif İyileştirmeSadece tıklamalarTıklamalar + örnek genelleme

SAM 3, kavram tabanlı yetenekler eklerken SAM 2 görsel istemiyle geriye dönük uyumluluğu korur.

SAM 3'ü eğitmek için hangi veri kümeleri kullanılır?

SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:

Eğitim Verileri:

  • 4M benzersiz isim öbeği ile 5.2M görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
  • 24.8K benzersiz isim öbeği ile 52.5K video (SA-Co/VIDEO)
  • 1.4M sentetik maske, 38M isim öbeği genelinde (SA-Co/SYN)
  • Zor negatiflerle zenginleştirilmiş 15 harici veri kümesi (SA-Co/EXT)

Benchmark Verileri:

  • 126K görüntü/video genelinde 214K benzersiz kavram
  • Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS'te ~4K kavram bulunur)
  • İnsan performansı sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama

Bu muazzam ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesi sağlamasına olanak tanır.

SAM 3, segmentasyon için YOLO11 ile nasıl karşılaştırılır?

SAM 3 ve YOLO11 farklı kullanım durumlarına hizmet eder:

SAM 3 Avantajları:

  • Açık kelime dağarcığı: Eğitim olmadan metin istemleri aracılığıyla herhangi bir kavramı segmentlere ayırır
  • Sıfır Atışlı (Zero-shot): Yeni kategorilerde anında çalışır
  • Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleme yapar
  • Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
  • Doğruluk: LVIS sıfır atışlı örnek segmentasyonunda 47.0 AP

YOLO11 Avantajları:

  • Hız: 10-15 kat daha hızlı çıkarım (görüntü başına 2-3 ms'ye karşı 30 ms)
  • Verimlilik: 576 kat daha küçük modeller (5,9 MB karşı 3,4 GB)
  • Kaynak dostu: Uç cihazlarda ve mobilde çalışır
  • Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir

Öneri:

  • Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime dağarcığı segmentasyonu için SAM 3 kullanın
  • Kategorilerin önceden bilindiği yüksek hızlı, üretim dağıtımları için YOLO11 kullanın
  • Geometrik istemlerle etkileşimli tek nesne segmentasyonu için SAM 2 kullanın

SAM 3 karmaşık dil sorgularını işleyebilir mi?

SAM 3, basit isim öbekleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Akıl yürütme gerektiren karmaşık sorgular için, SAM 3'ü bir MLLM ile SAM 3 Agent olarak birleştirin:

Basit sorgular (yerel SAM 3):

  • "Sarı okul otobüsü"
  • "Çizgili kedi"
  • "Kırmızı şapka takan kişi"

Karmaşık sorgular (MLLM ile SAM 3 Aracısı):

  • "Oturan ama ellerinde hediye kutusu olmayan insanlar"
  • "Kameraya en yakın, tasmasız köpek"
  • "Kişinin elinden daha büyük kırmızı nesneler"

SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM akıl yürütme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76.0 gIoU elde ediyor (önceki en iyi 65.0'a karşı +%16.9 iyileşme).

SAM 3'ün doğruluğu insan performansına kıyasla ne kadar?

Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:

  • İnsan alt sınırı: 74.2 CGF1 (en tutucu etiketleyici)
  • SAM 3 performansı: 65.0 CGF1
  • Başarı: Tahmini insan alt sınırının %88'i
  • İnsan üst sınırı: 81.4 CGF1 (en serbest etiketleyici)

SAM 3, açık kelime dağarcığı konsept segmentasyonunda insan seviyesine yaklaşan güçlü bir performans sergiliyor ve boşluk öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") bulunuyor.



📅 2 ay önce oluşturuldu ✏️ 0 gün önce güncellendi
glenn-jocherY-T-GkayselmecnunRizwanMunawarLaughing-q

Yorumlar