SAM 3: Kavramlarla Her Şeyi Segment Et

Q: When Was SAM 3 Released?

SAM 3, Meta tarafından 20 Kasım 2025 tarihinde yayınlandı ve 8.3.237 sürümü (PR #22897) itibarıyla Ultralytics'e tamamen entegre edilmiştir. Tahmin modu ve track modu için tam destek mevcuttur.

Q: What Is Promptable Concept Segmentation (PCS)?

PCS, SAM 3'te tanıtılan ve bir görsel kavramın tüm örneklerini bir resim veya videoda segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyondan farklı olarak, PCS bir kategorinin her oluşumunu bulur. Örneğin: Nesne tespiti ve örnek segmentasyonu ile ilgili arka plana bakın.

Q: What datasets are used to train SAM 3?

SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir: Eğitim Verileri: Kıyaslama Verileri: Bu devasa ölçek ve çeşitlilik, SAM 3'ün açık sözlüklü kavramlar arasında üstün sıfır atış genellemesi sağlamasına olanak tanır.

Q: How does SAM 3 compare to YOLO26 for segmentation?

SAM ve YOLO26 farklı kullanım senaryolarına yöneliktir: SAM Avantajları: YOLO26'nın Avantajları: Öneri:

Q: How accurate is SAM 3 compared to human performance?

Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında: SAM 3, açık kelime dağarcığı kavram segmentasyonunda insan seviyesine yaklaşan güçlü bir performans sergiliyor ve aradaki fark öncelikle belirsiz veya öznel kavramlardan kaynaklanıyor (örneğin, "küçük pencere", "sıcak oda").

Şimdi Ultralytics'te Mevcut

SAM 3, Ultralytics paketine tamamen entegre edilmiştir, itibarıyla sürüm 8.3.237 (PR #22897). Şunu kullanarak kurun veya yükseltin: pip install -U ultralytics metin tabanlı kavram segmentasyonu, görüntü örnek istemleri ve video track etme dahil tüm SAM 3 özelliklerine erişmek için.

SAM 3 istemlenebilir kavram segmentasyonu genel bakışı

SAM 3 (Segment Anything Model 3), Meta'nın İstemlenebilir Kavram Segmentasyonu (PCS) için yayınladığı temel modelidir. SAM 2 üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini algılamak, segmentlere ayırmak ve izlemek. İstem başına tek nesneleri segmentlere ayıran önceki SAM sürümlerinden farklı olarak, SAM 3, modern örnek segmentasyonunda açık kelime dağarcığı hedefleriyle uyumlu olarak, görüntülerde veya videolarda herhangi bir yerde görünen bir kavramın her oluşumunu bulabilir ve segmentlere ayırabilir.

İzle: Meta Segment Anything 3'ü Ultralytics ile Nasıl Kullanılır | Görüntülerde ve Videolarda Metin İstemli Segmentasyon

SAM 3 artık tamamen entegre edilmiştir ultralytics paketine, metin istemleri, görüntü örnek istemleri ve video track etme yetenekleriyle kavram segmentasyonu için yerel destek sağlayarak.

Genel Bakış

SAM 3, etkileşimli görsel segmentasyon için SAM 2'nin yeteneklerini korurken ve geliştirirken, İstenebilir Konsept Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı elde ediyor. Model, açık kelime dağarcığı segmentasyonunda mükemmeldir ve kullanıcıların basit isim öbekleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek resimlerini sağlayarak kavramları belirtmelerine olanak tanır. Bu yetenekler, kolaylaştırılmış predict ve track iş akışlarına dayanan üretime hazır işlem hatlarını tamamlar.

SAM 3 metin istemli segmentasyon örnekleri

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?

PCS görevi bir kavram istemini girdi olarak alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:

Metin: Sıfır atışlı öğrenmeye benzer şekilde, "kırmızı elma" veya "şapka takan kişi" gibi basit isim öbekleri
Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin (pozitif veya negatif) etrafındaki sınırlayıcı kutular
Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada

Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini bölümlere ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.

Temel Performans Metrikleri

Metrik	SAM 3 Achievement
LVIS Sıfır Atış Maske AP	47.0 (önceki en iyi 38.5'e karşı, +%22 iyileşme)
SA-Co Kıyaslaması	Mevcut sistemlerden 2 kat daha iyi
Çıkarım Hızı (H200 GPU)	100'den fazla detect edilmiş nesne ile görüntü başına 30 ms
Video Performansı	~5 eşzamanlı nesne için neredeyse gerçek zamanlı
MOSEv2 VOS Benchmark	60.1 J&F (SAM 2.1'e göre +%25.5, önceki SOTA'ya göre +%17)
İnteraktif İyileştirme	3 örnek istemden sonra +18.6 CGF1 iyileşme
İnsan Performans Boşluğu	SA-Co/Gold üzerinde tahmin edilen alt sınırın %88'ine ulaşıyor

Model metrikleri ve üretimdeki ödünleşimler hakkında bağlam için bkz. model değerlendirme içgörüleri ve YOLO performans metrikleri.

Mimari

SAM 3, bir Algı Kodlayıcı (PE) vizyonu backbone'unu paylaşan bir detect ve track modülünden oluşur. Bu ayrıştırılmış tasarım, hem görüntü düzeyinde algılama hem de video düzeyinde izlemeyi mümkün kılarken görev çakışmalarını önler ve Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüz sunar.

Temel Bileşenler

Dedektör: Görüntü seviyesinde konsept algılama için DETR tabanlı mimari
- İsim öbeği istemleri için metin kodlayıcı
- Görüntü tabanlı istemler için örnek kodlayıcı
- İstemlerdeki görüntü özelliklerini koşullandırmak için füzyon kodlayıcı
- Tanımayı ("ne") yerelleştirmeden ("nerede") ayıran yeni varlık başlığı
- Örnek segmentasyon maskeleri oluşturmak için maske başlığı
İzleyici (Tracker): SAM 2'den devralınan bellek tabanlı video segmentasyonu
- İstem kodlayıcı, maske kod çözücü, bellek kodlayıcı
- Çerçeveler arası nesne görünümünü depolamak için bellek bankası
- Çoklu nesne ayarlarında bir Kalman filtresi gibi tekniklerle desteklenen zamansal belirsizlik giderme
Varlık Belirteci: Hedef kavramın görüntüde/karede mevcut olup olmadığını tahmin eden, tanımayı yerelleştirmeden ayırarak detection'ı iyileştiren öğrenilmiş bir global belirteç.

SAM 3 model mimarisi diyagramı

Temel Yenilikler

Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık kafası, kavram varlığını global olarak tahmin ederken, öneri sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
Birleşik Konsept ve Görsel İstemler: Tek bir modelde hem PCS (kavram istemleri) hem de PVS'yi (SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
Etkileşimli Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapar.
Zamansal Belirsizliği Giderme: Video içindeki tıkanıklıkları, kalabalık sahneleri ve izleme hatalarını ele almak için masklet detect skorlarını ve periyodik yeniden istemleri kullanır ve örnek segmentasyonu ve izleme en iyi uygulamalarıyla uyum sağlar.

SA-Co Veri Kümesi

SAM 3, Segment Anything with Concepts (SA-Co) üzerinde eğitilmiştir; bu, Meta'nın COCO ve LVIS gibi yaygın kıyaslamaların ötesine geçen, bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesidir.

Eğitim Verileri

Veri Kümesi Bileşeni	Açıklama	Ölçek
SA-Co/HQ	4 aşamalı veri motorundan elde edilen yüksek kaliteli, insan tarafından açıklanmış görüntü verileri	5.2M resim, 4M benzersiz isim öbeği
SA-Co/SYN	İnsan müdahalesi olmaksızın yapay zeka tarafından etiketlenmiş sentetik veri kümesi	38M isim öbeği, 1.4B maske
SA-Co/EXT	Zor negatiflerle zenginleştirilmiş 15 harici veri kümesi	Kaynağa göre değişir
SA-Co/VIDEO	Zamansal track ile video açıklamaları	52.5K video, 24.8K benzersiz isim öbeği

Kıyaslama Verileri

SA-Co değerlendirme kıstası, 126 bin resim ve video üzerinde 214 bin benzersiz ifade içererek, mevcut kıstaslardan 50 kat daha fazla kavram sunar. İçeriği:

SA-Co/Gold: İnsan performansı sınırlarını ölçmek için üçlü olarak açıklanmış 7 alan
SA-Co/Silver: Tek insan açıklamalı 10 alan
SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri kümesi
SA-Co/VEval: 3 alanlı (SA-V, YT-Temporal-1B, SmartGlasses) video kıyaslama

Veri Motoru İnovasyonları

SAM 3'ün ölçeklenebilir insan ve model döngüsündeki veri motoru, aşağıdakiler aracılığıyla 2 kat daha fazla açıklama verimi elde ediyor:

AI Açıklayıcılar: Llama tabanlı modeller, zor negatifler de dahil olmak üzere çeşitli isim öbekleri önerir
AI Doğrulayıcılar: İnce ayarlı çok modlu LLM'ler, insan performansına yakın bir düzeyde maske kalitesini ve eksiksizliğini doğrular
Aktif Madencilik: İnsan çabasını, yapay zekanın zorlandığı zorlu başarısızlık durumlarına odaklar
Ontoloji Odaklı: Kavram kapsamı için Wikidata üzerinde temellendirilmiş geniş bir ontolojiden yararlanır

Kurulum

SAM 3, Ultralytics sürüm 8.3.237 ve sonraki sürümlerinde mevcuttur. Şunu kullanarak kurun veya yükseltin:

pip install -U ultralytics

SAM 3 Model Ağırlıkları Gerekli

Diğer Ultralytics modellerinden farklı olarak, SAM 3 ağırlıkları (sam3.pt) otomatik olarak indirilmez. Model ağırlıkları için önce erişim talep etmelisiniz. Hugging Face üzerindeki SAM 3 model sayfasında ve ardından, onaylandıktan sonra, indirmelisiniz. sam3.pt dosyası. İndirilen dosyayı yerleştirin sam3.pt dosyayı çalışma dizininize yerleştirin veya modeli yüklerken tam yolu belirtin.

TypeError: 'SimpleTokenizer' object is not callable

Tahmin sırasında yukarıdaki hatayı alırsanız, bu yanlış clip paketi yüklü olduğu anlamına gelir. Doğru clip paketini aşağıdaki komutu çalıştırarak yükleyin:

pip uninstall clip -y
pip install git+https://github.com/ultralytics/CLIP.git

SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük

SAM 3 hem İstem Tabanlı Kavram Segmentasyonu (PCS) hem de İstem Tabanlı Görsel Segmentasyon (PVS) görevlerini farklı tahminci arayüzleri aracılığıyla destekler:

Desteklenen Görevler ve Modeller

Görev Türü	İstem Türleri	Çıktı
Konsept Segmentasyonu (PCS)	Metin (isim öbekleri), resim örnekleri	Kavrama uyan tüm örnekler
Görsel segmentasyonu (PVS)	Noktalar, kutular, maskeler	Tek nesne örneği (SAM 2 stili)
İnteraktif İyileştirme	Örnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırın	İyileştirilmiş doğrulukla geliştirilmiş segmentasyon

Konsept Segmentasyonu Örnekleri

Metin İstekleriyle Segmentasyon

Metin Tabanlı Konsept Segmentasyonu

Bir kavramın tüm örneklerini metin açıklaması kullanarak bulun ve segment edin. Metin istemleri şunları gerektirir: SAM3SemanticPredictor arayüzü.

Python

from ultralytics.models.sam import SAM3SemanticPredictor

# Initialize predictor with configuration
overrides = dict(
    conf=0.25,
    task="segment",
    mode="predict",
    model="sam3.pt",
    half=True,  # Use FP16 for faster inference
    save=True,
)
predictor = SAM3SemanticPredictor(overrides=overrides)

# Set image once for multiple queries
predictor.set_image("path/to/image.jpg")

# Query with multiple text prompts
results = predictor(text=["person", "bus", "glasses"])

# Works with descriptive phrases
results = predictor(text=["person with red cloth", "person with blue cloth"])

# Query with a single concept
results = predictor(text=["a person"])

Resim Örnekleriyle Segmentlere Ayırın

Örnek Tabanlı Görüntü Bölütleme

Tüm benzer örnekleri bulmak için sınırlayıcı kutuları görsel istemler olarak kullanın. Bu aynı zamanda şunları da gerektirir: SAM3SemanticPredictor kavram tabanlı eşleştirme için.

Python

from ultralytics.models.sam import SAM3SemanticPredictor

# Initialize predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True, save=True)
predictor = SAM3SemanticPredictor(overrides=overrides)

# Set image
predictor.set_image("path/to/image.jpg")

# Provide bounding box examples to segment similar objects
results = predictor(bboxes=[[480.0, 290.0, 590.0, 650.0]])

# Multiple bounding boxes for different concepts
results = predictor(bboxes=[[539, 599, 589, 639], [343, 267, 499, 662]])

Verimlilik için Özellik Tabanlı Çıkarım

Birden Fazla Sorgu İçin Görüntü Özelliklerini Yeniden Kullanma

Verimliliği artırmak için görüntü özelliklerini bir kez çıkarın ve birden fazla segmentasyon sorgusu için yeniden kullanın.

Python

import cv2

from ultralytics.models.sam import SAM3SemanticPredictor
from ultralytics.utils.plotting import Annotator, colors

# Initialize predictors
overrides = dict(conf=0.50, task="segment", mode="predict", model="sam3.pt", verbose=False)
predictor = SAM3SemanticPredictor(overrides=overrides)
predictor2 = SAM3SemanticPredictor(overrides=overrides)

# Extract features from the first predictor
source = "path/to/image.jpg"
predictor.set_image(source)
src_shape = cv2.imread(source).shape[:2]

# Setup second predictor and reuse features
predictor2.setup_model()

# Perform inference using shared features with text prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, text=["person"])

# Perform inference using shared features with bounding box prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, bboxes=[[439, 437, 524, 709]])

# Visualize results
if masks is not None:
    masks, boxes = masks.cpu().numpy(), boxes.cpu().numpy()
    im = cv2.imread(source)
    annotator = Annotator(im, pil=False)
    annotator.masks(masks, [colors(x, True) for x in range(len(masks))])

    cv2.imshow("result", annotator.result())
    cv2.waitKey(0)

Video Konsept segmentasyonu

Video Boyunca Sınırlayıcı Kutularla Kavramları track Etme

Görsel İstemlerle Video track

Sınırlayıcı kutu istemlerini kullanarak video kareleri boyunca nesne örneklerini detect ve track edin.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3VideoPredictor(overrides=overrides)

# Track objects using bounding box prompts
results = predictor(source="path/to/video.mp4", bboxes=[[706.5, 442.5, 905.25, 555], [598, 635, 725, 750]], stream=True)

# Process and display results
for r in results:
    r.show()  # Display frame with segmentation masks

Metin İstemleriyle Kavramları track Etme

Semantik Sorgularla Video track

Metinle belirtilen kavramların tüm örneklerini video kareleri boyunca track edin.

Python

from ultralytics.models.sam import SAM3VideoSemanticPredictor

# Initialize semantic video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=640, model="sam3.pt", half=True, save=True)
predictor = SAM3VideoSemanticPredictor(overrides=overrides)

# Track concepts using text prompts
results = predictor(source="path/to/video.mp4", text=["person", "bicycle"], stream=True)

# Process results
for r in results:
    r.show()  # Display frame with tracked objects

# Alternative: Track with bounding box prompts
results = predictor(
    source="path/to/video.mp4",
    bboxes=[[864, 383, 975, 620], [705, 229, 782, 402]],
    labels=[1, 1],  # Positive labels
    stream=True,
)

Görsel İstemler (SAM 2 Uyumluluğu)

SAM 3, tek nesne segmentasyonu için SAM 2'nin görsel istemleriyle tam geriye dönük uyumluluğu sürdürür:

SAM 2 Style Visual Prompts

Temel SAM arayüzü, SAM 2 gibi davranır ve yalnızca görsel istemlerle (noktalar, kutular veya maskeler) belirtilen belirli alanı segment eder.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt - segments object at specific location
results = model.predict(source="path/to/image.jpg", points=[900, 370], labels=[1])
results[0].show()

# Multiple points - segments single object with multiple point hints
results = model.predict(source="path/to/image.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt - segments object within bounding box
results = model.predict(source="path/to/image.jpg", bboxes=[100, 150, 300, 400])
results[0].show()

Görsel İstemler ve Kavram Segmentasyonu

Kullanarak SAM("sam3.pt") görsel istemlerle (noktalar/kutular/maskeler) segment edecektir yalnızca belirli nesneyi o konumda, tıpkı SAM 2 gibi. segment etmek için bir kavramın tüm örneklerini, kullanın SAM3SemanticPredictor yukarıda gösterildiği gibi metin veya örnek istemlerle.

Performans Kıyaslamaları

Görüntü Bölütleme

SAM 3, LVIS ve segmentasyon için COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birden çok kıyaslama genelinde son teknoloji sonuçlar elde ediyor:

Kıyaslama	Metrik	SAM 3	Önceki En İyi	İyileştirme
LVIS (sıfır atış)	Maske AP	47.0	38.5	+22.1%
SA-Co/Gold	CGF1	65.0	34.3 (OWLv2)	+89.5%
COCO (sıfır atış)	Kutu AP	53.5	52.2 (T-Rex2)	+2.5%
ADE-847 (semantik seg)	mIoU	14.7	9.2 (APE-D)	+59.8%
PascalConcept-59	mIoU	59.4	58.5 (APE-D)	+1.5%
Cityscapes (semantik segmentasyon)	mIoU	65.1	44.2 (APE-D)	+47.3%

Ultralytics veri kümelerinde hızlı denemeler için veri kümesi seçeneklerini keşfedin.

Video segmentasyonu Performansı

SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli iyileştirmeler gösterir:

Kıyaslama	Metrik	SAM 3	SAM 2.1 L	İyileştirme
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Az Veriyle Uyum Sağlama

SAM 3, veri merkezli yapay zeka iş akışları için alakalı olan, minimum örneklerle yeni alanlara uyum sağlama konusunda mükemmeldir:

Kıyaslama	0-shot AP	10-shot AP	Önceki En İyi (10-shot)
ODinW13	59.9	71.6	67.9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33.7 (gDino-T)

SAM 3'ün örneklerle kavram tabanlı istemi, görsel istemden çok daha hızlı yakınsar:

İstemler Eklendi	CGF1 Puanı	Kazanç - Yalnızca Metin	Kazanç - PVS Temel Çizgisi
Sadece metin	46.4	temel çizgi	temel çizgi
+1 örnek	57.6	+11.2	+6.7
+2 örnek	62.2	+15.8	+9.7
+3 örnek	65.0	+18.6	+11.2
+4 örnek	65.7	+19.3	+11.5 (plato)

Nesne Sayma Doğruluğu

SAM 3, tüm örnekleri bölümlere ayırarak doğru sayım sağlar; bu, nesne sayımında yaygın bir gereksinimdir:

Kıyaslama	Doğruluk	MAE	En İyi MLLM'ye karşı
CountBench	95.6%	0.11	%92.4 (Gemini 2.5)
PixMo-Count	87.3%	0.22	%88.8 (Molmo-72B)

SAM 3 - SAM 2 - YOLO Karşılaştırması

Burada SAM yeteneklerini SAM ve YOLO26 modelleriyle karşılaştırıyoruz:

Yetenek	SAM 3	SAM 2	YOLO26n-seg
Konsept Segmentasyonu	✅ Metin/örneklerden tüm örnekler	❌ Desteklenmiyor	❌ Desteklenmiyor
Görsel segmentasyonu	✅ Tek örnek (SAM 2 uyumlu)	✅ Tek örnek	✅ Tüm örnekler
Sıfır Atış Yeteneği	✅ Açık kelime dağarcığı	✅ Geometrik istemler	❌ Kapalı küme
İnteraktif İyileştirme	✅ Örnekler + tıklamalar	✅ Yalnızca tıklamalar	❌ Desteklenmiyor
Video Tracking	✅ Kimlikleri olan çoklu nesne	✅ Çoklu nesne	✅ Çoklu nesne
LVIS Maske AP (sıfır atış)	47.0	Yok	Yok
MOSEv2 J&F	60.1	47.9	Yok
Hız (GPU, ms/görüntü)	2921	857	8.4
Model Boyutu	3.45 GB	162 MB (temel)	6,4 MB

Hız karşılaştırması, NVIDIA PRO 6000 üzerinde torch==2.9.1 ve ultralytics==8.4.19.

Temel Çıkarımlar:

SAM 3: Açık kelime dağarcığı kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulma
SAM 2: Geometrik istemlerle görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
YOLO26: NMS uçtan uca çıkarım ile gerçek zamanlı, yüksek hızlı segmentasyon için en uygun seçenektir; GPU’larda, CPU’larda ve uç cihazlarda kullanıma hazır hale getirmek üzere birçok formata aktarılabilir

SAM'in YOLO ile Karşılaştırılması

SAM , SAM , SAM, MobileSAM ve FastSAM Ultralytics YOLO modellerini (YOLOv8, YOLO11, YOLO26) boyut, parametreler ve GPU hızı açısından karşılaştırma:

Model	Boyut ^(MB)	Parametreler ^(M)	Hız (GPU) ^(ms/im)
Meta SAM-b	375	93.7	1306
Meta SAM2-b	162	80.8	857
Meta SAM2-t	78.1	38.9	668
Meta SAM3	3450	473.6	2921
MobileSAM	40.7	10.1	605
YOLOv8 backbone ile FastSAM-s	23.7	11.8	55.9
Ultralytics YOLOv8n-seg	6,7 (515 kat daha küçük)	3.4 (139.1 kat daha az)	17.4 (167 kat daha hızlı)
Ultralytics YOLO11n-seg	5,9 (585 kat daha küçük)	2.9 (163.1 kat daha az)	12.6 (231 kat daha hızlı)
Ultralytics YOLO26n-seg	6,4 (539 kat daha küçük)	2.7 (175.2 kat daha az)	8.4 (347 kat daha hızlı)

Bu karşılaştırma, SAM varyantları ile YOLO segmentasyon modelleri arasındaki model boyutları ve hızlarındaki önemli farklılıkları göstermektedir. SAM benzersiz otomatik segmentasyon yetenekleri sunsa da, YOLO modelleri, özellikle YOLOv8n-seg, YOLO11n-seg ve YOLO26n-seg, önemli ölçüde daha küçük, daha hızlı ve daha hesaplama açısından verimlidir.

96 GB VRAM'e sahip bir NVIDIA RTX PRO 6000 üzerinde yapılan testler, şunu kullanarak: torch==2.9.1 ve ultralytics==8.4.19. Bu testi yeniden oluşturmak için:

Örnek

Python

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM3, SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt", "sam3.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    model(ASSETS)

Değerlendirme Metrikleri

SAM 3, PCS görevi için tasarlanmış yeni metrikler sunar ve F1 skoru, kesinlik (precision) ve duyarlılık (recall) gibi tanıdık ölçüleri tamamlar.

Sınıflandırma-Geçitli F1 (CGF1)

Yerelleştirme ve sınıflandırmayı birleştiren temel metrik:

CGF1 = 100 × pmF1 × IL_MCC

Nerede:

pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")

Neden Bu Metrikler?

Geleneksel AP metrikleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün metrikleri, yalnızca 0,5 güvenin üzerindeki tahminleri değerlendirerek iyi kalibrasyonu zorlar ve etkileşimli predict ve track döngülerinde gerçek dünya kullanım kalıplarını taklit eder.

İleri Gelen Eksiltmeler ve Bulgular

Varlık Başlığının Etkisi

Varlık başlığı, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:

Yapılandırma	CGF1	IL_MCC	pmF1
Varlık olmaksızın	57.6	0.77	74.7
Varlık ile	63.3	0.82	77.1

Varlık başlığı, öncelikle tanıma yeteneğini geliştiren (IL_MCC +%6,5) +%5,7 CGF1 artışı (+%9,9) sağlar.

Zor Negatiflerin Etkisi

Zor Negatifler/Görüntü	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

Zor negatifler, açık kelime dağarcığı tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında artırır.

Eğitim Verisi Ölçeklendirme

Veri Kaynakları	CGF1	IL_MCC	pmF1
Sadece Harici	30.9	0.46	66.3
Harici + Sentetik	39.7	0.57	70.6
Harici + HQ	51.8	0.71	73.2
Üçü de	54.3	0.74	73.5

Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamaları hakkında arka plan bilgisi için veri toplama ve açıklama bölümüne bakın.

Uygulamalar

SAM 3'ün kavram segmentasyon yeteneği, yeni kullanım alanları sağlıyor:

İçerik Denetimi: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
E-ticaret: Katalog resimlerindeki belirli bir türdeki tüm ürünleri segmentlere ayırın, otomatik etiketlemeyi destekler
Tıbbi Görüntüleme: Belirli doku türlerinin veya anormalliklerin tüm oluşumlarını belirleyin
Otonom Sistemler: Trafik işaretleri, yayalar veya araçların tüm örneklerini kategoriye göre track edin.
Video Analitiği: Belirli kıyafetler giyen veya eylemler gerçekleştiren tüm kişileri sayın ve izleyin
Veri Kümesi Açıklaması: Nadir nesne kategorilerinin tüm örneklerini hızla açıklayın
Bilimsel Araştırma: Belirli kriterlere uyan tüm örnekleri ölçün ve analiz edin

SAM 3 Agent: Genişletilmiş Dil Akıl Yürütme

SAM 3, akıl yürütme gerektiren karmaşık sorguları işlemek için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir; bu, OWLv2 ve T-Rex gibi açık sözlüklü sistemlere benzer bir yaklaşımdır.

Akıl Yürütme Görevlerinde Performans

Kıyaslama	Metrik	SAM 3 Agent (Gemini 2.5 Pro)	Önceki En İyi
ReasonSeg (doğrulama)	GIoU	76.0	65.0 (SoTA)
ReasonSeg (test)	GIoU	73.8	61.3 (SoTA)
OmniLabel (doğrulama)	AP	46.7	36.5 (REAL)
RefCOCO+	Hassasiyet	91.2	%89.3 (LISA)

Örnek Karmaşık Sorgular

SAM 3 Agent, akıl yürütme gerektiren sorguları işleyebilir:

"Oturan ama ellerinde hediye kutusu tutmayan insanlar"
"Kameraya en yakın olan ve tasması olmayan köpek"
"Kişinin elinden daha büyük kırmızı nesneler"

MLLM, SAM 3'e basit isim tamlaması sorguları önerir, döndürülen maskeleri analiz eder ve tatmin olana kadar yineler.

Sınırlamalar

SAM 3 önemli bir ilerlemeyi temsil ederken, bazı sınırlamaları vardır:

İfade Karmaşıklığı: Basit isim öbekleri için en uygunudur; uzun gönderme ifadeleri veya karmaşık akıl yürütme, MLLM entegrasyonu gerektirebilir
Belirsizlik Yönetimi: Bazı kavramlar doğası gereği belirsizliğini korur (örneğin, "küçük pencere", "rahat oda")
Hesaplama Gereksinimleri: YOLO gibi özel algılama modellerinden daha büyük ve daha yavaş
Sözcük Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel akıl yürütme sınırlıdır
Nadir Kavramlar: Performans, eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince ayrıntılı kavramlarda düşebilir.

Alıntı

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

SSS

SAM 3 Ne Zaman Yayınlandı?

SAM 3, Meta tarafından 20 Kasım 2025 tarihinde yayınlandı ve sürüm 8.3.237 (PR #22897) itibarıyla Ultralytics'e tamamen entegre edilmiştir. Tahmin modu ve track modu için tam destek mevcuttur.

SAM 3, Ultralytics'e Entegre mi?

Evet! SAM , kavramsal segmentasyon, SAM görsel komutlar ve çoklu nesne video izleme özellikleri dahil olmak üzere Ultralytics Python tam olarak entegre edilmiştir. SAM ayrıca, birkaç tıklamayla görüntülere açıklama ekleyebileceğiniz Ultralytics akıllı açıklama özelliğini de desteklemektedir.

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?

PCS, SAM 3'te tanıtılan ve bir görsel kavramın tüm örneklerini bir resim veya videoda segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyondan farklı olarak, PCS bir kategorinin her oluşumunu bulur. Örneğin:

Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segment eder
Kombine: "çizgili kedi" + örnek kutu → örneğe uyan tüm çizgili kedileri segmentlere ayırır

Nesne tespiti ve örnek segmentasyonu ile ilgili arka plan bilgilerine bakın.

SAM 3'ün SAM 2'den Farkı Nedir?

Özellik	SAM 2	SAM 3
Görev	Öneri başına tek nesne	Bir kavramın tüm örnekleri
İstem Türleri	Noktalar, kutular, maskeler	+ Metin ifadeleri, resim örnekleri
Algılama Yeteneği	Harici detector gerektirir	Yerleşik açık kelime dağarcığı dedektörü
Tanıma	Yalnızca geometri tabanlı	Metin ve görsel tanıma
Mimari	Sadece İzleyici	Varlık başlığına sahip Detector + Tracker
Sıfır Atış Performansı	Yok (görsel istemler gerektirir)	LVIS üzerinde 47.0 AP, SA-Co'da 2 kat daha iyi
İnteraktif İyileştirme	Sadece tıklamalar	Tıklamalar + örnek genelleme

SAM 3, kavram tabanlı yetenekler eklerken SAM 2 görsel istemiyle geriye dönük uyumluluğu korur.

SAM 3'ü eğitmek için hangi veri kümeleri kullanılır?

SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:

Eğitim Verileri:

4M benzersiz isim öbeği ile 5.2M görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
24.8K benzersiz isim öbeği ile 52.5K video (SA-Co/VIDEO)
1.4M sentetik maske, 38M isim öbeği genelinde (SA-Co/SYN)
Zor negatiflerle zenginleştirilmiş 15 harici veri kümesi (SA-Co/EXT)

Benchmark Verileri:

126K görüntü/video genelinde 214K benzersiz kavram
Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS'te ~4K kavram bulunur)
İnsan performansı sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama

Bu muazzam ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesi sağlamasına olanak tanır.

SAM , segmentasyon açısından YOLO26 ile karşılaştırıldığında nasıl bir performans sergiliyor?

SAM ve YOLO26 farklı kullanım senaryolarına hizmet eder:

SAM 3 Avantajları:

Açık kelime dağarcığı: Eğitim olmadan metin istemleri aracılığıyla herhangi bir kavramı segmentlere ayırır
Sıfır Atışlı (Zero-shot): Yeni kategorilerde anında çalışır
Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleme yapar
Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
Doğruluk: LVIS sıfır atışlı örnek segmentasyonunda 47.0 AP

YOLO26'nın Avantajları:

Hız: NMS uçtan uca tasarımla kat kat daha hızlı çıkarım
Verimlilik: 539 kat daha küçük modeller (6,4 MB’ye karşı 3,45 GB)
Kaynak dostu: Uç cihazlarda ve mobilde çalışır
Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir

Öneri:

Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime dağarcığı segmentasyonu için SAM 3 kullanın
Kategorilerin önceden bilindiği yüksek hızlı, üretim ortamı dağıtımları için YOLO26'yı kullanın
Geometrik istemlerle etkileşimli tek nesne segmentasyonu için SAM 2 kullanın

SAM 3 karmaşık dil sorgularını işleyebilir mi?

SAM 3, basit isim öbekleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Akıl yürütme gerektiren karmaşık sorgular için, SAM 3'ü bir MLLM ile SAM 3 Agent olarak birleştirin:

Basit sorgular (yerel SAM 3):

"Sarı okul otobüsü"
"Çizgili kedi"
"Kırmızı şapka takan kişi"

Karmaşık sorgular (MLLM ile SAM 3 Aracısı):

"Oturan ama ellerinde hediye kutusu olmayan insanlar"
"Kameraya en yakın, tasmasız köpek"
"Kişinin elinden daha büyük kırmızı nesneler"

SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM akıl yürütme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76.0 gIoU elde ediyor (önceki en iyi 65.0'a karşı +%16.9 iyileşme).

SAM 3'ün doğruluğu insan performansına kıyasla ne kadar?

Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:

İnsan alt sınırı: 74.2 CGF1 (en tutucu etiketleyici)
SAM 3 performansı: 65.0 CGF1
Başarı: Tahmini insan alt sınırının %88'i
İnsan üst sınırı: 81.4 CGF1 (en serbest etiketleyici)

SAM 3, açık kelime dağarcığı konsept segmentasyonunda insan seviyesine yaklaşan güçlü bir performans sergiliyor ve boşluk öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") bulunuyor.

📅 5 ay önce oluşturuldu ✏️ 1 gün önce güncellendi

SAM 3: Kavramlarla Her Şeyi Segment Et

Genel Bakış

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?

Temel Performans Metrikleri

Mimari

Temel Bileşenler

Temel Yenilikler

SA-Co Veri Kümesi

Eğitim Verileri

Kıyaslama Verileri

Veri Motoru İnovasyonları

Kurulum

SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük

Desteklenen Görevler ve Modeller

Konsept Segmentasyonu Örnekleri

Metin İstekleriyle Segmentasyon

Resim Örnekleriyle Segmentlere Ayırın

Verimlilik için Özellik Tabanlı Çıkarım

Video Konsept segmentasyonu

Video Boyunca Sınırlayıcı Kutularla Kavramları track Etme

Metin İstemleriyle Kavramları track Etme

Görsel İstemler (SAM 2 Uyumluluğu)

Performans Kıyaslamaları

Görüntü Bölütleme

Video segmentasyonu Performansı

Az Veriyle Uyum Sağlama

İnteraktif İyileştirme Etkinliği

Nesne Sayma Doğruluğu

SAM 3 - SAM 2 - YOLO Karşılaştırması

SAM'in YOLO ile Karşılaştırılması

Değerlendirme Metrikleri

Sınıflandırma-Geçitli F1 (CGF1)

Neden Bu Metrikler?

İleri Gelen Eksiltmeler ve Bulgular

Varlık Başlığının Etkisi

Zor Negatiflerin Etkisi

Eğitim Verisi Ölçeklendirme

Uygulamalar

SAM 3 Agent: Genişletilmiş Dil Akıl Yürütme

Akıl Yürütme Görevlerinde Performans

Örnek Karmaşık Sorgular

Sınırlamalar

Alıntı

SSS

SAM 3 Ne Zaman Yayınlandı?

SAM 3, Ultralytics'e Entegre mi?

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?

SAM 3'ün SAM 2'den Farkı Nedir?

SAM 3'ü eğitmek için hangi veri kümeleri kullanılır?

SAM , segmentasyon açısından YOLO26 ile karşılaştırıldığında nasıl bir performans sergiliyor?

SAM 3 karmaşık dil sorgularını işleyebilir mi?

SAM 3'ün doğruluğu insan performansına kıyasla ne kadar?

Yorumlar