SAM 3: Kavramlarla Her Şeyi Segment Et
Şimdi Ultralytics'te Mevcut
SAM 3, Ultralytics paketine tamamen entegre edilmiştir, itibarıyla sürüm 8.3.237 (PR #22897). Şunu kullanarak kurun veya yükseltin: pip install -U ultralytics metin tabanlı kavram segmentasyonu, görüntü örnek istemleri ve video track etme dahil tüm SAM 3 özelliklerine erişmek için.

SAM 3 (Segment Anything Model 3), Meta'nın İstemlenebilir Kavram Segmentasyonu (PCS) için yayınladığı temel modelidir. SAM 2 üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini algılamak, segmentlere ayırmak ve izlemek. İstem başına tek nesneleri segmentlere ayıran önceki SAM sürümlerinden farklı olarak, SAM 3, modern örnek segmentasyonunda açık kelime dağarcığı hedefleriyle uyumlu olarak, görüntülerde veya videolarda herhangi bir yerde görünen bir kavramın her oluşumunu bulabilir ve segmentlere ayırabilir.
SAM 3 artık tamamen entegre edilmiştir ultralytics paketine, metin istemleri, görüntü örnek istemleri ve video track etme yetenekleriyle kavram segmentasyonu için yerel destek sağlayarak.
Genel Bakış
SAM 3, etkileşimli görsel segmentasyon için SAM 2'nin yeteneklerini korurken ve geliştirirken, İstenebilir Konsept Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı elde ediyor. Model, açık kelime dağarcığı segmentasyonunda mükemmeldir ve kullanıcıların basit isim öbekleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek resimlerini sağlayarak kavramları belirtmelerine olanak tanır. Bu yetenekler, kolaylaştırılmış predict ve track iş akışlarına dayanan üretime hazır işlem hatlarını tamamlar.

İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?
PCS görevi bir kavram istemini girdi olarak alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:
- Metin: Sıfır atışlı öğrenmeye benzer şekilde, "kırmızı elma" veya "şapka takan kişi" gibi basit isim öbekleri
- Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin (pozitif veya negatif) etrafındaki sınırlayıcı kutular
- Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada
Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini bölümlere ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.
Temel Performans Metrikleri
| Metrik | SAM 3 Achievement |
|---|---|
| LVIS Sıfır Atış Maske AP | 47.0 (önceki en iyi 38.5'e karşı, +%22 iyileşme) |
| SA-Co Kıyaslaması | Mevcut sistemlerden 2 kat daha iyi |
| Çıkarım Hızı (H200 GPU) | 100'den fazla detect edilmiş nesne ile görüntü başına 30 ms |
| Video Performansı | ~5 eşzamanlı nesne için neredeyse gerçek zamanlı |
| MOSEv2 VOS Benchmark | 60.1 J&F (SAM 2.1'e göre +%25.5, önceki SOTA'ya göre +%17) |
| İnteraktif İyileştirme | 3 örnek istemden sonra +18.6 CGF1 iyileşme |
| İnsan Performans Boşluğu | SA-Co/Gold üzerinde tahmin edilen alt sınırın %88'ine ulaşıyor |
Model metrikleri ve üretimdeki ödünleşimler hakkında bağlam için bkz. model değerlendirme içgörüleri ve YOLO performans metrikleri.
Mimari
SAM 3, bir Algı Kodlayıcı (PE) vizyonu backbone'unu paylaşan bir detect ve track modülünden oluşur. Bu ayrıştırılmış tasarım, hem görüntü düzeyinde algılama hem de video düzeyinde izlemeyi mümkün kılarken görev çakışmalarını önler ve Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüz sunar.
Temel Bileşenler
Dedektör: Görüntü seviyesinde konsept algılama için DETR tabanlı mimari
- İsim öbeği istemleri için metin kodlayıcı
- Görüntü tabanlı istemler için örnek kodlayıcı
- İstemlerdeki görüntü özelliklerini koşullandırmak için füzyon kodlayıcı
- Tanımayı ("ne") yerelleştirmeden ("nerede") ayıran yeni varlık başlığı
- Örnek segmentasyon maskeleri oluşturmak için maske başlığı
İzleyici (Tracker): SAM 2'den devralınan bellek tabanlı video segmentasyonu
- İstem kodlayıcı, maske kod çözücü, bellek kodlayıcı
- Çerçeveler arası nesne görünümünü depolamak için bellek bankası
- Çoklu nesne ayarlarında bir Kalman filtresi gibi tekniklerle desteklenen zamansal belirsizlik giderme
Varlık Belirteci: Hedef kavramın görüntüde/karede mevcut olup olmadığını tahmin eden, tanımayı yerelleştirmeden ayırarak detection'ı iyileştiren öğrenilmiş bir global belirteç.

Temel Yenilikler
- Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık kafası, kavram varlığını global olarak tahmin ederken, öneri sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
- Birleşik Konsept ve Görsel İstemler: Tek bir modelde hem PCS (kavram istemleri) hem de PVS'yi (SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
- Etkileşimli Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapar.
- Zamansal Belirsizliği Giderme: Video içindeki tıkanıklıkları, kalabalık sahneleri ve izleme hatalarını ele almak için masklet detect skorlarını ve periyodik yeniden istemleri kullanır ve örnek segmentasyonu ve izleme en iyi uygulamalarıyla uyum sağlar.
SA-Co Veri Kümesi
SAM 3, Segment Anything with Concepts (SA-Co) üzerinde eğitilmiştir; bu, Meta'nın COCO ve LVIS gibi yaygın kıyaslamaların ötesine geçen, bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesidir.
Eğitim Verileri
| Veri Kümesi Bileşeni | Açıklama | Ölçek |
|---|---|---|
| SA-Co/HQ | 4 aşamalı veri motorundan elde edilen yüksek kaliteli, insan tarafından açıklanmış görüntü verileri | 5.2M resim, 4M benzersiz isim öbeği |
| SA-Co/SYN | İnsan müdahalesi olmaksızın yapay zeka tarafından etiketlenmiş sentetik veri kümesi | 38M isim öbeği, 1.4B maske |
| SA-Co/EXT | Zor negatiflerle zenginleştirilmiş 15 harici veri kümesi | Kaynağa göre değişir |
| SA-Co/VIDEO | Zamansal track ile video açıklamaları | 52.5K video, 24.8K benzersiz isim öbeği |
Kıyaslama Verileri
SA-Co değerlendirme kıstası, 126 bin resim ve video üzerinde 214 bin benzersiz ifade içererek, mevcut kıstaslardan 50 kat daha fazla kavram sunar. İçeriği:
- SA-Co/Gold: İnsan performansı sınırlarını ölçmek için üçlü olarak açıklanmış 7 alan
- SA-Co/Silver: Tek insan açıklamalı 10 alan
- SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri kümesi
- SA-Co/VEval: 3 alanlı (SA-V, YT-Temporal-1B, SmartGlasses) video kıyaslama
Veri Motoru İnovasyonları
SAM 3'ün ölçeklenebilir insan ve model döngüsündeki veri motoru, aşağıdakiler aracılığıyla 2 kat daha fazla açıklama verimi elde ediyor:
- AI Açıklayıcılar: Llama tabanlı modeller, zor negatifler de dahil olmak üzere çeşitli isim öbekleri önerir
- AI Doğrulayıcılar: İnce ayarlı çok modlu LLM'ler, insan performansına yakın bir düzeyde maske kalitesini ve eksiksizliğini doğrular
- Aktif Madencilik: İnsan çabasını, yapay zekanın zorlandığı zorlu başarısızlık durumlarına odaklar
- Ontoloji Odaklı: Kavram kapsamı için Wikidata üzerinde temellendirilmiş geniş bir ontolojiden yararlanır
Kurulum
SAM 3, Ultralytics sürüm 8.3.237 ve sonraki sürümlerinde mevcuttur. Şunu kullanarak kurun veya yükseltin:
pip install -U ultralytics
SAM 3 Model Ağırlıkları Gerekli
Diğer Ultralytics modellerinden farklı olarak, SAM 3 ağırlıkları (sam3.pt) otomatik olarak indirilmez. Model ağırlıklarını şuradan manuel olarak indirmeniz gerekir: resmi SAM 3 deposu SAM 3'ü kullanmadan önce. İndirilen sam3.pt dosyayı çalışma dizininize yerleştirin veya modeli yüklerken tam yolu belirtin.
SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük
SAM 3 hem İstem Tabanlı Kavram Segmentasyonu (PCS) hem de İstem Tabanlı Görsel Segmentasyon (PVS) görevlerini farklı tahminci arayüzleri aracılığıyla destekler:
Desteklenen Görevler ve Modeller
| Görev Türü | İstem Türleri | Çıktı |
|---|---|---|
| Konsept Segmentasyonu (PCS) | Metin (isim öbekleri), resim örnekleri | Kavrama uyan tüm örnekler |
| Görsel segmentasyonu (PVS) | Noktalar, kutular, maskeler | Tek nesne örneği (SAM 2 stili) |
| İnteraktif İyileştirme | Örnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırın | İyileştirilmiş doğrulukla geliştirilmiş segmentasyon |
Konsept Segmentasyonu Örnekleri
Metin İstekleriyle Segmentasyon
Metin Tabanlı Konsept Segmentasyonu
Bir kavramın tüm örneklerini metin açıklaması kullanarak bulun ve segment edin. Metin istemleri şunları gerektirir: SAM3SemanticPredictor arayüzü.
from ultralytics.models.sam import SAM3SemanticPredictor
# Initialize predictor with configuration
overrides = dict(
conf=0.25,
task="segment",
mode="predict",
model="sam3.pt",
half=True, # Use FP16 for faster inference
)
predictor = SAM3SemanticPredictor(overrides=overrides)
# Set image once for multiple queries
predictor.set_image("path/to/image.jpg")
# Query with multiple text prompts
results = predictor(text=["person", "bus", "glasses"], save=True)
# Works with descriptive phrases
results = predictor(text=["person with red cloth", "person with blue cloth"], save=True)
# Query with a single concept
results = predictor(text=["a person"], save=True)
Resim Örnekleriyle Segmentlere Ayırın
Örnek Tabanlı Görüntü Bölütleme
Tüm benzer örnekleri bulmak için sınırlayıcı kutuları görsel istemler olarak kullanın. Bu aynı zamanda şunları da gerektirir: SAM3SemanticPredictor kavram tabanlı eşleştirme için.
from ultralytics.models.sam import SAM3SemanticPredictor
# Initialize predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3SemanticPredictor(overrides=overrides)
# Set image
predictor.set_image("path/to/image.jpg")
# Provide bounding box examples to segment similar objects
results = predictor(bboxes=[[480.0, 290.0, 590.0, 650.0]], save=True)
# Multiple bounding boxes for different concepts
results = predictor(bboxes=[[539, 599, 589, 639], [343, 267, 499, 662]], save=True)
Verimlilik için Özellik Tabanlı Çıkarım
Birden Fazla Sorgu İçin Görüntü Özelliklerini Yeniden Kullanma
Verimliliği artırmak için görüntü özelliklerini bir kez çıkarın ve birden fazla segmentasyon sorgusu için yeniden kullanın.
import cv2
from ultralytics.models.sam import SAM3SemanticPredictor
from ultralytics.utils.plotting import Annotator, colors
# Initialize predictors
overrides = dict(conf=0.50, task="segment", mode="predict", model="sam3.pt", verbose=False)
predictor = SAM3SemanticPredictor(overrides=overrides)
predictor2 = SAM3SemanticPredictor(overrides=overrides)
# Extract features from the first predictor
source = "path/to/image.jpg"
predictor.set_image(source)
src_shape = cv2.imread(source).shape[:2]
# Setup second predictor and reuse features
predictor2.setup_model()
# Perform inference using shared features with text prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, text=["person"])
# Perform inference using shared features with bounding box prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, bboxes=[[439, 437, 524, 709]])
# Visualize results
if masks is not None:
masks, boxes = masks.cpu().numpy(), boxes.cpu().numpy()
im = cv2.imread(source)
annotator = Annotator(im, pil=False)
annotator.masks(masks, [colors(x, True) for x in range(len(masks))])
cv2.imshow("result", annotator.result())
cv2.waitKey(0)
Video Konsept segmentasyonu
Video Boyunca Sınırlayıcı Kutularla Kavramları track Etme
Görsel İstemlerle Video track
Sınırlayıcı kutu istemlerini kullanarak video kareleri boyunca nesne örneklerini detect ve track edin.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3VideoPredictor(overrides=overrides)
# Track objects using bounding box prompts
results = predictor(source="path/to/video.mp4", bboxes=[[706.5, 442.5, 905.25, 555], [598, 635, 725, 750]], stream=True)
# Process and display results
for r in results:
r.show() # Display frame with segmentation masks
Metin İstemleriyle Kavramları track Etme
Semantik Sorgularla Video track
Metinle belirtilen kavramların tüm örneklerini video kareleri boyunca track edin.
from ultralytics.models.sam import SAM3VideoSemanticPredictor
# Initialize semantic video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=640, model="sam3.pt", half=True)
predictor = SAM3VideoSemanticPredictor(overrides=overrides)
# Track concepts using text prompts
results = predictor(source="path/to/video.mp4", text=["person", "bicycle"], stream=True, save=True)
# Process results
for r in results:
r.show() # Display frame with tracked objects
# Alternative: Track with bounding box prompts
results = predictor(
source="path/to/video.mp4",
bboxes=[[864, 383, 975, 620], [705, 229, 782, 402]],
labels=[1, 1], # Positive labels
stream=True,
save=True,
)
Görsel İstemler (SAM 2 Uyumluluğu)
SAM 3, tek nesne segmentasyonu için SAM 2'nin görsel istemleriyle tam geriye dönük uyumluluğu sürdürür:
SAM 2 Style Visual Prompts
Temel SAM arayüzü, SAM 2 gibi davranır ve yalnızca görsel istemlerle (noktalar, kutular veya maskeler) belirtilen belirli alanı segment eder.
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt - segments object at specific location
results = model.predict(source="path/to/image.jpg", points=[900, 370], labels=[1])
results[0].show()
# Multiple points - segments single object with multiple point hints
results = model.predict(source="path/to/image.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt - segments object within bounding box
results = model.predict(source="path/to/image.jpg", bboxes=[100, 150, 300, 400])
results[0].show()
Görsel İstemler ve Kavram Segmentasyonu
Kullanarak SAM("sam3.pt") görsel istemlerle (noktalar/kutular/maskeler) segment edecektir yalnızca belirli nesneyi o konumda, tıpkı SAM 2 gibi. segment etmek için bir kavramın tüm örneklerini, kullanın SAM3SemanticPredictor yukarıda gösterildiği gibi metin veya örnek istemlerle.
Performans Kıyaslamaları
Görüntü Bölütleme
SAM 3, LVIS ve segmentasyon için COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birden çok kıyaslama genelinde son teknoloji sonuçlar elde ediyor:
| Kıyaslama | Metrik | SAM 3 | Önceki En İyi | İyileştirme |
|---|---|---|---|---|
| LVIS (sıfır atış) | Maske AP | 47.0 | 38.5 | +22.1% |
| SA-Co/Gold | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
| COCO (sıfır atış) | Kutu AP | 53.5 | 52.2 (T-Rex2) | +2.5% |
| ADE-847 (semantik seg) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
| PascalConcept-59 | mIoU | 59.4 | 58.5 (APE-D) | +1.5% |
| Cityscapes (semantik segmentasyon) | mIoU | 65.1 | 44.2 (APE-D) | +47.3% |
Ultralytics veri kümelerinde hızlı denemeler için veri kümesi seçeneklerini keşfedin.
Video segmentasyonu Performansı
SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli iyileştirmeler gösterir:
| Kıyaslama | Metrik | SAM 3 | SAM 2.1 L | İyileştirme |
|---|---|---|---|---|
| MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
| DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
| LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
| SA-V | J&F | 84.6 | 78.4 | +7.9% |
| YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Az Veriyle Uyum Sağlama
SAM 3, veri merkezli yapay zeka iş akışları için alakalı olan, minimum örneklerle yeni alanlara uyum sağlama konusunda mükemmeldir:
| Kıyaslama | 0-shot AP | 10-shot AP | Önceki En İyi (10-shot) |
|---|---|---|---|
| ODinW13 | 59.9 | 71.6 | 67.9 (gDino1.5-Pro) |
| RF100-VL | 14.3 | 35.7 | 33.7 (gDino-T) |
İnteraktif İyileştirme Etkinliği
SAM 3'ün örneklerle kavram tabanlı istemi, görsel istemden çok daha hızlı yakınsar:
| İstemler Eklendi | CGF1 Puanı | Kazanç - Yalnızca Metin | Kazanç - PVS Temel Çizgisi |
|---|---|---|---|
| Sadece metin | 46.4 | temel çizgi | temel çizgi |
| +1 örnek | 57.6 | +11.2 | +6.7 |
| +2 örnek | 62.2 | +15.8 | +9.7 |
| +3 örnek | 65.0 | +18.6 | +11.2 |
| +4 örnek | 65.7 | +19.3 | +11.5 (plato) |
Nesne Sayma Doğruluğu
SAM 3, tüm örnekleri bölümlere ayırarak doğru sayım sağlar; bu, nesne sayımında yaygın bir gereksinimdir:
| Kıyaslama | Doğruluk | MAE | En İyi MLLM'ye karşı |
|---|---|---|---|
| CountBench | 95.6% | 0.11 | %92.4 (Gemini 2.5) |
| PixMo-Count | 87.3% | 0.22 | %88.8 (Molmo-72B) |
SAM 3 - SAM 2 - YOLO Karşılaştırması
Burada SAM 3'ün yeteneklerini SAM 2 ve YOLO11 modelleriyle karşılaştırıyoruz:
| Yetenek | SAM 3 | SAM 2 | YOLO11n-seg |
|---|---|---|---|
| Konsept Segmentasyonu | ✅ Metin/örneklerden tüm örnekler | ❌ Desteklenmiyor | ❌ Desteklenmiyor |
| Görsel segmentasyonu | ✅ Tek örnek (SAM 2 uyumlu) | ✅ Tek örnek | ✅ Tüm örnekler |
| Sıfır Atış Yeteneği | ✅ Açık kelime dağarcığı | ✅ Geometrik istemler | ❌ Kapalı küme |
| İnteraktif İyileştirme | ✅ Örnekler + tıklamalar | ✅ Yalnızca tıklamalar | ❌ Desteklenmiyor |
| Video Tracking | ✅ Kimlikleri olan çoklu nesne | ✅ Çoklu nesne | ✅ Çoklu nesne |
| LVIS Maske AP (sıfır atış) | 47.0 | Yok | Yok |
| MOSEv2 J&F | 60.1 | 47.9 | Yok |
| Çıkarım Hızı (H200) | 30 ms (100+ nesne) | ~23 ms (nesne başına) | 2-3 ms (görüntü) |
| Model Boyutu | 3,4 GB | 162 MB (temel) | 5.9 MB |
Temel Çıkarımlar:
- SAM 3: Açık kelime dağarcığı kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulma
- SAM 2: Geometrik istemlerle görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
- YOLO11: ONNX ve TensorRT gibi verimli dışa aktarma hatları kullanılarak kaynak kısıtlı dağıtımlarda gerçek zamanlı, yüksek hızlı segmentasyon için en iyisidir.
Değerlendirme Metrikleri
SAM 3, PCS görevi için tasarlanmış yeni metrikler sunar ve F1 skoru, kesinlik (precision) ve duyarlılık (recall) gibi tanıdık ölçüleri tamamlar.
Sınıflandırma-Geçitli F1 (CGF1)
Yerelleştirme ve sınıflandırmayı birleştiren temel metrik:
CGF1 = 100 × pmF1 × IL_MCC
Nerede:
- pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
- IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")
Neden Bu Metrikler?
Geleneksel AP metrikleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün metrikleri, yalnızca 0,5 güvenin üzerindeki tahminleri değerlendirerek iyi kalibrasyonu zorlar ve etkileşimli predict ve track döngülerinde gerçek dünya kullanım kalıplarını taklit eder.
İleri Gelen Eksiltmeler ve Bulgular
Varlık Başlığının Etkisi
Varlık başlığı, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:
| Yapılandırma | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| Varlık olmaksızın | 57.6 | 0.77 | 74.7 |
| Varlık ile | 63.3 | 0.82 | 77.1 |
Varlık başlığı, öncelikle tanıma yeteneğini geliştiren (IL_MCC +%6,5) +%5,7 CGF1 artışı (+%9,9) sağlar.
Zor Negatiflerin Etkisi
| Zor Negatifler/Görüntü | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| 0 | 31.8 | 0.44 | 70.2 |
| 5 | 44.8 | 0.62 | 71.9 |
| 30 | 49.2 | 0.68 | 72.3 |
Zor negatifler, açık kelime dağarcığı tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında artırır.
Eğitim Verisi Ölçeklendirme
| Veri Kaynakları | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| Sadece Harici | 30.9 | 0.46 | 66.3 |
| Harici + Sentetik | 39.7 | 0.57 | 70.6 |
| Harici + HQ | 51.8 | 0.71 | 73.2 |
| Üçü de | 54.3 | 0.74 | 73.5 |
Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamaları hakkında arka plan bilgisi için veri toplama ve açıklama bölümüne bakın.
Uygulamalar
SAM 3'ün kavram segmentasyon yeteneği, yeni kullanım alanları sağlıyor:
- İçerik Denetimi: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
- E-ticaret: Katalog resimlerindeki belirli bir türdeki tüm ürünleri segmentlere ayırın, otomatik etiketlemeyi destekler
- Tıbbi Görüntüleme: Belirli doku türlerinin veya anormalliklerin tüm oluşumlarını belirleyin
- Otonom Sistemler: Trafik işaretleri, yayalar veya araçların tüm örneklerini kategoriye göre track edin.
- Video Analitiği: Belirli kıyafetler giyen veya eylemler gerçekleştiren tüm kişileri sayın ve izleyin
- Veri Kümesi Açıklaması: Nadir nesne kategorilerinin tüm örneklerini hızla açıklayın
- Bilimsel Araştırma: Belirli kriterlere uyan tüm örnekleri ölçün ve analiz edin
SAM 3 Agent: Genişletilmiş Dil Akıl Yürütme
SAM 3, akıl yürütme gerektiren karmaşık sorguları işlemek için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir; bu, OWLv2 ve T-Rex gibi açık sözlüklü sistemlere benzer bir yaklaşımdır.
Akıl Yürütme Görevlerinde Performans
| Kıyaslama | Metrik | SAM 3 Agent (Gemini 2.5 Pro) | Önceki En İyi |
|---|---|---|---|
| ReasonSeg (doğrulama) | GIoU | 76.0 | 65.0 (SoTA) |
| ReasonSeg (test) | GIoU | 73.8 | 61.3 (SoTA) |
| OmniLabel (doğrulama) | AP | 46.7 | 36.5 (REAL) |
| RefCOCO+ | Hassasiyet | 91.2 | %89.3 (LISA) |
Örnek Karmaşık Sorgular
SAM 3 Agent, akıl yürütme gerektiren sorguları işleyebilir:
- "Oturan ama ellerinde hediye kutusu tutmayan insanlar"
- "Kameraya en yakın olan ve tasması olmayan köpek"
- "Kişinin elinden daha büyük kırmızı nesneler"
MLLM, SAM 3'e basit isim tamlaması sorguları önerir, döndürülen maskeleri analiz eder ve tatmin olana kadar yineler.
Sınırlamalar
SAM 3 önemli bir ilerlemeyi temsil ederken, bazı sınırlamaları vardır:
- İfade Karmaşıklığı: Basit isim öbekleri için en uygunudur; uzun gönderme ifadeleri veya karmaşık akıl yürütme, MLLM entegrasyonu gerektirebilir
- Belirsizlik Yönetimi: Bazı kavramlar doğası gereği belirsizliğini korur (örneğin, "küçük pencere", "rahat oda")
- Hesaplama Gereksinimleri: YOLO gibi özel algılama modellerinden daha büyük ve daha yavaş
- Sözcük Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel akıl yürütme sınırlıdır
- Nadir Kavramlar: Performans, eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince ayrıntılı kavramlarda düşebilir.
Alıntı
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
SSS
SAM 3 Ne Zaman Yayınlandı?
SAM 3, Meta tarafından 20 Kasım 2025 tarihinde yayınlandı ve sürüm 8.3.237 (PR #22897) itibarıyla Ultralytics'e tamamen entegre edilmiştir. Tahmin modu ve track modu için tam destek mevcuttur.
SAM 3, Ultralytics'e Entegre mi?
Evet! SAM 3, kavram segmentasyonu, SAM 2 tarzı görsel istemler ve çok nesneli video track etme dahil olmak üzere Ultralytics Python paketine tamamen entegre edilmiştir. Dağıtım için ONNX ve TensorRT gibi formatlara dışa aktarabilir, basitleştirilmiş Python ve CLI iş akışlarından yararlanabilirsiniz.
İstemlenebilir Kavram Segmentasyonu (PCS) Nedir?
PCS, SAM 3'te tanıtılan ve bir görsel kavramın tüm örneklerini bir resim veya videoda segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyondan farklı olarak, PCS bir kategorinin her oluşumunu bulur. Örneğin:
- Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
- Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segment eder
- Kombine: "çizgili kedi" + örnek kutu → örneğe uyan tüm çizgili kedileri segmentlere ayırır
Nesne tespiti ve örnek segmentasyonu ile ilgili arka plan bilgilerine bakın.
SAM 3'ün SAM 2'den Farkı Nedir?
| Özellik | SAM 2 | SAM 3 |
|---|---|---|
| Görev | Öneri başına tek nesne | Bir kavramın tüm örnekleri |
| İstem Türleri | Noktalar, kutular, maskeler | + Metin ifadeleri, resim örnekleri |
| Algılama Yeteneği | Harici detector gerektirir | Yerleşik açık kelime dağarcığı dedektörü |
| Tanıma | Yalnızca geometri tabanlı | Metin ve görsel tanıma |
| Mimari | Sadece İzleyici | Varlık başlığına sahip Detector + Tracker |
| Sıfır Atış Performansı | Yok (görsel istemler gerektirir) | LVIS üzerinde 47.0 AP, SA-Co'da 2 kat daha iyi |
| İnteraktif İyileştirme | Sadece tıklamalar | Tıklamalar + örnek genelleme |
SAM 3, kavram tabanlı yetenekler eklerken SAM 2 görsel istemiyle geriye dönük uyumluluğu korur.
SAM 3'ü eğitmek için hangi veri kümeleri kullanılır?
SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:
Eğitim Verileri:
- 4M benzersiz isim öbeği ile 5.2M görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
- 24.8K benzersiz isim öbeği ile 52.5K video (SA-Co/VIDEO)
- 1.4M sentetik maske, 38M isim öbeği genelinde (SA-Co/SYN)
- Zor negatiflerle zenginleştirilmiş 15 harici veri kümesi (SA-Co/EXT)
Benchmark Verileri:
- 126K görüntü/video genelinde 214K benzersiz kavram
- Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS'te ~4K kavram bulunur)
- İnsan performansı sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama
Bu muazzam ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesi sağlamasına olanak tanır.
SAM 3, segmentasyon için YOLO11 ile nasıl karşılaştırılır?
SAM 3 ve YOLO11 farklı kullanım durumlarına hizmet eder:
SAM 3 Avantajları:
- Açık kelime dağarcığı: Eğitim olmadan metin istemleri aracılığıyla herhangi bir kavramı segmentlere ayırır
- Sıfır Atışlı (Zero-shot): Yeni kategorilerde anında çalışır
- Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleme yapar
- Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
- Doğruluk: LVIS sıfır atışlı örnek segmentasyonunda 47.0 AP
YOLO11 Avantajları:
- Hız: 10-15 kat daha hızlı çıkarım (görüntü başına 2-3 ms'ye karşı 30 ms)
- Verimlilik: 576 kat daha küçük modeller (5,9 MB karşı 3,4 GB)
- Kaynak dostu: Uç cihazlarda ve mobilde çalışır
- Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir
Öneri:
- Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime dağarcığı segmentasyonu için SAM 3 kullanın
- Kategorilerin önceden bilindiği yüksek hızlı, üretim dağıtımları için YOLO11 kullanın
- Geometrik istemlerle etkileşimli tek nesne segmentasyonu için SAM 2 kullanın
SAM 3 karmaşık dil sorgularını işleyebilir mi?
SAM 3, basit isim öbekleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Akıl yürütme gerektiren karmaşık sorgular için, SAM 3'ü bir MLLM ile SAM 3 Agent olarak birleştirin:
Basit sorgular (yerel SAM 3):
- "Sarı okul otobüsü"
- "Çizgili kedi"
- "Kırmızı şapka takan kişi"
Karmaşık sorgular (MLLM ile SAM 3 Aracısı):
- "Oturan ama ellerinde hediye kutusu olmayan insanlar"
- "Kameraya en yakın, tasmasız köpek"
- "Kişinin elinden daha büyük kırmızı nesneler"
SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM akıl yürütme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76.0 gIoU elde ediyor (önceki en iyi 65.0'a karşı +%16.9 iyileşme).
SAM 3'ün doğruluğu insan performansına kıyasla ne kadar?
Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:
- İnsan alt sınırı: 74.2 CGF1 (en tutucu etiketleyici)
- SAM 3 performansı: 65.0 CGF1
- Başarı: Tahmini insan alt sınırının %88'i
- İnsan üst sınırı: 81.4 CGF1 (en serbest etiketleyici)
SAM 3, açık kelime dağarcığı konsept segmentasyonunda insan seviyesine yaklaşan güçlü bir performans sergiliyor ve boşluk öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") bulunuyor.