İçeriğe geç

SAM 3: Kavramlarla Her Şeyi Segmentlere Ayırın

Çok Yakında ⚠️

🚧 SAM 3 modelleri henüz Meta tarafından kamuya açıklanmamıştır. Aşağıdaki bilgiler ICLR 2026'ya sunulan araştırma makalesine dayanmaktadır. Model indirmeleri ve nihai kıyaslamalar Meta'nın resmi yayınını takiben mevcut olacaktır.

SAM 3 Genel Bakış

SAM 3 (Segment Anything Model 3), Meta'nın İstenebilir Kavram Segmentasyonu (PCS) için yeni nesil temel modelini temsil eder. SAM 2'nin üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini tespit etmek, bölümlere ayırmak ve izlemek. Her istem için tek bir nesneyi segmentlere ayıran önceki SAM sürümlerinden farklı olarak SAM 3, modern örnek segmentasyonundaki açık kelime hedefleriyle uyumlu olarak, görüntülerin veya videoların herhangi bir yerinde görünen bir kavramın her oluşumunu bulabilir ve segmentlere ayırabilir.

Genel Bakış

SAM 3, SAM 2'nin etkileşimli görsel segmentasyon yeteneklerini korurken ve geliştirirken, İstenebilir Kavram Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı sağlar. Model, kullanıcıların basit isim cümleleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek görüntülerini sağlayarak kavramları belirtmelerine olanak tanıyan açık kelime segmentasyonunda mükemmeldir. Bu yetenekler, kolaylaştırılmış tahmin ve takip iş akışlarına dayanan üretime hazır boru hatlarını tamamlıyor.

SAM 3 Segmentasyon

İstenebilir Kavram Segmentasyonu (PCS) nedir?

PCS görevi girdi olarak bir kavram istemi alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:

  • Metin: "Kırmızı elma" veya "şapka takan kişi" gibi basit isim cümleleri, sıfır atış öğrenmeye benzer
  • Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin etrafındaki sınırlayıcı kutular (pozitif veya negatif)
  • Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada

Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini bölümlere ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.

Temel Performans Ölçütleri

Metrik SAM 3 Başarı
LVIS Sıfır Atış Maskesi AP 47,0 (önceki en iyi 38,5'e kıyasla, +%22 iyileşme)
SA-Co Benchmark Mevcut sistemlerden 2 kat daha iyi
Çıkarım Hızı (H200 GPU) 100'den fazla algılanan nesne ile görüntü başına 30 ms
Video Performansı Eşzamanlı ~5 nesne için neredeyse gerçek zamanlı
MOSEv2 VOS Benchmark 60,1 J&F ( SAM 2.1'e göre +%25,5, önceki SOTA'ya göre +%17)
İnteraktif İyileştirme 3 örnek ipucundan sonra +18,6 CGF1 iyileşmesi
İnsan Performansı Açığı SA-Co/Gold için tahmin edilen alt sınırın %88 'ine ulaşıldı

Model metrikleri ve üretimdeki ödünleşimlerle ilgili bağlam için model değerlendirme içgörüleri ve YOLO performans metriklerine bakın.

Mimari

SAM 3, bir Perception Encoder (PE) görüş backbone paylaşan bir dedektör ve izleyiciden oluşur. Bu ayrıştırılmış tasarım, Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüzle hem görüntü düzeyinde algılama hem de video düzeyinde izleme sağlarken görev çakışmalarını önler.

Temel Bileşenler

  • Dedektör: Görüntü düzeyinde kavram tespiti için DETR tabanlı mimari

    • İsim cümlesi istemleri için metin kodlayıcı
    • Görüntü tabanlı istemler için örnek kodlayıcı
    • Görüntü özelliklerini istemler üzerine koşullandırmak için füzyon kodlayıcı
    • Tanımayı ("ne") lokalizasyondan ("nerede") ayıran yeni varlık kafası
    • Örnek segmentasyon maskeleri oluşturmak için maske kafası
  • İzleyici: SAM 2'den devralınan bellek tabanlı video segmentasyonu

    • Komut kodlayıcı, maske kod çözücü, bellek kodlayıcı
    • Çerçeveler arasında nesne görünümünü saklamak için bellek bankası
    • Çok nesneli ortamlarda Kalman filtresi gibi tekniklerle desteklenen zamansal anlam ayrımı
  • Varlık Belirteci: Hedef kavramın görüntüde/çerçevede mevcut olup olmadığını tahmin eden ve tanımayı yerelleştirmeden ayırarak algılamayı iyileştiren öğrenilmiş bir küresel belirteç.

SAM 3 Mimarisi

Önemli Yenilikler

  1. Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık başlığı, kavramın varlığını küresel olarak tahmin ederken, teklif sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
  2. Birleşik Kavram ve Görsel İstemler: Tek bir modelde hem PCS'yi (kavram istemleri) hem de PVS'yi ( SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
  3. İnteraktif Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapabilir.
  4. Zamansal Belirsizlik Giderme: Örnek segmentasyonu ve en iyi izleme uygulamalarıyla uyumlu olarak, oklüzyonları, kalabalık sahneleri ve videodaki izleme hatalarını ele almak için masklet algılama puanlarını ve periyodik yeniden istemeyi kullanır.

SA-Co Veri Kümesi

SAM 3, Meta'nın bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesi olan Segment Anything with Concepts (SA-Co) üzerinde eğitilerek COCO ve LVIS gibi yaygın ölçütlerin ötesine geçmiştir.

Eğitim Verileri

Veri Kümesi Bileşeni Açıklama Ölçek
SA-Co/HQ 4-fazlı veri motorundan yüksek kaliteli insan açıklamalı görüntü verileri 5,2 milyon resim, 4 milyon benzersiz isim cümlesi
SA-Co/SYN İnsan müdahalesi olmadan yapay zeka tarafından etiketlenen sentetik veri seti 38 milyon isim cümlesi, 1,4 milyar maske
SA-Co/EXT 15 sert negatif ile zenginleştirilmiş harici veri kümesi Kaynağa göre değişir
SA-Co/VİDEO Zamansal izleme ile video ek açıklamaları 52,5 bin video, 24,8 bin benzersiz isim cümlesi

Benchmark Verileri

SA-Co değerlendirme ölçütü, 126 bin resim ve videoda 214 bin benzersiz ifade içeriyor ve mevcut ölçütlerden 50 kat daha fazla kavram sağlıyor. Bu ölçüt şunları içerir:

  • SA-Co/Gold: İnsan performans sınırlarını ölçmek için üçlü açıklamalı 7 alan
  • SA-Co/Silver: 10 etki alanı, tek insan açıklaması
  • SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri seti
  • SA-Co/VEval: 3 alanlı video kıyaslaması (SA-V, YT-Temporal-1B, SmartGlasses)

Veri Motoru Yenilikleri

SAM 3'ün ölçeklenebilir insan ve model döngüsü veri motoru, 2 kat ek açıklama verimine ulaşır:

  1. Yapay Zeka Açıklayıcıları: Lama tabanlı modeller, sert negatifler de dahil olmak üzere çeşitli isim cümleleri önerir
  2. Yapay Zeka Doğrulayıcıları: İnce ayarlı multimodal LLM 'ler maske kalitesini ve tükenebilirliği insana yakın performansta doğrular
  3. Aktif Madencilik: İnsan çabasını yapay zekanın zorlandığı zorlu arıza durumlarına odaklar
  4. Ontoloji Güdümlü: Kavram kapsamı için Wikidata 'ya dayanan büyük bir ontolojiden yararlanır

Kurulum

SAM 3, piyasaya sürüldükten sonra Ultralytics paketinde yerel olarak desteklenecektir:

pip install ultralytics

Modeller ilk kullanıldıklarında otomatik olarak indirilir. Daha sonra standart tahmin modunu kullanabilir ve modelleri aşağıdaki gibi formatlara aktarabilirsiniz ONNX ve TensorRT konuşlandırma için.

SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük

Önizleme API'si - Değişikliğe Tabidir

Aşağıdaki kod örnekleri, araştırma makalesine dayalı olarak amaçlanan kullanım modellerini göstermektedir. Asıl API daha sonra kullanıma sunulacaktır:

  1. Meta açık kaynak SAM 3 model ağırlıkları
  2. Ultralytics SAM 3'ü pakete entegre eder

Sözdizimi ve parametreler nihai uygulamada farklılık gösterebilir. Bu örnekler, beklenen işlevselliğin bir önizlemesi olarak hizmet eder.

Desteklenen Görevler ve Modeller

SAM 3 hem İstenebilir Kavram Segmentasyonu (PCS) hem de İstenebilir Görsel Segmentasyon (PVS) görevlerini destekler:

Görev Türü İstem Türleri Çıktı
Kavram Segmentasyonu (PCS) Metin (isim cümleleri), görüntü örnekleri Kavramla eşleşen tüm örnekler
Görsel Segmentasyon (PVS) Noktalar, kutular, maskeler Tek nesne örneğiSAM 2 stili)
İnteraktif İyileştirme Örnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırın Geliştirilmiş doğruluk ile rafine segmentasyon

Kavram Segmentasyonu Örnekleri

Metin İpuçları ile Segment

Metin Tabanlı Kavram Segmentasyonu

Bir metin açıklaması kullanarak bir kavramın tüm örneklerini bulun ve bölümlere ayırın.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.

Görüntü Örnekleri ile Segment

Görüntü Örneği Tabanlı Segmentasyon

Tüm benzer örnekleri bulmak için bir veya daha fazla örnek nesne kullanın.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.

İnteraktif İyileştirme

Örnekler ile Yinelemeli İyileştirme

İlk çıktıya dayalı örnek istemler ekleyerek sonuçları aşamalı olarak iyileştirin.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.

Video Kavram Segmentasyonu

Video Üzerinden Kavramları İzleme

Bir video boyunca bir kavramın tüm örneklerini tespit edin ve izleyin.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.

Daha geniş akış ve üretim kurulumları için bkz. nesne izleme ve sonuçları terminalde görüntüleme.

Görsel UyarılarSAM 2 Uyumluluğu)

SAM 3, SAM 2'nin görsel yönlendirmesi ile geriye dönük tam uyumluluğu korur:

SAM 2 Stil Görsel İpuçları

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.

Performans Kıyaslamaları

Görüntü Segmentasyonu

SAM 3, segmentasyon için LVIS ve COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birçok kıyaslamada en son teknolojiye sahip sonuçlar elde eder:

Kıyaslama Metrik SAM 3 Önceki En İyi İyileştirme
LVIS (sıfır atış) Maske AP 47.0 38.5 +22.1%
SA-Co/Altın CGF1 65.0 34.3 (OWLv2) +89.5%
COCO (sıfır atış) Kutu AP 53.5 52.2 (T-Rex2) +2.5%
ADE-847 (semantik seg) mIoU 14.7 9.2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Şehir Manzaraları (semantik seg) mIoU 65.1 44,2 (APE-D) +47.3%

Ultralytics veri kümelerinde hızlı deneme için veri kümesi seçeneklerini keşfedin.

Video Segmentasyon Performansı

SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli gelişmeler gösteriyor:

Kıyaslama Metrik SAM 3 SAM 2.1 L İyileştirme
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Az Çekimli Uyarlama

SAM 3, veri merkezli yapay zeka iş akışlarıyla ilgili minimum örnekle yeni alanlara uyum sağlama konusunda başarılıdır:

Kıyaslama 0 atış AP 10 atışlık AP Önceki En İyi (10 atış)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

İnteraktif İyileştirme Etkinliği

SAM 3'ün örneklerle kavram tabanlı yönlendirmesi, görsel yönlendirmeden çok daha hızlı yakınsamaktadır:

İpuçları Eklendi CGF1 Skoru Kazanç vs Yalnızca Metin PVS Taban Çizgisine Karşı Kazanç
Sadece metin 46.4 taban çizgisi taban çizgisi
+1 örnek 57.6 +11.2 +6.7
+2 örnek 62.2 +15.8 +9.7
+3 örnek 65.0 +18.6 +11.2
+4 örnek 65.7 +19.3 +11,5 (plato)

Nesne Sayma Doğruluğu

SAM 3, nesne sayımında yaygın bir gereksinim olan tüm örnekleri bölümlere ayırarak doğru sayım sağlar:

Kıyaslama Doğruluk MAE vs En İyi MLLM
CountBench 95.6% 0.11 92,4 (Gemini 2.5)
PixMo-Count 87.3% 0.22 88,8 (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Karşılaştırması

Burada SAM 3'ün yeteneklerini SAM 2 ve SAM 3 ile karşılaştırıyoruz. YOLO11 modeller:

Yetenek SAM 3 SAM 2 YOLO11n-seg
Kavram Segmentasyonu ✅ Metinden/örneklerden tüm örnekler ❌ Desteklenmiyor ❌ Desteklenmiyor
Görsel Segmentasyon ✅ Tek örnekSAM 2 uyumlu) ✅ Tek örnek ✅ Tüm örnekler
Sıfır Atış Yeteneği ✅ Açık kelime dağarcığı ✅ Geometrik ipuçları ❌ Kapalı küme
İnteraktif İyileştirme ✅ Örnekler + tıklamalar ✅ Sadece tıklamalar ❌ Desteklenmiyor
Video İzleme ✅ Özdeşlikler ile çoklu nesne ✅ Çoklu nesne ✅ Çoklu nesne
LVIS Maske AP (sıfır atış) 47.0 Yok Yok
MOSEv2 J&F 60.1 47.9 Yok
Çıkarım Hızı (H200) 30 ms (100+ nesne) ~23 ms (nesne başına) 2-3 ms (görüntü)
Model Boyutu Büyük (~400+ MB bekleniyor) 162 MB (temel) 5.9 MB

Anahtar Çıkarımlar:

  • SAM 3: Açık kelime kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulmak
  • SAM 2: Geometrik ipuçlarıyla görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
  • YOLO11: gibi verimli dışa aktarma işlem hatlarını kullanarak kaynak kısıtlı dağıtımlarda gerçek zamanlı, yüksek hızlı segmentasyon için en iyisidir ONNX ve TensorRT

Değerlendirme Metrikleri

SAM 3, PCS görevi için tasarlanmış ve F1 puanı, kesinlik ve geri çağırma gibi bilinen ölçütleri tamamlayan yeni ölçütler sunar.

Sınıflandırma Kapılı F1 (CGF1)

Lokalizasyon ve sınıflandırmayı birleştiren birincil metrik:

CGF1 = 100 × pmF1 × IL_MCC

Nerede:

  • pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
  • IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")

Neden Bu Metrikler?

Geleneksel AP ölçümleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün ölçümleri, yalnızca 0,5 güvenin üzerindeki tahminleri değerlendirerek iyi bir kalibrasyonu zorunlu kılar ve etkileşimli tahmin ve takip döngülerinde gerçek dünya kullanım modellerini taklit eder.

Önemli Ablasyonlar ve İçgörüler

Varlık Başlığının Etkisi

Varlık kafası, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:

Yapılandırma CGF1 IL_MCC pmF1
Varlık olmadan 57.6 0.77 74.7
Varlığımızla 63.3 0.82 77.1

Varlık başlığı +5,7 CGF1 artışı (+%9,9) sağlar ve öncelikle tanıma yeteneğini geliştirir (IL_MCC +%6,5).

Sert Negatiflerin Etkisi

Sert Negatifler/İmaj CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Sert negatifler açık kelime tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında iyileştirir.

Eğitim Verisi Ölçeklendirme

Veri Kaynakları CGF1 IL_MCC pmF1
Sadece harici 30.9 0.46 66.3
Harici + Sentetik 39.7 0.57 70.6
Harici + Genel Merkez 51.8 0.71 73.2
Üçü de 54.3 0.74 73.5

Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamalarının arka planı için veri toplama ve açıklama bölümüne bakınız.

Uygulamalar

SAM 3'ün kavram segmentasyonu özelliği yeni kullanım durumlarına olanak tanır:

  • İçerik Moderasyonu: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
  • E-ticaret: Otomatik açıklamayı destekleyen katalog resimlerinde belirli bir türdeki tüm ürünleri segmentlere ayırın
  • Tıbbi Görüntüleme: Belirli doku tiplerinin veya anormalliklerin tüm oluşumlarını tanımlayın
  • Otonom Sistemler: Tüm trafik işaretleri, yayalar veya araç örneklerini kategoriye göre takip edin
  • Video Analitiği: Belirli kıyafetleri giyen veya eylemleri gerçekleştiren tüm insanları sayın ve izleyin
  • Veri Kümesi Ek Açıklaması: Nadir nesne kategorilerinin tüm örneklerine hızlıca açıklama ekleyin
  • Bilimsel Araştırma: Belirli kriterlere uyan tüm numuneleri ölçün ve analiz edin

SAM 3 Agent: Genişletilmiş Dil Muhakemesi

SAM 3, OWLv2 ve T-Rex gibi açık kelime sistemlerine benzer şekilde, akıl yürütme gerektiren karmaşık sorguları ele almak için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir.

Muhakeme Görevlerinde Performans

Kıyaslama Metrik SAM 3 Agent (Gemini 2.5 Pro) Önceki En İyi
ReasonSeg (doğrulama) gIoU 76.0 65,0 (SoTA)
ReasonSeg (test) gIoU 73.8 61,3 (SoTA)
OmniLabel (doğrulama) AP 46.7 36,5 (GERÇEK)
RefCOCO+ Acc 91.2 89.3 (LISA)

Örnek Karmaşık Sorgular

SAM 3 Agent, muhakeme gerektiren sorguların üstesinden gelebilir:

  • "İnsanlar oturuyor ama ellerinde bir hediye kutusu tutmuyorlar"
  • "Kameraya en yakın olan ve tasma takmayan köpek"
  • "Kişinin elinden daha büyük kırmızı nesneler"

MLLM, SAM 3'e basit isim cümlesi sorguları önerir, dönen maskeleri analiz eder ve tatmin olana kadar yineler.

Sınırlamalar

SAM 3 büyük bir ilerlemeyi temsil etse de bazı sınırlamaları vardır:

  • İfade Karmaşıklığı: Basit isim cümleleri için en uygun olanıdır; uzun gönderme ifadeleri veya karmaşık akıl yürütmeler MLLM entegrasyonu gerektirebilir
  • Belirsizliğin Ele Alınması: Bazı kavramlar doğası gereği muğlak kalmaktadır (örneğin, "küçük pencere", "rahat oda")
  • Hesaplama Gereksinimleri: gibi özel algılama modellerinden daha büyük ve daha yavaştır. YOLO
  • Kelime Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel muhakeme sınırlıdır
  • Nadir Kavramlar: Eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince taneli kavramlarda performans düşebilir

Atıf

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

SSS

SAM 3 Ne Zaman Çıkacak?

SAM 3 şu anda ICLR 2026'da inceleme aşamasındadır (konferans 2026'da, inceleme 2025'te). Resmi modeller, ağırlıklar ve kıyaslamalar, inceleme sürecinin ardından, muhtemelen 2026'da kamuya açıklanacaktır. Ultralytics , Meta'nın piyasaya sürülmesinin ardından SAM 3 entegrasyonu için anında destek sağlayacak ve tahmin modunda ve izleme modunda kullanımı belgeleyecektir.

SAM 3 Ultralytics'e Entegre Edilecek mi?

Evet. SAM 3, kavram segmentasyonu, SAM 2 tarzı görsel istemler ve çok nesneli video izleme dahil olmak üzere, piyasaya sürüldüğünde Ultralytics Python paketinde desteklenecektir. Aşağıdaki gibi formatlara dışa aktarabileceksiniz ONNX ve TensorRT dağıtım için, kolaylaştırılmış Python ve CLI iş akışları.

Uygulama Zaman Çizelgesi

Bu belgedeki kod örnekleri, amaçlanan kullanım modellerini gösteren önizleme sürümleridir. Gerçek uygulama, Meta SAM 3 ağırlıklarını yayınladıktan ve Ultralytics entegrasyonu tamamladıktan sonra mevcut olacaktır.

İstenebilir Kavram Segmentasyonu (PCS) Nedir?

PCS, SAM 3'te tanıtılan ve bir görüntü veya videodaki görsel bir kavramın tüm örneklerini segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyonun aksine, PCS bir kategorinin her oluşumunu bulur. Örneğin:

  • Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
  • Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segmentlere ayırır
  • Birleşik: "çizgili kedi" + örnek kutusu → örnekle eşleşen tüm çizgili kedileri segmentlere ayırır

Nesne algılama ve örnek segmentasyonu ile ilgili arka plana bakın.

SAM 3'ün SAM 2'den Farkı Nedir?

Özellik SAM 2 SAM 3
Görev İstem başına tek nesne Bir kavramın tüm örnekleri
İstem Türleri Noktalar, kutular, maskeler + Metin ifadeleri, görüntü örnekleri
Algılama Yeteneği Harici dedektör gerektirir Yerleşik açık kelime dedektörü
Tanınma Yalnızca geometri tabanlı Metin ve görsel tanıma
Mimari Yalnızca izleyici Varlık kafalı Dedektör + İzleyici
Sıfır Atış Performansı N/A (görsel yönlendirmeler gerektirir) LVIS'de 47,0 AP, SA-Co'da 2 kat daha iyi
İnteraktif İyileştirme Sadece tıklamalar Tıklamalar + örnek genelleme

SAM 3, SAM 2 görsel yönlendirme ile geriye dönük uyumluluğu korurken kavram tabanlı yetenekler ekler.

SAM 3'ü eğitmek için hangi veri kümeleri kullanılıyor?

SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:

Eğitim Verileri:

  • 4 milyon benzersiz isim cümlesine sahip 5,2 milyon görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
  • 52,5 bin video ve 24,8 bin benzersiz isim cümlesi (SA-Co/VIDEO)
  • 38 milyon isim cümlesinde 1,4 milyar sentetik maske (SA-Co/SYN)
  • 15 sert negatiflerle zenginleştirilmiş harici veri kümesi (SA-Co/EXT)

Karşılaştırma Verileri:

  • 126 bin resim/videoda214 bin benzersiz konsept
  • Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS ~4K kavrama sahiptir)
  • İnsan performans sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama

Bu SAM ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesini sağlar.

SAM 3 segmentasyon açısından YOLO11 ile nasıl karşılaştırılır?

SAM 3 ve YOLO11 farklı kullanım durumlarına hizmet etmektedir:

SAM 3 Avantajları:

  • Açık kelime bilgisi: Herhangi bir kavramı eğitim almadan metin istemleri aracılığıyla bölümlere ayırır
  • Sıfır atış: Yeni kategoriler üzerinde hemen çalışır
  • Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleştirilir
  • Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
  • Doğruluk: LVIS sıfır çekim örnek segmentasyonunda 47,0 AP

YOLO11 Avantajları:

  • Hız: 10-15 kat daha hızlı çıkarım (görüntü başına 2-3ms vs 30ms)
  • Verimlilik: 70 kat daha küçük modeller (5,9 MB vs ~400 MB bekleniyor)
  • Kaynak dostu: Uç cihazlarda ve mobil cihazlarda çalışır
  • Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir

Öneri:

  • Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime segmentasyonu için SAM 3 'ü kullanın
  • Kullanım YOLO11 kategorilerin önceden bilindiği yüksek hızlı, üretim dağıtımları için
  • Geometrik ipuçlarıyla etkileşimli tek nesne segmentasyonu için SAM 2 'yi kullanın

SAM 3 karmaşık dil sorgularını işleyebilir mi?

SAM 3 basit isim cümleleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Muhakeme gerektiren karmaşık sorgular için SAM 3'ü SAM 3 Agent olarak bir MLLM ile birleştirin:

Basit sorgular (yerel SAM 3):

  • "sarı okul otobüsü"
  • "çizgili kedi"
  • "kırmızı şapka takan kişi"

Karmaşık sorgular (MLLM ileSAM 3 Agent):

  • "Oturan ama elinde hediye kutusu olmayan insanlar"
  • "Kameraya en yakın tasmasız köpek"
  • "Kişinin elinden daha büyük kırmızı nesneler"

SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM muhakeme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76,0 gIoU elde etti (önceki en iyi 65,0'a kıyasla +%16,9 iyileşme).

SAM 3 insan performansına kıyasla ne kadar doğru?

Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:

  • İnsan alt sınırı: 74,2 CGF1 (en muhafazakar açıklayıcı)
  • SAM 3 performansı: 65,0 CGF1
  • Başarı: Tahmini insan alt sınırının %88 'i
  • İnsan üst sınırı: 81,4 CGF1 (en liberal yorumcu)

SAM 3, açık kelimeli kavram segmentasyonunda insan seviyesindeki doğruluğa yaklaşan güçlü bir performans elde ederken, aradaki fark öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") ortaya çıkmaktadır.



📅 0 gün önce oluşturuldu ✏️ 0 gün önce güncellendi

Yorumlar