İçeriğe geç

SAM 3: Kavramlarla Her Şeyi Segmentlere Ayırın

Yayınlandı - Ultralytics entegrasyonu devam ediyor

Meta, SAM'ü 20 Kasım 2025'te piyasaya sürdü. Ultralytics şu anda modelleri entegre ediyor ve yakında yerel destek ile bir paket güncellemesi gönderecek. Bu arada, yukarı akış sürümünü denemek için aşağıdaki resmi SAM 3 README adımlarını takip edebilirsiniz.

SAM 3 Genel Bakış

SAM 3 (Segment Anything Model 3), Meta'nın Promptable Concept Segmentation (PCS) için yayınladığı temel modeldir. SAM 2'nin üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini tespit etme, bölümlere ayırma ve izleme. Her istem için tek bir nesneyi segment ayıran önceki SAM sürümlerinden farklı olarak SAM 3, modern örnek segmentasyonundaki açık kelime hedefleriyle uyumlu olarak, görüntülerin veya videoların herhangi bir yerinde görünen bir kavramın her oluşumunu bulabilir ve segment ayırabilir.

Ultralytics , SAM'ü aktif bir şekilde ultralytics paketini kullanmaya başlayabilirsiniz. Bu sürüm çıkana kadar, aşağıdaki resmi kurulum ve kullanım adımlarını kullanarak yukarı akış Meta uygulamasını deneyebilirsiniz.

Genel Bakış

SAM 3, SAM 2'nin etkileşimli görsel segmentasyon yeteneklerini korurken ve geliştirirken, İstenebilir Kavram Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı sağlar. Model, kullanıcıların basit isim cümleleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek görüntülerini sağlayarak kavramları belirtmelerine olanak tanıyan açık kelime segmentasyonunda mükemmeldir. Bu yetenekler, kolaylaştırılmış tahminlere dayanan üretime hazır boru hatlarını tamamlar ve track iş akışları.

SAM 3 Segmentasyon

İstenebilir Kavram Segmentasyonu (PCS) nedir?

PCS görevi girdi olarak bir kavram istemi alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:

  • Metin: "Kırmızı elma" veya "şapka takan kişi" gibi basit isim cümleleri, sıfır atış öğrenmeye benzer
  • Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin etrafındaki sınırlayıcı kutular (pozitif veya negatif)
  • Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada

Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini segment ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.

Temel Performans Ölçütleri

MetrikSAM 3 Başarı
LVIS Sıfır Atış Maskesi AP47,0 (önceki en iyi 38,5'e kıyasla, +%22 iyileşme)
SA-Co BenchmarkMevcut sistemlerden 2 kat daha iyi
Çıkarım Hızı (H200 GPU)100'den fazla algılanan nesne ile görüntü başına 30 ms
Video PerformansıEşzamanlı ~5 nesne için neredeyse gerçek zamanlı
MOSEv2 VOS Benchmark60,1 J&F ( SAM 2.1'e göre +%25,5, önceki SOTA'ya göre +%17)
İnteraktif İyileştirme3 örnek ipucundan sonra +18,6 CGF1 iyileşmesi
İnsan Performansı AçığıSA-Co/Gold için tahmin edilen alt sınırın %88 'ine ulaşıldı

Model metrikleri ve üretimdeki ödünleşimlerle ilgili bağlam için model değerlendirme içgörüleri ve YOLO performans metriklerine bakın.

Mimari

SAM 3, bir Perception Encoder (PE) görüş backbone paylaşan bir dedektör ve izleyiciden oluşur. Bu ayrıştırılmış tasarım, Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüzle hem görüntü düzeyinde algılama hem de video düzeyinde izleme sağlarken görev çakışmalarını önler.

Temel Bileşenler

  • Dedektör: Görüntü düzeyinde kavram tespiti için DETR tabanlı mimari

    • İsim cümlesi istemleri için metin kodlayıcı
    • Görüntü tabanlı istemler için örnek kodlayıcı
    • Görüntü özelliklerini istemler üzerine koşullandırmak için füzyon kodlayıcı
    • Tanımayı ("ne") lokalizasyondan ("nerede") ayıran yeni varlık kafası
    • Örnek segmentasyon maskeleri oluşturmak için maske kafası
  • İzleyici: SAM 2'den devralınan bellek tabanlı video segmentasyonu

    • Komut kodlayıcı, maske kod çözücü, bellek kodlayıcı
    • Çerçeveler arasında nesne görünümünü saklamak için bellek bankası
    • Çok nesneli ortamlarda Kalman filtresi gibi tekniklerle desteklenen zamansal anlam ayrımı
  • Varlık Belirteci: Hedef kavramın görüntüde/çerçevede mevcut olup olmadığını tahmin eden ve tanımayı yerelleştirmeden ayırarak algılamayı iyileştiren öğrenilmiş bir küresel belirteç.

SAM 3 Mimarisi

Önemli Yenilikler

  1. Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık başlığı, kavramın varlığını küresel olarak tahmin ederken, teklif sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
  2. Birleşik Kavram ve Görsel İstemler: Tek bir modelde hem PCS'yi (kavram istemleri) hem de PVS'yi ( SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
  3. İnteraktif Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapabilir.
  4. Zamansal Belirsizlik Giderme: Örnek segmentasyonu ve en iyi izleme uygulamalarıyla uyumlu olarak, oklüzyonları, kalabalık sahneleri ve videodaki izleme hatalarını ele almak için masklet algılama puanlarını ve periyodik yeniden istemeyi kullanır.

SA-Co Veri Kümesi

SAM 3, Meta'nın bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesi olan Segment Anything with Concepts (SA-Co) üzerinde eğitilmiştir ve aşağıdaki gibi yaygın ölçütlerin ötesine geçmiştir COCO ve LVIS.

Eğitim Verileri

Veri Kümesi BileşeniAçıklamaÖlçek
SA-Co/HQ4-fazlı veri motorundan yüksek kaliteli insan açıklamalı görüntü verileri5,2 milyon resim, 4 milyon benzersiz isim cümlesi
SA-Co/SYNİnsan müdahalesi olmadan yapay zeka tarafından etiketlenen sentetik veri seti38 milyon isim cümlesi, 1,4 milyar maske
SA-Co/EXT15 sert negatif ile zenginleştirilmiş harici veri kümesiKaynağa göre değişir
SA-Co/VİDEOZamansal izleme ile video ek açıklamaları52,5 bin video, 24,8 bin benzersiz isim cümlesi

Benchmark Verileri

SA-Co değerlendirme ölçütü, 126 bin resim ve videoda 214 bin benzersiz ifade içeriyor ve mevcut ölçütlerden 50 kat daha fazla kavram sağlıyor. Bu ölçüt şunları içerir:

  • SA-Co/Gold: İnsan performans sınırlarını ölçmek için üçlü açıklamalı 7 alan
  • SA-Co/Silver: 10 etki alanı, tek insan açıklaması
  • SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri seti
  • SA-Co/VEval: 3 alanlı video kıyaslaması (SA-V, YT-Temporal-1B, SmartGlasses)

Veri Motoru Yenilikleri

SAM 3'ün ölçeklenebilir insan ve model döngüsü veri motoru, 2 kat ek açıklama verimine ulaşır:

  1. Yapay Zeka Açıklayıcıları: Lama tabanlı modeller, sert negatifler de dahil olmak üzere çeşitli isim cümleleri önerir
  2. Yapay Zeka Doğrulayıcıları: İnce ayarlı multimodal LLM 'ler maske kalitesini ve tükenebilirliği insana yakın performansta doğrular
  3. Aktif Madencilik: İnsan çabasını yapay zekanın zorlandığı zorlu arıza durumlarına odaklar
  4. Ontoloji Güdümlü: Kavram kapsamı için Wikidata 'ya dayanan büyük bir ontolojiden yararlanır

Kurulum

SAM 3, entegrasyon gerçekleştiğinde doğrudan Ultralytics paketinde mevcut olacaktır. Kurulum devam edecektir:

pip install ultralytics

Modeller ilk kullanıldıklarında otomatik olarak indirilir. Daha sonra standart tahmin modunu kullanabilir ve modelleri aşağıdaki gibi formatlara aktarabilirsiniz ONNX ve TensorRT dağıtım için. Yakında SAM ağırlıkları ve konfigürasyonları ile bir paket güncellemesi için izleyin.

SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük

Ultralytics API önizlemesi

Aşağıdaki örnekler, SAM 3 pakete girdiğinde amaçlanan Ultralytics API'sini göstermektedir. Entegrasyon gerçekleşene kadar ayrıntılar değişebilir.

Desteklenen Görevler ve Modeller

SAM 3 hem İstenebilir Kavram Segmentasyonu (PCS) hem de İstenebilir Görsel Segmentasyon (PVS) görevlerini destekler:

Görev Türüİstem TürleriÇıktı
Kavram Segmentasyonu (PCS)Metin (isim cümleleri), görüntü örnekleriKavramla eşleşen tüm örnekler
Görsel Segmentasyon (PVS)Noktalar, kutular, maskelerTek nesne örneğiSAM 2 stili)
İnteraktif İyileştirmeÖrnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırınGeliştirilmiş doğruluk ile rafine segmentasyon

Kavram Segmentasyonu Örnekleri

Metin İpuçları ile Segment

Metin Tabanlı Kavram Segmentasyonu

Bir metin açıklaması kullanarak bir kavramın tüm örneklerini bulun ve segment ayırın.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.

Görüntü Örnekleri ile Segment

Görüntü Örneği Tabanlı Segmentasyon

Tüm benzer örnekleri bulmak için bir veya daha fazla örnek nesne kullanın.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.

İnteraktif İyileştirme

Örnekler ile Yinelemeli İyileştirme

İlk çıktıya dayalı örnek istemler ekleyerek sonuçları aşamalı olarak iyileştirin.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.

Video Kavram Segmentasyonu

Video Üzerinden Kavramları İzleme

Bir video boyunca bir kavramın tüm örneklerini tespit edin ve track .

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.

Daha geniş akış ve üretim kurulumları için bkz. nesne izleme ve sonuçları terminalde görüntüleme.

Görsel UyarılarSAM 2 Uyumluluğu)

SAM 3, SAM 2'nin görsel yönlendirmesi ile geriye dönük tam uyumluluğu korur:

SAM 2 Stil Görsel İpuçları

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

API Önizlemesi

Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.

Performans Kıyaslamaları

Görüntü Segmentasyonu

SAM 3, segmentasyon için LVIS ve COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birçok kıyaslamada en son teknolojiye sahip sonuçlar elde eder:

KıyaslamaMetrikSAM 3Önceki En İyiİyileştirme
LVIS (sıfır atış)Maske AP47.038.5+22.1%
SA-Co/AltınCGF165.034.3 (OWLv2)+89.5%
COCO (sıfır atış)Kutu AP53.552.2 (T-Rex2)+2.5%
ADE-847 (semantik seg)mIoU14.79.2 (APE-D)+59.8%
PascalConcept-59mIoU59.458,5 (APE-D)+1.5%
Şehir Manzaraları (semantik seg)mIoU65.144,2 (APE-D)+47.3%

Ultralytics veri kümelerinde hızlı deneme için veri kümesi seçeneklerini keşfedin.

Video Segmentasyon Performansı

SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli gelişmeler gösteriyor:

KıyaslamaMetrikSAM 3SAM 2.1 Lİyileştirme
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Az Çekimli Uyarlama

SAM 3, veri merkezli yapay zeka iş akışlarıyla ilgili minimum örnekle yeni alanlara uyum sağlama konusunda başarılıdır:

Kıyaslama0 atış AP10 atışlık APÖnceki En İyi (10 atış)
ODinW1359.971.667,9 (gDino1.5-Pro)
RF100-VL14.335.733,7 (gDino-T)

İnteraktif İyileştirme Etkinliği

SAM 3'ün örneklerle kavram tabanlı yönlendirmesi, görsel yönlendirmeden çok daha hızlı yakınsamaktadır:

İpuçları EklendiCGF1 SkoruKazanç vs Yalnızca MetinPVS Taban Çizgisine Karşı Kazanç
Sadece metin46.4taban çizgisitaban çizgisi
+1 örnek57.6+11.2+6.7
+2 örnek62.2+15.8+9.7
+3 örnek65.0+18.6+11.2
+4 örnek65.7+19.3+11,5 (plato)

Nesne Sayma Doğruluğu

SAM 3, nesne sayımında yaygın bir gereksinim olan tüm örnekleri bölümlere ayırarak doğru sayım sağlar:

KıyaslamaDoğrulukMAEvs En İyi MLLM
CountBench95.6%0.1192,4 (Gemini 2.5)
PixMo-Count87.3%0.2288,8 (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Karşılaştırması

Burada SAM 3'ün yeteneklerini SAM 2 ve SAM 3 ile karşılaştırıyoruz. YOLO11 modeller:

YetenekSAM 3SAM 2YOLO11n-seg
Kavram Segmentasyonu✅ Metinden/örneklerden tüm örnekler❌ Desteklenmiyor❌ Desteklenmiyor
Görsel Segmentasyon✅ Tek örnekSAM 2 uyumlu)✅ Tek örnek✅ Tüm örnekler
Sıfır Atış Yeteneği✅ Açık kelime dağarcığı✅ Geometrik ipuçları❌ Kapalı küme
İnteraktif İyileştirme✅ Örnekler + tıklamalar✅ Sadece tıklamalar❌ Desteklenmiyor
Video İzleme✅ Özdeşlikler ile çoklu nesne✅ Çoklu nesne✅ Çoklu nesne
LVIS Maske AP (sıfır atış)47.0YokYok
MOSEv2 J&F60.147.9Yok
Çıkarım Hızı (H200)30 ms (100+ nesne)~23 ms (nesne başına)2-3 ms (görüntü)
Model BoyutuBüyük (~400+ MB bekleniyor)162 MB (temel)5.9 MB

Anahtar Çıkarımlar:

  • SAM 3: Açık kelime kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulmak
  • SAM 2: Geometrik ipuçlarıyla görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
  • YOLO11: gibi verimli dışa aktarma işlem hatlarını kullanarak kaynak kısıtlı dağıtımlarda gerçek zamanlı, yüksek hızlı segmentasyon için en iyisidir ONNX ve TensorRT

Değerlendirme Metrikleri

SAM 3, PCS görevi için tasarlanmış ve F1 puanı, kesinlik ve geri çağırma gibi bilinen ölçütleri tamamlayan yeni ölçütler sunar.

Sınıflandırma Kapılı F1 (CGF1)

Lokalizasyon ve sınıflandırmayı birleştiren birincil metrik:

CGF1 = 100 × pmF1 × IL_MCC

Nerede:

  • pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
  • IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")

Neden Bu Metrikler?

Geleneksel AP metrikleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün ölçümleri, yalnızca 0,5 güven düzeyinin üzerindeki tahminleri değerlendirerek iyi bir kalibrasyon sağlar ve etkileşimli tahminlerde gerçek dünya kullanım modellerini taklit eder ve track Döngüler.

Önemli Ablasyonlar ve İçgörüler

Varlık Başlığının Etkisi

Varlık kafası, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:

YapılandırmaCGF1IL_MCCpmF1
Varlık olmadan57.60.7774.7
Varlığımızla63.30.8277.1

Varlık başlığı +5,7 CGF1 artışı (+%9,9) sağlar ve öncelikle tanıma yeteneğini geliştirir (IL_MCC +%6,5).

Sert Negatiflerin Etkisi

Sert Negatifler/İmajCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Sert negatifler açık kelime tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında iyileştirir.

Eğitim Verisi Ölçeklendirme

Veri KaynaklarıCGF1IL_MCCpmF1
Sadece harici30.90.4666.3
Harici + Sentetik39.70.5770.6
Harici + Genel Merkez51.80.7173.2
Üçü de54.30.7473.5

Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamalarının arka planı için veri toplama ve açıklama bölümüne bakınız.

Uygulamalar

SAM 3'ün kavram segmentasyonu özelliği yeni kullanım durumlarına olanak tanır:

  • İçerik Moderasyonu: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
  • E-ticaret: Otomatik açıklamayı destekleyen katalog resimlerinde belirli bir türdeki tüm ürünleri segmentlere ayırın
  • Tıbbi Görüntüleme: Belirli doku tiplerinin veya anormalliklerin tüm oluşumlarını tanımlayın
  • Otonom Sistemler: Tüm trafik işaretleri, yayalar veya araç örneklerini kategoriye göre takip edin
  • Video Analitiği: Belirli kıyafetleri giyen veya eylemleri gerçekleştiren tüm insanları sayın ve track
  • Veri Kümesi Ek Açıklaması: Nadir nesne kategorilerinin tüm örneklerine hızlıca açıklama ekleyin
  • Bilimsel Araştırma: Belirli kriterlere uyan tüm numuneleri ölçün ve analiz edin

SAM 3 Agent: Genişletilmiş Dil Muhakemesi

SAM 3, OWLv2 ve T-Rex gibi açık kelime sistemlerine benzer şekilde, akıl yürütme gerektiren karmaşık sorguları ele almak için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir.

Muhakeme Görevlerinde Performans

KıyaslamaMetrikSAM 3 Agent (Gemini 2.5 Pro)Önceki En İyi
ReasonSeg (doğrulama)gIoU76.065,0 (SoTA)
ReasonSeg (test)gIoU73.861,3 (SoTA)
OmniLabel (doğrulama)AP46.736,5 (GERÇEK)
RefCOCO+Acc91.289.3 (LISA)

Örnek Karmaşık Sorgular

SAM 3 Agent, muhakeme gerektiren sorguların üstesinden gelebilir:

  • "İnsanlar oturuyor ama ellerinde bir hediye kutusu tutmuyorlar"
  • "Kameraya en yakın olan ve tasma takmayan köpek"
  • "Kişinin elinden daha büyük kırmızı nesneler"

MLLM, SAM 3'e basit isim cümlesi sorguları önerir, dönen maskeleri analiz eder ve tatmin olana kadar yineler.

Sınırlamalar

SAM 3 büyük bir ilerlemeyi temsil etse de bazı sınırlamaları vardır:

  • İfade Karmaşıklığı: Basit isim cümleleri için en uygun olanıdır; uzun gönderme ifadeleri veya karmaşık akıl yürütmeler MLLM entegrasyonu gerektirebilir
  • Belirsizliğin Ele Alınması: Bazı kavramlar doğası gereği muğlak kalmaktadır (örneğin, "küçük pencere", "rahat oda")
  • Hesaplama Gereksinimleri: gibi özel algılama modellerinden daha büyük ve daha yavaştır. YOLO
  • Kelime Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel muhakeme sınırlıdır
  • Nadir Kavramlar: Eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince taneli kavramlarda performans düşebilir

Atıf

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

SSS

SAM 3 Ne Zaman Çıkacak?

SAM 3, Meta tarafından 20 Kasım 2025 tarihinde yayınlandı. Ultralytics desteği devam etmektedir ve tahmin modu ve track modu için tam dokümanlarla birlikte gelecek bir paket güncellemesinde gönderilecektir.

SAM 3 Ultralytics'e Entegre Edilecek mi?

Evet. SAM 3, kavram segmentasyonu, SAM 2 tarzı görsel istemler ve çok nesneli video izleme dahil olmak üzere, piyasaya sürüldüğünde Ultralytics Python paketinde desteklenecektir. Aşağıdaki gibi formatlara dışa aktarabileceksiniz ONNX ve TensorRT dağıtım için, kolaylaştırılmış Python ve CLI iş akışları.

Uygulama Zaman Çizelgesi

Bu belgedeki kod örnekleri, amaçlanan kullanım modellerini gösteren önizleme sürümleridir. Ultralytics entegrasyonu tamamladıktan sonra gerçek uygulama mevcut olacaktır.

İstenebilir Kavram Segmentasyonu (PCS) Nedir?

PCS, SAM 3'te tanıtılan ve bir görüntü veya videodaki görsel bir kavramın tüm örneklerini segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyonun aksine, PCS bir kategorinin her oluşumunu bulur. Örneğin:

  • Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
  • Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segmentlere ayırır
  • Birleşik: "çizgili kedi" + örnek kutusu → örnekle eşleşen tüm çizgili kedileri segmentlere ayırır

Nesne algılama ve örnek segmentasyonu ile ilgili arka plana bakın.

SAM 3'ün SAM 2'den Farkı Nedir?

ÖzellikSAM 2SAM 3
Görevİstem başına tek nesneBir kavramın tüm örnekleri
İstem TürleriNoktalar, kutular, maskeler+ Metin ifadeleri, görüntü örnekleri
Algılama YeteneğiHarici dedektör gerektirirYerleşik açık kelime dedektörü
TanınmaYalnızca geometri tabanlıMetin ve görsel tanıma
MimariYalnızca izleyiciVarlık kafalı Dedektör + İzleyici
Sıfır Atış PerformansıN/A (görsel yönlendirmeler gerektirir)LVIS'de 47,0 AP , SA-Co'da 2 kat daha iyi
İnteraktif İyileştirmeSadece tıklamalarTıklamalar + örnek genelleme

SAM 3, SAM 2 görsel yönlendirme ile geriye dönük uyumluluğu korurken kavram tabanlı yetenekler ekler.

SAM 3'ü eğitmek için hangi veri kümeleri kullanılıyor?

SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:

Eğitim Verileri:

  • 4 milyon benzersiz isim cümlesine sahip 5,2 milyon görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
  • 52,5 bin video ve 24,8 bin benzersiz isim cümlesi (SA-Co/VIDEO)
  • 38 milyon isim cümlesinde 1,4 milyar sentetik maske (SA-Co/SYN)
  • 15 sert negatiflerle zenginleştirilmiş harici veri kümesi (SA-Co/EXT)

Karşılaştırma Verileri:

  • 126 bin resim/videoda214 bin benzersiz konsept
  • Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS ~4K kavrama sahiptir)
  • İnsan performans sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama

Bu SAM ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesini sağlar.

SAM 3 segmentasyon açısından YOLO11 ile nasıl karşılaştırılır?

SAM 3 ve YOLO11 farklı kullanım durumlarına hizmet etmektedir:

SAM 3 Avantajları:

  • Açık kelime bilgisi: Herhangi bir kavramı eğitim almadan metin istemleri aracılığıyla bölümlere ayırır
  • Sıfır atış: Yeni kategoriler üzerinde hemen çalışır
  • Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleştirilir
  • Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
  • Doğruluk: LVIS sıfır çekim örnek segmentasyonunda 47,0 AP

YOLO11 Avantajları:

  • Hız: 10-15 kat daha hızlı çıkarım (görüntü başına 2-3ms vs 30ms)
  • Verimlilik: 70 kat daha küçük modeller (5,9 MB vs ~400 MB bekleniyor)
  • Kaynak dostu: Uç cihazlarda ve mobil cihazlarda çalışır
  • Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir

Öneri:

  • Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime segmentasyonu için SAM 3 'ü kullanın
  • Kullanım YOLO11 kategorilerin önceden bilindiği yüksek hızlı, üretim dağıtımları için
  • Geometrik ipuçlarıyla etkileşimli tek nesne segmentasyonu için SAM 2 'yi kullanın

SAM 3 karmaşık dil sorgularını işleyebilir mi?

SAM 3 basit isim cümleleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Muhakeme gerektiren karmaşık sorgular için SAM 3'ü SAM 3 Agent olarak bir MLLM ile birleştirin:

Basit sorgular (yerel SAM 3):

  • "sarı okul otobüsü"
  • "çizgili kedi"
  • "kırmızı şapka takan kişi"

Karmaşık sorgular (MLLM ileSAM 3 Agent):

  • "Oturan ama elinde hediye kutusu olmayan insanlar"
  • "Kameraya en yakın tasmasız köpek"
  • "Kişinin elinden daha büyük kırmızı nesneler"

SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM muhakeme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76,0 gIoU elde etti (önceki en iyi 65,0'a kıyasla +%16,9 iyileşme).

SAM 3 insan performansına kıyasla ne kadar doğru?

Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:

  • İnsan alt sınırı: 74,2 CGF1 (en muhafazakar açıklayıcı)
  • SAM 3 performansı: 65,0 CGF1
  • Başarı: Tahmini insan alt sınırının %88 'i
  • İnsan üst sınırı: 81,4 CGF1 (en liberal yorumcu)

SAM 3, açık kelimeli kavram segmentasyonunda insan seviyesindeki doğruluğa yaklaşan güçlü bir performans elde ederken, aradaki fark öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") ortaya çıkmaktadır.



📅1 ay önce oluşturuldu ✏️ 1 gün önce güncellendi
glenn-jocherY-T-G

Yorumlar