SAM 3: Kavramlarla Her Şeyi Segmentlere Ayırın
Çok Yakında ⚠️
🚧 SAM 3 modelleri henüz Meta tarafından kamuya açıklanmamıştır. Aşağıdaki bilgiler ICLR 2026'ya sunulan araştırma makalesine dayanmaktadır. Model indirmeleri ve nihai kıyaslamalar Meta'nın resmi yayınını takiben mevcut olacaktır.
SAM 3 (Segment Anything Model 3), Meta'nın İstenebilir Kavram Segmentasyonu (PCS) için yeni nesil temel modelini temsil eder. SAM 2'nin üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini tespit etmek, bölümlere ayırmak ve izlemek. Her istem için tek bir nesneyi segmentlere ayıran önceki SAM sürümlerinden farklı olarak SAM 3, modern örnek segmentasyonundaki açık kelime hedefleriyle uyumlu olarak, görüntülerin veya videoların herhangi bir yerinde görünen bir kavramın her oluşumunu bulabilir ve segmentlere ayırabilir.
Genel Bakış
SAM 3, SAM 2'nin etkileşimli görsel segmentasyon yeteneklerini korurken ve geliştirirken, İstenebilir Kavram Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı sağlar. Model, kullanıcıların basit isim cümleleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek görüntülerini sağlayarak kavramları belirtmelerine olanak tanıyan açık kelime segmentasyonunda mükemmeldir. Bu yetenekler, kolaylaştırılmış tahmin ve takip iş akışlarına dayanan üretime hazır boru hatlarını tamamlıyor.
İstenebilir Kavram Segmentasyonu (PCS) nedir?
PCS görevi girdi olarak bir kavram istemi alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:
- Metin: "Kırmızı elma" veya "şapka takan kişi" gibi basit isim cümleleri, sıfır atış öğrenmeye benzer
- Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin etrafındaki sınırlayıcı kutular (pozitif veya negatif)
- Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada
Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini bölümlere ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.
Temel Performans Ölçütleri
Metrik | SAM 3 Başarı |
---|---|
LVIS Sıfır Atış Maskesi AP | 47,0 (önceki en iyi 38,5'e kıyasla, +%22 iyileşme) |
SA-Co Benchmark | Mevcut sistemlerden 2 kat daha iyi |
Çıkarım Hızı (H200 GPU) | 100'den fazla algılanan nesne ile görüntü başına 30 ms |
Video Performansı | Eşzamanlı ~5 nesne için neredeyse gerçek zamanlı |
MOSEv2 VOS Benchmark | 60,1 J&F ( SAM 2.1'e göre +%25,5, önceki SOTA'ya göre +%17) |
İnteraktif İyileştirme | 3 örnek ipucundan sonra +18,6 CGF1 iyileşmesi |
İnsan Performansı Açığı | SA-Co/Gold için tahmin edilen alt sınırın %88 'ine ulaşıldı |
Model metrikleri ve üretimdeki ödünleşimlerle ilgili bağlam için model değerlendirme içgörüleri ve YOLO performans metriklerine bakın.
Mimari
SAM 3, bir Perception Encoder (PE) görüş backbone paylaşan bir dedektör ve izleyiciden oluşur. Bu ayrıştırılmış tasarım, Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüzle hem görüntü düzeyinde algılama hem de video düzeyinde izleme sağlarken görev çakışmalarını önler.
Temel Bileşenler
-
Dedektör: Görüntü düzeyinde kavram tespiti için DETR tabanlı mimari
- İsim cümlesi istemleri için metin kodlayıcı
- Görüntü tabanlı istemler için örnek kodlayıcı
- Görüntü özelliklerini istemler üzerine koşullandırmak için füzyon kodlayıcı
- Tanımayı ("ne") lokalizasyondan ("nerede") ayıran yeni varlık kafası
- Örnek segmentasyon maskeleri oluşturmak için maske kafası
-
İzleyici: SAM 2'den devralınan bellek tabanlı video segmentasyonu
- Komut kodlayıcı, maske kod çözücü, bellek kodlayıcı
- Çerçeveler arasında nesne görünümünü saklamak için bellek bankası
- Çok nesneli ortamlarda Kalman filtresi gibi tekniklerle desteklenen zamansal anlam ayrımı
-
Varlık Belirteci: Hedef kavramın görüntüde/çerçevede mevcut olup olmadığını tahmin eden ve tanımayı yerelleştirmeden ayırarak algılamayı iyileştiren öğrenilmiş bir küresel belirteç.
Önemli Yenilikler
- Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık başlığı, kavramın varlığını küresel olarak tahmin ederken, teklif sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
- Birleşik Kavram ve Görsel İstemler: Tek bir modelde hem PCS'yi (kavram istemleri) hem de PVS'yi ( SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
- İnteraktif Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapabilir.
- Zamansal Belirsizlik Giderme: Örnek segmentasyonu ve en iyi izleme uygulamalarıyla uyumlu olarak, oklüzyonları, kalabalık sahneleri ve videodaki izleme hatalarını ele almak için masklet algılama puanlarını ve periyodik yeniden istemeyi kullanır.
SA-Co Veri Kümesi
SAM 3, Meta'nın bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesi olan Segment Anything with Concepts (SA-Co) üzerinde eğitilerek COCO ve LVIS gibi yaygın ölçütlerin ötesine geçmiştir.
Eğitim Verileri
Veri Kümesi Bileşeni | Açıklama | Ölçek |
---|---|---|
SA-Co/HQ | 4-fazlı veri motorundan yüksek kaliteli insan açıklamalı görüntü verileri | 5,2 milyon resim, 4 milyon benzersiz isim cümlesi |
SA-Co/SYN | İnsan müdahalesi olmadan yapay zeka tarafından etiketlenen sentetik veri seti | 38 milyon isim cümlesi, 1,4 milyar maske |
SA-Co/EXT | 15 sert negatif ile zenginleştirilmiş harici veri kümesi | Kaynağa göre değişir |
SA-Co/VİDEO | Zamansal izleme ile video ek açıklamaları | 52,5 bin video, 24,8 bin benzersiz isim cümlesi |
Benchmark Verileri
SA-Co değerlendirme ölçütü, 126 bin resim ve videoda 214 bin benzersiz ifade içeriyor ve mevcut ölçütlerden 50 kat daha fazla kavram sağlıyor. Bu ölçüt şunları içerir:
- SA-Co/Gold: İnsan performans sınırlarını ölçmek için üçlü açıklamalı 7 alan
- SA-Co/Silver: 10 etki alanı, tek insan açıklaması
- SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri seti
- SA-Co/VEval: 3 alanlı video kıyaslaması (SA-V, YT-Temporal-1B, SmartGlasses)
Veri Motoru Yenilikleri
SAM 3'ün ölçeklenebilir insan ve model döngüsü veri motoru, 2 kat ek açıklama verimine ulaşır:
- Yapay Zeka Açıklayıcıları: Lama tabanlı modeller, sert negatifler de dahil olmak üzere çeşitli isim cümleleri önerir
- Yapay Zeka Doğrulayıcıları: İnce ayarlı multimodal LLM 'ler maske kalitesini ve tükenebilirliği insana yakın performansta doğrular
- Aktif Madencilik: İnsan çabasını yapay zekanın zorlandığı zorlu arıza durumlarına odaklar
- Ontoloji Güdümlü: Kavram kapsamı için Wikidata 'ya dayanan büyük bir ontolojiden yararlanır
Kurulum
SAM 3, piyasaya sürüldükten sonra Ultralytics paketinde yerel olarak desteklenecektir:
pip install ultralytics
Modeller ilk kullanıldıklarında otomatik olarak indirilir. Daha sonra standart tahmin modunu kullanabilir ve modelleri aşağıdaki gibi formatlara aktarabilirsiniz ONNX ve TensorRT konuşlandırma için.
SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük
Önizleme API'si - Değişikliğe Tabidir
Aşağıdaki kod örnekleri, araştırma makalesine dayalı olarak amaçlanan kullanım modellerini göstermektedir. Asıl API daha sonra kullanıma sunulacaktır:
- Meta açık kaynak SAM 3 model ağırlıkları
- Ultralytics SAM 3'ü pakete entegre eder
Sözdizimi ve parametreler nihai uygulamada farklılık gösterebilir. Bu örnekler, beklenen işlevselliğin bir önizlemesi olarak hizmet eder.
Desteklenen Görevler ve Modeller
SAM 3 hem İstenebilir Kavram Segmentasyonu (PCS) hem de İstenebilir Görsel Segmentasyon (PVS) görevlerini destekler:
Görev Türü | İstem Türleri | Çıktı |
---|---|---|
Kavram Segmentasyonu (PCS) | Metin (isim cümleleri), görüntü örnekleri | Kavramla eşleşen tüm örnekler |
Görsel Segmentasyon (PVS) | Noktalar, kutular, maskeler | Tek nesne örneğiSAM 2 stili) |
İnteraktif İyileştirme | Örnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırın | Geliştirilmiş doğruluk ile rafine segmentasyon |
Kavram Segmentasyonu Örnekleri
Metin İpuçları ile Segment
Metin Tabanlı Kavram Segmentasyonu
Bir metin açıklaması kullanarak bir kavramın tüm örneklerini bulun ve bölümlere ayırın.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.
Görüntü Örnekleri ile Segment
Görüntü Örneği Tabanlı Segmentasyon
Tüm benzer örnekleri bulmak için bir veya daha fazla örnek nesne kullanın.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.
İnteraktif İyileştirme
Örnekler ile Yinelemeli İyileştirme
İlk çıktıya dayalı örnek istemler ekleyerek sonuçları aşamalı olarak iyileştirin.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.
Video Kavram Segmentasyonu
Video Üzerinden Kavramları İzleme
Bir video boyunca bir kavramın tüm örneklerini tespit edin ve izleyin.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.
Daha geniş akış ve üretim kurulumları için bkz. nesne izleme ve sonuçları terminalde görüntüleme.
Görsel UyarılarSAM 2 Uyumluluğu)
SAM 3, SAM 2'nin görsel yönlendirmesi ile geriye dönük tam uyumluluğu korur:
SAM 2 Stil Görsel İpuçları
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Meta'nın yayınlanmasını ve Ultralytics entegrasyonunu beklemektedir.
Performans Kıyaslamaları
Görüntü Segmentasyonu
SAM 3, segmentasyon için LVIS ve COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birçok kıyaslamada en son teknolojiye sahip sonuçlar elde eder:
Kıyaslama | Metrik | SAM 3 | Önceki En İyi | İyileştirme |
---|---|---|---|---|
LVIS (sıfır atış) | Maske AP | 47.0 | 38.5 | +22.1% |
SA-Co/Altın | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
COCO (sıfır atış) | Kutu AP | 53.5 | 52.2 (T-Rex2) | +2.5% |
ADE-847 (semantik seg) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
PascalConcept-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
Şehir Manzaraları (semantik seg) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Ultralytics veri kümelerinde hızlı deneme için veri kümesi seçeneklerini keşfedin.
Video Segmentasyon Performansı
SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli gelişmeler gösteriyor:
Kıyaslama | Metrik | SAM 3 | SAM 2.1 L | İyileştirme |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Az Çekimli Uyarlama
SAM 3, veri merkezli yapay zeka iş akışlarıyla ilgili minimum örnekle yeni alanlara uyum sağlama konusunda başarılıdır:
Kıyaslama | 0 atış AP | 10 atışlık AP | Önceki En İyi (10 atış) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33,7 (gDino-T) |
İnteraktif İyileştirme Etkinliği
SAM 3'ün örneklerle kavram tabanlı yönlendirmesi, görsel yönlendirmeden çok daha hızlı yakınsamaktadır:
İpuçları Eklendi | CGF1 Skoru | Kazanç vs Yalnızca Metin | PVS Taban Çizgisine Karşı Kazanç |
---|---|---|---|
Sadece metin | 46.4 | taban çizgisi | taban çizgisi |
+1 örnek | 57.6 | +11.2 | +6.7 |
+2 örnek | 62.2 | +15.8 | +9.7 |
+3 örnek | 65.0 | +18.6 | +11.2 |
+4 örnek | 65.7 | +19.3 | +11,5 (plato) |
Nesne Sayma Doğruluğu
SAM 3, nesne sayımında yaygın bir gereksinim olan tüm örnekleri bölümlere ayırarak doğru sayım sağlar:
Kıyaslama | Doğruluk | MAE | vs En İyi MLLM |
---|---|---|---|
CountBench | 95.6% | 0.11 | 92,4 (Gemini 2.5) |
PixMo-Count | 87.3% | 0.22 | 88,8 (Molmo-72B) |
SAM 3 vs SAM 2 vs YOLO Karşılaştırması
Burada SAM 3'ün yeteneklerini SAM 2 ve SAM 3 ile karşılaştırıyoruz. YOLO11 modeller:
Yetenek | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
Kavram Segmentasyonu | ✅ Metinden/örneklerden tüm örnekler | ❌ Desteklenmiyor | ❌ Desteklenmiyor |
Görsel Segmentasyon | ✅ Tek örnekSAM 2 uyumlu) | ✅ Tek örnek | ✅ Tüm örnekler |
Sıfır Atış Yeteneği | ✅ Açık kelime dağarcığı | ✅ Geometrik ipuçları | ❌ Kapalı küme |
İnteraktif İyileştirme | ✅ Örnekler + tıklamalar | ✅ Sadece tıklamalar | ❌ Desteklenmiyor |
Video İzleme | ✅ Özdeşlikler ile çoklu nesne | ✅ Çoklu nesne | ✅ Çoklu nesne |
LVIS Maske AP (sıfır atış) | 47.0 | Yok | Yok |
MOSEv2 J&F | 60.1 | 47.9 | Yok |
Çıkarım Hızı (H200) | 30 ms (100+ nesne) | ~23 ms (nesne başına) | 2-3 ms (görüntü) |
Model Boyutu | Büyük (~400+ MB bekleniyor) | 162 MB (temel) | 5.9 MB |
Anahtar Çıkarımlar:
- SAM 3: Açık kelime kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulmak
- SAM 2: Geometrik ipuçlarıyla görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
- YOLO11: gibi verimli dışa aktarma işlem hatlarını kullanarak kaynak kısıtlı dağıtımlarda gerçek zamanlı, yüksek hızlı segmentasyon için en iyisidir ONNX ve TensorRT
Değerlendirme Metrikleri
SAM 3, PCS görevi için tasarlanmış ve F1 puanı, kesinlik ve geri çağırma gibi bilinen ölçütleri tamamlayan yeni ölçütler sunar.
Sınıflandırma Kapılı F1 (CGF1)
Lokalizasyon ve sınıflandırmayı birleştiren birincil metrik:
CGF1 = 100 × pmF1 × IL_MCC
Nerede:
- pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
- IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")
Neden Bu Metrikler?
Geleneksel AP ölçümleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün ölçümleri, yalnızca 0,5 güvenin üzerindeki tahminleri değerlendirerek iyi bir kalibrasyonu zorunlu kılar ve etkileşimli tahmin ve takip döngülerinde gerçek dünya kullanım modellerini taklit eder.
Önemli Ablasyonlar ve İçgörüler
Varlık Başlığının Etkisi
Varlık kafası, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:
Yapılandırma | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Varlık olmadan | 57.6 | 0.77 | 74.7 |
Varlığımızla | 63.3 | 0.82 | 77.1 |
Varlık başlığı +5,7 CGF1 artışı (+%9,9) sağlar ve öncelikle tanıma yeteneğini geliştirir (IL_MCC +%6,5).
Sert Negatiflerin Etkisi
Sert Negatifler/İmaj | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
Sert negatifler açık kelime tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında iyileştirir.
Eğitim Verisi Ölçeklendirme
Veri Kaynakları | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Sadece harici | 30.9 | 0.46 | 66.3 |
Harici + Sentetik | 39.7 | 0.57 | 70.6 |
Harici + Genel Merkez | 51.8 | 0.71 | 73.2 |
Üçü de | 54.3 | 0.74 | 73.5 |
Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamalarının arka planı için veri toplama ve açıklama bölümüne bakınız.
Uygulamalar
SAM 3'ün kavram segmentasyonu özelliği yeni kullanım durumlarına olanak tanır:
- İçerik Moderasyonu: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
- E-ticaret: Otomatik açıklamayı destekleyen katalog resimlerinde belirli bir türdeki tüm ürünleri segmentlere ayırın
- Tıbbi Görüntüleme: Belirli doku tiplerinin veya anormalliklerin tüm oluşumlarını tanımlayın
- Otonom Sistemler: Tüm trafik işaretleri, yayalar veya araç örneklerini kategoriye göre takip edin
- Video Analitiği: Belirli kıyafetleri giyen veya eylemleri gerçekleştiren tüm insanları sayın ve izleyin
- Veri Kümesi Ek Açıklaması: Nadir nesne kategorilerinin tüm örneklerine hızlıca açıklama ekleyin
- Bilimsel Araştırma: Belirli kriterlere uyan tüm numuneleri ölçün ve analiz edin
SAM 3 Agent: Genişletilmiş Dil Muhakemesi
SAM 3, OWLv2 ve T-Rex gibi açık kelime sistemlerine benzer şekilde, akıl yürütme gerektiren karmaşık sorguları ele almak için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir.
Muhakeme Görevlerinde Performans
Kıyaslama | Metrik | SAM 3 Agent (Gemini 2.5 Pro) | Önceki En İyi |
---|---|---|---|
ReasonSeg (doğrulama) | gIoU | 76.0 | 65,0 (SoTA) |
ReasonSeg (test) | gIoU | 73.8 | 61,3 (SoTA) |
OmniLabel (doğrulama) | AP | 46.7 | 36,5 (GERÇEK) |
RefCOCO+ | Acc | 91.2 | 89.3 (LISA) |
Örnek Karmaşık Sorgular
SAM 3 Agent, muhakeme gerektiren sorguların üstesinden gelebilir:
- "İnsanlar oturuyor ama ellerinde bir hediye kutusu tutmuyorlar"
- "Kameraya en yakın olan ve tasma takmayan köpek"
- "Kişinin elinden daha büyük kırmızı nesneler"
MLLM, SAM 3'e basit isim cümlesi sorguları önerir, dönen maskeleri analiz eder ve tatmin olana kadar yineler.
Sınırlamalar
SAM 3 büyük bir ilerlemeyi temsil etse de bazı sınırlamaları vardır:
- İfade Karmaşıklığı: Basit isim cümleleri için en uygun olanıdır; uzun gönderme ifadeleri veya karmaşık akıl yürütmeler MLLM entegrasyonu gerektirebilir
- Belirsizliğin Ele Alınması: Bazı kavramlar doğası gereği muğlak kalmaktadır (örneğin, "küçük pencere", "rahat oda")
- Hesaplama Gereksinimleri: gibi özel algılama modellerinden daha büyük ve daha yavaştır. YOLO
- Kelime Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel muhakeme sınırlıdır
- Nadir Kavramlar: Eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince taneli kavramlarda performans düşebilir
Atıf
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
SSS
SAM 3 Ne Zaman Çıkacak?
SAM 3 şu anda ICLR 2026'da inceleme aşamasındadır (konferans 2026'da, inceleme 2025'te). Resmi modeller, ağırlıklar ve kıyaslamalar, inceleme sürecinin ardından, muhtemelen 2026'da kamuya açıklanacaktır. Ultralytics , Meta'nın piyasaya sürülmesinin ardından SAM 3 entegrasyonu için anında destek sağlayacak ve tahmin modunda ve izleme modunda kullanımı belgeleyecektir.
SAM 3 Ultralytics'e Entegre Edilecek mi?
Evet. SAM 3, kavram segmentasyonu, SAM 2 tarzı görsel istemler ve çok nesneli video izleme dahil olmak üzere, piyasaya sürüldüğünde Ultralytics Python paketinde desteklenecektir. Aşağıdaki gibi formatlara dışa aktarabileceksiniz ONNX ve TensorRT dağıtım için, kolaylaştırılmış Python ve CLI iş akışları.
Uygulama Zaman Çizelgesi
Bu belgedeki kod örnekleri, amaçlanan kullanım modellerini gösteren önizleme sürümleridir. Gerçek uygulama, Meta SAM 3 ağırlıklarını yayınladıktan ve Ultralytics entegrasyonu tamamladıktan sonra mevcut olacaktır.
İstenebilir Kavram Segmentasyonu (PCS) Nedir?
PCS, SAM 3'te tanıtılan ve bir görüntü veya videodaki görsel bir kavramın tüm örneklerini segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyonun aksine, PCS bir kategorinin her oluşumunu bulur. Örneğin:
- Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
- Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segmentlere ayırır
- Birleşik: "çizgili kedi" + örnek kutusu → örnekle eşleşen tüm çizgili kedileri segmentlere ayırır
Nesne algılama ve örnek segmentasyonu ile ilgili arka plana bakın.
SAM 3'ün SAM 2'den Farkı Nedir?
Özellik | SAM 2 | SAM 3 |
---|---|---|
Görev | İstem başına tek nesne | Bir kavramın tüm örnekleri |
İstem Türleri | Noktalar, kutular, maskeler | + Metin ifadeleri, görüntü örnekleri |
Algılama Yeteneği | Harici dedektör gerektirir | Yerleşik açık kelime dedektörü |
Tanınma | Yalnızca geometri tabanlı | Metin ve görsel tanıma |
Mimari | Yalnızca izleyici | Varlık kafalı Dedektör + İzleyici |
Sıfır Atış Performansı | N/A (görsel yönlendirmeler gerektirir) | LVIS'de 47,0 AP, SA-Co'da 2 kat daha iyi |
İnteraktif İyileştirme | Sadece tıklamalar | Tıklamalar + örnek genelleme |
SAM 3, SAM 2 görsel yönlendirme ile geriye dönük uyumluluğu korurken kavram tabanlı yetenekler ekler.
SAM 3'ü eğitmek için hangi veri kümeleri kullanılıyor?
SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:
Eğitim Verileri:
- 4 milyon benzersiz isim cümlesine sahip 5,2 milyon görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
- 52,5 bin video ve 24,8 bin benzersiz isim cümlesi (SA-Co/VIDEO)
- 38 milyon isim cümlesinde 1,4 milyar sentetik maske (SA-Co/SYN)
- 15 sert negatiflerle zenginleştirilmiş harici veri kümesi (SA-Co/EXT)
Karşılaştırma Verileri:
- 126 bin resim/videoda214 bin benzersiz konsept
- Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS ~4K kavrama sahiptir)
- İnsan performans sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama
Bu SAM ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesini sağlar.
SAM 3 segmentasyon açısından YOLO11 ile nasıl karşılaştırılır?
SAM 3 ve YOLO11 farklı kullanım durumlarına hizmet etmektedir:
SAM 3 Avantajları:
- Açık kelime bilgisi: Herhangi bir kavramı eğitim almadan metin istemleri aracılığıyla bölümlere ayırır
- Sıfır atış: Yeni kategoriler üzerinde hemen çalışır
- Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleştirilir
- Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
- Doğruluk: LVIS sıfır çekim örnek segmentasyonunda 47,0 AP
YOLO11 Avantajları:
- Hız: 10-15 kat daha hızlı çıkarım (görüntü başına 2-3ms vs 30ms)
- Verimlilik: 70 kat daha küçük modeller (5,9 MB vs ~400 MB bekleniyor)
- Kaynak dostu: Uç cihazlarda ve mobil cihazlarda çalışır
- Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir
Öneri:
- Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime segmentasyonu için SAM 3 'ü kullanın
- Kullanım YOLO11 kategorilerin önceden bilindiği yüksek hızlı, üretim dağıtımları için
- Geometrik ipuçlarıyla etkileşimli tek nesne segmentasyonu için SAM 2 'yi kullanın
SAM 3 karmaşık dil sorgularını işleyebilir mi?
SAM 3 basit isim cümleleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Muhakeme gerektiren karmaşık sorgular için SAM 3'ü SAM 3 Agent olarak bir MLLM ile birleştirin:
Basit sorgular (yerel SAM 3):
- "sarı okul otobüsü"
- "çizgili kedi"
- "kırmızı şapka takan kişi"
Karmaşık sorgular (MLLM ileSAM 3 Agent):
- "Oturan ama elinde hediye kutusu olmayan insanlar"
- "Kameraya en yakın tasmasız köpek"
- "Kişinin elinden daha büyük kırmızı nesneler"
SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM muhakeme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76,0 gIoU elde etti (önceki en iyi 65,0'a kıyasla +%16,9 iyileşme).
SAM 3 insan performansına kıyasla ne kadar doğru?
Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:
- İnsan alt sınırı: 74,2 CGF1 (en muhafazakar açıklayıcı)
- SAM 3 performansı: 65,0 CGF1
- Başarı: Tahmini insan alt sınırının %88 'i
- İnsan üst sınırı: 81,4 CGF1 (en liberal yorumcu)
SAM 3, açık kelimeli kavram segmentasyonunda insan seviyesindeki doğruluğa yaklaşan güçlü bir performans elde ederken, aradaki fark öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") ortaya çıkmaktadır.