SAM 3: Kavramlarla Her Şeyi Segmentlere Ayırın
Yayınlandı - Ultralytics entegrasyonu devam ediyor
Meta, SAM'ü 20 Kasım 2025'te piyasaya sürdü. Ultralytics şu anda modelleri entegre ediyor ve yakında yerel destek ile bir paket güncellemesi gönderecek. Bu arada, yukarı akış sürümünü denemek için aşağıdaki resmi SAM 3 README adımlarını takip edebilirsiniz.

SAM 3 (Segment Anything Model 3), Meta'nın Promptable Concept Segmentation (PCS) için yayınladığı temel modeldir. SAM 2'nin üzerine inşa edilen SAM 3, temelde yeni bir yetenek sunar: metin istemleri, görüntü örnekleri veya her ikisi tarafından belirtilen görsel bir kavramın tüm örneklerini tespit etme, bölümlere ayırma ve izleme. Her istem için tek bir nesneyi segment ayıran önceki SAM sürümlerinden farklı olarak SAM 3, modern örnek segmentasyonundaki açık kelime hedefleriyle uyumlu olarak, görüntülerin veya videoların herhangi bir yerinde görünen bir kavramın her oluşumunu bulabilir ve segment ayırabilir.
Ultralytics , SAM'ü aktif bir şekilde ultralytics paketini kullanmaya başlayabilirsiniz. Bu sürüm çıkana kadar, aşağıdaki resmi kurulum ve kullanım adımlarını kullanarak yukarı akış Meta uygulamasını deneyebilirsiniz.
Genel Bakış
SAM 3, SAM 2'nin etkileşimli görsel segmentasyon yeteneklerini korurken ve geliştirirken, İstenebilir Kavram Segmentasyonunda mevcut sistemlere göre 2 kat performans artışı sağlar. Model, kullanıcıların basit isim cümleleri (örneğin, "sarı okul otobüsü", "çizgili kedi") kullanarak veya hedef nesnenin örnek görüntülerini sağlayarak kavramları belirtmelerine olanak tanıyan açık kelime segmentasyonunda mükemmeldir. Bu yetenekler, kolaylaştırılmış tahminlere dayanan üretime hazır boru hatlarını tamamlar ve track iş akışları.

İstenebilir Kavram Segmentasyonu (PCS) nedir?
PCS görevi girdi olarak bir kavram istemi alır ve eşleşen tüm nesne örnekleri için benzersiz kimliklere sahip segmentasyon maskeleri döndürür. Kavram istemleri şunlar olabilir:
- Metin: "Kırmızı elma" veya "şapka takan kişi" gibi basit isim cümleleri, sıfır atış öğrenmeye benzer
- Görüntü örnekleri: Hızlı genelleme için örnek nesnelerin etrafındaki sınırlayıcı kutular (pozitif veya negatif)
- Kombine: Hassas kontrol için hem metin hem de görüntü örnekleri bir arada
Bu, orijinal SAM ailesi tarafından popüler hale getirildiği gibi, yalnızca tek bir belirli nesne örneğini segment ayıran geleneksel görsel istemlerden (noktalar, kutular, maskeler) farklıdır.
Temel Performans Ölçütleri
| Metrik | SAM 3 Başarı |
|---|---|
| LVIS Sıfır Atış Maskesi AP | 47,0 (önceki en iyi 38,5'e kıyasla, +%22 iyileşme) |
| SA-Co Benchmark | Mevcut sistemlerden 2 kat daha iyi |
| Çıkarım Hızı (H200 GPU) | 100'den fazla algılanan nesne ile görüntü başına 30 ms |
| Video Performansı | Eşzamanlı ~5 nesne için neredeyse gerçek zamanlı |
| MOSEv2 VOS Benchmark | 60,1 J&F ( SAM 2.1'e göre +%25,5, önceki SOTA'ya göre +%17) |
| İnteraktif İyileştirme | 3 örnek ipucundan sonra +18,6 CGF1 iyileşmesi |
| İnsan Performansı Açığı | SA-Co/Gold için tahmin edilen alt sınırın %88 'ine ulaşıldı |
Model metrikleri ve üretimdeki ödünleşimlerle ilgili bağlam için model değerlendirme içgörüleri ve YOLO performans metriklerine bakın.
Mimari
SAM 3, bir Perception Encoder (PE) görüş backbone paylaşan bir dedektör ve izleyiciden oluşur. Bu ayrıştırılmış tasarım, Ultralytics Python kullanımı ve CLI kullanımı ile uyumlu bir arayüzle hem görüntü düzeyinde algılama hem de video düzeyinde izleme sağlarken görev çakışmalarını önler.
Temel Bileşenler
Dedektör: Görüntü düzeyinde kavram tespiti için DETR tabanlı mimari
- İsim cümlesi istemleri için metin kodlayıcı
- Görüntü tabanlı istemler için örnek kodlayıcı
- Görüntü özelliklerini istemler üzerine koşullandırmak için füzyon kodlayıcı
- Tanımayı ("ne") lokalizasyondan ("nerede") ayıran yeni varlık kafası
- Örnek segmentasyon maskeleri oluşturmak için maske kafası
İzleyici: SAM 2'den devralınan bellek tabanlı video segmentasyonu
- Komut kodlayıcı, maske kod çözücü, bellek kodlayıcı
- Çerçeveler arasında nesne görünümünü saklamak için bellek bankası
- Çok nesneli ortamlarda Kalman filtresi gibi tekniklerle desteklenen zamansal anlam ayrımı
Varlık Belirteci: Hedef kavramın görüntüde/çerçevede mevcut olup olmadığını tahmin eden ve tanımayı yerelleştirmeden ayırarak algılamayı iyileştiren öğrenilmiş bir küresel belirteç.

Önemli Yenilikler
- Ayrıştırılmış Tanıma ve Yerelleştirme: Varlık başlığı, kavramın varlığını küresel olarak tahmin ederken, teklif sorguları yalnızca yerelleştirmeye odaklanır ve çakışan hedeflerden kaçınır.
- Birleşik Kavram ve Görsel İstemler: Tek bir modelde hem PCS'yi (kavram istemleri) hem de PVS'yi ( SAM 2'nin tıklamaları/kutuları gibi görsel istemler) destekler.
- İnteraktif Örnek İyileştirme: Kullanıcılar, sonuçları yinelemeli olarak iyileştirmek için pozitif veya negatif görüntü örnekleri ekleyebilir ve model yalnızca tek tek örnekleri düzeltmek yerine benzer nesnelere genelleme yapabilir.
- Zamansal Belirsizlik Giderme: Örnek segmentasyonu ve en iyi izleme uygulamalarıyla uyumlu olarak, oklüzyonları, kalabalık sahneleri ve videodaki izleme hatalarını ele almak için masklet algılama puanlarını ve periyodik yeniden istemeyi kullanır.
SA-Co Veri Kümesi
SAM 3, Meta'nın bugüne kadarki en büyük ve en çeşitli segmentasyon veri kümesi olan Segment Anything with Concepts (SA-Co) üzerinde eğitilmiştir ve aşağıdaki gibi yaygın ölçütlerin ötesine geçmiştir COCO ve LVIS.
Eğitim Verileri
| Veri Kümesi Bileşeni | Açıklama | Ölçek |
|---|---|---|
| SA-Co/HQ | 4-fazlı veri motorundan yüksek kaliteli insan açıklamalı görüntü verileri | 5,2 milyon resim, 4 milyon benzersiz isim cümlesi |
| SA-Co/SYN | İnsan müdahalesi olmadan yapay zeka tarafından etiketlenen sentetik veri seti | 38 milyon isim cümlesi, 1,4 milyar maske |
| SA-Co/EXT | 15 sert negatif ile zenginleştirilmiş harici veri kümesi | Kaynağa göre değişir |
| SA-Co/VİDEO | Zamansal izleme ile video ek açıklamaları | 52,5 bin video, 24,8 bin benzersiz isim cümlesi |
Benchmark Verileri
SA-Co değerlendirme ölçütü, 126 bin resim ve videoda 214 bin benzersiz ifade içeriyor ve mevcut ölçütlerden 50 kat daha fazla kavram sağlıyor. Bu ölçüt şunları içerir:
- SA-Co/Gold: İnsan performans sınırlarını ölçmek için üçlü açıklamalı 7 alan
- SA-Co/Silver: 10 etki alanı, tek insan açıklaması
- SA-Co/Bronze ve SA-Co/Bio: Kavram segmentasyonu için uyarlanmış 9 mevcut veri seti
- SA-Co/VEval: 3 alanlı video kıyaslaması (SA-V, YT-Temporal-1B, SmartGlasses)
Veri Motoru Yenilikleri
SAM 3'ün ölçeklenebilir insan ve model döngüsü veri motoru, 2 kat ek açıklama verimine ulaşır:
- Yapay Zeka Açıklayıcıları: Lama tabanlı modeller, sert negatifler de dahil olmak üzere çeşitli isim cümleleri önerir
- Yapay Zeka Doğrulayıcıları: İnce ayarlı multimodal LLM 'ler maske kalitesini ve tükenebilirliği insana yakın performansta doğrular
- Aktif Madencilik: İnsan çabasını yapay zekanın zorlandığı zorlu arıza durumlarına odaklar
- Ontoloji Güdümlü: Kavram kapsamı için Wikidata 'ya dayanan büyük bir ontolojiden yararlanır
Kurulum
SAM 3, entegrasyon gerçekleştiğinde doğrudan Ultralytics paketinde mevcut olacaktır. Kurulum devam edecektir:
pip install ultralytics
Modeller ilk kullanıldıklarında otomatik olarak indirilir. Daha sonra standart tahmin modunu kullanabilir ve modelleri aşağıdaki gibi formatlara aktarabilirsiniz ONNX ve TensorRT dağıtım için. Yakında SAM ağırlıkları ve konfigürasyonları ile bir paket güncellemesi için izleyin.
SAM 3 Nasıl Kullanılır: Kavram Segmentasyonunda Çok Yönlülük
Ultralytics API önizlemesi
Aşağıdaki örnekler, SAM 3 pakete girdiğinde amaçlanan Ultralytics API'sini göstermektedir. Entegrasyon gerçekleşene kadar ayrıntılar değişebilir.
Desteklenen Görevler ve Modeller
SAM 3 hem İstenebilir Kavram Segmentasyonu (PCS) hem de İstenebilir Görsel Segmentasyon (PVS) görevlerini destekler:
| Görev Türü | İstem Türleri | Çıktı |
|---|---|---|
| Kavram Segmentasyonu (PCS) | Metin (isim cümleleri), görüntü örnekleri | Kavramla eşleşen tüm örnekler |
| Görsel Segmentasyon (PVS) | Noktalar, kutular, maskeler | Tek nesne örneğiSAM 2 stili) |
| İnteraktif İyileştirme | Örnekleri veya tıklamaları yinelemeli olarak ekleyin/kaldırın | Geliştirilmiş doğruluk ile rafine segmentasyon |
Kavram Segmentasyonu Örnekleri
Metin İpuçları ile Segment
Metin Tabanlı Kavram Segmentasyonu
Bir metin açıklaması kullanarak bir kavramın tüm örneklerini bulun ve segment ayırın.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.
Görüntü Örnekleri ile Segment
Görüntü Örneği Tabanlı Segmentasyon
Tüm benzer örnekleri bulmak için bir veya daha fazla örnek nesne kullanın.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.
İnteraktif İyileştirme
Örnekler ile Yinelemeli İyileştirme
İlk çıktıya dayalı örnek istemler ekleyerek sonuçları aşamalı olarak iyileştirin.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.
Video Kavram Segmentasyonu
Video Üzerinden Kavramları İzleme
Bir video boyunca bir kavramın tüm örneklerini tespit edin ve track .
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.
Daha geniş akış ve üretim kurulumları için bkz. nesne izleme ve sonuçları terminalde görüntüleme.
Görsel UyarılarSAM 2 Uyumluluğu)
SAM 3, SAM 2'nin görsel yönlendirmesi ile geriye dönük tam uyumluluğu korur:
SAM 2 Stil Görsel İpuçları
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
API Önizlemesi
Bu örnek amaçlanan kullanımı göstermektedir. Gerçek uygulama Ultralytics entegrasyonunu beklemektedir.
Performans Kıyaslamaları
Görüntü Segmentasyonu
SAM 3, segmentasyon için LVIS ve COCO gibi gerçek dünya veri kümeleri de dahil olmak üzere birçok kıyaslamada en son teknolojiye sahip sonuçlar elde eder:
| Kıyaslama | Metrik | SAM 3 | Önceki En İyi | İyileştirme |
|---|---|---|---|---|
| LVIS (sıfır atış) | Maske AP | 47.0 | 38.5 | +22.1% |
| SA-Co/Altın | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
| COCO (sıfır atış) | Kutu AP | 53.5 | 52.2 (T-Rex2) | +2.5% |
| ADE-847 (semantik seg) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
| PascalConcept-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
| Şehir Manzaraları (semantik seg) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Ultralytics veri kümelerinde hızlı deneme için veri kümesi seçeneklerini keşfedin.
Video Segmentasyon Performansı
SAM 3, DAVIS 2017 ve YouTube-VOS gibi video kıyaslamalarında SAM 2'ye ve önceki son teknolojiye göre önemli gelişmeler gösteriyor:
| Kıyaslama | Metrik | SAM 3 | SAM 2.1 L | İyileştirme |
|---|---|---|---|---|
| MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
| DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
| LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
| SA-V | J&F | 84.6 | 78.4 | +7.9% |
| YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Az Çekimli Uyarlama
SAM 3, veri merkezli yapay zeka iş akışlarıyla ilgili minimum örnekle yeni alanlara uyum sağlama konusunda başarılıdır:
| Kıyaslama | 0 atış AP | 10 atışlık AP | Önceki En İyi (10 atış) |
|---|---|---|---|
| ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
| RF100-VL | 14.3 | 35.7 | 33,7 (gDino-T) |
İnteraktif İyileştirme Etkinliği
SAM 3'ün örneklerle kavram tabanlı yönlendirmesi, görsel yönlendirmeden çok daha hızlı yakınsamaktadır:
| İpuçları Eklendi | CGF1 Skoru | Kazanç vs Yalnızca Metin | PVS Taban Çizgisine Karşı Kazanç |
|---|---|---|---|
| Sadece metin | 46.4 | taban çizgisi | taban çizgisi |
| +1 örnek | 57.6 | +11.2 | +6.7 |
| +2 örnek | 62.2 | +15.8 | +9.7 |
| +3 örnek | 65.0 | +18.6 | +11.2 |
| +4 örnek | 65.7 | +19.3 | +11,5 (plato) |
Nesne Sayma Doğruluğu
SAM 3, nesne sayımında yaygın bir gereksinim olan tüm örnekleri bölümlere ayırarak doğru sayım sağlar:
| Kıyaslama | Doğruluk | MAE | vs En İyi MLLM |
|---|---|---|---|
| CountBench | 95.6% | 0.11 | 92,4 (Gemini 2.5) |
| PixMo-Count | 87.3% | 0.22 | 88,8 (Molmo-72B) |
SAM 3 vs SAM 2 vs YOLO Karşılaştırması
Burada SAM 3'ün yeteneklerini SAM 2 ve SAM 3 ile karşılaştırıyoruz. YOLO11 modeller:
| Yetenek | SAM 3 | SAM 2 | YOLO11n-seg |
|---|---|---|---|
| Kavram Segmentasyonu | ✅ Metinden/örneklerden tüm örnekler | ❌ Desteklenmiyor | ❌ Desteklenmiyor |
| Görsel Segmentasyon | ✅ Tek örnekSAM 2 uyumlu) | ✅ Tek örnek | ✅ Tüm örnekler |
| Sıfır Atış Yeteneği | ✅ Açık kelime dağarcığı | ✅ Geometrik ipuçları | ❌ Kapalı küme |
| İnteraktif İyileştirme | ✅ Örnekler + tıklamalar | ✅ Sadece tıklamalar | ❌ Desteklenmiyor |
| Video İzleme | ✅ Özdeşlikler ile çoklu nesne | ✅ Çoklu nesne | ✅ Çoklu nesne |
| LVIS Maske AP (sıfır atış) | 47.0 | Yok | Yok |
| MOSEv2 J&F | 60.1 | 47.9 | Yok |
| Çıkarım Hızı (H200) | 30 ms (100+ nesne) | ~23 ms (nesne başına) | 2-3 ms (görüntü) |
| Model Boyutu | Büyük (~400+ MB bekleniyor) | 162 MB (temel) | 5.9 MB |
Anahtar Çıkarımlar:
- SAM 3: Açık kelime kavram segmentasyonu için en iyisi, metin veya örnek istemlerle bir kavramın tüm örneklerini bulmak
- SAM 2: Geometrik ipuçlarıyla görüntülerde ve videolarda etkileşimli tek nesne segmentasyonu için en iyisi
- YOLO11: gibi verimli dışa aktarma işlem hatlarını kullanarak kaynak kısıtlı dağıtımlarda gerçek zamanlı, yüksek hızlı segmentasyon için en iyisidir ONNX ve TensorRT
Değerlendirme Metrikleri
SAM 3, PCS görevi için tasarlanmış ve F1 puanı, kesinlik ve geri çağırma gibi bilinen ölçütleri tamamlayan yeni ölçütler sunar.
Sınıflandırma Kapılı F1 (CGF1)
Lokalizasyon ve sınıflandırmayı birleştiren birincil metrik:
CGF1 = 100 × pmF1 × IL_MCC
Nerede:
- pmF1 (Pozitif Makro F1): Pozitif örnekler üzerinde yerelleştirme kalitesini ölçer
- IL_MCC (Görüntü Düzeyinde Matthews Korelasyon Katsayısı): İkili sınıflandırma doğruluğunu ölçer ("kavram mevcut mu?")
Neden Bu Metrikler?
Geleneksel AP metrikleri kalibrasyonu hesaba katmaz, bu da modellerin pratikte kullanımını zorlaştırır. SAM 3'ün ölçümleri, yalnızca 0,5 güven düzeyinin üzerindeki tahminleri değerlendirerek iyi bir kalibrasyon sağlar ve etkileşimli tahminlerde gerçek dünya kullanım modellerini taklit eder ve track Döngüler.
Önemli Ablasyonlar ve İçgörüler
Varlık Başlığının Etkisi
Varlık kafası, tanımayı yerelleştirmeden ayırarak önemli iyileştirmeler sağlar:
| Yapılandırma | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| Varlık olmadan | 57.6 | 0.77 | 74.7 |
| Varlığımızla | 63.3 | 0.82 | 77.1 |
Varlık başlığı +5,7 CGF1 artışı (+%9,9) sağlar ve öncelikle tanıma yeteneğini geliştirir (IL_MCC +%6,5).
Sert Negatiflerin Etkisi
| Sert Negatifler/İmaj | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| 0 | 31.8 | 0.44 | 70.2 |
| 5 | 44.8 | 0.62 | 71.9 |
| 30 | 49.2 | 0.68 | 72.3 |
Sert negatifler açık kelime tanıma için çok önemlidir ve IL_MCC'yi %54,5 (0,44 → 0,68) oranında iyileştirir.
Eğitim Verisi Ölçeklendirme
| Veri Kaynakları | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| Sadece harici | 30.9 | 0.46 | 66.3 |
| Harici + Sentetik | 39.7 | 0.57 | 70.6 |
| Harici + Genel Merkez | 51.8 | 0.71 | 73.2 |
| Üçü de | 54.3 | 0.74 | 73.5 |
Yüksek kaliteli insan açıklamaları, tek başına sentetik veya harici verilere göre büyük kazanımlar sağlar. Veri kalitesi uygulamalarının arka planı için veri toplama ve açıklama bölümüne bakınız.
Uygulamalar
SAM 3'ün kavram segmentasyonu özelliği yeni kullanım durumlarına olanak tanır:
- İçerik Moderasyonu: Medya kütüphanelerindeki belirli içerik türlerinin tüm örneklerini bulun
- E-ticaret: Otomatik açıklamayı destekleyen katalog resimlerinde belirli bir türdeki tüm ürünleri segmentlere ayırın
- Tıbbi Görüntüleme: Belirli doku tiplerinin veya anormalliklerin tüm oluşumlarını tanımlayın
- Otonom Sistemler: Tüm trafik işaretleri, yayalar veya araç örneklerini kategoriye göre takip edin
- Video Analitiği: Belirli kıyafetleri giyen veya eylemleri gerçekleştiren tüm insanları sayın ve track
- Veri Kümesi Ek Açıklaması: Nadir nesne kategorilerinin tüm örneklerine hızlıca açıklama ekleyin
- Bilimsel Araştırma: Belirli kriterlere uyan tüm numuneleri ölçün ve analiz edin
SAM 3 Agent: Genişletilmiş Dil Muhakemesi
SAM 3, OWLv2 ve T-Rex gibi açık kelime sistemlerine benzer şekilde, akıl yürütme gerektiren karmaşık sorguları ele almak için Çok Modlu Büyük Dil Modelleri (MLLM'ler) ile birleştirilebilir.
Muhakeme Görevlerinde Performans
| Kıyaslama | Metrik | SAM 3 Agent (Gemini 2.5 Pro) | Önceki En İyi |
|---|---|---|---|
| ReasonSeg (doğrulama) | gIoU | 76.0 | 65,0 (SoTA) |
| ReasonSeg (test) | gIoU | 73.8 | 61,3 (SoTA) |
| OmniLabel (doğrulama) | AP | 46.7 | 36,5 (GERÇEK) |
| RefCOCO+ | Acc | 91.2 | 89.3 (LISA) |
Örnek Karmaşık Sorgular
SAM 3 Agent, muhakeme gerektiren sorguların üstesinden gelebilir:
- "İnsanlar oturuyor ama ellerinde bir hediye kutusu tutmuyorlar"
- "Kameraya en yakın olan ve tasma takmayan köpek"
- "Kişinin elinden daha büyük kırmızı nesneler"
MLLM, SAM 3'e basit isim cümlesi sorguları önerir, dönen maskeleri analiz eder ve tatmin olana kadar yineler.
Sınırlamalar
SAM 3 büyük bir ilerlemeyi temsil etse de bazı sınırlamaları vardır:
- İfade Karmaşıklığı: Basit isim cümleleri için en uygun olanıdır; uzun gönderme ifadeleri veya karmaşık akıl yürütmeler MLLM entegrasyonu gerektirebilir
- Belirsizliğin Ele Alınması: Bazı kavramlar doğası gereği muğlak kalmaktadır (örneğin, "küçük pencere", "rahat oda")
- Hesaplama Gereksinimleri: gibi özel algılama modellerinden daha büyük ve daha yavaştır. YOLO
- Kelime Dağarcığı Kapsamı: Atomik görsel kavramlara odaklanmıştır; MLLM yardımı olmadan kompozisyonel muhakeme sınırlıdır
- Nadir Kavramlar: Eğitim verilerinde iyi temsil edilmeyen son derece nadir veya ince taneli kavramlarda performans düşebilir
Atıf
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
SSS
SAM 3 Ne Zaman Çıkacak?
SAM 3, Meta tarafından 20 Kasım 2025 tarihinde yayınlandı. Ultralytics desteği devam etmektedir ve tahmin modu ve track modu için tam dokümanlarla birlikte gelecek bir paket güncellemesinde gönderilecektir.
SAM 3 Ultralytics'e Entegre Edilecek mi?
Evet. SAM 3, kavram segmentasyonu, SAM 2 tarzı görsel istemler ve çok nesneli video izleme dahil olmak üzere, piyasaya sürüldüğünde Ultralytics Python paketinde desteklenecektir. Aşağıdaki gibi formatlara dışa aktarabileceksiniz ONNX ve TensorRT dağıtım için, kolaylaştırılmış Python ve CLI iş akışları.
Uygulama Zaman Çizelgesi
Bu belgedeki kod örnekleri, amaçlanan kullanım modellerini gösteren önizleme sürümleridir. Ultralytics entegrasyonu tamamladıktan sonra gerçek uygulama mevcut olacaktır.
İstenebilir Kavram Segmentasyonu (PCS) Nedir?
PCS, SAM 3'te tanıtılan ve bir görüntü veya videodaki görsel bir kavramın tüm örneklerini segmentlere ayıran yeni bir görevdir. Belirli bir nesne örneğini hedefleyen geleneksel segmentasyonun aksine, PCS bir kategorinin her oluşumunu bulur. Örneğin:
- Metin istemi: "sarı okul otobüsü" → sahnedeki tüm sarı okul otobüslerini segmentlere ayırır
- Görüntü örneği: Bir köpeğin etrafındaki kutu → görüntüdeki tüm köpekleri segmentlere ayırır
- Birleşik: "çizgili kedi" + örnek kutusu → örnekle eşleşen tüm çizgili kedileri segmentlere ayırır
Nesne algılama ve örnek segmentasyonu ile ilgili arka plana bakın.
SAM 3'ün SAM 2'den Farkı Nedir?
| Özellik | SAM 2 | SAM 3 |
|---|---|---|
| Görev | İstem başına tek nesne | Bir kavramın tüm örnekleri |
| İstem Türleri | Noktalar, kutular, maskeler | + Metin ifadeleri, görüntü örnekleri |
| Algılama Yeteneği | Harici dedektör gerektirir | Yerleşik açık kelime dedektörü |
| Tanınma | Yalnızca geometri tabanlı | Metin ve görsel tanıma |
| Mimari | Yalnızca izleyici | Varlık kafalı Dedektör + İzleyici |
| Sıfır Atış Performansı | N/A (görsel yönlendirmeler gerektirir) | LVIS'de 47,0 AP , SA-Co'da 2 kat daha iyi |
| İnteraktif İyileştirme | Sadece tıklamalar | Tıklamalar + örnek genelleme |
SAM 3, SAM 2 görsel yönlendirme ile geriye dönük uyumluluğu korurken kavram tabanlı yetenekler ekler.
SAM 3'ü eğitmek için hangi veri kümeleri kullanılıyor?
SAM 3, Segment Anything with Concepts (SA-Co) veri kümesi üzerinde eğitilmiştir:
Eğitim Verileri:
- 4 milyon benzersiz isim cümlesine sahip 5,2 milyon görüntü (SA-Co/HQ) - yüksek kaliteli insan açıklamaları
- 52,5 bin video ve 24,8 bin benzersiz isim cümlesi (SA-Co/VIDEO)
- 38 milyon isim cümlesinde 1,4 milyar sentetik maske (SA-Co/SYN)
- 15 sert negatiflerle zenginleştirilmiş harici veri kümesi (SA-Co/EXT)
Karşılaştırma Verileri:
- 126 bin resim/videoda214 bin benzersiz konsept
- Mevcut kıyaslama ölçütlerinden 50 kat daha fazla kavram (örneğin, LVIS ~4K kavrama sahiptir)
- İnsan performans sınırlarını ölçmek için SA-Co/Gold üzerinde üçlü açıklama
Bu SAM ölçek ve çeşitlilik, SAM 3'ün açık kelime dağarcığı kavramları arasında üstün sıfır atış genellemesini sağlar.
SAM 3 segmentasyon açısından YOLO11 ile nasıl karşılaştırılır?
SAM 3 ve YOLO11 farklı kullanım durumlarına hizmet etmektedir:
SAM 3 Avantajları:
- Açık kelime bilgisi: Herhangi bir kavramı eğitim almadan metin istemleri aracılığıyla bölümlere ayırır
- Sıfır atış: Yeni kategoriler üzerinde hemen çalışır
- Etkileşimli: Örnek tabanlı iyileştirme benzer nesnelere genelleştirilir
- Kavram tabanlı: Bir kategorinin tüm örneklerini otomatik olarak bulur
- Doğruluk: LVIS sıfır çekim örnek segmentasyonunda 47,0 AP
YOLO11 Avantajları:
- Hız: 10-15 kat daha hızlı çıkarım (görüntü başına 2-3ms vs 30ms)
- Verimlilik: 70 kat daha küçük modeller (5,9 MB vs ~400 MB bekleniyor)
- Kaynak dostu: Uç cihazlarda ve mobil cihazlarda çalışır
- Gerçek zamanlı: Üretim dağıtımları için optimize edilmiştir
Öneri:
- Metin veya örneklerle açıklanan kavramların tüm örneklerini bulmanız gereken esnek, açık kelime segmentasyonu için SAM 3 'ü kullanın
- Kullanım YOLO11 kategorilerin önceden bilindiği yüksek hızlı, üretim dağıtımları için
- Geometrik ipuçlarıyla etkileşimli tek nesne segmentasyonu için SAM 2 'yi kullanın
SAM 3 karmaşık dil sorgularını işleyebilir mi?
SAM 3 basit isim cümleleri için tasarlanmıştır (örneğin, "kırmızı elma", "şapka takan kişi"). Muhakeme gerektiren karmaşık sorgular için SAM 3'ü SAM 3 Agent olarak bir MLLM ile birleştirin:
Basit sorgular (yerel SAM 3):
- "sarı okul otobüsü"
- "çizgili kedi"
- "kırmızı şapka takan kişi"
Karmaşık sorgular (MLLM ileSAM 3 Agent):
- "Oturan ama elinde hediye kutusu olmayan insanlar"
- "Kameraya en yakın tasmasız köpek"
- "Kişinin elinden daha büyük kırmızı nesneler"
SAM 3 Agent, SAM 3'ün segmentasyonunu MLLM muhakeme yetenekleriyle birleştirerek ReasonSeg doğrulamasında 76,0 gIoU elde etti (önceki en iyi 65,0'a kıyasla +%16,9 iyileşme).
SAM 3 insan performansına kıyasla ne kadar doğru?
Üçlü insan açıklamasıyla SA-Co/Gold kıyaslamasında:
- İnsan alt sınırı: 74,2 CGF1 (en muhafazakar açıklayıcı)
- SAM 3 performansı: 65,0 CGF1
- Başarı: Tahmini insan alt sınırının %88 'i
- İnsan üst sınırı: 81,4 CGF1 (en liberal yorumcu)
SAM 3, açık kelimeli kavram segmentasyonunda insan seviyesindeki doğruluğa yaklaşan güçlü bir performans elde ederken, aradaki fark öncelikle belirsiz veya öznel kavramlarda (örneğin, "küçük pencere", "rahat oda") ortaya çıkmaktadır.