SAM 3: Segmentare qualsiasi cosa con i concetti

Q: When Will SAM 3 Be Released?

SAM 3 è stato rilasciato da Meta il 20 novembre 2025. Il supporto per Ultralytics è in corso e verrà fornito in un prossimo aggiornamento del pacchetto con documenti completi per la modalità predict e track .

Q: What Is Promptable Concept Segmentation (PCS)?

PCS è un nuovo compito introdotto in SAM 3 che segmenta tutte le istanze di un concetto visivo in un'immagine o in un video. A differenza della segmentazione tradizionale, che si rivolge a un'istanza specifica di un oggetto, PCS individua tutte le occorrenze di una categoria. Ad esempio: Si veda il background relativo al rilevamento degli oggetti e alla segmentazione delle istanze.

Q: What datasets are used to train SAM 3?

SAM 3 è addestrato sul dataset Segment Anything with Concepts (SA-Co): Dati di addestramento: Dati di benchmark: Questa enorme scala e diversità consente a SAM 3 di ottenere una generalizzazione superiore a colpo sicuro su concetti a vocabolario aperto.

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 e YOLO11 servono a casi d'uso diversi: SAM 3 Vantaggi: YOLO11 Vantaggi: Raccomandazione:

Q: How accurate is SAM 3 compared to human performance?

Sul benchmark SA-Co/Gold con tripla annotazione umana: SAM 3 ottiene prestazioni elevate che si avvicinano all'accuratezza di livello umano nella segmentazione di concetti a vocabolario aperto, con un divario soprattutto nei concetti ambigui o soggettivi (ad esempio, "piccola finestra", "stanza accogliente").

Rilasciato - Integrazione di Ultralytics in corso

Meta ha rilasciato SAM il 20 novembre 2025. Ultralytics sta integrando i modelli e presto invierà un aggiornamento del pacchetto con il supporto nativo. Nel frattempo, è possibile seguire i passi del README ufficiale di SAM 3 per provare la versione upstream.

Panoramica di SAM 3

SAM 3 (Segment Anything Model 3) è il modello di base rilasciato da Meta per la Segmentazione Concettuale Promptable (PCS). Basato su SAM 2, SAM 3 introduce una capacità fondamentalmente nuova: rilevare, segmentare e tracciare tutte le istanze di un concetto visivo specificato da prompt di testo, esempi di immagini o entrambi. A differenza delle precedenti versioni di SAM , che segment singoli oggetti per ogni richiesta, SAM 3 è in grado di trovare e segment ogni occorrenza di un concetto che compare in qualsiasi punto delle immagini o dei video, allineandosi agli obiettivi del vocabolario aperto nella moderna segmentazione delle istanze.

Ultralytics sta integrando attivamente SAM nella ultralytics fino a quando non sarà disponibile il pacchetto Meta. In attesa di tale rilascio, è possibile sperimentare l'implementazione upstream di Meta utilizzando i passaggi ufficiali di installazione e utilizzo riportati di seguito.

Panoramica

SAM 3 raggiunge un guadagno di prestazioni di 2 volte rispetto ai sistemi esistenti nella segmentazione dei concetti su richiesta, mantenendo e migliorando le capacità di SAM 2 per la segmentazione visiva interattiva. Il modello eccelle nella segmentazione a vocabolario aperto, consentendo agli utenti di specificare i concetti utilizzando semplici frasi di sostantivo (ad esempio, "scuolabus giallo", "gatto a strisce") o fornendo immagini di esempio dell'oggetto target. Queste capacità completano le pipeline pronte per la produzione, che si basano su previsioni e tracciati semplificati. track flussi di lavoro semplificati.

SAM 3 Segmentazione

Che cos'è la Segmentazione Concettuale Promuovibile (PCS)?

Il task PCS prende in input una richiesta di concetto e restituisce maschere di segmentazione con identità uniche per tutte le istanze di oggetto corrispondenti. Le richieste di concetto possono essere:

Testo: Frasi semplici di sostantivi come "mela rossa" o "persona che indossa un cappello", simili all'apprendimento a colpo zero.
Esemplari di immagini: Riquadri di delimitazione intorno a oggetti esemplificativi (positivi o negativi) per una generalizzazione rapida
Combinato: Esemplari di testo e di immagine insieme per un controllo preciso

Questo differisce dai tradizionali prompt visivi (punti, caselle, maschere) che segment solo una singola istanza di oggetto specifico, come diffuso dalla famigliaSAM originale.

Metriche di prestazione chiave

Metrica	SAM 3 Risultati
Maschera LVIS Zero-Shot AP	47,0 (rispetto al precedente miglior valore di 38,5, +22% di miglioramento)
Benchmark SA-Co	2 volte migliore rispetto ai sistemi esistenti
Velocità di inferenza ( GPU H200)	30 ms per immagine con oltre 100 oggetti rilevati
Prestazioni video	Quasi in tempo reale per ~5 oggetti simultanei
Benchmark MOSEv2 VOS	60,1 J&F (+25,5% rispetto a SAM 2.1, +17% rispetto a SOTA precedente)
Rifinitura interattiva	+18,6 Miglioramento del CGF1 dopo 3 richieste esemplari
Divario nelle prestazioni umane	Raggiunge l'88% del limite inferiore stimato su SA-Co/Gold

Per un contesto sulle metriche dei modelli e sui compromessi nella produzione, si vedano le analisi di valutazione dei modelli e le metriche delle prestazioniYOLO .

Architettura

SAM 3 è costituito da un rilevatore e da un tracker che condividono una struttura di visione Perception Encoder (PE). Questo design disaccoppiato evita i conflitti di attività, consentendo il rilevamento a livello di immagine e il tracciamento a livello di video, con un'interfaccia compatibile con l'uso di Ultralytics Python e CLI .

Componenti Principali

Detector: Architettura basata su DETR per il rilevamento di concetti a livello di immagine
- Codificatore di testo per prompt di frasi di sostantivi
- Codificatore di esempi per prompt basati su immagini
- Codificatore di fusione per condizionare le caratteristiche dell'immagine su richieste di informazioni
- Nuova testa di presenza che disaccoppia il riconoscimento ("cosa") dalla localizzazione ("dove")
- Testa di maschera per la generazione di maschere di segmentazione dell'istanza
Tracker: Segmentazione video basata sulla memoria ereditata da SAM 2
- Codificatore di prompt, decodificatore di maschere, codificatore di memoria
- Banco di memoria per la memorizzazione dell'aspetto degli oggetti nei vari fotogrammi
- Disambiguazione temporale aiutata da tecniche come il filtro di Kalman in contesti multi-oggetto
Token di presenza: Un token globale appreso che predice se il concetto di target è presente nell'immagine/quadro, migliorando il rilevamento grazie alla separazione del riconoscimento dalla localizzazione.

Architettura SAM 3

Innovazioni chiave

Riconoscimento e localizzazione disaccoppiati: La testa di presenza predice la presenza del concetto a livello globale, mentre le query di proposta si concentrano solo sulla localizzazione, evitando obiettivi contrastanti.
Prompt concettuali e visivi unificati: Supporta sia i PCS (prompt concettuali) che i PVS (prompt visivi, come i click/box di SAM 2) in un unico modello.
Raffinamento interattivo degli esempi: Gli utenti possono aggiungere esempi di immagini positive o negative per perfezionare iterativamente i risultati, con il modello che si generalizza a oggetti simili anziché limitarsi a correggere singole istanze.
Disambiguazione temporale: Utilizza i punteggi di rilevamento delle masklet e le ripetizioni periodiche per gestire le occlusioni, le scene affollate e gli errori di tracciamento nei video, allineandosi alle migliori pratiche di segmentazione e tracciamento delle istanze.

Set di dati SA-Co

SAM 3 è addestrato su Segment Anything with Concepts (SA-Co), il più grande e diversificato set di dati di segmentazione di Meta, che va oltre i comuni benchmark quali COCO e LVIS.

Dati di formazione

Componente del set di dati	Descrizione	Scala
SA-Co/HQ	Dati di immagine di alta qualità annotati dall'uomo da un motore di dati a 4 fasi	5,2 milioni di immagini, 4 milioni di frasi sostantive uniche
SA-Co/SYN	Set di dati sintetici etichettati dall'IA senza l'intervento umano	38M frasi sostantive, 1,4B maschere
SA-Co/EXT	15 set di dati esterni arricchiti con hard negative	Varia a seconda della fonte
SA-Co/VIDEO	Annotazioni video con tracciamento temporale	52,5K video, 24,8K frasi sostantive uniche

Dati di riferimento

Il benchmark di valutazione SA-Co contiene 214K frasi uniche su 126K immagini e video, fornendo oltre 50× in più di concetti rispetto ai benchmark esistenti. Include:

SA-Co/Gold: 7 domini, triplicemente annotati per misurare i limiti delle prestazioni umane
SA-Co/Silver: 10 domini, singola annotazione umana
SA-Co/Bronze e SA-Co/Bio: 9 set di dati esistenti adattati per la segmentazione dei concetti
SA-Co/VEval: benchmark video con 3 domini (SA-V, YT-Temporal-1B, SmartGlasses)

Innovazioni del motore dati

Il motore di dati scalabile di SAM 3, basato su persone e modelli, raggiunge un throughput di annotazione 2 volte superiore:

Annotatori AI: I modelli basati su Llama propongono diverse frasi di sostantivi, compresi gli hard negatives
Verificatori AI: LLM multimodali e ottimizzati verificano la qualità e l'esaustività delle maschere con prestazioni vicine a quelle umane.
Estrazione attiva: Concentra lo sforzo umano su casi di fallimento impegnativi in cui l'IA ha difficoltà.
Guidato dall'ontologia: Sfrutta un'ampia ontologia basata su Wikidata per la copertura dei concetti.

Installazione

SAM 3 sarà disponibile direttamente nel pacchetto Ultralytics una volta che l'integrazione sarà completata. L'installazione rimane:

pip install ultralytics

I modelli vengono scaricati automaticamente al primo utilizzo. È quindi possibile utilizzare la modalità di previsione standard ed esportare successivamente i modelli in formati quali ONNX e TensorRT per la distribuzione. Si consiglia di attendere l'aggiornamento del pacchetto con i pesi e le configurazioni di SAM.

Come usare SAM 3: versatilità nella segmentazione dei concetti

Anteprima API Ultralytics

I seguenti esempi mostrano l'API di Ultralytics prevista una volta che SAM 3 sarà disponibile nel pacchetto. Fino all'arrivo dell'integrazione, i dettagli possono cambiare.

Attività e modelli supportati

SAM 3 supporta sia la Segmentazione Concettuale Promptable (PCS) che la Segmentazione Visiva Promptable (PVS):

Tipo di compito	Tipi di prompt	Uscita
Segmentazione del concetto (PCS)	Testo (frasi sostantive), esempi di immagini	Tutte le istanze che corrispondono al concetto
Segmentazione visiva (PVS)	Punti, scatole, maschere	Istanza di oggetto singoloSAM stileSAM 2)
Rifinitura interattiva	Aggiungere/rimuovere esemplari o clic in modo iterativo	Segmentazione raffinata con maggiore accuratezza

Esempi di segmentazione dei concetti

Segmento con suggerimenti di testo

Segmentazione dei concetti basata sul testo

Trova e segment tutte le istanze di un concetto utilizzando una descrizione testuale.

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Segmento con esempi di immagini

Segmentazione basata su esempi di immagini

Utilizzare uno o più oggetti di esempio per trovare tutte le istanze simili.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Raffinamento iterativo con gli esemplari

Migliorare progressivamente i risultati aggiungendo suggerimenti esemplari in base ai risultati iniziali.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Segmentazione dei concetti video

Tracciare i concetti attraverso i video

Rilevare e track tutte le istanze di un concetto in un video.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Per le configurazioni di produzione e streaming più ampie, vedere Tracciamento degli oggetti e visualizzazione dei risultati nel terminale.

Prompt visiviSAM compatibilità conSAM 2)

SAM 3 mantiene la piena retrocompatibilità con la richiesta visiva di SAM 2:

Prompt visivi di stile SAM 2

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Benchmark delle prestazioni

Segmentazione delle immagini

SAM 3 ottiene risultati all'avanguardia in diversi benchmark, compresi i dataset del mondo reale come LVIS e COCO per la segmentazione:

Benchmark	Metrica	SAM 3	Precedente Il migliore	Miglioramento
LVIS (zero colpi)	Maschera AP	47.0	38.5	+22.1%
SA-Co/Oro	CGF1	65.0	34,3 (OWLv2)	+89.5%
COCO (zero colpi)	Box AP	53.5	52,2 (T-Rex2)	+2.5%
ADE-847 (seg. semantico)	mIoU	14.7	9,2 (APE-D)	+59.8%
PascalConcept-59	mIoU	59.4	58,5 (APE-D)	+1.5%
Paesaggi urbani (seg. semantico)	mIoU	65.1	44,2 (APE-D)	+47.3%

Esplorate le opzioni di set di dati per una rapida sperimentazione nei set di datiUltralytics .

Prestazioni della segmentazione video

SAM 3 mostra miglioramenti significativi rispetto a SAM 2 e allo stato dell'arte precedente in benchmark video come DAVIS 2017 e YouTube-VOS:

Benchmark	Metrica	SAM 3	SAM 2.1 L	Miglioramento
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Adattamento con pochi colpi

SAM 3 eccelle nell'adattarsi a nuovi domini con esempi minimi, rilevanti per i flussi di lavoro AI incentrati sui dati:

Benchmark	AP a 0 colpi	AP a 10 colpi	Migliore precedente (10 colpi)
ODinW13	59.9	71.6	67,9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33,7 (gDino-T)

Il prompt basato sui concetti e sugli esempi di SAM 3 converge molto più rapidamente del prompt visivo:

Prompts aggiunti	Punteggio CGF1	Guadagno vs. solo testo	Guadagno rispetto al PVS di base
Solo testo	46.4	linea di base	linea di base
+1 esemplare	57.6	+11.2	+6.7
+2 esemplari	62.2	+15.8	+9.7
+3 esemplari	65.0	+18.6	+11.2
+4 esemplari	65.7	+19.3	+11,5 (plateau)

Precisione nel conteggio degli oggetti

SAM 3 fornisce un conteggio accurato segmentando tutte le istanze, un requisito comune nel conteggio degli oggetti:

Benchmark	Precisione	MAE	contro il miglior MLLM
Banco di calcolo	95.6%	0.11	92,4% (Gemelli 2.5)
Conteggio PixMo	87.3%	0.22	88,8% (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO a confronto

Qui confrontiamo le capacità di SAM 3 con quelle di SAM 2 e di YOLO11 con i modelli SAM 2 e YOLO11:

Capacità	SAM 3	SAM 2	YOLO11n-seg
Segmentazione del concetto	✅ Tutte le istanze da testi/esemplari	❌ Non supportato	❌ Non supportato
Segmentazione visiva	✅ Istanza singolaSAM compatibile conSAM 2)	✅ Istanza singola	✅ Tutte le istanze
Capacità di zero colpi	✅ Vocabolario aperto	✅ Spunti geometrici	❌ Set chiuso
Rifinitura interattiva	✅ Esemplari + click	✅ Solo clic	❌ Non supportato
Tracciamento video	✅ Multi-oggetto con identità	✅ Multi-oggetto	✅ Multi-oggetto
Maschera LVIS AP (zero colpi)	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
Velocità di inferenza (H200)	30 ms (oltre 100 oggetti)	~23 ms (per oggetto)	2-3 ms (immagine)
Dimensioni del modello	Grande (~400+ MB previsti)	162 MB (base)	5,9 MB

Punti di forza:

SAM 3: migliore per la segmentazione di concetti a vocabolario aperto, per trovare tutte le istanze di un concetto con testi o esempi
SAM 2: il migliore per la segmentazione interattiva di singoli oggetti in immagini e video con indicazioni geometriche
YOLO11: Ideale per la segmentazione in tempo reale e ad alta velocità in implementazioni con risorse limitate, utilizzando pipeline di esportazione efficienti come ONNX e TensorRT

Metriche di valutazione

SAM 3 introduce nuove metriche progettate per il compito PCS, a complemento di misure già note come il punteggio F1, la precisione e il richiamo.

F1 con classificazione (CGF1)

La metrica principale che combina localizzazione e classificazione:

CGF1 = 100 × pmF1 × IL_MCC

Dove:

pmF1 (Positive Macro F1): Misura la qualità della localizzazione su esempi positivi
IL_MCC (Coefficiente di correlazione di Matthews a livello di immagine): Misura l'accuratezza della classificazione binaria ("il concetto è presente?").

Perché queste metriche?

Le metriche AP tradizionali non tengono conto della calibrazione, rendendo i modelli difficili da usare nella pratica. Valutando solo le previsioni al di sopra dello 0,5 di confidenza, le metriche di SAM 3 impongono una buona calibrazione e imitano i modelli di utilizzo del mondo reale nella previsione e nel tracciamento interattivi. track cicli interattivi.

Ablazioni e approfondimenti chiave

Impatto della presenza Testa

La testa di presenza disaccoppia il riconoscimento dalla localizzazione, offrendo miglioramenti significativi:

Configurazione	CGF1	IL_MCC	pmF1
Senza presenza	57.6	0.77	74.7
Con la presenza	63.3	0.82	77.1

La testa di presenza fornisce un incremento di +5,7 CGF1 (+9,9%), migliorando soprattutto la capacità di riconoscimento (IL_MCC +6,5%).

Effetto dei negativi duri

Negativi duri/Immagine	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

I negativi duri sono fondamentali per il riconoscimento del vocabolario aperto, migliorando IL_MCC del 54,5% (0,44 → 0,68).

Scala dei dati di addestramento

Fonti dei dati	CGF1	IL_MCC	pmF1
Solo esterno	30.9	0.46	66.3
Esterno + Sintetico	39.7	0.57	70.6
Esterno + HQ	51.8	0.71	73.2
Tutti e tre	54.3	0.74	73.5

Le annotazioni umane di alta qualità offrono grandi vantaggi rispetto ai soli dati sintetici o esterni. Per informazioni sulle pratiche di qualità dei dati, vedere la raccolta e l'annotazione dei dati.

Applicazioni

La capacità di segmentazione concettuale di SAM 3 consente nuovi casi d'uso:

Moderazione dei contenuti: Trova tutte le istanze di specifici tipi di contenuto nelle librerie multimediali.
Commercio elettronico: Segmentazione di tutti i prodotti di un certo tipo nelle immagini del catalogo, con supporto dell 'annotazione automatica
Imaging medico: Identificare tutte le occorrenze di specifici tipi di tessuto o anomalie.
Sistemi autonomi: Tracciare tutte le istanze di segnali stradali, pedoni o veicoli per categoria.
Analisi video: Conteggio e track di tutte le persone che indossano indumenti specifici o compiono azioni.
Annotazione del set di dati: Annotazione rapida di tutte le istanze di categorie di oggetti rari
Ricerca scientifica: Quantificare e analizzare tutti i campioni che corrispondono a criteri specifici.

Agente SAM 3: Ragionamento linguistico esteso

SAM 3 può essere combinato con i Multimodal Large Language Models (MLLM) per gestire interrogazioni complesse che richiedono un ragionamento, con uno spirito simile ai sistemi a vocabolario aperto come OWLv2 e T-Rex.

Prestazioni su compiti di ragionamento

Benchmark	Metrica	Agente SAM 3 (Gemini 2.5 Pro)	Precedente Il migliore
MotivoSeg (convalida)	gIoU	76.0	65,0 (SoTA)
MotivoSeg (test)	gIoU	73.8	61,3 (SoTA)
OmniLabel (convalida)	AP	46.7	36,5 (REALE)
RifCOCO+	Acc	91.2	89.3 (LISA)

Esempio di query complesse

L'agente SAM 3 è in grado di gestire interrogazioni che richiedono un ragionamento:

"Persone sedute ma non con un pacco regalo in mano".
"Il cane più vicino alla telecamera che non indossa il collare".
"Oggetti rossi più grandi della mano della persona".

Il MLLM propone a SAM 3 semplici query con frasi di sostantivo, analizza le maschere restituite e itera fino a quando non sono soddisfatte.

Limitazioni

Sebbene SAM 3 rappresenti un importante progresso, presenta alcuni limiti:

Complessità della frase: Più adatto a frasi semplici con sostantivo; espressioni riferite lunghe o ragionamenti complessi possono richiedere l'integrazione di MLLM.
Gestione dell'ambiguità: Alcuni concetti rimangono intrinsecamente ambigui (ad esempio, "finestra piccola", "stanza accogliente").
Requisiti computazionali: Maggiore e più lento dei modelli di rilevamento specializzati come YOLO
Ambito di applicazione del vocabolario: Concentrato sui concetti visivi atomici; il ragionamento compositivo è limitato senza l'assistenza di MLLM.
Concetti rari: Le prestazioni possono peggiorare su concetti estremamente rari o a grana fine non ben rappresentati nei dati di addestramento.

Citazione

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quando uscirà SAM 3?

SAM 3 è stato rilasciato da Meta il 20 novembre 2025. Il supporto per Ultralytics è in corso e verrà fornito in un prossimo aggiornamento del pacchetto con documenti completi per la modalità predict e track .

SAM 3 sarà integrato in Ultralytics?

Sì. Al momento del rilascio, SAM 3 sarà supportato dal pacchetto Ultralytics Python , che include la segmentazione concettuale, i suggerimenti visivi in stile SAM 2 e il tracciamento video multi-oggetto. Sarà possibile esportare in formati come ONNX e TensorRT per l'implementazione, con un'efficiente Python e CLI flussi di lavoro.

Tempistica di implementazione

Gli esempi di codice contenuti in questa documentazione sono versioni di anteprima che mostrano i modelli di utilizzo previsti. L'implementazione effettiva sarà disponibile dopo che Ultralytics avrà completato l'integrazione.

Che cos'è la Segmentazione Concettuale Promptable (PCS)?

PCS è un nuovo compito introdotto in SAM 3 che segmenta tutte le istanze di un concetto visivo in un'immagine o in un video. A differenza della segmentazione tradizionale, che si rivolge a un'istanza specifica di un oggetto, PCS individua tutte le occorrenze di una categoria. Ad esempio:

Testo richiesto: "scuolabus giallo" → segmenta tutti gli scuolabus gialli presenti nella scena
Esemplare di immagine: Riquadro intorno a un cane → segmenta tutti i cani dell'immagine
Combinato: "gatto a strisce" + casella esemplare → segmenta tutti i gatti a strisce che corrispondono all'esempio

Si veda il background relativo al rilevamento degli oggetti e alla segmentazione delle istanze.

In cosa si differenzia SAM 3 da SAM 2?

Caratteristica	SAM 2	SAM 3
Task	Singolo oggetto per richiesta	Tutte le istanze di un concetto
Tipi di prompt	Punti, scatole, maschere	+ Frasi di testo, esempi di immagini
Capacità di rilevamento	Richiede un rilevatore esterno	Rilevatore di vocaboli aperti incorporato
Riconoscimento	Solo basato sulla geometria	Riconoscimento testuale e visivo
Architettura	Solo Tracker	Rivelatore + Tracker con testa di presenza
Prestazioni a colpo zero	N/A (richiede indicazioni visive)	47,0 AP su LVIS, 2 volte meglio su SA-Co
Rifinitura interattiva	Solo clic	Clic + generalizzazione dell'esemplare

SAM 3 mantiene la compatibilità con il prompt visivo di SAM 2, aggiungendo al contempo funzionalità basate sui concetti.

Quali set di dati vengono utilizzati per addestrare SAM 3?

SAM 3 viene addestrato sul dataset Segment Anything with Concepts (SA-Co):

Dati di formazione:

5,2 milioni di immagini con 4 milioni di frasi sostantive uniche (SA-Co/HQ) - annotazioni umane di alta qualità
52,5K video con 24,8K frasi sostantive uniche (SA-Co/VIDEO)
1,4B maschere sintetiche su 38M frasi sostantive (SA-Co/SYN)
15 set di dati esterni arricchiti con hard negative (SA-Co/EXT)

Dati di benchmark:

214K concetti unici su 126K immagini/video
50 volte più concetti rispetto ai benchmark esistenti (ad esempio, LVIS ha ~4K concetti)
Annotazione tripla su SA-Co/Gold per misurare i limiti delle prestazioni umane

Questa enorme scala e diversità consente a SAM 3 una generalizzazione superiore a colpo sicuro su concetti a vocabolario aperto.

Come si colloca SAM 3 rispetto a YOLO11 per la segmentazione?

SAM 3 e YOLO11 servono a casi d'uso diversi:

SAM 3 Vantaggi:

Vocabolario aperto: Segmenta qualsiasi concetto tramite messaggi di testo senza formazione
Zero colpi: Lavora immediatamente su nuove categorie
Interattivo: Il perfezionamento basato su esempi si generalizza a oggetti simili
Basato sul concetto: Trova automaticamente tutte le istanze di una categoria
Accuratezza: 47,0 AP sulla segmentazione di istanze LVIS a colpo zero

YOLO11 Vantaggi:

Velocità: inferenza 10-15 volte più veloce (2-3 ms contro 30 ms per immagine)
Efficienza: modelli 70× più piccoli (5,9MB contro i ~400MB previsti)
Rispettoso delle risorse: Funziona su dispositivi edge e mobili
In tempo reale: Ottimizzato per le implementazioni di produzione

Raccomandazione:

Utilizzate SAM 3 per una segmentazione flessibile e a vocabolario aperto, quando dovete trovare tutte le istanze di concetti descritti da testi o esempi.
Utilizzo YOLO11 per distribuzioni di produzione ad alta velocità in cui le categorie sono note in anticipo
Utilizzate SAM 2 per la segmentazione interattiva di un singolo oggetto con indicazioni geometriche.

SAM 3 è in grado di gestire query linguistiche complesse?

SAM 3 è progettato per semplici frasi di sostantivi (ad esempio, "mela rossa", "persona con cappello"). Per le interrogazioni complesse che richiedono un ragionamento, è necessario combinare SAM 3 con un MLLM come SAM 3 Agent:

Interrogazioni semplici ( SAM 3 nativo):

"scuolabus giallo"
"gatto a strisce"
"persona con cappello rosso"

Interrogazioni complesse (agenteSAM 3 con MLLM):

"Persone sedute ma non con un pacco regalo in mano".
"Il cane più vicino alla telecamera senza collare".
"Oggetti rossi più grandi della mano della persona".

L'agente SAM 3 ottiene 76,0 gIoU sulla convalida ReasonSeg (contro il precedente migliore di 65,0, con un miglioramento del 16,9%) combinando la segmentazione di SAM 3 con le capacità di ragionamento MLLM.

Quanto è preciso il SAM 3 rispetto alle prestazioni umane?

Sul benchmark SA-Co/Gold con tripla annotazione umana:

Limite inferiore umano: 74,2 CGF1 (annotatore più conservatore)
PrestazioniSAM 3: 65,0 CGF1
Risultati: 88% del limite inferiore umano stimato
Limite superiore umano: 81,4 CGF1 (annotatore più liberale)

SAM 3 raggiunge prestazioni elevate che si avvicinano alla precisione umana nella segmentazione di concetti a vocabolario aperto, con un divario soprattutto nei concetti ambigui o soggettivi (ad esempio, "piccola finestra", "stanza accogliente").

📅C reato 1 mese fa ✏️ Aggiornato 1 giorno fa

SAM 3: Segmentare qualsiasi cosa con i concetti

Panoramica

Che cos'è la Segmentazione Concettuale Promuovibile (PCS)?

Metriche di prestazione chiave

Architettura

Componenti Principali

Innovazioni chiave

Set di dati SA-Co

Dati di formazione

Dati di riferimento

Innovazioni del motore dati

Installazione

Come usare SAM 3: versatilità nella segmentazione dei concetti

Attività e modelli supportati

Esempi di segmentazione dei concetti

Segmento con suggerimenti di testo

Segmento con esempi di immagini

Rifinitura interattiva

Segmentazione dei concetti video

Prompt visiviSAM compatibilità conSAM 2)

Benchmark delle prestazioni

Segmentazione delle immagini

Prestazioni della segmentazione video

Adattamento con pochi colpi

Efficacia del perfezionamento interattivo

Precisione nel conteggio degli oggetti

SAM 3 vs SAM 2 vs YOLO a confronto

Metriche di valutazione

F1 con classificazione (CGF1)

Perché queste metriche?

Ablazioni e approfondimenti chiave

Impatto della presenza Testa

Effetto dei negativi duri

Scala dei dati di addestramento

Applicazioni

Agente SAM 3: Ragionamento linguistico esteso

Prestazioni su compiti di ragionamento

Esempio di query complesse

Limitazioni

Citazione

FAQ

Quando uscirà SAM 3?

SAM 3 sarà integrato in Ultralytics?

Che cos'è la Segmentazione Concettuale Promptable (PCS)?

In cosa si differenzia SAM 3 da SAM 2?

Quali set di dati vengono utilizzati per addestrare SAM 3?

Come si colloca SAM 3 rispetto a YOLO11 per la segmentazione?

SAM 3 è in grado di gestire query linguistiche complesse?

Quanto è preciso il SAM 3 rispetto alle prestazioni umane?

Commenti