Vai al contenuto

SAM 3: Segmentare qualsiasi cosa con i concetti

Rilasciato - Integrazione di Ultralytics in corso

Meta ha rilasciato SAM il 20 novembre 2025. Ultralytics sta integrando i modelli e presto invierà un aggiornamento del pacchetto con il supporto nativo. Nel frattempo, è possibile seguire i passi del README ufficiale di SAM 3 per provare la versione upstream.

Panoramica di SAM 3

SAM 3 (Segment Anything Model 3) è il modello di base rilasciato da Meta per la Segmentazione Concettuale Promptable (PCS). Basato su SAM 2, SAM 3 introduce una capacità fondamentalmente nuova: rilevare, segmentare e tracciare tutte le istanze di un concetto visivo specificato da prompt di testo, esempi di immagini o entrambi. A differenza delle precedenti versioni di SAM , che segment singoli oggetti per ogni richiesta, SAM 3 è in grado di trovare e segment ogni occorrenza di un concetto che compare in qualsiasi punto delle immagini o dei video, allineandosi agli obiettivi del vocabolario aperto nella moderna segmentazione delle istanze.

Ultralytics sta integrando attivamente SAM nella ultralytics fino a quando non sarà disponibile il pacchetto Meta. In attesa di tale rilascio, è possibile sperimentare l'implementazione upstream di Meta utilizzando i passaggi ufficiali di installazione e utilizzo riportati di seguito.

Panoramica

SAM 3 raggiunge un guadagno di prestazioni di 2 volte rispetto ai sistemi esistenti nella segmentazione dei concetti su richiesta, mantenendo e migliorando le capacità di SAM 2 per la segmentazione visiva interattiva. Il modello eccelle nella segmentazione a vocabolario aperto, consentendo agli utenti di specificare i concetti utilizzando semplici frasi di sostantivo (ad esempio, "scuolabus giallo", "gatto a strisce") o fornendo immagini di esempio dell'oggetto target. Queste capacità completano le pipeline pronte per la produzione, che si basano su previsioni e tracciati semplificati. track flussi di lavoro semplificati.

SAM 3 Segmentazione

Che cos'è la Segmentazione Concettuale Promuovibile (PCS)?

Il task PCS prende in input una richiesta di concetto e restituisce maschere di segmentazione con identità uniche per tutte le istanze di oggetto corrispondenti. Le richieste di concetto possono essere:

  • Testo: Frasi semplici di sostantivi come "mela rossa" o "persona che indossa un cappello", simili all'apprendimento a colpo zero.
  • Esemplari di immagini: Riquadri di delimitazione intorno a oggetti esemplificativi (positivi o negativi) per una generalizzazione rapida
  • Combinato: Esemplari di testo e di immagine insieme per un controllo preciso

Questo differisce dai tradizionali prompt visivi (punti, caselle, maschere) che segment solo una singola istanza di oggetto specifico, come diffuso dalla famigliaSAM originale.

Metriche di prestazione chiave

MetricaSAM 3 Risultati
Maschera LVIS Zero-Shot AP47,0 (rispetto al precedente miglior valore di 38,5, +22% di miglioramento)
Benchmark SA-Co2 volte migliore rispetto ai sistemi esistenti
Velocità di inferenza ( GPU H200)30 ms per immagine con oltre 100 oggetti rilevati
Prestazioni videoQuasi in tempo reale per ~5 oggetti simultanei
Benchmark MOSEv2 VOS60,1 J&F (+25,5% rispetto a SAM 2.1, +17% rispetto a SOTA precedente)
Rifinitura interattiva+18,6 Miglioramento del CGF1 dopo 3 richieste esemplari
Divario nelle prestazioni umaneRaggiunge l'88% del limite inferiore stimato su SA-Co/Gold

Per un contesto sulle metriche dei modelli e sui compromessi nella produzione, si vedano le analisi di valutazione dei modelli e le metriche delle prestazioniYOLO .

Architettura

SAM 3 è costituito da un rilevatore e da un tracker che condividono una struttura di visione Perception Encoder (PE). Questo design disaccoppiato evita i conflitti di attività, consentendo il rilevamento a livello di immagine e il tracciamento a livello di video, con un'interfaccia compatibile con l'uso di Ultralytics Python e CLI .

Componenti Principali

  • Detector: Architettura basata su DETR per il rilevamento di concetti a livello di immagine

    • Codificatore di testo per prompt di frasi di sostantivi
    • Codificatore di esempi per prompt basati su immagini
    • Codificatore di fusione per condizionare le caratteristiche dell'immagine su richieste di informazioni
    • Nuova testa di presenza che disaccoppia il riconoscimento ("cosa") dalla localizzazione ("dove")
    • Testa di maschera per la generazione di maschere di segmentazione dell'istanza
  • Tracker: Segmentazione video basata sulla memoria ereditata da SAM 2

    • Codificatore di prompt, decodificatore di maschere, codificatore di memoria
    • Banco di memoria per la memorizzazione dell'aspetto degli oggetti nei vari fotogrammi
    • Disambiguazione temporale aiutata da tecniche come il filtro di Kalman in contesti multi-oggetto
  • Token di presenza: Un token globale appreso che predice se il concetto di target è presente nell'immagine/quadro, migliorando il rilevamento grazie alla separazione del riconoscimento dalla localizzazione.

Architettura SAM 3

Innovazioni chiave

  1. Riconoscimento e localizzazione disaccoppiati: La testa di presenza predice la presenza del concetto a livello globale, mentre le query di proposta si concentrano solo sulla localizzazione, evitando obiettivi contrastanti.
  2. Prompt concettuali e visivi unificati: Supporta sia i PCS (prompt concettuali) che i PVS (prompt visivi, come i click/box di SAM 2) in un unico modello.
  3. Raffinamento interattivo degli esempi: Gli utenti possono aggiungere esempi di immagini positive o negative per perfezionare iterativamente i risultati, con il modello che si generalizza a oggetti simili anziché limitarsi a correggere singole istanze.
  4. Disambiguazione temporale: Utilizza i punteggi di rilevamento delle masklet e le ripetizioni periodiche per gestire le occlusioni, le scene affollate e gli errori di tracciamento nei video, allineandosi alle migliori pratiche di segmentazione e tracciamento delle istanze.

Set di dati SA-Co

SAM 3 è addestrato su Segment Anything with Concepts (SA-Co), il più grande e diversificato set di dati di segmentazione di Meta, che va oltre i comuni benchmark quali COCO e LVIS.

Dati di formazione

Componente del set di datiDescrizioneScala
SA-Co/HQDati di immagine di alta qualità annotati dall'uomo da un motore di dati a 4 fasi5,2 milioni di immagini, 4 milioni di frasi sostantive uniche
SA-Co/SYNSet di dati sintetici etichettati dall'IA senza l'intervento umano38M frasi sostantive, 1,4B maschere
SA-Co/EXT15 set di dati esterni arricchiti con hard negativeVaria a seconda della fonte
SA-Co/VIDEOAnnotazioni video con tracciamento temporale52,5K video, 24,8K frasi sostantive uniche

Dati di riferimento

Il benchmark di valutazione SA-Co contiene 214K frasi uniche su 126K immagini e video, fornendo oltre 50× in più di concetti rispetto ai benchmark esistenti. Include:

  • SA-Co/Gold: 7 domini, triplicemente annotati per misurare i limiti delle prestazioni umane
  • SA-Co/Silver: 10 domini, singola annotazione umana
  • SA-Co/Bronze e SA-Co/Bio: 9 set di dati esistenti adattati per la segmentazione dei concetti
  • SA-Co/VEval: benchmark video con 3 domini (SA-V, YT-Temporal-1B, SmartGlasses)

Innovazioni del motore dati

Il motore di dati scalabile di SAM 3, basato su persone e modelli, raggiunge un throughput di annotazione 2 volte superiore:

  1. Annotatori AI: I modelli basati su Llama propongono diverse frasi di sostantivi, compresi gli hard negatives
  2. Verificatori AI: LLM multimodali e ottimizzati verificano la qualità e l'esaustività delle maschere con prestazioni vicine a quelle umane.
  3. Estrazione attiva: Concentra lo sforzo umano su casi di fallimento impegnativi in cui l'IA ha difficoltà.
  4. Guidato dall'ontologia: Sfrutta un'ampia ontologia basata su Wikidata per la copertura dei concetti.

Installazione

SAM 3 sarà disponibile direttamente nel pacchetto Ultralytics una volta che l'integrazione sarà completata. L'installazione rimane:

pip install ultralytics

I modelli vengono scaricati automaticamente al primo utilizzo. È quindi possibile utilizzare la modalità di previsione standard ed esportare successivamente i modelli in formati quali ONNX e TensorRT per la distribuzione. Si consiglia di attendere l'aggiornamento del pacchetto con i pesi e le configurazioni di SAM.

Come usare SAM 3: versatilità nella segmentazione dei concetti

Anteprima API Ultralytics

I seguenti esempi mostrano l'API di Ultralytics prevista una volta che SAM 3 sarà disponibile nel pacchetto. Fino all'arrivo dell'integrazione, i dettagli possono cambiare.

Attività e modelli supportati

SAM 3 supporta sia la Segmentazione Concettuale Promptable (PCS) che la Segmentazione Visiva Promptable (PVS):

Tipo di compitoTipi di promptUscita
Segmentazione del concetto (PCS)Testo (frasi sostantive), esempi di immaginiTutte le istanze che corrispondono al concetto
Segmentazione visiva (PVS)Punti, scatole, maschereIstanza di oggetto singoloSAM stileSAM 2)
Rifinitura interattivaAggiungere/rimuovere esemplari o clic in modo iterativoSegmentazione raffinata con maggiore accuratezza

Esempi di segmentazione dei concetti

Segmento con suggerimenti di testo

Segmentazione dei concetti basata sul testo

Trova e segment tutte le istanze di un concetto utilizzando una descrizione testuale.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Segmento con esempi di immagini

Segmentazione basata su esempi di immagini

Utilizzare uno o più oggetti di esempio per trovare tutte le istanze simili.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Rifinitura interattiva

Raffinamento iterativo con gli esemplari

Migliorare progressivamente i risultati aggiungendo suggerimenti esemplari in base ai risultati iniziali.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Segmentazione dei concetti video

Tracciare i concetti attraverso i video

Rilevare e track tutte le istanze di un concetto in un video.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Per le configurazioni di produzione e streaming più ampie, vedere Tracciamento degli oggetti e visualizzazione dei risultati nel terminale.

Prompt visiviSAM compatibilità conSAM 2)

SAM 3 mantiene la piena retrocompatibilità con la richiesta visiva di SAM 2:

Prompt visivi di stile SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa dell'integrazione di Ultralytics .

Benchmark delle prestazioni

Segmentazione delle immagini

SAM 3 ottiene risultati all'avanguardia in diversi benchmark, compresi i dataset del mondo reale come LVIS e COCO per la segmentazione:

BenchmarkMetricaSAM 3Precedente Il miglioreMiglioramento
LVIS (zero colpi)Maschera AP47.038.5+22.1%
SA-Co/OroCGF165.034,3 (OWLv2)+89.5%
COCO (zero colpi)Box AP53.552,2 (T-Rex2)+2.5%
ADE-847 (seg. semantico)mIoU14.79,2 (APE-D)+59.8%
PascalConcept-59mIoU59.458,5 (APE-D)+1.5%
Paesaggi urbani (seg. semantico)mIoU65.144,2 (APE-D)+47.3%

Esplorate le opzioni di set di dati per una rapida sperimentazione nei set di datiUltralytics .

Prestazioni della segmentazione video

SAM 3 mostra miglioramenti significativi rispetto a SAM 2 e allo stato dell'arte precedente in benchmark video come DAVIS 2017 e YouTube-VOS:

BenchmarkMetricaSAM 3SAM 2.1 LMiglioramento
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Adattamento con pochi colpi

SAM 3 eccelle nell'adattarsi a nuovi domini con esempi minimi, rilevanti per i flussi di lavoro AI incentrati sui dati:

BenchmarkAP a 0 colpiAP a 10 colpiMigliore precedente (10 colpi)
ODinW1359.971.667,9 (gDino1.5-Pro)
RF100-VL14.335.733,7 (gDino-T)

Efficacia del perfezionamento interattivo

Il prompt basato sui concetti e sugli esempi di SAM 3 converge molto più rapidamente del prompt visivo:

Prompts aggiuntiPunteggio CGF1Guadagno vs. solo testoGuadagno rispetto al PVS di base
Solo testo46.4linea di baselinea di base
+1 esemplare57.6+11.2+6.7
+2 esemplari62.2+15.8+9.7
+3 esemplari65.0+18.6+11.2
+4 esemplari65.7+19.3+11,5 (plateau)

Precisione nel conteggio degli oggetti

SAM 3 fornisce un conteggio accurato segmentando tutte le istanze, un requisito comune nel conteggio degli oggetti:

BenchmarkPrecisioneMAEcontro il miglior MLLM
Banco di calcolo95.6%0.1192,4% (Gemelli 2.5)
Conteggio PixMo87.3%0.2288,8% (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO a confronto

Qui confrontiamo le capacità di SAM 3 con quelle di SAM 2 e di YOLO11 con i modelli SAM 2 e YOLO11:

CapacitàSAM 3SAM 2YOLO11n-seg
Segmentazione del concetto✅ Tutte le istanze da testi/esemplari❌ Non supportato❌ Non supportato
Segmentazione visiva✅ Istanza singolaSAM compatibile conSAM 2)✅ Istanza singola✅ Tutte le istanze
Capacità di zero colpi✅ Vocabolario aperto✅ Spunti geometrici❌ Set chiuso
Rifinitura interattiva✅ Esemplari + click✅ Solo clic❌ Non supportato
Tracciamento video✅ Multi-oggetto con identità✅ Multi-oggetto✅ Multi-oggetto
Maschera LVIS AP (zero colpi)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
Velocità di inferenza (H200)30 ms (oltre 100 oggetti)~23 ms (per oggetto)2-3 ms (immagine)
Dimensioni del modelloGrande (~400+ MB previsti)162 MB (base)5,9 MB

Punti di forza:

  • SAM 3: migliore per la segmentazione di concetti a vocabolario aperto, per trovare tutte le istanze di un concetto con testi o esempi
  • SAM 2: il migliore per la segmentazione interattiva di singoli oggetti in immagini e video con indicazioni geometriche
  • YOLO11: Ideale per la segmentazione in tempo reale e ad alta velocità in implementazioni con risorse limitate, utilizzando pipeline di esportazione efficienti come ONNX e TensorRT

Metriche di valutazione

SAM 3 introduce nuove metriche progettate per il compito PCS, a complemento di misure già note come il punteggio F1, la precisione e il richiamo.

F1 con classificazione (CGF1)

La metrica principale che combina localizzazione e classificazione:

CGF1 = 100 × pmF1 × IL_MCC

Dove:

  • pmF1 (Positive Macro F1): Misura la qualità della localizzazione su esempi positivi
  • IL_MCC (Coefficiente di correlazione di Matthews a livello di immagine): Misura l'accuratezza della classificazione binaria ("il concetto è presente?").

Perché queste metriche?

Le metriche AP tradizionali non tengono conto della calibrazione, rendendo i modelli difficili da usare nella pratica. Valutando solo le previsioni al di sopra dello 0,5 di confidenza, le metriche di SAM 3 impongono una buona calibrazione e imitano i modelli di utilizzo del mondo reale nella previsione e nel tracciamento interattivi. track cicli interattivi.

Ablazioni e approfondimenti chiave

Impatto della presenza Testa

La testa di presenza disaccoppia il riconoscimento dalla localizzazione, offrendo miglioramenti significativi:

ConfigurazioneCGF1IL_MCCpmF1
Senza presenza57.60.7774.7
Con la presenza63.30.8277.1

La testa di presenza fornisce un incremento di +5,7 CGF1 (+9,9%), migliorando soprattutto la capacità di riconoscimento (IL_MCC +6,5%).

Effetto dei negativi duri

Negativi duri/ImmagineCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

I negativi duri sono fondamentali per il riconoscimento del vocabolario aperto, migliorando IL_MCC del 54,5% (0,44 → 0,68).

Scala dei dati di addestramento

Fonti dei datiCGF1IL_MCCpmF1
Solo esterno30.90.4666.3
Esterno + Sintetico39.70.5770.6
Esterno + HQ51.80.7173.2
Tutti e tre54.30.7473.5

Le annotazioni umane di alta qualità offrono grandi vantaggi rispetto ai soli dati sintetici o esterni. Per informazioni sulle pratiche di qualità dei dati, vedere la raccolta e l'annotazione dei dati.

Applicazioni

La capacità di segmentazione concettuale di SAM 3 consente nuovi casi d'uso:

  • Moderazione dei contenuti: Trova tutte le istanze di specifici tipi di contenuto nelle librerie multimediali.
  • Commercio elettronico: Segmentazione di tutti i prodotti di un certo tipo nelle immagini del catalogo, con supporto dell 'annotazione automatica
  • Imaging medico: Identificare tutte le occorrenze di specifici tipi di tessuto o anomalie.
  • Sistemi autonomi: Tracciare tutte le istanze di segnali stradali, pedoni o veicoli per categoria.
  • Analisi video: Conteggio e track di tutte le persone che indossano indumenti specifici o compiono azioni.
  • Annotazione del set di dati: Annotazione rapida di tutte le istanze di categorie di oggetti rari
  • Ricerca scientifica: Quantificare e analizzare tutti i campioni che corrispondono a criteri specifici.

Agente SAM 3: Ragionamento linguistico esteso

SAM 3 può essere combinato con i Multimodal Large Language Models (MLLM) per gestire interrogazioni complesse che richiedono un ragionamento, con uno spirito simile ai sistemi a vocabolario aperto come OWLv2 e T-Rex.

Prestazioni su compiti di ragionamento

BenchmarkMetricaAgente SAM 3 (Gemini 2.5 Pro)Precedente Il migliore
MotivoSeg (convalida)gIoU76.065,0 (SoTA)
MotivoSeg (test)gIoU73.861,3 (SoTA)
OmniLabel (convalida)AP46.736,5 (REALE)
RifCOCO+Acc91.289.3 (LISA)

Esempio di query complesse

L'agente SAM 3 è in grado di gestire interrogazioni che richiedono un ragionamento:

  • "Persone sedute ma non con un pacco regalo in mano".
  • "Il cane più vicino alla telecamera che non indossa il collare".
  • "Oggetti rossi più grandi della mano della persona".

Il MLLM propone a SAM 3 semplici query con frasi di sostantivo, analizza le maschere restituite e itera fino a quando non sono soddisfatte.

Limitazioni

Sebbene SAM 3 rappresenti un importante progresso, presenta alcuni limiti:

  • Complessità della frase: Più adatto a frasi semplici con sostantivo; espressioni riferite lunghe o ragionamenti complessi possono richiedere l'integrazione di MLLM.
  • Gestione dell'ambiguità: Alcuni concetti rimangono intrinsecamente ambigui (ad esempio, "finestra piccola", "stanza accogliente").
  • Requisiti computazionali: Maggiore e più lento dei modelli di rilevamento specializzati come YOLO
  • Ambito di applicazione del vocabolario: Concentrato sui concetti visivi atomici; il ragionamento compositivo è limitato senza l'assistenza di MLLM.
  • Concetti rari: Le prestazioni possono peggiorare su concetti estremamente rari o a grana fine non ben rappresentati nei dati di addestramento.

Citazione

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quando uscirà SAM 3?

SAM 3 è stato rilasciato da Meta il 20 novembre 2025. Il supporto per Ultralytics è in corso e verrà fornito in un prossimo aggiornamento del pacchetto con documenti completi per la modalità predict e track .

SAM 3 sarà integrato in Ultralytics?

Sì. Al momento del rilascio, SAM 3 sarà supportato dal pacchetto Ultralytics Python , che include la segmentazione concettuale, i suggerimenti visivi in stile SAM 2 e il tracciamento video multi-oggetto. Sarà possibile esportare in formati come ONNX e TensorRT per l'implementazione, con un'efficiente Python e CLI flussi di lavoro.

Tempistica di implementazione

Gli esempi di codice contenuti in questa documentazione sono versioni di anteprima che mostrano i modelli di utilizzo previsti. L'implementazione effettiva sarà disponibile dopo che Ultralytics avrà completato l'integrazione.

Che cos'è la Segmentazione Concettuale Promptable (PCS)?

PCS è un nuovo compito introdotto in SAM 3 che segmenta tutte le istanze di un concetto visivo in un'immagine o in un video. A differenza della segmentazione tradizionale, che si rivolge a un'istanza specifica di un oggetto, PCS individua tutte le occorrenze di una categoria. Ad esempio:

  • Testo richiesto: "scuolabus giallo" → segmenta tutti gli scuolabus gialli presenti nella scena
  • Esemplare di immagine: Riquadro intorno a un cane → segmenta tutti i cani dell'immagine
  • Combinato: "gatto a strisce" + casella esemplare → segmenta tutti i gatti a strisce che corrispondono all'esempio

Si veda il background relativo al rilevamento degli oggetti e alla segmentazione delle istanze.

In cosa si differenzia SAM 3 da SAM 2?

CaratteristicaSAM 2SAM 3
TaskSingolo oggetto per richiestaTutte le istanze di un concetto
Tipi di promptPunti, scatole, maschere+ Frasi di testo, esempi di immagini
Capacità di rilevamentoRichiede un rilevatore esternoRilevatore di vocaboli aperti incorporato
RiconoscimentoSolo basato sulla geometriaRiconoscimento testuale e visivo
ArchitetturaSolo TrackerRivelatore + Tracker con testa di presenza
Prestazioni a colpo zeroN/A (richiede indicazioni visive)47,0 AP su LVIS, 2 volte meglio su SA-Co
Rifinitura interattivaSolo clicClic + generalizzazione dell'esemplare

SAM 3 mantiene la compatibilità con il prompt visivo di SAM 2, aggiungendo al contempo funzionalità basate sui concetti.

Quali set di dati vengono utilizzati per addestrare SAM 3?

SAM 3 viene addestrato sul dataset Segment Anything with Concepts (SA-Co):

Dati di formazione:

  • 5,2 milioni di immagini con 4 milioni di frasi sostantive uniche (SA-Co/HQ) - annotazioni umane di alta qualità
  • 52,5K video con 24,8K frasi sostantive uniche (SA-Co/VIDEO)
  • 1,4B maschere sintetiche su 38M frasi sostantive (SA-Co/SYN)
  • 15 set di dati esterni arricchiti con hard negative (SA-Co/EXT)

Dati di benchmark:

  • 214K concetti unici su 126K immagini/video
  • 50 volte più concetti rispetto ai benchmark esistenti (ad esempio, LVIS ha ~4K concetti)
  • Annotazione tripla su SA-Co/Gold per misurare i limiti delle prestazioni umane

Questa enorme scala e diversità consente a SAM 3 una generalizzazione superiore a colpo sicuro su concetti a vocabolario aperto.

Come si colloca SAM 3 rispetto a YOLO11 per la segmentazione?

SAM 3 e YOLO11 servono a casi d'uso diversi:

SAM 3 Vantaggi:

  • Vocabolario aperto: Segmenta qualsiasi concetto tramite messaggi di testo senza formazione
  • Zero colpi: Lavora immediatamente su nuove categorie
  • Interattivo: Il perfezionamento basato su esempi si generalizza a oggetti simili
  • Basato sul concetto: Trova automaticamente tutte le istanze di una categoria
  • Accuratezza: 47,0 AP sulla segmentazione di istanze LVIS a colpo zero

YOLO11 Vantaggi:

  • Velocità: inferenza 10-15 volte più veloce (2-3 ms contro 30 ms per immagine)
  • Efficienza: modelli 70× più piccoli (5,9MB contro i ~400MB previsti)
  • Rispettoso delle risorse: Funziona su dispositivi edge e mobili
  • In tempo reale: Ottimizzato per le implementazioni di produzione

Raccomandazione:

  • Utilizzate SAM 3 per una segmentazione flessibile e a vocabolario aperto, quando dovete trovare tutte le istanze di concetti descritti da testi o esempi.
  • Utilizzo YOLO11 per distribuzioni di produzione ad alta velocità in cui le categorie sono note in anticipo
  • Utilizzate SAM 2 per la segmentazione interattiva di un singolo oggetto con indicazioni geometriche.

SAM 3 è in grado di gestire query linguistiche complesse?

SAM 3 è progettato per semplici frasi di sostantivi (ad esempio, "mela rossa", "persona con cappello"). Per le interrogazioni complesse che richiedono un ragionamento, è necessario combinare SAM 3 con un MLLM come SAM 3 Agent:

Interrogazioni semplici ( SAM 3 nativo):

  • "scuolabus giallo"
  • "gatto a strisce"
  • "persona con cappello rosso"

Interrogazioni complesse (agenteSAM 3 con MLLM):

  • "Persone sedute ma non con un pacco regalo in mano".
  • "Il cane più vicino alla telecamera senza collare".
  • "Oggetti rossi più grandi della mano della persona".

L'agente SAM 3 ottiene 76,0 gIoU sulla convalida ReasonSeg (contro il precedente migliore di 65,0, con un miglioramento del 16,9%) combinando la segmentazione di SAM 3 con le capacità di ragionamento MLLM.

Quanto è preciso il SAM 3 rispetto alle prestazioni umane?

Sul benchmark SA-Co/Gold con tripla annotazione umana:

  • Limite inferiore umano: 74,2 CGF1 (annotatore più conservatore)
  • PrestazioniSAM 3: 65,0 CGF1
  • Risultati: 88% del limite inferiore umano stimato
  • Limite superiore umano: 81,4 CGF1 (annotatore più liberale)

SAM 3 raggiunge prestazioni elevate che si avvicinano alla precisione umana nella segmentazione di concetti a vocabolario aperto, con un divario soprattutto nei concetti ambigui o soggettivi (ad esempio, "piccola finestra", "stanza accogliente").



📅C reato 1 mese fa ✏️ Aggiornato 1 giorno fa
glenn-jocherY-T-G

Commenti