Vai al contenuto

SAM 3: Segmentare qualsiasi cosa con i concetti

Prossimamente ⚠️

SAM I modelli SAM 3 non sono ancora stati rilasciati pubblicamente da Meta. Le informazioni riportate di seguito si basano sul documento di ricerca presentato all'ICLR 2026. I download dei modelli e i benchmark finali saranno disponibili dopo il rilascio ufficiale da parte di Meta.

Panoramica di SAM 3

SAM 3 (Segment Anything Model 3) rappresenta il modello di base di nuova generazione di Meta per la Segmentazione Concettuale Promptable (PCS). Basato su SAM 2, SAM 3 introduce una capacità fondamentalmente nuova: rilevare, segmentare e tracciare tutte le istanze di un concetto visivo specificato da prompt di testo, esempi di immagini o entrambi. A differenza delle precedenti versioni di SAM , che segmentano singoli oggetti per ogni richiesta, SAM 3 è in grado di trovare e segmentare ogni occorrenza di un concetto che compare in qualsiasi punto delle immagini o dei video, allineandosi agli obiettivi del vocabolario aperto nella moderna segmentazione delle istanze.

Panoramica

SAM 3 raggiunge un guadagno di prestazioni di 2 volte rispetto ai sistemi esistenti nella segmentazione dei concetti su richiesta, mantenendo e migliorando le capacità di SAM 2 per la segmentazione visiva interattiva. Il modello eccelle nella segmentazione a vocabolario aperto, consentendo agli utenti di specificare i concetti utilizzando semplici frasi di sostantivo (ad esempio, "scuolabus giallo", "gatto a strisce") o fornendo immagini di esempio dell'oggetto target. Queste capacità completano le pipeline pronte per la produzione che si basano su flussi di lavoro semplificati di previsione e tracciamento.

SAM 3 Segmentazione

Che cos'è la Segmentazione Concettuale Promuovibile (PCS)?

Il task PCS prende in input una richiesta di concetto e restituisce maschere di segmentazione con identità uniche per tutte le istanze di oggetto corrispondenti. Le richieste di concetto possono essere:

  • Testo: Frasi semplici di sostantivi come "mela rossa" o "persona che indossa un cappello", simili all'apprendimento a colpo zero.
  • Esemplari di immagini: Riquadri di delimitazione intorno a oggetti esemplificativi (positivi o negativi) per una generalizzazione rapida
  • Combinato: Esemplari di testo e di immagine insieme per un controllo preciso

Questo differisce dai tradizionali prompt visivi (punti, caselle, maschere) che segmentano solo una singola istanza di oggetto specifico, come diffuso dalla famigliaSAM originale.

Metriche di prestazione chiave

Metrica SAM 3 Risultati
Maschera LVIS Zero-Shot AP 47,0 (rispetto al precedente miglior valore di 38,5, +22% di miglioramento)
Benchmark SA-Co 2 volte migliore rispetto ai sistemi esistenti
Velocità di inferenza ( GPU H200) 30 ms per immagine con oltre 100 oggetti rilevati
Prestazioni video Quasi in tempo reale per ~5 oggetti simultanei
Benchmark MOSEv2 VOS 60,1 J&F (+25,5% rispetto a SAM 2.1, +17% rispetto a SOTA precedente)
Rifinitura interattiva +18,6 Miglioramento del CGF1 dopo 3 richieste esemplari
Divario nelle prestazioni umane Raggiunge l'88% del limite inferiore stimato su SA-Co/Gold

Per un contesto sulle metriche dei modelli e sui compromessi nella produzione, si vedano le analisi di valutazione dei modelli e le metriche delle prestazioniYOLO .

Architettura

SAM 3 è costituito da un rilevatore e da un tracker che condividono una struttura di visione Perception Encoder (PE). Questo design disaccoppiato evita i conflitti di attività, consentendo il rilevamento a livello di immagine e il tracciamento a livello di video, con un'interfaccia compatibile con l'uso di Ultralytics Python e CLI .

Componenti Principali

  • Detector: Architettura basata su DETR per il rilevamento di concetti a livello di immagine

    • Codificatore di testo per prompt di frasi di sostantivi
    • Codificatore di esempi per prompt basati su immagini
    • Codificatore di fusione per condizionare le caratteristiche dell'immagine su richieste di informazioni
    • Nuova testa di presenza che disaccoppia il riconoscimento ("cosa") dalla localizzazione ("dove")
    • Testa di maschera per la generazione di maschere di segmentazione dell'istanza
  • Tracker: Segmentazione video basata sulla memoria ereditata da SAM 2

    • Codificatore di prompt, decodificatore di maschere, codificatore di memoria
    • Banco di memoria per la memorizzazione dell'aspetto degli oggetti nei vari fotogrammi
    • Disambiguazione temporale aiutata da tecniche come il filtro di Kalman in contesti multi-oggetto
  • Token di presenza: Un token globale appreso che predice se il concetto di target è presente nell'immagine/quadro, migliorando il rilevamento grazie alla separazione del riconoscimento dalla localizzazione.

Architettura SAM 3

Innovazioni chiave

  1. Riconoscimento e localizzazione disaccoppiati: La testa di presenza predice la presenza del concetto a livello globale, mentre le query di proposta si concentrano solo sulla localizzazione, evitando obiettivi contrastanti.
  2. Prompt concettuali e visivi unificati: Supporta sia i PCS (prompt concettuali) che i PVS (prompt visivi, come i click/box di SAM 2) in un unico modello.
  3. Raffinamento interattivo degli esempi: Gli utenti possono aggiungere esempi di immagini positive o negative per perfezionare iterativamente i risultati, con il modello che si generalizza a oggetti simili anziché limitarsi a correggere singole istanze.
  4. Disambiguazione temporale: Utilizza i punteggi di rilevamento delle masklet e le ripetizioni periodiche per gestire le occlusioni, le scene affollate e gli errori di tracciamento nei video, allineandosi alle migliori pratiche di segmentazione e tracciamento delle istanze.

Set di dati SA-Co

SAM 3 è addestrato su Segment Anything with Concepts (SA-Co), il set di dati di segmentazione più ampio e diversificato di Meta, che va oltre i benchmark comuni come COCO e LVIS.

Dati di formazione

Componente del set di dati Descrizione Scala
SA-Co/HQ Dati di immagine di alta qualità annotati dall'uomo da un motore di dati a 4 fasi 5,2 milioni di immagini, 4 milioni di frasi sostantive uniche
SA-Co/SYN Set di dati sintetici etichettati dall'IA senza l'intervento umano 38M frasi sostantive, 1,4B maschere
SA-Co/EXT 15 set di dati esterni arricchiti con hard negative Varia a seconda della fonte
SA-Co/VIDEO Annotazioni video con tracciamento temporale 52,5K video, 24,8K frasi sostantive uniche

Dati di riferimento

Il benchmark di valutazione SA-Co contiene 214K frasi uniche su 126K immagini e video, fornendo oltre 50× in più di concetti rispetto ai benchmark esistenti. Include:

  • SA-Co/Gold: 7 domini, triplicemente annotati per misurare i limiti delle prestazioni umane
  • SA-Co/Silver: 10 domini, singola annotazione umana
  • SA-Co/Bronze e SA-Co/Bio: 9 set di dati esistenti adattati per la segmentazione dei concetti
  • SA-Co/VEval: benchmark video con 3 domini (SA-V, YT-Temporal-1B, SmartGlasses)

Innovazioni del motore dati

Il motore di dati scalabile di SAM 3, basato su persone e modelli, raggiunge un throughput di annotazione 2 volte superiore:

  1. Annotatori AI: I modelli basati su Llama propongono diverse frasi di sostantivi, compresi gli hard negatives
  2. Verificatori AI: LLM multimodali e ottimizzati verificano la qualità e l'esaustività delle maschere con prestazioni vicine a quelle umane.
  3. Estrazione attiva: Concentra lo sforzo umano su casi di fallimento impegnativi in cui l'IA ha difficoltà.
  4. Guidato dall'ontologia: Sfrutta un'ampia ontologia basata su Wikidata per la copertura dei concetti.

Installazione

SAM 3 sarà supportato in modo nativo nel pacchetto Ultralytics al momento del rilascio:

pip install ultralytics

I modelli vengono scaricati automaticamente al primo utilizzo. È quindi possibile utilizzare la modalità di previsione standard ed esportare successivamente i modelli in formati quali ONNX e TensorRT per la distribuzione.

Come usare SAM 3: versatilità nella segmentazione dei concetti

Anteprima API - Soggetta a modifiche

Gli esempi di codice riportati di seguito mostrano i modelli di utilizzo previsti, basati sul documento di ricerca. L'API vera e propria sarà disponibile successivamente:

  1. Meta apre i pesi del modello SAM 3
  2. Ultralytics integra SAM 3 nel pacchetto

La sintassi e i parametri possono variare nell'implementazione finale. Questi esempi servono come anteprima delle funzionalità previste.

Attività e modelli supportati

SAM 3 supporta sia la Segmentazione Concettuale Promptable (PCS) che la Segmentazione Visiva Promptable (PVS):

Tipo di compito Tipi di prompt Uscita
Segmentazione del concetto (PCS) Testo (frasi sostantive), esempi di immagini Tutte le istanze che corrispondono al concetto
Segmentazione visiva (PVS) Punti, scatole, maschere Istanza di oggetto singoloSAM stileSAM 2)
Rifinitura interattiva Aggiungere/rimuovere esemplari o clic in modo iterativo Segmentazione raffinata con maggiore accuratezza

Esempi di segmentazione dei concetti

Segmento con suggerimenti di testo

Segmentazione dei concetti basata sul testo

Trova e segmenta tutte le istanze di un concetto utilizzando una descrizione testuale.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .

Segmento con esempi di immagini

Segmentazione basata su esempi di immagini

Utilizzare uno o più oggetti di esempio per trovare tutte le istanze simili.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .

Rifinitura interattiva

Raffinamento iterativo con gli esemplari

Migliorare progressivamente i risultati aggiungendo suggerimenti esemplari in base ai risultati iniziali.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .

Segmentazione dei concetti video

Tracciare i concetti attraverso i video

Rilevare e tracciare tutte le istanze di un concetto in un video.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .

Per le configurazioni di produzione e streaming più ampie, vedere Tracciamento degli oggetti e visualizzazione dei risultati nel terminale.

Prompt visiviSAM compatibilità conSAM 2)

SAM 3 mantiene la piena retrocompatibilità con la richiesta visiva di SAM 2:

Prompt visivi di stile SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Anteprima API

Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .

Benchmark delle prestazioni

Segmentazione delle immagini

SAM 3 ottiene risultati all'avanguardia in diversi benchmark, compresi i dataset del mondo reale come LVIS e COCO per la segmentazione:

Benchmark Metrica SAM 3 Precedente Il migliore Miglioramento
LVIS (zero colpi) Maschera AP 47.0 38.5 +22.1%
SA-Co/Oro CGF1 65.0 34,3 (OWLv2) +89.5%
COCO (zero colpi) Box AP 53.5 52,2 (T-Rex2) +2.5%
ADE-847 (seg. semantico) mIoU 14.7 9,2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Paesaggi urbani (seg. semantico) mIoU 65.1 44,2 (APE-D) +47.3%

Esplorate le opzioni di set di dati per una rapida sperimentazione nei set di datiUltralytics .

Prestazioni della segmentazione video

SAM 3 mostra miglioramenti significativi rispetto a SAM 2 e allo stato dell'arte precedente in benchmark video come DAVIS 2017 e YouTube-VOS:

Benchmark Metrica SAM 3 SAM 2.1 L Miglioramento
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Adattamento con pochi colpi

SAM 3 eccelle nell'adattarsi a nuovi domini con esempi minimi, rilevanti per i flussi di lavoro AI incentrati sui dati:

Benchmark AP a 0 colpi AP a 10 colpi Migliore precedente (10 colpi)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

Efficacia del perfezionamento interattivo

Il prompt basato sui concetti e sugli esempi di SAM 3 converge molto più rapidamente del prompt visivo:

Prompts aggiunti Punteggio CGF1 Guadagno vs. solo testo Guadagno rispetto al PVS di base
Solo testo 46.4 linea di base linea di base
+1 esemplare 57.6 +11.2 +6.7
+2 esemplari 62.2 +15.8 +9.7
+3 esemplari 65.0 +18.6 +11.2
+4 esemplari 65.7 +19.3 +11,5 (plateau)

Precisione nel conteggio degli oggetti

SAM 3 fornisce un conteggio accurato segmentando tutte le istanze, un requisito comune nel conteggio degli oggetti:

Benchmark Precisione MAE contro il miglior MLLM
Banco di calcolo 95.6% 0.11 92,4% (Gemelli 2.5)
Conteggio PixMo 87.3% 0.22 88,8% (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO a confronto

Qui confrontiamo le capacità di SAM 3 con quelle di SAM 2 e di YOLO11 con i modelli SAM 2 e YOLO11:

Capacità SAM 3 SAM 2 YOLO11n-seg
Segmentazione del concetto ✅ Tutte le istanze da testi/esemplari ❌ Non supportato ❌ Non supportato
Segmentazione visiva ✅ Istanza singolaSAM compatibile conSAM 2) ✅ Istanza singola ✅ Tutte le istanze
Capacità di zero colpi ✅ Vocabolario aperto ✅ Spunti geometrici ❌ Set chiuso
Rifinitura interattiva ✅ Esemplari + click ✅ Solo clic ❌ Non supportato
Tracciamento video ✅ Multi-oggetto con identità ✅ Multi-oggetto ✅ Multi-oggetto
Maschera LVIS AP (zero colpi) 47.0 N/A N/A
MOSEv2 J&F 60.1 47.9 N/A
Velocità di inferenza (H200) 30 ms (oltre 100 oggetti) ~23 ms (per oggetto) 2-3 ms (immagine)
Dimensioni del modello Grande (~400+ MB previsti) 162 MB (base) 5,9 MB

Punti di forza:

  • SAM 3: migliore per la segmentazione di concetti a vocabolario aperto, per trovare tutte le istanze di un concetto con testi o esempi
  • SAM 2: il migliore per la segmentazione interattiva di singoli oggetti in immagini e video con indicazioni geometriche
  • YOLO11: Ideale per la segmentazione in tempo reale e ad alta velocità in implementazioni con risorse limitate, utilizzando pipeline di esportazione efficienti come ONNX e TensorRT

Metriche di valutazione

SAM 3 introduce nuove metriche progettate per il compito PCS, a complemento di misure già note come il punteggio F1, la precisione e il richiamo.

F1 con classificazione (CGF1)

La metrica principale che combina localizzazione e classificazione:

CGF1 = 100 × pmF1 × IL_MCC

Dove:

  • pmF1 (Positive Macro F1): Misura la qualità della localizzazione su esempi positivi
  • IL_MCC (Coefficiente di correlazione di Matthews a livello di immagine): Misura l'accuratezza della classificazione binaria ("il concetto è presente?").

Perché queste metriche?

Le metriche AP tradizionali non tengono conto della calibrazione, rendendo i modelli difficili da usare nella pratica. Valutando solo le previsioni superiori a 0,5 di confidenza, le metriche di SAM 3 impongono una buona calibrazione e imitano i modelli di utilizzo reali nei cicli interattivi di previsione e tracciamento.

Ablazioni e approfondimenti chiave

Impatto della presenza Testa

La testa di presenza disaccoppia il riconoscimento dalla localizzazione, offrendo miglioramenti significativi:

Configurazione CGF1 IL_MCC pmF1
Senza presenza 57.6 0.77 74.7
Con la presenza 63.3 0.82 77.1

La testa di presenza fornisce un incremento di +5,7 CGF1 (+9,9%), migliorando soprattutto la capacità di riconoscimento (IL_MCC +6,5%).

Effetto dei negativi duri

Negativi duri/Immagine CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

I negativi duri sono fondamentali per il riconoscimento del vocabolario aperto, migliorando IL_MCC del 54,5% (0,44 → 0,68).

Scala dei dati di addestramento

Fonti dei dati CGF1 IL_MCC pmF1
Solo esterno 30.9 0.46 66.3
Esterno + Sintetico 39.7 0.57 70.6
Esterno + HQ 51.8 0.71 73.2
Tutti e tre 54.3 0.74 73.5

Le annotazioni umane di alta qualità offrono grandi vantaggi rispetto ai soli dati sintetici o esterni. Per informazioni sulle pratiche di qualità dei dati, vedere la raccolta e l'annotazione dei dati.

Applicazioni

La capacità di segmentazione concettuale di SAM 3 consente nuovi casi d'uso:

  • Moderazione dei contenuti: Trova tutte le istanze di specifici tipi di contenuto nelle librerie multimediali.
  • Commercio elettronico: Segmentazione di tutti i prodotti di un certo tipo nelle immagini del catalogo, con supporto dell 'annotazione automatica
  • Imaging medico: Identificare tutte le occorrenze di specifici tipi di tessuto o anomalie.
  • Sistemi autonomi: Tracciare tutte le istanze di segnali stradali, pedoni o veicoli per categoria.
  • Analisi video: Conteggio e tracciamento di tutte le persone che indossano indumenti specifici o compiono azioni.
  • Annotazione del set di dati: Annotazione rapida di tutte le istanze di categorie di oggetti rari
  • Ricerca scientifica: Quantificare e analizzare tutti i campioni che corrispondono a criteri specifici.

Agente SAM 3: Ragionamento linguistico esteso

SAM 3 può essere combinato con i Multimodal Large Language Models (MLLM) per gestire interrogazioni complesse che richiedono un ragionamento, con uno spirito simile ai sistemi a vocabolario aperto come OWLv2 e T-Rex.

Prestazioni su compiti di ragionamento

Benchmark Metrica Agente SAM 3 (Gemini 2.5 Pro) Precedente Il migliore
MotivoSeg (convalida) gIoU 76.0 65,0 (SoTA)
MotivoSeg (test) gIoU 73.8 61,3 (SoTA)
OmniLabel (convalida) AP 46.7 36,5 (REALE)
RifCOCO+ Acc 91.2 89.3 (LISA)

Esempio di query complesse

L'agente SAM 3 è in grado di gestire interrogazioni che richiedono un ragionamento:

  • "Persone sedute ma non con un pacco regalo in mano".
  • "Il cane più vicino alla telecamera che non indossa il collare".
  • "Oggetti rossi più grandi della mano della persona".

Il MLLM propone a SAM 3 semplici query con frasi di sostantivo, analizza le maschere restituite e itera fino a quando non sono soddisfatte.

Limitazioni

Sebbene SAM 3 rappresenti un importante progresso, presenta alcuni limiti:

  • Complessità della frase: Più adatto a frasi semplici con sostantivo; espressioni riferite lunghe o ragionamenti complessi possono richiedere l'integrazione di MLLM.
  • Gestione dell'ambiguità: Alcuni concetti rimangono intrinsecamente ambigui (ad esempio, "finestra piccola", "stanza accogliente").
  • Requisiti computazionali: Maggiore e più lento dei modelli di rilevamento specializzati come YOLO
  • Ambito di applicazione del vocabolario: Concentrato sui concetti visivi atomici; il ragionamento compositivo è limitato senza l'assistenza di MLLM.
  • Concetti rari: Le prestazioni possono peggiorare su concetti estremamente rari o a grana fine non ben rappresentati nei dati di addestramento.

Citazione

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quando uscirà SAM 3?

Il SAM 3 è attualmente in fase di revisione presso l'ICLR 2026 (conferenza nel 2026, revisione nel 2025). I modelli, i pesi e i benchmark ufficiali saranno rilasciati pubblicamente dopo il processo di revisione, probabilmente nel 2026. Ultralytics fornirà un supporto immediato per l'integrazione di SAM 3 al momento del rilascio di Meta e documenterà l'utilizzo in modalità predict e track.

SAM 3 sarà integrato in Ultralytics?

Sì. Al momento del rilascio, SAM 3 sarà supportato dal pacchetto Ultralytics Python , che include la segmentazione concettuale, i suggerimenti visivi in stile SAM 2 e il tracciamento video multi-oggetto. Sarà possibile esportare in formati come ONNX e TensorRT per l'implementazione, con un'efficiente Python e CLI flussi di lavoro.

Tempistica di implementazione

Gli esempi di codice contenuti in questa documentazione sono versioni di anteprima che mostrano i modelli di utilizzo previsti. L'implementazione effettiva sarà disponibile dopo che Meta avrà rilasciato SAM 3 weights e Ultralytics avrà completato l'integrazione.

Che cos'è la Segmentazione Concettuale Promptable (PCS)?

PCS è un nuovo compito introdotto in SAM 3 che segmenta tutte le istanze di un concetto visivo in un'immagine o in un video. A differenza della segmentazione tradizionale, che si rivolge a un'istanza specifica di un oggetto, PCS individua tutte le occorrenze di una categoria. Ad esempio:

  • Testo richiesto: "scuolabus giallo" → segmenta tutti gli scuolabus gialli presenti nella scena
  • Esemplare di immagine: Riquadro intorno a un cane → segmenta tutti i cani dell'immagine
  • Combinato: "gatto a strisce" + casella esemplare → segmenta tutti i gatti a strisce che corrispondono all'esempio

Si veda il background relativo al rilevamento degli oggetti e alla segmentazione delle istanze.

In cosa si differenzia SAM 3 da SAM 2?

Caratteristica SAM 2 SAM 3
Task Singolo oggetto per richiesta Tutte le istanze di un concetto
Tipi di prompt Punti, scatole, maschere + Frasi di testo, esempi di immagini
Capacità di rilevamento Richiede un rilevatore esterno Rilevatore di vocaboli aperti incorporato
Riconoscimento Solo basato sulla geometria Riconoscimento testuale e visivo
Architettura Solo Tracker Rivelatore + Tracker con testa di presenza
Prestazioni a colpo zero N/A (richiede indicazioni visive) 47,0 AP su LVIS, 2 volte meglio su SA-Co
Rifinitura interattiva Solo clic Clic + generalizzazione dell'esemplare

SAM 3 mantiene la compatibilità con il prompt visivo di SAM 2, aggiungendo al contempo funzionalità basate sui concetti.

Quali set di dati vengono utilizzati per addestrare SAM 3?

SAM 3 viene addestrato sul dataset Segment Anything with Concepts (SA-Co):

Dati di formazione:

  • 5,2 milioni di immagini con 4 milioni di frasi sostantive uniche (SA-Co/HQ) - annotazioni umane di alta qualità
  • 52,5K video con 24,8K frasi sostantive uniche (SA-Co/VIDEO)
  • 1,4B maschere sintetiche su 38M frasi sostantive (SA-Co/SYN)
  • 15 set di dati esterni arricchiti con hard negative (SA-Co/EXT)

Dati di benchmark:

  • 214K concetti unici su 126K immagini/video
  • 50 volte più concetti rispetto ai benchmark esistenti (ad esempio, LVIS ha ~4K concetti)
  • Annotazione tripla su SA-Co/Gold per misurare i limiti delle prestazioni umane

Questa enorme scala e diversità consente a SAM 3 una generalizzazione superiore a colpo sicuro su concetti a vocabolario aperto.

Come si colloca SAM 3 rispetto a YOLO11 per la segmentazione?

SAM 3 e YOLO11 servono a casi d'uso diversi:

SAM 3 Vantaggi:

  • Vocabolario aperto: Segmenta qualsiasi concetto tramite messaggi di testo senza formazione
  • Zero colpi: Lavora immediatamente su nuove categorie
  • Interattivo: Il perfezionamento basato su esempi si generalizza a oggetti simili
  • Basato sul concetto: Trova automaticamente tutte le istanze di una categoria
  • Accuratezza: 47,0 AP sulla segmentazione di istanze LVIS a colpo zero

YOLO11 Vantaggi:

  • Velocità: inferenza 10-15 volte più veloce (2-3 ms contro 30 ms per immagine)
  • Efficienza: modelli 70× più piccoli (5,9MB contro i ~400MB previsti)
  • Rispettoso delle risorse: Funziona su dispositivi edge e mobili
  • In tempo reale: Ottimizzato per le implementazioni di produzione

Raccomandazione:

  • Utilizzate SAM 3 per una segmentazione flessibile e a vocabolario aperto, quando dovete trovare tutte le istanze di concetti descritti da testi o esempi.
  • Utilizzo YOLO11 per distribuzioni di produzione ad alta velocità in cui le categorie sono note in anticipo
  • Utilizzate SAM 2 per la segmentazione interattiva di un singolo oggetto con indicazioni geometriche.

SAM 3 è in grado di gestire query linguistiche complesse?

SAM 3 è progettato per semplici frasi di sostantivi (ad esempio, "mela rossa", "persona con cappello"). Per le interrogazioni complesse che richiedono un ragionamento, è necessario combinare SAM 3 con un MLLM come SAM 3 Agent:

Interrogazioni semplici ( SAM 3 nativo):

  • "scuolabus giallo"
  • "gatto a strisce"
  • "persona con cappello rosso"

Interrogazioni complesse (agenteSAM 3 con MLLM):

  • "Persone sedute ma non con un pacco regalo in mano".
  • "Il cane più vicino alla telecamera senza collare".
  • "Oggetti rossi più grandi della mano della persona".

L'agente SAM 3 ottiene 76,0 gIoU sulla convalida ReasonSeg (contro il precedente migliore di 65,0, con un miglioramento del 16,9%) combinando la segmentazione di SAM 3 con le capacità di ragionamento MLLM.

Quanto è preciso il SAM 3 rispetto alle prestazioni umane?

Sul benchmark SA-Co/Gold con tripla annotazione umana:

  • Limite inferiore umano: 74,2 CGF1 (annotatore più conservatore)
  • PrestazioniSAM 3: 65,0 CGF1
  • Risultati: 88% del limite inferiore umano stimato
  • Limite superiore umano: 81,4 CGF1 (annotatore più liberale)

SAM 3 raggiunge prestazioni elevate che si avvicinano alla precisione umana nella segmentazione di concetti a vocabolario aperto, con un divario soprattutto nei concetti ambigui o soggettivi (ad esempio, "piccola finestra", "stanza accogliente").



📅 Creato 0 giorni fa ✏️ Aggiornato 0 giorni fa

Commenti