SAM 3: Segmentare qualsiasi cosa con i concetti
Prossimamente ⚠️
SAM I modelli SAM 3 non sono ancora stati rilasciati pubblicamente da Meta. Le informazioni riportate di seguito si basano sul documento di ricerca presentato all'ICLR 2026. I download dei modelli e i benchmark finali saranno disponibili dopo il rilascio ufficiale da parte di Meta.
SAM 3 (Segment Anything Model 3) rappresenta il modello di base di nuova generazione di Meta per la Segmentazione Concettuale Promptable (PCS). Basato su SAM 2, SAM 3 introduce una capacità fondamentalmente nuova: rilevare, segmentare e tracciare tutte le istanze di un concetto visivo specificato da prompt di testo, esempi di immagini o entrambi. A differenza delle precedenti versioni di SAM , che segmentano singoli oggetti per ogni richiesta, SAM 3 è in grado di trovare e segmentare ogni occorrenza di un concetto che compare in qualsiasi punto delle immagini o dei video, allineandosi agli obiettivi del vocabolario aperto nella moderna segmentazione delle istanze.
Panoramica
SAM 3 raggiunge un guadagno di prestazioni di 2 volte rispetto ai sistemi esistenti nella segmentazione dei concetti su richiesta, mantenendo e migliorando le capacità di SAM 2 per la segmentazione visiva interattiva. Il modello eccelle nella segmentazione a vocabolario aperto, consentendo agli utenti di specificare i concetti utilizzando semplici frasi di sostantivo (ad esempio, "scuolabus giallo", "gatto a strisce") o fornendo immagini di esempio dell'oggetto target. Queste capacità completano le pipeline pronte per la produzione che si basano su flussi di lavoro semplificati di previsione e tracciamento.
Che cos'è la Segmentazione Concettuale Promuovibile (PCS)?
Il task PCS prende in input una richiesta di concetto e restituisce maschere di segmentazione con identità uniche per tutte le istanze di oggetto corrispondenti. Le richieste di concetto possono essere:
- Testo: Frasi semplici di sostantivi come "mela rossa" o "persona che indossa un cappello", simili all'apprendimento a colpo zero.
- Esemplari di immagini: Riquadri di delimitazione intorno a oggetti esemplificativi (positivi o negativi) per una generalizzazione rapida
- Combinato: Esemplari di testo e di immagine insieme per un controllo preciso
Questo differisce dai tradizionali prompt visivi (punti, caselle, maschere) che segmentano solo una singola istanza di oggetto specifico, come diffuso dalla famigliaSAM originale.
Metriche di prestazione chiave
Metrica | SAM 3 Risultati |
---|---|
Maschera LVIS Zero-Shot AP | 47,0 (rispetto al precedente miglior valore di 38,5, +22% di miglioramento) |
Benchmark SA-Co | 2 volte migliore rispetto ai sistemi esistenti |
Velocità di inferenza ( GPU H200) | 30 ms per immagine con oltre 100 oggetti rilevati |
Prestazioni video | Quasi in tempo reale per ~5 oggetti simultanei |
Benchmark MOSEv2 VOS | 60,1 J&F (+25,5% rispetto a SAM 2.1, +17% rispetto a SOTA precedente) |
Rifinitura interattiva | +18,6 Miglioramento del CGF1 dopo 3 richieste esemplari |
Divario nelle prestazioni umane | Raggiunge l'88% del limite inferiore stimato su SA-Co/Gold |
Per un contesto sulle metriche dei modelli e sui compromessi nella produzione, si vedano le analisi di valutazione dei modelli e le metriche delle prestazioniYOLO .
Architettura
SAM 3 è costituito da un rilevatore e da un tracker che condividono una struttura di visione Perception Encoder (PE). Questo design disaccoppiato evita i conflitti di attività, consentendo il rilevamento a livello di immagine e il tracciamento a livello di video, con un'interfaccia compatibile con l'uso di Ultralytics Python e CLI .
Componenti Principali
-
Detector: Architettura basata su DETR per il rilevamento di concetti a livello di immagine
- Codificatore di testo per prompt di frasi di sostantivi
- Codificatore di esempi per prompt basati su immagini
- Codificatore di fusione per condizionare le caratteristiche dell'immagine su richieste di informazioni
- Nuova testa di presenza che disaccoppia il riconoscimento ("cosa") dalla localizzazione ("dove")
- Testa di maschera per la generazione di maschere di segmentazione dell'istanza
-
Tracker: Segmentazione video basata sulla memoria ereditata da SAM 2
- Codificatore di prompt, decodificatore di maschere, codificatore di memoria
- Banco di memoria per la memorizzazione dell'aspetto degli oggetti nei vari fotogrammi
- Disambiguazione temporale aiutata da tecniche come il filtro di Kalman in contesti multi-oggetto
-
Token di presenza: Un token globale appreso che predice se il concetto di target è presente nell'immagine/quadro, migliorando il rilevamento grazie alla separazione del riconoscimento dalla localizzazione.
Innovazioni chiave
- Riconoscimento e localizzazione disaccoppiati: La testa di presenza predice la presenza del concetto a livello globale, mentre le query di proposta si concentrano solo sulla localizzazione, evitando obiettivi contrastanti.
- Prompt concettuali e visivi unificati: Supporta sia i PCS (prompt concettuali) che i PVS (prompt visivi, come i click/box di SAM 2) in un unico modello.
- Raffinamento interattivo degli esempi: Gli utenti possono aggiungere esempi di immagini positive o negative per perfezionare iterativamente i risultati, con il modello che si generalizza a oggetti simili anziché limitarsi a correggere singole istanze.
- Disambiguazione temporale: Utilizza i punteggi di rilevamento delle masklet e le ripetizioni periodiche per gestire le occlusioni, le scene affollate e gli errori di tracciamento nei video, allineandosi alle migliori pratiche di segmentazione e tracciamento delle istanze.
Set di dati SA-Co
SAM 3 è addestrato su Segment Anything with Concepts (SA-Co), il set di dati di segmentazione più ampio e diversificato di Meta, che va oltre i benchmark comuni come COCO e LVIS.
Dati di formazione
Componente del set di dati | Descrizione | Scala |
---|---|---|
SA-Co/HQ | Dati di immagine di alta qualità annotati dall'uomo da un motore di dati a 4 fasi | 5,2 milioni di immagini, 4 milioni di frasi sostantive uniche |
SA-Co/SYN | Set di dati sintetici etichettati dall'IA senza l'intervento umano | 38M frasi sostantive, 1,4B maschere |
SA-Co/EXT | 15 set di dati esterni arricchiti con hard negative | Varia a seconda della fonte |
SA-Co/VIDEO | Annotazioni video con tracciamento temporale | 52,5K video, 24,8K frasi sostantive uniche |
Dati di riferimento
Il benchmark di valutazione SA-Co contiene 214K frasi uniche su 126K immagini e video, fornendo oltre 50× in più di concetti rispetto ai benchmark esistenti. Include:
- SA-Co/Gold: 7 domini, triplicemente annotati per misurare i limiti delle prestazioni umane
- SA-Co/Silver: 10 domini, singola annotazione umana
- SA-Co/Bronze e SA-Co/Bio: 9 set di dati esistenti adattati per la segmentazione dei concetti
- SA-Co/VEval: benchmark video con 3 domini (SA-V, YT-Temporal-1B, SmartGlasses)
Innovazioni del motore dati
Il motore di dati scalabile di SAM 3, basato su persone e modelli, raggiunge un throughput di annotazione 2 volte superiore:
- Annotatori AI: I modelli basati su Llama propongono diverse frasi di sostantivi, compresi gli hard negatives
- Verificatori AI: LLM multimodali e ottimizzati verificano la qualità e l'esaustività delle maschere con prestazioni vicine a quelle umane.
- Estrazione attiva: Concentra lo sforzo umano su casi di fallimento impegnativi in cui l'IA ha difficoltà.
- Guidato dall'ontologia: Sfrutta un'ampia ontologia basata su Wikidata per la copertura dei concetti.
Installazione
SAM 3 sarà supportato in modo nativo nel pacchetto Ultralytics al momento del rilascio:
pip install ultralytics
I modelli vengono scaricati automaticamente al primo utilizzo. È quindi possibile utilizzare la modalità di previsione standard ed esportare successivamente i modelli in formati quali ONNX e TensorRT per la distribuzione.
Come usare SAM 3: versatilità nella segmentazione dei concetti
Anteprima API - Soggetta a modifiche
Gli esempi di codice riportati di seguito mostrano i modelli di utilizzo previsti, basati sul documento di ricerca. L'API vera e propria sarà disponibile successivamente:
- Meta apre i pesi del modello SAM 3
- Ultralytics integra SAM 3 nel pacchetto
La sintassi e i parametri possono variare nell'implementazione finale. Questi esempi servono come anteprima delle funzionalità previste.
Attività e modelli supportati
SAM 3 supporta sia la Segmentazione Concettuale Promptable (PCS) che la Segmentazione Visiva Promptable (PVS):
Tipo di compito | Tipi di prompt | Uscita |
---|---|---|
Segmentazione del concetto (PCS) | Testo (frasi sostantive), esempi di immagini | Tutte le istanze che corrispondono al concetto |
Segmentazione visiva (PVS) | Punti, scatole, maschere | Istanza di oggetto singoloSAM stileSAM 2) |
Rifinitura interattiva | Aggiungere/rimuovere esemplari o clic in modo iterativo | Segmentazione raffinata con maggiore accuratezza |
Esempi di segmentazione dei concetti
Segmento con suggerimenti di testo
Segmentazione dei concetti basata sul testo
Trova e segmenta tutte le istanze di un concetto utilizzando una descrizione testuale.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
Anteprima API
Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .
Segmento con esempi di immagini
Segmentazione basata su esempi di immagini
Utilizzare uno o più oggetti di esempio per trovare tutte le istanze simili.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
Anteprima API
Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .
Rifinitura interattiva
Raffinamento iterativo con gli esemplari
Migliorare progressivamente i risultati aggiungendo suggerimenti esemplari in base ai risultati iniziali.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
Anteprima API
Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .
Segmentazione dei concetti video
Tracciare i concetti attraverso i video
Rilevare e tracciare tutte le istanze di un concetto in un video.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
Anteprima API
Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .
Per le configurazioni di produzione e streaming più ampie, vedere Tracciamento degli oggetti e visualizzazione dei risultati nel terminale.
Prompt visiviSAM compatibilità conSAM 2)
SAM 3 mantiene la piena retrocompatibilità con la richiesta visiva di SAM 2:
Prompt visivi di stile SAM 2
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
Anteprima API
Questo esempio mostra l'uso previsto. L'implementazione effettiva è in attesa del rilascio di Meta e dell'integrazione di Ultralytics .
Benchmark delle prestazioni
Segmentazione delle immagini
SAM 3 ottiene risultati all'avanguardia in diversi benchmark, compresi i dataset del mondo reale come LVIS e COCO per la segmentazione:
Benchmark | Metrica | SAM 3 | Precedente Il migliore | Miglioramento |
---|---|---|---|---|
LVIS (zero colpi) | Maschera AP | 47.0 | 38.5 | +22.1% |
SA-Co/Oro | CGF1 | 65.0 | 34,3 (OWLv2) | +89.5% |
COCO (zero colpi) | Box AP | 53.5 | 52,2 (T-Rex2) | +2.5% |
ADE-847 (seg. semantico) | mIoU | 14.7 | 9,2 (APE-D) | +59.8% |
PascalConcept-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
Paesaggi urbani (seg. semantico) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Esplorate le opzioni di set di dati per una rapida sperimentazione nei set di datiUltralytics .
Prestazioni della segmentazione video
SAM 3 mostra miglioramenti significativi rispetto a SAM 2 e allo stato dell'arte precedente in benchmark video come DAVIS 2017 e YouTube-VOS:
Benchmark | Metrica | SAM 3 | SAM 2.1 L | Miglioramento |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Adattamento con pochi colpi
SAM 3 eccelle nell'adattarsi a nuovi domini con esempi minimi, rilevanti per i flussi di lavoro AI incentrati sui dati:
Benchmark | AP a 0 colpi | AP a 10 colpi | Migliore precedente (10 colpi) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33,7 (gDino-T) |
Efficacia del perfezionamento interattivo
Il prompt basato sui concetti e sugli esempi di SAM 3 converge molto più rapidamente del prompt visivo:
Prompts aggiunti | Punteggio CGF1 | Guadagno vs. solo testo | Guadagno rispetto al PVS di base |
---|---|---|---|
Solo testo | 46.4 | linea di base | linea di base |
+1 esemplare | 57.6 | +11.2 | +6.7 |
+2 esemplari | 62.2 | +15.8 | +9.7 |
+3 esemplari | 65.0 | +18.6 | +11.2 |
+4 esemplari | 65.7 | +19.3 | +11,5 (plateau) |
Precisione nel conteggio degli oggetti
SAM 3 fornisce un conteggio accurato segmentando tutte le istanze, un requisito comune nel conteggio degli oggetti:
Benchmark | Precisione | MAE | contro il miglior MLLM |
---|---|---|---|
Banco di calcolo | 95.6% | 0.11 | 92,4% (Gemelli 2.5) |
Conteggio PixMo | 87.3% | 0.22 | 88,8% (Molmo-72B) |
SAM 3 vs SAM 2 vs YOLO a confronto
Qui confrontiamo le capacità di SAM 3 con quelle di SAM 2 e di YOLO11 con i modelli SAM 2 e YOLO11:
Capacità | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
Segmentazione del concetto | ✅ Tutte le istanze da testi/esemplari | ❌ Non supportato | ❌ Non supportato |
Segmentazione visiva | ✅ Istanza singolaSAM compatibile conSAM 2) | ✅ Istanza singola | ✅ Tutte le istanze |
Capacità di zero colpi | ✅ Vocabolario aperto | ✅ Spunti geometrici | ❌ Set chiuso |
Rifinitura interattiva | ✅ Esemplari + click | ✅ Solo clic | ❌ Non supportato |
Tracciamento video | ✅ Multi-oggetto con identità | ✅ Multi-oggetto | ✅ Multi-oggetto |
Maschera LVIS AP (zero colpi) | 47.0 | N/A | N/A |
MOSEv2 J&F | 60.1 | 47.9 | N/A |
Velocità di inferenza (H200) | 30 ms (oltre 100 oggetti) | ~23 ms (per oggetto) | 2-3 ms (immagine) |
Dimensioni del modello | Grande (~400+ MB previsti) | 162 MB (base) | 5,9 MB |
Punti di forza:
- SAM 3: migliore per la segmentazione di concetti a vocabolario aperto, per trovare tutte le istanze di un concetto con testi o esempi
- SAM 2: il migliore per la segmentazione interattiva di singoli oggetti in immagini e video con indicazioni geometriche
- YOLO11: Ideale per la segmentazione in tempo reale e ad alta velocità in implementazioni con risorse limitate, utilizzando pipeline di esportazione efficienti come ONNX e TensorRT
Metriche di valutazione
SAM 3 introduce nuove metriche progettate per il compito PCS, a complemento di misure già note come il punteggio F1, la precisione e il richiamo.
F1 con classificazione (CGF1)
La metrica principale che combina localizzazione e classificazione:
CGF1 = 100 × pmF1 × IL_MCC
Dove:
- pmF1 (Positive Macro F1): Misura la qualità della localizzazione su esempi positivi
- IL_MCC (Coefficiente di correlazione di Matthews a livello di immagine): Misura l'accuratezza della classificazione binaria ("il concetto è presente?").
Perché queste metriche?
Le metriche AP tradizionali non tengono conto della calibrazione, rendendo i modelli difficili da usare nella pratica. Valutando solo le previsioni superiori a 0,5 di confidenza, le metriche di SAM 3 impongono una buona calibrazione e imitano i modelli di utilizzo reali nei cicli interattivi di previsione e tracciamento.
Ablazioni e approfondimenti chiave
Impatto della presenza Testa
La testa di presenza disaccoppia il riconoscimento dalla localizzazione, offrendo miglioramenti significativi:
Configurazione | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Senza presenza | 57.6 | 0.77 | 74.7 |
Con la presenza | 63.3 | 0.82 | 77.1 |
La testa di presenza fornisce un incremento di +5,7 CGF1 (+9,9%), migliorando soprattutto la capacità di riconoscimento (IL_MCC +6,5%).
Effetto dei negativi duri
Negativi duri/Immagine | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
I negativi duri sono fondamentali per il riconoscimento del vocabolario aperto, migliorando IL_MCC del 54,5% (0,44 → 0,68).
Scala dei dati di addestramento
Fonti dei dati | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Solo esterno | 30.9 | 0.46 | 66.3 |
Esterno + Sintetico | 39.7 | 0.57 | 70.6 |
Esterno + HQ | 51.8 | 0.71 | 73.2 |
Tutti e tre | 54.3 | 0.74 | 73.5 |
Le annotazioni umane di alta qualità offrono grandi vantaggi rispetto ai soli dati sintetici o esterni. Per informazioni sulle pratiche di qualità dei dati, vedere la raccolta e l'annotazione dei dati.
Applicazioni
La capacità di segmentazione concettuale di SAM 3 consente nuovi casi d'uso:
- Moderazione dei contenuti: Trova tutte le istanze di specifici tipi di contenuto nelle librerie multimediali.
- Commercio elettronico: Segmentazione di tutti i prodotti di un certo tipo nelle immagini del catalogo, con supporto dell 'annotazione automatica
- Imaging medico: Identificare tutte le occorrenze di specifici tipi di tessuto o anomalie.
- Sistemi autonomi: Tracciare tutte le istanze di segnali stradali, pedoni o veicoli per categoria.
- Analisi video: Conteggio e tracciamento di tutte le persone che indossano indumenti specifici o compiono azioni.
- Annotazione del set di dati: Annotazione rapida di tutte le istanze di categorie di oggetti rari
- Ricerca scientifica: Quantificare e analizzare tutti i campioni che corrispondono a criteri specifici.
Agente SAM 3: Ragionamento linguistico esteso
SAM 3 può essere combinato con i Multimodal Large Language Models (MLLM) per gestire interrogazioni complesse che richiedono un ragionamento, con uno spirito simile ai sistemi a vocabolario aperto come OWLv2 e T-Rex.
Prestazioni su compiti di ragionamento
Benchmark | Metrica | Agente SAM 3 (Gemini 2.5 Pro) | Precedente Il migliore |
---|---|---|---|
MotivoSeg (convalida) | gIoU | 76.0 | 65,0 (SoTA) |
MotivoSeg (test) | gIoU | 73.8 | 61,3 (SoTA) |
OmniLabel (convalida) | AP | 46.7 | 36,5 (REALE) |
RifCOCO+ | Acc | 91.2 | 89.3 (LISA) |
Esempio di query complesse
L'agente SAM 3 è in grado di gestire interrogazioni che richiedono un ragionamento:
- "Persone sedute ma non con un pacco regalo in mano".
- "Il cane più vicino alla telecamera che non indossa il collare".
- "Oggetti rossi più grandi della mano della persona".
Il MLLM propone a SAM 3 semplici query con frasi di sostantivo, analizza le maschere restituite e itera fino a quando non sono soddisfatte.
Limitazioni
Sebbene SAM 3 rappresenti un importante progresso, presenta alcuni limiti:
- Complessità della frase: Più adatto a frasi semplici con sostantivo; espressioni riferite lunghe o ragionamenti complessi possono richiedere l'integrazione di MLLM.
- Gestione dell'ambiguità: Alcuni concetti rimangono intrinsecamente ambigui (ad esempio, "finestra piccola", "stanza accogliente").
- Requisiti computazionali: Maggiore e più lento dei modelli di rilevamento specializzati come YOLO
- Ambito di applicazione del vocabolario: Concentrato sui concetti visivi atomici; il ragionamento compositivo è limitato senza l'assistenza di MLLM.
- Concetti rari: Le prestazioni possono peggiorare su concetti estremamente rari o a grana fine non ben rappresentati nei dati di addestramento.
Citazione
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
FAQ
Quando uscirà SAM 3?
Il SAM 3 è attualmente in fase di revisione presso l'ICLR 2026 (conferenza nel 2026, revisione nel 2025). I modelli, i pesi e i benchmark ufficiali saranno rilasciati pubblicamente dopo il processo di revisione, probabilmente nel 2026. Ultralytics fornirà un supporto immediato per l'integrazione di SAM 3 al momento del rilascio di Meta e documenterà l'utilizzo in modalità predict e track.
SAM 3 sarà integrato in Ultralytics?
Sì. Al momento del rilascio, SAM 3 sarà supportato dal pacchetto Ultralytics Python , che include la segmentazione concettuale, i suggerimenti visivi in stile SAM 2 e il tracciamento video multi-oggetto. Sarà possibile esportare in formati come ONNX e TensorRT per l'implementazione, con un'efficiente Python e CLI flussi di lavoro.
Tempistica di implementazione
Gli esempi di codice contenuti in questa documentazione sono versioni di anteprima che mostrano i modelli di utilizzo previsti. L'implementazione effettiva sarà disponibile dopo che Meta avrà rilasciato SAM 3 weights e Ultralytics avrà completato l'integrazione.
Che cos'è la Segmentazione Concettuale Promptable (PCS)?
PCS è un nuovo compito introdotto in SAM 3 che segmenta tutte le istanze di un concetto visivo in un'immagine o in un video. A differenza della segmentazione tradizionale, che si rivolge a un'istanza specifica di un oggetto, PCS individua tutte le occorrenze di una categoria. Ad esempio:
- Testo richiesto: "scuolabus giallo" → segmenta tutti gli scuolabus gialli presenti nella scena
- Esemplare di immagine: Riquadro intorno a un cane → segmenta tutti i cani dell'immagine
- Combinato: "gatto a strisce" + casella esemplare → segmenta tutti i gatti a strisce che corrispondono all'esempio
Si veda il background relativo al rilevamento degli oggetti e alla segmentazione delle istanze.
In cosa si differenzia SAM 3 da SAM 2?
Caratteristica | SAM 2 | SAM 3 |
---|---|---|
Task | Singolo oggetto per richiesta | Tutte le istanze di un concetto |
Tipi di prompt | Punti, scatole, maschere | + Frasi di testo, esempi di immagini |
Capacità di rilevamento | Richiede un rilevatore esterno | Rilevatore di vocaboli aperti incorporato |
Riconoscimento | Solo basato sulla geometria | Riconoscimento testuale e visivo |
Architettura | Solo Tracker | Rivelatore + Tracker con testa di presenza |
Prestazioni a colpo zero | N/A (richiede indicazioni visive) | 47,0 AP su LVIS, 2 volte meglio su SA-Co |
Rifinitura interattiva | Solo clic | Clic + generalizzazione dell'esemplare |
SAM 3 mantiene la compatibilità con il prompt visivo di SAM 2, aggiungendo al contempo funzionalità basate sui concetti.
Quali set di dati vengono utilizzati per addestrare SAM 3?
SAM 3 viene addestrato sul dataset Segment Anything with Concepts (SA-Co):
Dati di formazione:
- 5,2 milioni di immagini con 4 milioni di frasi sostantive uniche (SA-Co/HQ) - annotazioni umane di alta qualità
- 52,5K video con 24,8K frasi sostantive uniche (SA-Co/VIDEO)
- 1,4B maschere sintetiche su 38M frasi sostantive (SA-Co/SYN)
- 15 set di dati esterni arricchiti con hard negative (SA-Co/EXT)
Dati di benchmark:
- 214K concetti unici su 126K immagini/video
- 50 volte più concetti rispetto ai benchmark esistenti (ad esempio, LVIS ha ~4K concetti)
- Annotazione tripla su SA-Co/Gold per misurare i limiti delle prestazioni umane
Questa enorme scala e diversità consente a SAM 3 una generalizzazione superiore a colpo sicuro su concetti a vocabolario aperto.
Come si colloca SAM 3 rispetto a YOLO11 per la segmentazione?
SAM 3 e YOLO11 servono a casi d'uso diversi:
SAM 3 Vantaggi:
- Vocabolario aperto: Segmenta qualsiasi concetto tramite messaggi di testo senza formazione
- Zero colpi: Lavora immediatamente su nuove categorie
- Interattivo: Il perfezionamento basato su esempi si generalizza a oggetti simili
- Basato sul concetto: Trova automaticamente tutte le istanze di una categoria
- Accuratezza: 47,0 AP sulla segmentazione di istanze LVIS a colpo zero
YOLO11 Vantaggi:
- Velocità: inferenza 10-15 volte più veloce (2-3 ms contro 30 ms per immagine)
- Efficienza: modelli 70× più piccoli (5,9MB contro i ~400MB previsti)
- Rispettoso delle risorse: Funziona su dispositivi edge e mobili
- In tempo reale: Ottimizzato per le implementazioni di produzione
Raccomandazione:
- Utilizzate SAM 3 per una segmentazione flessibile e a vocabolario aperto, quando dovete trovare tutte le istanze di concetti descritti da testi o esempi.
- Utilizzo YOLO11 per distribuzioni di produzione ad alta velocità in cui le categorie sono note in anticipo
- Utilizzate SAM 2 per la segmentazione interattiva di un singolo oggetto con indicazioni geometriche.
SAM 3 è in grado di gestire query linguistiche complesse?
SAM 3 è progettato per semplici frasi di sostantivi (ad esempio, "mela rossa", "persona con cappello"). Per le interrogazioni complesse che richiedono un ragionamento, è necessario combinare SAM 3 con un MLLM come SAM 3 Agent:
Interrogazioni semplici ( SAM 3 nativo):
- "scuolabus giallo"
- "gatto a strisce"
- "persona con cappello rosso"
Interrogazioni complesse (agenteSAM 3 con MLLM):
- "Persone sedute ma non con un pacco regalo in mano".
- "Il cane più vicino alla telecamera senza collare".
- "Oggetti rossi più grandi della mano della persona".
L'agente SAM 3 ottiene 76,0 gIoU sulla convalida ReasonSeg (contro il precedente migliore di 65,0, con un miglioramento del 16,9%) combinando la segmentazione di SAM 3 con le capacità di ragionamento MLLM.
Quanto è preciso il SAM 3 rispetto alle prestazioni umane?
Sul benchmark SA-Co/Gold con tripla annotazione umana:
- Limite inferiore umano: 74,2 CGF1 (annotatore più conservatore)
- PrestazioniSAM 3: 65,0 CGF1
- Risultati: 88% del limite inferiore umano stimato
- Limite superiore umano: 81,4 CGF1 (annotatore più liberale)
SAM 3 raggiunge prestazioni elevate che si avvicinano alla precisione umana nella segmentazione di concetti a vocabolario aperto, con un divario soprattutto nei concetti ambigui o soggettivi (ad esempio, "piccola finestra", "stanza accogliente").