Link to this sectionSAM 2: Segment Anything Model 2#
SAM 2, il successore del Segment Anything Model (SAM) di Meta, è uno strumento all'avanguardia progettato per la segmentazione completa degli oggetti sia in immagini che in video. Eccelle nella gestione di dati visivi complessi attraverso un'architettura di modello unificata e promptabile che supporta l'elaborazione in tempo reale e la generalizzazione zero-shot.
I modelli SAM 2.1 alimentano la funzionalità di annotazione intelligente su Ultralytics Platform, consentendo la segmentazione basata su clic per un'etichettatura rapida dei dataset. Consulta la guida all'annotazione per i dettagli.

Link to this sectionCaratteristiche principali#
Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉
Link to this sectionArchitettura di modello unificata#
SAM 2 combina le funzionalità di segmentazione di immagini e video in un unico modello. Questa unificazione semplifica il deployment e consente prestazioni costanti su diversi tipi di media. Sfrutta un'interfaccia flessibile basata su prompt, che permette agli utenti di specificare gli oggetti di interesse tramite vari tipi di prompt, come punti, bounding box o maschere.
Link to this sectionPrestazioni in tempo reale#
Il modello raggiunge velocità di inferenza in tempo reale, elaborando circa 44 frame al secondo. Questo rende SAM 2 adatto ad applicazioni che richiedono un feedback immediato, come l'editing video e la realtà aumentata.
Link to this sectionGeneralizzazione Zero-Shot#
SAM 2 può segmentare oggetti che non ha mai incontrato prima, dimostrando una forte capacità di generalizzazione zero-shot. Questo è particolarmente utile in domini visivi diversi o in evoluzione dove le categorie predefinite potrebbero non coprire tutti i possibili oggetti.
Link to this sectionRaffinamento interattivo#
Gli utenti possono raffinare iterativamente i risultati della segmentazione fornendo prompt aggiuntivi, consentendo un controllo preciso sull'output. Questa interattività è essenziale per affinare i risultati in applicazioni come l'annotazione video o l'imaging medico.
Link to this sectionGestione avanzata delle sfide visive#
SAM 2 include meccanismi per gestire le sfide comuni della segmentazione video, come l'occlusione e la riapparizione degli oggetti. Utilizza un sofisticato meccanismo di memoria per tracciare gli oggetti tra i frame, garantendo continuità anche quando gli oggetti sono temporaneamente oscurati o escono e rientrano nella scena.
Per una comprensione più approfondita dell'architettura e delle funzionalità di SAM 2, esplora il paper di ricerca su SAM 2.
Link to this sectionPrestazioni e dettagli tecnici#
SAM 2 definisce un nuovo standard nel settore, superando i modelli precedenti su diverse metriche:
| Metrica | SAM 2 | Precedente SOTA |
|---|---|---|
| Segmentazione video interattiva | Migliore | - |
| Interazioni umane richieste | 3 volte meno | Baseline |
| Precisione Segmentazione immagine | Migliorata | SAM |
| Velocità di inferenza | 6 volte più veloce | SAM |
Link to this sectionArchitettura del modello#
Link to this sectionComponenti principali#
- Encoder di immagini e video: Utilizza un'architettura basata su transformer per estrarre caratteristiche di alto livello sia da immagini che da frame video. Questo componente è responsabile della comprensione del contenuto visivo a ogni timestep.
- Encoder di prompt: Elabora i prompt forniti dall'utente (punti, box, maschere) per guidare l'attività di segmentazione. Questo permette a SAM 2 di adattarsi all'input dell'utente e puntare a oggetti specifici all'interno di una scena.
- Meccanismo di memoria: Include un encoder di memoria, un banco di memoria e un modulo di attenzione alla memoria. Questi componenti memorizzano e utilizzano collettivamente le informazioni dai frame passati, consentendo al modello di mantenere un tracciamento degli oggetti coerente nel tempo.
- Decoder di maschere: Genera le maschere di segmentazione finali basate sulle caratteristiche dell'immagine codificate e sui prompt. Nel video, utilizza anche il contesto di memoria per garantire un tracciamento accurato tra i frame.

Link to this sectionMeccanismo di memoria e gestione dell'occlusione#
Il meccanismo di memoria consente a SAM 2 di gestire dipendenze temporali e occlusioni nei dati video. Mentre gli oggetti si muovono e interagiscono, SAM 2 registra le loro caratteristiche in un banco di memoria. Quando un oggetto viene occluso, il modello può fare affidamento su questa memoria per prevedere la sua posizione e il suo aspetto quando riappare. L'head di occlusione gestisce specificamente gli scenari in cui gli oggetti non sono visibili, prevedendo la probabilità che un oggetto sia occluso.
Link to this sectionRisoluzione dell'ambiguità multi-maschera#
In situazioni di ambiguità (ad esempio, oggetti sovrapposti), SAM 2 può generare più previsioni di maschera. Questa funzione è cruciale per rappresentare accuratamente scene complesse in cui una singola maschera potrebbe non descrivere sufficientemente le sfumature della scena.
Link to this sectionDataset SA-V#
Il dataset SA-V, sviluppato per l'addestramento di SAM 2, è uno dei dataset di segmentazione video più grandi e diversificati disponibili. Include:
- 51.000+ Video: Acquisiti in 47 paesi, fornendo una vasta gamma di scenari del mondo reale.
- 600.000+ Annotazioni di maschere: Annotazioni dettagliate spazio-temporali, chiamate "masklets", che coprono interi oggetti e parti di essi.
- Scala del dataset: Presenta 4,5 volte più video e 53 volte più annotazioni rispetto ai dataset più grandi precedenti, offrendo una diversità e una complessità senza precedenti.
Link to this sectionBenchmark#
Link to this sectionSegmentazione di oggetti video#
SAM 2 ha dimostrato prestazioni superiori in tutti i principali benchmark di segmentazione video:
| Dataset | J&F | J | F |
|---|---|---|---|
| DAVIS 2017 | 82.5 | 79.8 | 85.2 |
| YouTube-VOS | 81.2 | 78.9 | 83.5 |
Link to this sectionSegmentazione interattiva#
Nelle attività di segmentazione interattiva, SAM 2 mostra una significativa efficienza e accuratezza:
| Dataset | NoC@90 | AUC |
|---|---|---|
| DAVIS Interactive | 1.54 | 0.872 |
Link to this sectionInstallazione#
Per installare SAM 2, usa il seguente comando. Tutti i modelli SAM 2 verranno scaricati automaticamente al primo utilizzo.
pip install ultralyticsLink to this sectionCome usare SAM 2: Versatilità nella segmentazione di immagini e video#
La seguente tabella descrive in dettaglio i modelli SAM 2 disponibili, i loro pesi pre-addestrati, le attività supportate e la compatibilità con diverse modalità operative come Inference, Validation, Training e Export.
| Tipo di modello | Pesi pre-addestrati | Attività supportate | Inferenza | Validazione | Addestramento | Esportazione |
|---|---|---|---|---|---|---|
| SAM 2 tiny | sam2_t.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2 small | sam2_s.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2 base | sam2_b.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2 large | sam2_l.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 tiny | sam2.1_t.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 small | sam2.1_s.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 base | sam2.1_b.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 large | sam2.1_l.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
Link to this sectionEsempi di previsione con SAM 2#
SAM 2 può essere utilizzato in un ampio spettro di attività, inclusi l'editing video in tempo reale, l'imaging medico e i sistemi autonomi. La sua capacità di segmentare dati visivi sia statici che dinamici lo rende uno strumento versatile per ricercatori e sviluppatori.
Link to this sectionSegmenta con prompt#
Usa i prompt per segmentare oggetti specifici in immagini o video.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Link to this sectionSegmenta tutto#
Segmenta l'intero contenuto di un'immagine o di un video senza prompt specifici.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/video.mp4")Link to this sectionSegmenta video e traccia oggetti#
Segmenta l'intero contenuto video con prompt specifici e traccia gli oggetti.
from ultralytics.models.sam import SAM2VideoPredictor
# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)
# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])
# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])- Questo esempio dimostra come SAM 2 possa essere usato per segmentare l'intero contenuto di un'immagine o di un video se non vengono forniti prompt (bbox/punti/maschere).
Link to this sectionSegmentazione e tracciamento interattivi dinamici#
SAM2DynamicInteractivePredictor è un'estensione avanzata senza necessità di training di SAM2 che abilita l'interazione dinamica con più frame e capacità di apprendimento continuo. Questo predittore supporta l'aggiornamento dei prompt in tempo reale e la gestione della memoria per migliorare le prestazioni di tracciamento attraverso una sequenza di immagini. Rispetto al SAM2 originale, SAM2DynamicInteractivePredictor ricostruisce il flusso di inferenza per sfruttare al meglio i modelli SAM2 preaddestrati senza richiedere un addestramento aggiuntivo.

Link to this sectionCaratteristiche principali#
Offre tre miglioramenti significativi:
- Interattivo Dinamico: aggiungi nuovi prompt per unire/non tracciare nuove istanze nei frame successivi in qualsiasi momento durante l'elaborazione video
- Apprendimento continuo: aggiungi nuovi prompt per le istanze esistenti per migliorare le prestazioni del modello nel tempo
- Supporto indipendente multi-immagine: elabora più immagini indipendenti (non necessariamente provenienti da una sequenza video) con condivisione della memoria e tracciamento degli oggetti tra le immagini
Link to this sectionFunzionalità principali#
- Flessibilità dei prompt: accetta bounding box, punti e maschere come prompt
- Gestione della memoria: mantiene un banco di memoria dinamico per memorizzare gli stati degli oggetti tra i frame
- Tracciamento multi-oggetto: supporta il tracciamento simultaneo di più oggetti con ID oggetto individuali
- Aggiornamenti in tempo reale: consente di aggiungere nuovi prompt durante l'inferenza senza rielaborare i frame precedenti
- Elaborazione indipendente delle immagini: elabora immagini autonome con contesto di memoria condiviso per la coerenza degli oggetti tra le immagini
from ultralytics.models.sam import SAM2DynamicInteractivePredictor
# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)
# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)
# Detect this particular object in a new image
results = predictor(source="image2.jpg")
# Add new category with a new object ID
results = predictor(
source="image4.jpg",
bboxes=[[300, 300, 400, 400]], # New object
obj_ids=[1], # New object ID
update_memory=True, # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")
# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
source="image6.jpg",
points=[[150, 150]], # Refinement point
labels=[1], # Positive point
obj_ids=[1], # Same object ID
update_memory=True, # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")Il SAM2DynamicInteractivePredictor è progettato per funzionare con i modelli SAM2 e supporta l'aggiunta/rifinitura delle categorie tramite tutti i prompt box/punto/maschera che SAM2 supporta nativamente. È particolarmente utile per scenari in cui gli oggetti appaiono o cambiano nel tempo, come nell'annotazione video o in attività di editing interattivo.
Link to this sectionArgomenti#
| Nome | Valore predefinito | Tipo di dato | Descrizione |
|---|---|---|---|
max_obj_num | 3 | int | Il numero massimo preimpostato di categorie |
update_memory | False | bool | Indica se aggiornare la memoria con nuovi prompt |
obj_ids | None | List[int] | Lista di ID oggetto corrispondenti ai prompt |
Link to this sectionCasi d'uso#
SAM2DynamicInteractivePredictor è ideale per:
- Flussi di lavoro di annotazione video in cui appaiono nuovi oggetti durante la sequenza
- Editing video interattivo che richiede l'aggiunta e la rifinitura degli oggetti in tempo reale
- Applicazioni di sorveglianza con esigenze di tracciamento dinamico degli oggetti
- Imaging medico per il tracciamento di strutture anatomiche attraverso serie temporali
- Sistemi autonomi che richiedono rilevamento e tracciamento adattivi degli oggetti
- Dataset multi-immagine per una segmentazione coerente degli oggetti tra immagini indipendenti
- Analisi di collezioni di immagini in cui gli oggetti devono essere tracciati attraverso scene diverse
- Segmentazione cross-domain sfruttando la memoria da diversi contesti di immagini
- Annotazione semi-automatica per la creazione efficiente di dataset con minimo intervento manuale
Link to this sectionConfronto SAM vs YOLO#
Qui confrontiamo i modelli SAM 2 di Meta, inclusa la variante più piccola SAM2-t, con i modelli di segmentazione Ultralytics, incluso YOLO26n-seg:
| Modello | Dimensione (MB) | Parametri (M) | Velocità (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM2-b | 162 | 80.8 | 28867 |
| Meta SAM2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s con backbone YOLOv8 | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (11.0x più piccolo) | 3.4 (11.4x in meno) | 24.8 (945x più veloce) |
| Ultralytics YOLO11n-seg | 6.2 (12.6x più piccolo) | 2.9 (13.4x in meno) | 24.3 (964x più veloce) |
| Ultralytics YOLO26n-seg | 6.7 (11.7x più piccolo) | 2.7 (14.4x in meno) | 25.2 (930x più veloce) |
Questo confronto dimostra le sostanziali differenze nelle dimensioni e nelle velocità dei modelli tra le varianti SAM e i modelli di segmentazione YOLO. Mentre SAM fornisce capacità di segmentazione automatica uniche, i modelli YOLO, in particolare YOLOv8n-seg, YOLO11n-seg e YOLO26n-seg, sono significativamente più piccoli, più veloci e più efficienti dal punto di vista computazionale.
Velocità SAM misurate con PyTorch, velocità YOLO misurate con ONNX Runtime. Test eseguiti su un Apple M4 Air del 2025 con 16GB di RAM utilizzando torch==2.10.0, ultralytics==8.4.31 e onnxruntime==1.24.4. Per riprodurre questo test:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Link to this sectionAuto-annotazione: creazione efficiente del dataset#
L'auto-annotazione è una funzionalità potente di SAM 2, che consente agli utenti di generare dataset di segmentazione in modo rapido e accurato sfruttando modelli preaddestrati. Questa funzionalità è particolarmente utile per creare dataset ampi e di alta qualità senza un eccessivo sforzo manuale.
Link to this sectionCome auto-annotare con SAM 2#
Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling
Per auto-annotare il tuo dataset usando SAM 2, segui questo esempio:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")| Argomento | Tipo | Predefinito | Descrizione |
|---|---|---|---|
data | str | obbligatorio | Percorso della directory contenente le immagini di destinazione per l'annotazione o la segmentazione. |
det_model | str | 'yolo26x.pt' | Percorso del modello di rilevamento YOLO per il rilevamento iniziale degli oggetti. |
sam_model | str | 'sam_b.pt' | Percorso del modello SAM per la segmentazione (supporta i pesi SAM, SAM 2, MobileSAM e SAM 3). |
device | str | '' | Dispositivo di calcolo (es. 'cuda:0', 'cpu', o '' per il rilevamento automatico del dispositivo). |
conf | float | 0.25 | Soglia di confidenza del rilevamento YOLO per filtrare rilevamenti deboli. |
iou | float | 0.45 | Soglia IoU per Non-Maximum Suppression per filtrare box sovrapposti. |
imgsz | int | 640 | Dimensione di input per il ridimensionamento delle immagini (deve essere un multiplo di 32). |
max_det | int | 300 | Numero massimo di rilevamenti per immagine per l'efficienza della memoria. |
classes | list[int] | None | Elenco degli indici di classe da rilevare (ad esempio, [0, 1] per persona e bicicletta). |
output_dir | str | None | Save directory for annotations (default: <data>_auto_annotate_labels sibling). |
Questa funzione facilita la creazione rapida di dataset di segmentazione di alta qualità, ideali per ricercatori e sviluppatori che mirano ad accelerare i propri progetti.
Link to this sectionLimitazioni#
Nonostante i suoi punti di forza, SAM 2 presenta alcune limitazioni:
- Stabilità del tracking: SAM 2 potrebbe perdere traccia degli oggetti durante sequenze prolungate o cambiamenti significativi del punto di vista.
- Confusione tra oggetti: Il modello a volte può confondere oggetti dall'aspetto simile, specialmente in scene affollate.
- Efficienza con oggetti multipli: L'efficienza della segmentazione diminuisce quando si elaborano più oggetti contemporaneamente a causa della mancanza di comunicazione tra gli oggetti.
- Accuratezza dei dettagli: Potrebbe perdere dettagli fini, specialmente con oggetti in rapido movimento. Ulteriori prompt possono risolvere parzialmente questo problema, ma la fluidità temporale non è garantita.
Link to this sectionCitazioni e riconoscimenti#
Se SAM 2 è una parte cruciale del tuo lavoro di ricerca o sviluppo, ti preghiamo di citarlo utilizzando il seguente riferimento:
@article{ravi2024sam2,
title={SAM 2: Segment Anything in Images and Videos},
author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
journal={arXiv preprint},
year={2024}
}Estendiamo la nostra gratitudine a Meta AI per il loro contributo alla comunità AI con questo modello e dataset rivoluzionario.
Link to this sectionFAQ#
Link to this sectionCos'è SAM 2 e in che modo migliora il Segment Anything Model (SAM) originale?#
SAM 2, il successore del Segment Anything Model (SAM) di Meta, è uno strumento all'avanguardia progettato per la segmentazione completa degli oggetti sia in immagini che in video. Eccelle nella gestione di dati visivi complessi attraverso un'architettura di modello unificata e basata su prompt, che supporta l'elaborazione in tempo reale e la generalizzazione zero-shot. SAM 2 offre diversi miglioramenti rispetto al SAM originale, tra cui:
- Architettura del modello unificata: Combina le funzionalità di segmentazione di immagini e video in un unico modello.
- Prestazioni in tempo reale: Elabora circa 44 fotogrammi al secondo, rendendolo adatto ad applicazioni che richiedono feedback immediato.
- Generalizzazione zero-shot: Segmenta oggetti che non ha mai incontrato prima, utile in diversi domini visivi.
- Raffinamento interattivo: Consente agli utenti di affinare iterativamente i risultati della segmentazione fornendo ulteriori prompt.
- Gestione avanzata delle sfide visive: Gestisce le comuni sfide della segmentazione video come l'occlusione e la ricomparsa degli oggetti.
Per maggiori dettagli sull'architettura e le funzionalità di SAM 2, esplora il documento di ricerca su SAM 2.
Link to this sectionCome posso utilizzare SAM 2 per la segmentazione video in tempo reale?#
SAM 2 può essere utilizzato per la segmentazione video in tempo reale sfruttando la sua interfaccia basata su prompt e le capacità di inferenza in tempo reale. Ecco un esempio di base:
Usa i prompt per segmentare oggetti specifici in immagini o video.
from ultralytics import SAM
# Load a model
model = SAM("sam2_b.pt")
# Display model information (optional)
model.info()
# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])Per un utilizzo più completo, consulta la sezione Come utilizzare SAM 2.
Link to this sectionQuali dataset vengono utilizzati per addestrare SAM 2 e come ne migliorano le prestazioni?#
SAM 2 è addestrato sul dataset SA-V, uno dei dataset di segmentazione video più grandi e diversificati disponibili. Il dataset SA-V include:
- 51.000+ Video: Acquisiti in 47 paesi, fornendo una vasta gamma di scenari del mondo reale.
- 600.000+ Annotazioni di maschere: Annotazioni dettagliate spazio-temporali, chiamate "masklets", che coprono interi oggetti e parti di essi.
- Scala del dataset: Presenta 4,5 volte più video e 53 volte più annotazioni rispetto ai dataset più grandi precedenti, offrendo una diversità e una complessità senza precedenti.
Questo ampio dataset consente a SAM 2 di ottenere prestazioni superiori nei principali benchmark di segmentazione video e ne migliora le capacità di generalizzazione zero-shot. Per ulteriori informazioni, consulta la sezione Dataset SA-V.
Link to this sectionCome gestisce SAM 2 le occlusioni e le ricomparse degli oggetti nella segmentazione video?#
SAM 2 include un sofisticato meccanismo di memoria per gestire le dipendenze temporali e le occlusioni nei dati video. Il meccanismo di memoria è composto da:
- Memory Encoder e Memory Bank: Memorizzano le caratteristiche dei fotogrammi passati.
- Modulo di attenzione della memoria: Utilizza le informazioni memorizzate per mantenere un tracciamento costante degli oggetti nel tempo.
- Occlusion Head: Gestisce specificamente gli scenari in cui gli oggetti non sono visibili, prevedendo la probabilità che un oggetto sia occluso.
Questo meccanismo garantisce continuità anche quando gli oggetti sono temporaneamente oscurati o escono e rientrano nella scena. Per ulteriori dettagli, consulta la sezione Meccanismo di memoria e gestione delle occlusioni.
Link to this sectionCome si confronta SAM 2 con altri modelli di segmentazione come YOLO26?#
I modelli SAM 2, come SAM2-t e SAM2-b di Meta, offrono potenti capacità di segmentazione zero-shot ma sono significativamente più grandi e più lenti rispetto ai modelli YOLO. Ad esempio, YOLO26n-seg è circa 24 volte più piccolo e oltre 1145 volte più veloce di SAM2-b su CPU. Mentre SAM 2 eccelle in scenari di segmentazione versatili, basati su prompt e zero-shot, YOLO26 è ottimizzato per la velocità, l'efficienza e le applicazioni in tempo reale con inferenza end-to-end senza NMS, rendendolo più adatto per l'implementazione in ambienti con risorse limitate.