SAM 2: Segment Anything Model 2

Evoluzione di SAM

SAM 2 amplia l'originale SAM con funzionalità di segmentazione video. Per la Segmentazione Concettuale Promptabile con prompt esemplificativi di testo e immagine, consulta SAM 3.

Inference with Segment Anything 2 In Colab

SAM 2, successore del Segment Anything Model (SAM) di Meta, è uno strumento all'avanguardia progettato per la segmentazione completa degli oggetti sia in immagini che in video. Eccelle nella gestione di dati visivi complessi grazie a un'architettura di modello unificata e promptabile che supporta l'elaborazione in tempo reale e la generalizzazione zero-shot.

SAM 2 su Ultralytics Platform

I modelli SAM 2.1 alimentano la funzionalità di annotazione intelligente su Ultralytics Platform, consentendo la segmentazione basata su clic per un'etichettatura rapida dei dataset. Consulta la guida all'annotazione per i dettagli.

SAM 2 Example Results

Caratteristiche principali



Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉

Architettura del modello unificata

SAM 2 combina le capacità di segmentazione di immagini e video in un unico modello. Questa unificazione semplifica il deployment e consente prestazioni coerenti su diversi tipi di media. Sfrutta un'interfaccia flessibile basata su prompt, permettendoti di specificare gli oggetti di interesse tramite vari tipi di prompt, come punti, bounding box o maschere.

Prestazioni in tempo reale

Il modello raggiunge velocità di inferenza in tempo reale, elaborando circa 44 frame al secondo. Questo rende SAM 2 adatto ad applicazioni che richiedono un feedback immediato, come l'editing video e la realtà aumentata.

Generalizzazione Zero-Shot

SAM 2 può segmentare oggetti che non ha mai incontrato prima, dimostrando una forte capacità di generalizzazione zero-shot. Ciò è particolarmente utile in domini visivi diversificati o in evoluzione, dove le categorie predefinite potrebbero non coprire tutti gli oggetti possibili.

Raffinamento interattivo

Puoi rifinire in modo iterativo i risultati della segmentazione fornendo prompt aggiuntivi, consentendo un controllo preciso sull'output. Questa interattività è essenziale per ottimizzare i risultati in applicazioni come l'annotazione video o l'imaging medico.

Gestione avanzata delle sfide visive

SAM 2 include meccanismi per gestire sfide comuni nella segmentazione video, come l'occlusione e la riapparizione degli oggetti. Utilizza un sofisticato meccanismo di memoria per tenere traccia degli oggetti tra i vari frame, garantendo continuità anche quando gli oggetti sono temporaneamente oscurati o escono e rientrano nella scena.

Per una comprensione più approfondita dell'architettura e delle capacità di SAM 2, esplora il documento di ricerca su SAM 2.

Prestazioni e dettagli tecnici

SAM 2 stabilisce un nuovo standard nel settore, superando i modelli precedenti su diverse metriche:

MetricaSAM 2Precedente SOTA
Segmentazione video interattivaMigliore-
Interazioni umane richieste3 volte in menoBaseline
Accuratezza della segmentazione dell'immagineMigliorataSAM
Velocità di inferenza6 volte più veloceSAM

Architettura del modello

Componenti principali

  • Encoder di immagini e video: Utilizza un'architettura basata su transformer per estrarre caratteristiche di alto livello sia dalle immagini che dai frame video. Questo componente è responsabile della comprensione del contenuto visivo in ogni istante temporale.
  • Encoder di prompt: Elabora i prompt forniti dall'utente (punti, box, maschere) per guidare l'attività di segmentazione. Ciò permette a SAM 2 di adattarsi all'input dell'utente e mirare a oggetti specifici all'interno di una scena.
  • Meccanismo di memoria: Include un encoder di memoria, un banco di memoria e un modulo di attenzione alla memoria. Questi componenti memorizzano e utilizzano collettivamente le informazioni dai frame passati, consentendo al modello di mantenere un tracciamento degli oggetti coerente nel tempo.
  • Decoder di maschera: Genera le maschere di segmentazione finali basandosi sulle caratteristiche dell'immagine codificata e sui prompt. Nel video, utilizza anche il contesto di memoria per garantire un tracciamento accurato tra i frame.

SAM 2 Architecture Diagram

Meccanismo di memoria e gestione dell'occlusione

Il meccanismo di memoria permette a SAM 2 di gestire dipendenze temporali e occlusioni nei dati video. Man mano che gli oggetti si muovono e interagiscono, SAM 2 registra le loro caratteristiche in un banco di memoria. Quando un oggetto viene occluso, il modello può fare affidamento su questa memoria per prevederne la posizione e l'aspetto quando riappare. L'head di occlusione gestisce specificamente gli scenari in cui gli oggetti non sono visibili, prevedendo la probabilità che un oggetto sia occluso.

Risoluzione dell'ambiguità delle maschere multiple

In situazioni di ambiguità (ad esempio, oggetti sovrapposti), SAM 2 può generare molteplici previsioni di maschera. Questa funzionalità è cruciale per rappresentare accuratamente scene complesse dove una singola maschera potrebbe non descrivere a sufficienza le sfumature della scena.

Dataset SA-V

Il dataset SA-V, sviluppato per l'addestramento di SAM 2, è uno dei dataset di segmentazione video più ampi e diversificati disponibili. Include:

  • 51.000+ Video: Catturati in 47 paesi, fornendo una vasta gamma di scenari del mondo reale.
  • 600.000+ Annotazioni di maschere: Dettagliate annotazioni spaziotemporali delle maschere, denominate "masklets", che coprono oggetti interi e parziali.
  • Scala del dataset: Presenta 4,5 volte più video e 53 volte più annotazioni rispetto ai dataset più grandi precedenti, offrendo una diversità e una complessità senza precedenti.

Benchmark

Segmentazione video di oggetti

SAM 2 ha dimostrato prestazioni superiori in tutti i principali benchmark di segmentazione video:

DatasetJ&FJF
DAVIS 201782.579.885.2
YouTube-VOS81.278.983.5

Segmentazione interattiva

Nelle attività di segmentazione interattiva, SAM 2 mostra una notevole efficienza e accuratezza:

DatasetNoC@90AUC
DAVIS Interactive1.540.872

Installazione

Per installare SAM 2, usa il seguente comando. Tutti i modelli SAM 2 verranno scaricati automaticamente al primo utilizzo.

pip install ultralytics

Come usare SAM 2: Versatilità nella segmentazione di immagini e video

La seguente tabella dettaglia i modelli SAM 2 disponibili, i loro pesi pre-addestrati, le attività supportate e la compatibilità con diverse modalità operative come Inferenza, Validazione, Addestramento ed Esportazione.

Tipo di modelloPesi preaddestratiAttività supportateInferenza (Inference)ValidazioneAddestramentoExport
SAM 2 tinysam2_t.ptSegmentazione delle istanze
SAM 2 smallsam2_s.ptSegmentazione delle istanze
SAM 2 basesam2_b.ptSegmentazione delle istanze
SAM 2 largesam2_l.ptSegmentazione delle istanze
SAM 2.1 tinysam2.1_t.ptSegmentazione delle istanze
SAM 2.1 smallsam2.1_s.ptSegmentazione delle istanze
SAM 2.1 basesam2.1_b.ptSegmentazione delle istanze
SAM 2.1 largesam2.1_l.ptSegmentazione delle istanze

Esempi di previsione SAM 2

SAM 2 può essere utilizzato in un ampio spettro di attività, tra cui l'editing video in tempo reale, l'imaging medico e i sistemi autonomi. La sua capacità di segmentare dati visivi sia statici che dinamici lo rende uno strumento versatile per ricercatori e sviluppatori.

Segmentazione con prompt

Segmentazione con prompt

Usa i prompt per segmentare oggetti specifici in immagini o video.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Segmenta tutto

Segmenta tutto

Segmenta l'intero contenuto dell'immagine o del video senza prompt specifici.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

Segmenta video e traccia oggetti

Segmenta video

Segmenta l'intero contenuto del video con prompt specifici e traccia gli oggetti.

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])
  • Questo esempio dimostra come SAM 2 può essere utilizzato per segmentare l'intero contenuto di un'immagine o di un video se non vengono forniti prompt (bbox/punti/maschere).

Segmentazione e tracciamento dinamico interattivo

SAM2DynamicInteractivePredictor è un'estensione avanzata di SAM2 che non richiede addestramento e consente un'interazione dinamica con fotogrammi multipli, oltre a capacità di apprendimento continuo. Questo predittore supporta aggiornamenti dei prompt in tempo reale e la gestione della memoria per migliorare le prestazioni di tracciamento attraverso una sequenza di immagini. Rispetto al SAM2 originale, SAM2DynamicInteractivePredictor ricostruisce il flusso di inferenza per sfruttare al meglio i modelli SAM2 preaddestrati senza richiedere un ulteriore addestramento.

Risultati di esempio di SAM 2

Caratteristiche principali

Offre tre miglioramenti significativi:

  1. Interattivo Dinamico: Aggiungi nuovi prompt per unire/tracciare nuove istanze nei fotogrammi successivi in qualsiasi momento durante l'elaborazione del video
  2. Apprendimento Continuo: Aggiungi nuovi prompt per istanze esistenti per migliorare le prestazioni del modello nel tempo
  3. Supporto Indipendente Multi-Immagine: Elabora immagini multiple indipendenti (non necessariamente provenienti da una sequenza video) con condivisione della memoria e tracciamento degli oggetti tra diverse immagini

Capacità Principali

  • Flessibilità dei Prompt: Accetta bounding box, punti e maschere come prompt
  • Gestione della Banca di Memoria: Mantiene una banca di memoria dinamica per memorizzare gli stati degli oggetti tra i fotogrammi
  • Tracciamento Multi-Oggetto: Supporta il tracciamento di più oggetti contemporaneamente con ID oggetto individuali
  • Aggiornamenti in Tempo Reale: Consente di aggiungere nuovi prompt durante l'inferenza senza rielaborare i fotogrammi precedenti
  • Elaborazione di Immagini Indipendenti: Elabora immagini singole con un contesto di memoria condiviso per la coerenza degli oggetti tra le immagini
Aggiunta Dinamica di Oggetti
from ultralytics.models.sam import SAM2DynamicInteractivePredictor

# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)

# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)

# Detect this particular object in a new image
results = predictor(source="image2.jpg")

# Add new category with a new object ID
results = predictor(
    source="image4.jpg",
    bboxes=[[300, 300, 400, 400]],  # New object
    obj_ids=[1],  # New object ID
    update_memory=True,  # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")

# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
    source="image6.jpg",
    points=[[150, 150]],  # Refinement point
    labels=[1],  # Positive point
    obj_ids=[1],  # Same object ID
    update_memory=True,  # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")
Nota

Il SAM2DynamicInteractivePredictor è progettato per funzionare con i modelli SAM2 e supporta nativamente l'aggiunta/perfezionamento delle categorie tramite tutti i box/point/mask prompts supportati da SAM2. È particolarmente utile per scenari in cui gli oggetti appaiono o cambiano nel tempo, come nelle attività di annotazione video o di editing interattivo.

Argomenti

NomeValore predefinitoTipo di datiDescrizione
max_obj_num3intIl numero massimo preimpostato di categorie
update_memoryFalseboolIndica se aggiornare la memoria con nuovi prompt
obj_idsNoneList[int]Lista degli ID oggetto corrispondenti ai prompt

Casi d'Uso

SAM2DynamicInteractivePredictor è ideale per:

  • Flussi di lavoro di annotazione video in cui appaiono nuovi oggetti durante la sequenza
  • Editing video interattivo che richiede l'aggiunta e il perfezionamento degli oggetti in tempo reale
  • Applicazioni di sorveglianza con necessità di tracciamento dinamico degli oggetti
  • Imaging medico per il tracciamento di strutture anatomiche in serie temporali
  • Sistemi autonomi che richiedono rilevamento e tracciamento adattivo degli oggetti
  • Dataset multi-immagine per una segmentazione coerente degli oggetti tra immagini indipendenti
  • Analisi di collezioni di immagini in cui gli oggetti devono essere tracciati attraverso scene diverse
  • Segmentazione cross-domain sfruttando la memoria da contesti di immagine diversi
  • Annotazione semi-automatica per una creazione efficiente di dataset con un intervento manuale minimo

Confronto SAM vs YOLO

Qui confrontiamo i modelli SAM 2 di Meta, inclusa la variante più piccola SAM2-t, con i modelli di segmentazione Ultralytics, incluso YOLO26n-seg:

ModelloDimensioni
(MB)
Parametri
(M)
Velocità (CPU)
(ms/im)
Meta SAM-b37593.741703
Meta SAM2-b16280.828867
Meta SAM2-t78.138.923430
MobileSAM40.710.123802
FastSAM-s con backbone YOLOv823.911.858.0
Ultralytics YOLOv8n-seg7.1 (11.0x più piccolo)3.4 (11.4x meno)24.8 (945x più veloce)
Ultralytics YOLO11n-seg6.2 (12.6x più piccolo)2.9 (13.4x meno)24.3 (964x più veloce)
Ultralytics YOLO26n-seg6.7 (11.7x più piccolo)2.7 (14.4x meno)25.2 (930x più veloce)

Questo confronto dimostra le sostanziali differenze nelle dimensioni e nelle velocità dei modelli tra le varianti SAM e i modelli di segmentazione YOLO. Mentre SAM offre funzionalità di segmentazione automatica uniche, i modelli YOLO, in particolare YOLOv8n-seg, YOLO11n-seg e YOLO26n-seg, sono significativamente più piccoli, veloci e computazionalmente più efficienti.

Velocità SAM misurate con PyTorch, velocità YOLO misurate con ONNX Runtime. Test eseguiti su un Apple M4 Air 2025 con 16GB di RAM utilizzando torch==2.10.0, ultralytics==8.4.31 e onnxruntime==1.24.4. Per riprodurre questo test:

Esempio
from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    onnx_path = model.export(format="onnx", dynamic=True)
    model = YOLO(onnx_path)
    model(ASSETS)

Auto-Annotazione: Creazione Efficiente di Dataset

L'auto-annotazione è una potente funzionalità di SAM 2, che consente agli utenti di generare dataset di segmentazione in modo rapido e accurato sfruttando modelli preaddestrati. Questa capacità è particolarmente utile per creare dataset ampi e di alta qualità senza un eccessivo sforzo manuale.

Come Auto-Annotare con SAM 2



Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling

Per auto-annotare il tuo dataset usando SAM 2, segui questo esempio:

Esempio di Auto-Annotazione
from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")
ArgomentoTipoPredefinitoDescrizione
datastrrichiestoPercorso della directory contenente le immagini target per l'annotazione o la segmentazione.
det_modelstr'yolo26x.pt'Percorso del modello di rilevamento YOLO per il rilevamento iniziale degli oggetti.
sam_modelstr'sam_b.pt'Percorso del modello SAM per la segmentazione (supporta varianti SAM, SAM2 e modelli MobileSAM).
devicestr''Dispositivo di calcolo (es. 'cuda:0', 'cpu', o '' per il rilevamento automatico del dispositivo).
conffloat0.25Soglia di confidenza del rilevamento YOLO per filtrare i rilevamenti deboli.
ioufloat0.45Soglia IoU per la Non-Maximum Suppression per filtrare i riquadri sovrapposti.
imgszint640Dimensioni di input per il ridimensionamento delle immagini (deve essere un multiplo di 32).
max_detint300Numero massimo di rilevamenti per immagine per l'efficienza della memoria.
classeslist[int]NoneElenco degli indici di classe da rilevare (es. [0, 1] per persona e bicicletta).
output_dirstrNoneSalva la directory per le annotazioni (predefinito './labels' relativo al percorso dei dati).

Questa funzione facilita la rapida creazione di dataset di segmentazione di alta qualità, ideale per ricercatori e sviluppatori che mirano ad accelerare i propri progetti.

Limitazioni

Nonostante i suoi punti di forza, SAM 2 presenta alcune limitazioni:

  • Stabilità del Tracciamento: SAM 2 potrebbe perdere il tracciamento degli oggetti durante sequenze estese o significativi cambiamenti di prospettiva.
  • Confusione tra Oggetti: Il modello può talvolta confondere oggetti dall'aspetto simile, specialmente in scene affollate.
  • Efficienza con Oggetti Multipli: L'efficienza della segmentazione diminuisce quando si elaborano più oggetti simultaneamente a causa della mancanza di comunicazione tra gli oggetti.
  • Precisione dei Dettagli: Potrebbe perdere dettagli minuti, specialmente con oggetti in rapido movimento. Prompt aggiuntivi possono parzialmente risolvere questo problema, ma la fluidità temporale non è garantita.

Citazioni e ringraziamenti

Se SAM 2 è una parte cruciale del tuo lavoro di ricerca o sviluppo, ti preghiamo di citarlo usando il seguente riferimento:

Citazione
@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

Estendiamo la nostra gratitudine a Meta AI per i loro contributi alla comunità AI con questo modello e dataset innovativo.

FAQ

Cos'è SAM 2 e come migliora il Segment Anything Model (SAM) originale?

SAM 2, il successore del Segment Anything Model (SAM) di Meta, è uno strumento all'avanguardia progettato per la segmentazione completa degli oggetti sia in immagini che in video. Eccelle nella gestione di dati visivi complessi attraverso un'architettura di modello unificata e guidata da prompt, che supporta l'elaborazione in tempo reale e la generalizzazione zero-shot. SAM 2 offre diversi miglioramenti rispetto al SAM originale, tra cui:

  • Architettura di Modello Unificata: Combina capacità di segmentazione di immagini e video in un unico modello.
  • Prestazioni in Tempo Reale: Elabora circa 44 fotogrammi al secondo, rendendolo adatto ad applicazioni che richiedono un feedback immediato.
  • Generalizzazione Zero-Shot: Segmenta oggetti che non ha mai incontrato prima, utile in domini visivi diversi.
  • Perfezionamento Interattivo: Consente agli utenti di perfezionare iterativamente i risultati della segmentazione fornendo prompt aggiuntivi.
  • Gestione Avanzata delle Sfide Visive: Gestisce sfide comuni della segmentazione video come l'occlusione degli oggetti e la loro ricomparsa.

Per ulteriori dettagli sull'architettura e le capacità di SAM 2, esplora il documento di ricerca su SAM 2.

Come posso usare SAM 2 per la segmentazione video in tempo reale?

SAM 2 può essere utilizzato per la segmentazione video in tempo reale sfruttando la sua interfaccia guidata da prompt e le capacità di inferenza in tempo reale. Ecco un esempio di base:

Segmentazione con prompt

Usa i prompt per segmentare oggetti specifici in immagini o video.

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

Per un utilizzo più completo, consulta la sezione Come usare SAM 2.

Quali dataset vengono utilizzati per addestrare SAM 2 e come migliorano le sue prestazioni?

SAM 2 è addestrato sul dataset SA-V, uno dei dataset di segmentazione video più ampi e diversificati disponibili. Il dataset SA-V include:

  • 51.000+ Video: Catturati in 47 paesi, fornendo una vasta gamma di scenari del mondo reale.
  • 600.000+ Annotazioni di maschere: Dettagliate annotazioni spaziotemporali delle maschere, denominate "masklets", che coprono oggetti interi e parziali.
  • Scala del Dataset: Presenta 4,5 volte più video e 53 volte più annotazioni rispetto ai dataset più ampi precedenti, offrendo una diversità e una complessità senza precedenti.

Questo ampio dataset consente a SAM 2 di ottenere prestazioni superiori nei principali benchmark di segmentazione video e migliora le sue capacità di generalizzazione zero-shot. Per maggiori informazioni, vedi la sezione Dataset SA-V.

Come gestisce SAM 2 le occlusioni e le ricomparse degli oggetti nella segmentazione video?

SAM 2 include un sofisticato meccanismo di memoria per gestire le dipendenze temporali e le occlusioni nei dati video. Il meccanismo di memoria consiste in:

  • Codificatore di Memoria e Banca di Memoria: Memorizza le caratteristiche dai fotogrammi passati.
  • Modulo di Attenzione alla Memoria: Utilizza le informazioni memorizzate per mantenere un tracciamento coerente degli oggetti nel tempo.
  • Head di Occlusione: Gestisce specificamente scenari in cui gli oggetti non sono visibili, prevedendo la probabilità che un oggetto sia occluso.

Questo meccanismo garantisce la continuità anche quando gli oggetti sono temporaneamente oscurati o escono ed entrano nuovamente nella scena. Per maggiori dettagli, consulta la sezione Meccanismo di Memoria e Gestione dell'Occlusione.

Come si confronta SAM 2 con altri modelli di segmentazione come YOLO26?

I modelli SAM 2, come SAM2-t e SAM2-b di Meta, offrono potenti capacità di segmentazione zero-shot ma sono significativamente più grandi e più lenti rispetto ai modelli YOLO. Ad esempio, YOLO26n-seg è circa 24 volte più piccolo e oltre 1145 volte più veloce di SAM2-b su CPU. Mentre SAM 2 eccelle in scenari di segmentazione versatili, basati su prompt e zero-shot, YOLO26 è ottimizzato per velocità, efficienza e applicazioni in tempo reale con inferenza end-to-end senza NMS, rendendolo più adatto per il deployment in ambienti con risorse limitate.

Commenti