
Link to this sectionMobile Segment Anything (MobileSAM)#
MobileSAM è un modello di segmentazione di immagini compatto ed efficiente, appositamente creato per dispositivi mobile ed edge. Progettato per portare la potenza del Segment Anything Model (SAM) di Meta in ambienti con calcolo limitato, MobileSAM offre una segmentazione quasi istantanea mantenendo la compatibilità con la pipeline SAM originale. Che tu stia sviluppando applicazioni in tempo reale o distribuzioni leggere, MobileSAM fornisce risultati di segmentazione impressionanti con una frazione dei requisiti di dimensione e velocità dei suoi predecessori.
Watch: How to Run Inference with MobileSAM using Ultralytics | Step-by-Step Guide 🎉
MobileSAM è stato adottato in una varietà di progetti, tra cui Grounding-SAM, AnyLabeling e Segment Anything in 3D.
MobileSAM è stato addestrato su una singola GPU utilizzando un dataset di 100k immagini (l'1% delle immagini originali) in meno di un giorno. Il codice di addestramento verrà rilasciato in futuro.
Link to this sectionModelli disponibili, attività supportate e modalità operative#
La tabella seguente delinea il modello MobileSAM disponibile, i suoi pesi pre-addestrati, le attività supportate e la compatibilità con diverse modalità operative come Inference, Validation, Training e Export. Le modalità supportate sono indicate da ✅ e quelle non supportate da ❌.
| Tipo di modello | Pesi pre-addestrati | Attività supportate | Inferenza | Validazione | Addestramento | Esportazione |
|---|---|---|---|---|---|---|
| MobileSAM | mobile_sam.pt | Segmentazione di istanze | ✅ | ❌ | ❌ | ❌ |
Link to this sectionConfronto MobileSAM vs YOLO#
Il seguente confronto evidenzia le differenze tra le varianti SAM di Meta, MobileSAM e i modelli di segmentazione Ultralytics inclusi YOLO26n-seg:
| Modello | Dimensioni (MB) | Parametri (M) | Velocità (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM2-b | 162 | 80.8 | 28867 |
| Meta SAM2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s con backbone YOLOv8 | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (11.0x più piccolo) | 3.4 (11.4x in meno) | 24.8 (945x più veloce) |
| Ultralytics YOLO11n-seg | 6.2 (12.6x più piccolo) | 2.9 (13.4x in meno) | 24.3 (964x più veloce) |
| Ultralytics YOLO26n-seg | 6.7 (11.7x più piccolo) | 2.7 (14.4x in meno) | 25.2 (930x più veloce) |
Questo confronto dimostra le sostanziali differenze nelle dimensioni e nella velocità del modello tra le varianti SAM e i modelli di segmentazione YOLO. Mentre i modelli SAM offrono capacità di segmentazione automatica uniche, i modelli YOLO—specialmente YOLOv8n-seg, YOLO11n-seg e YOLO26n-seg—sono significativamente più piccoli, più veloci e più efficienti dal punto di vista computazionale.
Velocità SAM misurate con PyTorch, velocità YOLO misurate con ONNX Runtime. Test eseguiti su un Apple M4 Air 2025 con 16GB di RAM utilizzando torch==2.10.0, ultralytics==8.4.31 e onnxruntime==1.24.4. Per riprodurre questi risultati:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Link to this sectionAdattamento da SAM a MobileSAM#
MobileSAM mantiene la stessa pipeline del SAM originale, inclusi pre-elaborazione, post-elaborazione e tutte le interfacce. Ciò significa che puoi passare da SAM a MobileSAM con modifiche minime al tuo flusso di lavoro.
La differenza principale è l'encoder dell'immagine: MobileSAM sostituisce l'encoder originale ViT-H (637M parametri) con un encoder Tiny-ViT molto più piccolo (5M parametri). Su una singola GPU, MobileSAM elabora un'immagine in circa 12ms (8ms per l'encoder, 4ms per il decoder delle maschere).
Link to this sectionConfronto Encoder Immagini Basato su ViT#
| Encoder Immagini | SAM Originale | MobileSAM |
|---|---|---|
| Parametri | 637M | 5M |
| Velocità | 452ms | 8ms |
Link to this sectionDecodificatore di Maschere Guidato da Prompt#
| Decodificatore di Maschere | SAM Originale | MobileSAM |
|---|---|---|
| Parametri | 3.876M | 3.876M |
| Velocità | 4ms | 4ms |
Link to this sectionConfronto Intera Pipeline#
| Intera Pipeline (Enc+Dec) | SAM Originale | MobileSAM |
|---|---|---|
| Parametri | 641M | 9.66M |
| Velocità | 456ms | 12ms |
Le prestazioni di MobileSAM e del SAM originale sono illustrate di seguito utilizzando sia prompt di tipo punto che di tipo riquadro.


MobileSAM è circa 7 volte più piccolo e 5 volte più veloce di FastSAM. Per ulteriori dettagli, visita la pagina del progetto MobileSAM.
Link to this sectionTestare MobileSAM in Ultralytics#
Proprio come il SAM originale, Ultralytics fornisce un'interfaccia semplice per testare MobileSAM, supportando sia prompt di tipo Punto che Riquadro.
Link to this sectionDownload del Modello#
Scarica i pesi pre-addestrati di MobileSAM dagli asset di Ultralytics.
Link to this sectionPrompt Punto#
from ultralytics import SAM
# Load the model
model = SAM("mobile_sam.pt")
# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])
# Predict multiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])
# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Link to this sectionPrompt Riquadro#
from ultralytics import SAM
# Load the model
model = SAM("mobile_sam.pt")
# Predict a segment based on a single box prompt
model.predict("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])
# Predict multiple segments based on multiple box prompts
model.predict("ultralytics/assets/zidane.jpg", bboxes=[[439, 437, 524, 709], [114, 196, 313, 708]])Sia MobileSAM che SAM condividono la stessa API. Per ulteriori dettagli sull'utilizzo, consulta la documentazione SAM.
Link to this sectionCostruisci Automaticamente Dataset di Segmentazione Usando un Modello di Rilevamento#
Per annotare automaticamente il tuo dataset con il framework Ultralytics, usa la funzione auto_annotate come mostrato di seguito:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="mobile_sam.pt")| Argomento | Tipo | Predefinito | Descrizione |
|---|---|---|---|
data | str | obbligatorio | Percorso della directory contenente le immagini target per l'annotazione o la segmentazione. |
det_model | str | 'yolo26x.pt' | Percorso del modello di rilevamento YOLO per il rilevamento iniziale degli oggetti. |
sam_model | str | 'sam_b.pt' | Percorso del modello SAM per la segmentazione (supporta pesi SAM, SAM 2, MobileSAM e SAM 3). |
device | str | '' | Dispositivo di calcolo (es. 'cuda:0', 'cpu' o '' per il rilevamento automatico del dispositivo). |
conf | float | 0.25 | Soglia di confidenza del rilevamento YOLO per filtrare i rilevamenti deboli. |
iou | float | 0.45 | Soglia IoU per la Soppressione Non Massima (Non-Maximum Suppression) per filtrare i riquadri sovrapposti. |
imgsz | int | 640 | Dimensione di input per ridimensionare le immagini (deve essere un multiplo di 32). |
max_det | int | 300 | Numero massimo di rilevamenti per immagine per l'efficienza della memoria. |
classes | list[int] | None | Lista degli indici di classe da rilevare (es. [0, 1] per persona e bicicletta). |
output_dir | str | None | Directory di salvataggio per le annotazioni (predefinito: sorella di <data>_auto_annotate_labels). |
Link to this sectionCitazioni e riconoscimenti#
Se MobileSAM ti è utile nella tua ricerca o sviluppo, ti preghiamo di considerare di citare il seguente paper:
@article{mobile_sam,
title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
journal={arXiv preprint arXiv:2306.14289},
year={2023}
}Leggi il paper completo di MobileSAM su arXiv.
Link to this sectionFAQ#
Link to this sectionCos'è MobileSAM e come differisce dal modello SAM originale?#
MobileSAM è un modello di image segmentation leggero e veloce ottimizzato per applicazioni mobile ed edge. Mantiene la stessa pipeline del SAM originale ma sostituisce il grande encoder ViT-H (637M parametri) con un compatto encoder Tiny-ViT (5M parametri). Di conseguenza, MobileSAM è circa 5 volte più piccolo e 7 volte più veloce del SAM originale, operando a circa 12ms per immagine contro i 456ms di SAM. Esplora di più sull'implementazione di MobileSAM sul repository GitHub di MobileSAM.
Link to this sectionCome posso testare MobileSAM usando Ultralytics?#
Testare MobileSAM in Ultralytics è semplice. Puoi usare prompt di tipo Punto e Riquadro per prevedere i segmenti. Ad esempio, usando un prompt di tipo Punto:
from ultralytics import SAM
# Load the model
model = SAM("mobile_sam.pt")
# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])Per maggiori dettagli, vedi la sezione Testare MobileSAM in Ultralytics.
Link to this sectionPerché dovrei usare MobileSAM per la mia applicazione mobile?#
MobileSAM è ideale per applicazioni mobile ed edge grazie al suo design leggero e alla rapida velocità di inferenza. Rispetto al SAM originale, MobileSAM è circa 5 volte più piccolo e 7 volte più veloce, rendendolo adatto alla segmentazione in tempo reale su dispositivi con risorse computazionali limitate. La sua efficienza consente ai dispositivi mobile di eseguire segmentazione di immagini in tempo reale senza latenza significativa. Inoltre, MobileSAM supporta la modalità di Inferenza ottimizzata per le prestazioni mobile.
Link to this sectionCome è stato addestrato MobileSAM e il codice di addestramento è disponibile?#
MobileSAM è stato addestrato su una singola GPU con un dataset di 100k immagini (l'1% delle immagini originali) in meno di un giorno. Sebbene il codice di addestramento verrà rilasciato in futuro, attualmente puoi accedere ai pesi pre-addestrati e ai dettagli dell'implementazione dal repository GitHub di MobileSAM.
Link to this sectionQuali sono i principali casi d'uso per MobileSAM?#
MobileSAM è progettato per una segmentazione di immagini veloce ed efficiente in ambienti mobile ed edge. I principali casi d'uso includono:
- Rilevamento e segmentazione di oggetti in tempo reale per app mobile
- Elaborazione immagini a bassa latenza su dispositivi con risorse di calcolo limitate
- Integrazione in applicazioni mobile basate sull'IA per realtà aumentata (AR), analisi e altro
Per ulteriori dettagli sui casi d'uso e sulle prestazioni, consulta Adattamento da SAM a MobileSAM e il blog di Ultralytics sulle applicazioni di MobileSAM.