Modèle Segment Anything (SAM)

Bienvenue à la frontière de la segmentation d'images avec le modèle Segment Anything, ou SAM. Ce modèle révolutionnaire a changé la donne en introduisant la segmentation d'images en temps réel, établissant ainsi de nouvelles normes dans ce domaine.

Introduction à SAM: Le modèle Segment Anything

Le modèle Segment Anything, ou SAM, est un modèle de segmentation d'image de pointe qui permet une segmentation rapide, offrant une polyvalence inégalée dans les tâches d'analyse d'image. SAM est au cœur de l'initiative Segment Anything, un projet révolutionnaire qui introduit un nouveau modèle, une nouvelle tâche et un nouvel ensemble de données pour la segmentation d'image.

SAMLa conception avancée du logiciel lui permet de s'adapter à de nouvelles distributions d'images et à de nouvelles tâches sans connaissances préalables, une caractéristique connue sous le nom de transfert "zero-shot". Entraîné sur le vaste ensemble de données SA-1B, qui contient plus d'un milliard de masques répartis sur 11 millions d'images soigneusement sélectionnées, SAM a affiché des performances impressionnantes en matière d'absence de clichés, surpassant dans de nombreux cas les résultats antérieurs entièrement supervisés.

Image de l'échantillon de l'ensemble de données SA-1B Exemples d'images. Images de l'ensemble de données : masques superposés de l'ensemble de données SA-1B récemment introduit. SA-1B contient 11 millions d'images diverses, à haute résolution, sous licence et protégeant la vie privée, ainsi que 1,1 milliard de masques de segmentation de haute qualité. Ces masques ont été annotés de manière entièrement automatique par SAM et, comme l'ont vérifié les évaluations humaines et de nombreuses expériences, ils sont d'une grande qualité et d'une grande diversité. Les images sont regroupées en fonction du nombre de masques par image pour la visualisation (il y a ∼100 masques par image en moyenne).

Principales caractéristiques du modèle Segment Anything (SAM)

Tâche de segmentation avec invite : SAM a été conçu pour effectuer une tâche de segmentation avec invite, ce qui lui permet de générer des masques de segmentation valides à partir de n'importe quelle invite, comme des indices spatiaux ou textuels identifiant un objet.
Architecture avancée : Le modèle Segment Anything utilise un puissant encodeur d'images, un encodeur d'invites et un décodeur de masques léger. Cette architecture unique permet des invites flexibles, le calcul des masques en temps réel et la prise en compte de l'ambiguïté dans les tâches de segmentation.
Le jeu de données SA-1B : Introduit par le projet Segment Anything, l'ensemble de données SA-1B comporte plus d'un milliard de masques sur 11 millions d'images. En tant que plus grand ensemble de données de segmentation à ce jour, il fournit à SAM une source de données d'entraînement diversifiée et à grande échelle.
Performance zéro-coup : SAM affiche une performance zéro-coup exceptionnelle pour diverses tâches de segmentation, ce qui en fait un outil prêt à l'emploi pour diverses applications, avec un besoin minimal d'ingénierie rapide.

Pour un examen approfondi du modèle Segment Anything et de l'ensemble de données SA-1B, veuillez visiter le site web Segment Anything et consulter le document de recherche Segment Anything.

Modèles disponibles, tâches prises en charge et modes de fonctionnement

Ce tableau présente les modèles disponibles avec leurs poids pré-entraînés spécifiques, les tâches qu'ils prennent en charge et leur compatibilité avec différents modes de fonctionnement tels que l'inférence, la validation, l'entraînement et l'exportation, indiqués par des émojis ✅ pour les modes pris en charge et des émojis ❌ pour les modes non pris en charge.

Type de modèle	Poids pré-entraînés	Tâches prises en charge	Inférence	Validation	Formation	Exportation
SAM base	sam_b.pt	Segmentation des instances	✅	❌	❌	❌
SAM important	sam_l.pt	Segmentation des instances	✅	❌	❌	❌

Comment utiliser SAM: Versatilité et puissance dans la segmentation d'images

Le modèle Segment Anything peut être utilisé pour une multitude de tâches en aval qui vont au-delà de ses données d'apprentissage. Cela inclut la détection des bords, la génération de propositions d'objets, la segmentation d'instances et la prédiction préliminaire texte-masque. Grâce à une ingénierie rapide, SAM peut s'adapter rapidement à de nouvelles tâches et à de nouvelles distributions de données, ce qui en fait un outil polyvalent et puissant pour tous vos besoins en matière de segmentation d'images.

SAM exemple de prédiction

Segment avec messages-guides

Segmenter l'image à l'aide d'invites données.

Python

from ultralytics import SAM

# Load a model
model = SAM("sam_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Tout segmenter

Segmenter l'ensemble de l'image.

PythonCLI

from ultralytics import SAM

# Load a model
model = SAM("sam_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/image.jpg")

# Run inference with a SAM model
yolo predict model=sam_b.pt source=path/to/image.jpg

La logique ici est de segmenter l'ensemble de l'image si vous ne passez pas d'invites (bboxes/points/masques).

Exemple de SAMPredictor

De cette façon, vous pouvez définir l'image une fois et exécuter l'inférence des invites plusieurs fois sans exécuter l'encodeur d'image plusieurs fois.

Inclusion rapide

from ultralytics.models.sam import Predictor as SAMPredictor

# Create SAMPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="mobile_sam.pt")
predictor = SAMPredictor(overrides=overrides)

# Set image
predictor.set_image("ultralytics/assets/zidane.jpg")  # set with image file
predictor.set_image(cv2.imread("ultralytics/assets/zidane.jpg"))  # set with np.ndarray
results = predictor(bboxes=[439, 437, 524, 709])

# Run inference with single point prompt
results = predictor(points=[900, 370], labels=[1])

# Run inference with multiple points prompt
results = predictor(points=[[400, 370], [900, 370]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

# Reset image
predictor.reset_image()

Segmenter tout avec des arguments supplémentaires.

Tout segmenter

from ultralytics.models.sam import Predictor as SAMPredictor

# Create SAMPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="mobile_sam.pt")
predictor = SAMPredictor(overrides=overrides)

# Segment with additional args
results = predictor(source="ultralytics/assets/zidane.jpg", crop_n_layers=1, points_stride=64)

Note

Tous les retours results dans les exemples ci-dessus sont Résultats qui permet d'accéder facilement aux masques prédits et à l'image source.

Plus d'arguments supplémentaires pour Segment everything voir Predictor/generate Référence.

Comparaison SAM vs YOLO

Nous comparons ici le modèle SAM de Meta avec le plus petit modèle de segmentation d'Ultralytics , YOLO11n-seg:

Modèle	Taille ^(MB)	Paramètres ^(M)	Vitesse (CPU) ^(ms/im)
Meta SAM-b	375	93.7	49401
MobileSAM	40.7	10.1	25381
FastSAM avecbackbone YOLOv8	23.7	11.8	55.9
Ultralytics YOLOv8n-seg	6,7 (11,7x plus petit)	3,4 (11,4x moins)	24,5 (1061x plus rapide)
Ultralytics YOLO11n-seg	5,9 (13,2x plus petit)	2,9 (13,4x moins)	30.1 (864 fois plus rapide)

Cette comparaison démontre les différences substantielles en termes de taille et de vitesse des modèles entre les variantes SAM et les modèles de segmentation YOLO . Alors que SAM offre des capacités uniques de segmentation automatique, les modèles YOLO , en particulier YOLOv8n et YOLO11n-seg, sont significativement plus petits, plus rapides et plus efficaces en termes de calcul.

Les tests ont été effectués sur un Apple M4 Pro 2025 avec 24 Go de RAM en utilisant torch==2.6.0 et ultralytics==8.3.90. Pour reproduire ce test :

Exemple

Python

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    model(ASSETS)

Auto-Annotation : Un chemin rapide vers les ensembles de données de segmentation

L'auto-annotation est une fonctionnalité clé de SAM, qui permet aux utilisateurs de générer un ensemble de données de segmentation à l'aide d'un modèle de détection pré-entraîné. Cette fonction permet une annotation rapide et précise d'un grand nombre d'images, sans qu'il soit nécessaire de procéder à un étiquetage manuel fastidieux.

Générer un ensemble de données de segmentation à l'aide d'un modèle de détection

Pour auto-annoter votre jeu de données à l'aide du cadre Ultralytics , utilisez l'outil auto_annotate comme indiqué ci-dessous :

Exemple

Python

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo11x.pt", sam_model="sam_b.pt")

Argument	Type	Défaut	Description
`data`	`str`	requis	Chemin d'accès au répertoire contenant les images cibles pour l'annotation ou la segmentation.
`det_model`	`str`	`'yolo11x.pt'`	YOLO chemin du modèle de détection pour la détection initiale de l'objet.
`sam_model`	`str`	`'sam_b.pt'`	Chemin d'accès au modèle SAM pour la segmentation (supporte les modèles SAM, SAM2 et mobile_sam).
`device`	`str`	`''`	Dispositif de calcul (par exemple, "cuda:0 ", "cpu" ou " " pour la détection automatique du dispositif).
`conf`	`float`	`0.25`	YOLO seuil de confiance de détection pour filtrer les détections faibles.
`iou`	`float`	`0.45`	Seuil de référence pour la suppression non maximale afin de filtrer les cases qui se chevauchent.
`imgsz`	`int`	`640`	Taille d'entrée pour le redimensionnement des images (doit être un multiple de 32).
`max_det`	`int`	`300`	Nombre maximum de détections par image pour une meilleure efficacité de la mémoire.
`classes`	`list[int]`	`None`	Liste des indices de classe à détecter (par ex, `[0, 1]` pour les personnes et les vélos).
`output_dir`	`str`	`None`	Répertoire de sauvegarde des annotations (par défaut './labels' par rapport au chemin des données).

Le auto_annotate prend le chemin de vos images, avec des arguments optionnels pour spécifier les modèles de détection et de segmentation SAM pré-entraînés, le dispositif sur lequel exécuter les modèles, et le répertoire de sortie pour enregistrer les résultats annotés.

L'auto-annotation à l'aide de modèles pré-entraînés peut réduire considérablement le temps et les efforts nécessaires à la création d'ensembles de données de segmentation de haute qualité. Cette fonction est particulièrement utile pour les chercheurs et les développeurs confrontés à de grandes collections d'images, car elle leur permet de se concentrer sur le développement et l'évaluation de modèles plutôt que sur l'annotation manuelle.

Citations et remerciements

Si vous trouvez SAM utile dans votre travail de recherche ou de développement, pensez à citer notre article :

BibTeX

@misc{kirillov2023segment,
      title={Segment Anything},
      author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
      year={2023},
      eprint={2304.02643},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Nous tenons à exprimer notre gratitude à Meta AI pour avoir créé et maintenu cette ressource précieuse pour la communauté de la vision par ordinateur.

FAQ

Qu'est-ce que le modèle Segment Anything (SAM) par Ultralytics?

Le Segment Anything ModelSAM d'Ultralytics est un modèle de segmentation d'image révolutionnaire conçu pour les tâches de segmentation par incitation. Il s'appuie sur une architecture avancée, comprenant des encodeurs d'images et d'invites combinés à un décodeur de masque léger, pour générer des masques de segmentation de haute qualité à partir de diverses invites telles que des repères spatiaux ou textuels. Entraîné sur le vaste ensemble de données SA-1B, SAM excelle dans les performances "zero-shot", s'adaptant à de nouvelles distributions d'images et à de nouvelles tâches sans connaissances préalables.

Comment puis-je utiliser le modèle Segment Anything (SAM) pour la segmentation d'images ?

Vous pouvez utiliser le modèle Segment Anything (SAM) pour la segmentation d'images en lançant une inférence avec diverses invites telles que des boîtes de délimitation ou des points. Voici un exemple utilisant Python:

from ultralytics import SAM

# Load a model
model = SAM("sam_b.pt")

# Segment with bounding box prompt
model("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])

# Segment with points prompt
model("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Segment with multiple points prompt
model("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[[1, 1]])

# Segment with multiple points prompt per object
model("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Segment with negative points prompt.
model("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Vous pouvez également lancer l'inférence avec SAM dans l'interface de ligne de commande (CLI) :

yolo predict model=sam_b.pt source=path/to/image.jpg

Pour des instructions d'utilisation plus détaillées, consultez la section Segmentation.

Comment les modèles SAM et YOLO se comparent-ils en termes de performances ?

Par rapport aux modèles YOLO , les variantes SAM telles que SAM, SAM2, MobileSAM et FastSAM sont généralement plus grandes et plus lentes, mais elles offrent des capacités uniques de segmentation sans prise de vue. Par exemple, Ultralytics YOLOv8n est 11,7 fois plus petit et 1069 fois plus rapide que le modèle SAM original de Meta, soulignant l'avantage significatif de YOLO en termes de vitesse et d'efficacité. De même, le nouveau modèle YOLO11n-seg est encore plus petit et conserve une vitesse d'inférence impressionnante. Les modèles YOLO sont donc idéaux pour les applications nécessitant une segmentation rapide, légère et efficace en termes de calcul, tandis que les modèles SAM excellent dans les tâches de segmentation flexibles, rapides et sans prise de vue.

Comment puis-je auto-annoter mon jeu de données en utilisant SAM?

Ultralytics SAM offre une fonction d'auto-annotation qui permet de générer des ensembles de données de segmentation à l'aide d'un modèle de détection pré-entraîné. Voici un exemple dans : Python

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolov8x.pt", sam_model="sam_b.pt")

Cette fonction prend le chemin d'accès à vos images et des arguments facultatifs pour les modèles de détection et de segmentation SAM pré-entraînés, ainsi que les spécifications du périphérique et du répertoire de sortie. Pour un guide complet, voir Auto-Annotation.

Quels sont les ensembles de données utilisés pour former le modèle Segment Anything (SAM) ?

SAM est entraîné sur le vaste ensemble de données SA-1B qui comprend plus d'un milliard de masques sur 11 millions d'images. SA-1B est le plus grand ensemble de données de segmentation à ce jour. Il fournit des données d'entraînement diversifiées et de haute qualité, garantissant des performances impressionnantes dans des tâches de segmentation variées. Pour plus de détails, visitez la section Dataset.

📅C réé il y a 1 an ✏️ Mis à jour il y a 12 jours

Modèle Segment Anything (SAM)

Introduction à SAM: Le modèle Segment Anything

Principales caractéristiques du modèle Segment Anything (SAM)

Modèles disponibles, tâches prises en charge et modes de fonctionnement

Comment utiliser SAM: Versatilité et puissance dans la segmentation d'images

SAM exemple de prédiction

Comparaison SAM vs YOLO

Auto-Annotation : Un chemin rapide vers les ensembles de données de segmentation

Générer un ensemble de données de segmentation à l'aide d'un modèle de détection

Citations et remerciements

FAQ

Qu'est-ce que le modèle Segment Anything (SAM) par Ultralytics?

Comment puis-je utiliser le modèle Segment Anything (SAM) pour la segmentation d'images ?

Comment les modèles SAM et YOLO se comparent-ils en termes de performances ?

Comment puis-je auto-annoter mon jeu de données en utilisant SAM?

Quels sont les ensembles de données utilisés pour former le modèle Segment Anything (SAM) ?

Commentaires