SAM 3 : Segmenter n'importe quoi avec des concepts

Q: When Will SAM 3 Be Released?

SAM 3 a été publié par Meta le 20 novembre 2025. La prise en charge d'Ultralytics est en cours et sera livrée dans une prochaine mise à jour du paquet avec des documents complets pour le mode prédictif et le mode de track .

Q: Will SAM 3 Be Integrated Into Ultralytics?

Oui. SAM 3 sera pris en charge dans le package Ultralytics Python dès sa sortie, y compris la segmentation des concepts, les invites visuelles de type SAM 2 et le suivi vidéo multi-objets. Vous pourrez exporter vers des formats tels que ONNX et TensorRT pour le déploiement, avec des flux de travail Python et CLI rationalisés.

Q: What datasets are used to train SAM 3?

SAM 3 est entraîné sur l'ensemble de données Segment Anything with Concepts (SA-Co) : Données d'entraînement : Données de référence : Cette échelle massive et cette diversité permettent à SAM 3 d'obtenir une généralisation supérieure à zéro sur des concepts à vocabulaire ouvert.

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 et YOLO11 répondent à des besoins différents : SAM 3 Avantages : YOLO11 Avantages : Recommandation :

Q: How accurate is SAM 3 compared to human performance?

Sur le benchmark SA-Co/Gold avec triple annotation humaine : SAM 3 atteint une performance élevée proche de la précision humaine sur la segmentation des concepts du vocabulaire ouvert, l'écart se situant principalement sur les concepts ambigus ou subjectifs (par exemple, "petite fenêtre", "chambre confortable").

Released - Intégration d'Ultralytics en cours

Meta a publié SAM le 20 novembre 2025. Ultralytics est en train d'intégrer les modèles et fournira bientôt une mise à jour du paquet avec un support natif. En attendant, vous pouvez suivre les étapes du README officiel de SAM 3 ci-dessous pour essayer la version amont.

SAM 3 - Vue d'ensemble

SAM 3 (Segment Anything Model 3) est le modèle de base publié par Meta pour la segmentation de concepts par messages-guides (PCS). S'appuyant sur SAM 2, SAM 3 introduit une capacité fondamentalement nouvelle : la détection, la segmentation et le suivi de toutes les occurrences d'un concept visuel spécifié par des invites textuelles, des exemples d'images, ou les deux. Contrairement aux versions précédentes de SAM qui segment objets uniques par invite, SAM 3 peut trouver et segment chaque occurrence d'un concept apparaissant n'importe où dans les images ou les vidéos, s'alignant ainsi sur les objectifs de vocabulaire ouvert dans la segmentation d'instance moderne.

Ultralytics intègre activement SAM dans le système de gestion de l'information de l'entreprise. ultralytics . En attendant cette version, vous pouvez expérimenter l'implémentation de Meta en amont. En attendant cette version, vous pouvez expérimenter l'implémentation de Meta en amont en suivant les étapes d'installation et d'utilisation officielles ci-dessous.

Aperçu

SAM 3 réalise un gain de performance de 2× par rapport aux systèmes existants dans le domaine de la segmentation conceptuelle avec invite, tout en conservant et en améliorant les capacités de SAM 2 en matière de segmentation visuelle interactive. Le modèle excelle dans la segmentation à vocabulaire ouvert, permettant aux utilisateurs de spécifier des concepts à l'aide d'expressions nominales simples (par exemple, "bus scolaire jaune", "chat rayé") ou en fournissant des exemples d'images de l'objet cible. Ces capacités complètent les chaînes de production prêtes à l'emploi qui reposent sur des processus rationalisés de prédiction et de track rationalisés.

SAM 3 Segmentation

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

La tâche PCS prend un concept en entrée et renvoie des masques de segmentation avec des identités uniques pour toutes les instances d'objets correspondantes. Les invites conceptuelles peuvent être :

Texte: Expressions nominales simples telles que "pomme rouge" ou "personne portant un chapeau", similaires à l'apprentissage en mode "zéro".
Exemples d'images: Boîtes de délimitation autour des exemples d'objets (positifs ou négatifs) pour une généralisation rapide
Combiné: Les exemples de texte et d'image sont combinés pour un contrôle précis.

Cela diffère des invites visuelles traditionnelles (points, boîtes, masques) qui ne segment qu'une seule instance d'objet spécifique, comme l'a popularisé la familleSAM d'origine.

Principaux indicateurs de performance

Métrique	SAM 3 Réalisation
LVIS Zero-Shot Mask AP	47,0 (contre 38,5 précédemment, soit une amélioration de +22%)
Benchmark SA-Co	2× plus performant que les systèmes existants
Vitesse d'inférence ( GPU H200)	30 ms par image avec plus de 100 objets détectés
Performance vidéo	Presque en temps réel pour ~5 objets simultanés
Benchmark MOSEv2 VOS	60,1 J&F (+25,5% par rapport à SAM 2.1, +17% par rapport à la SOTA précédente)
Affinement interactif	+18,6 Amélioration du CGF1 après 3 messages types
Lacunes en matière de performances humaines	Atteint 88% de la limite inférieure estimée pour SA-Co/Gold

Pour en savoir plus sur les mesures des modèles et les compromis en matière de production, voir les informations relatives à l'évaluation des modèles et les mesures de performanceYOLO .

Architecture

SAM 3 se compose d'un détecteur et d'un suiveur qui partagent un encodeur de perception (PE). Cette conception découplée évite les conflits de tâches tout en permettant à la fois la détection au niveau de l'image et le suivi au niveau de la vidéo, avec une interface compatible avec l'utilisation d' Ultralytics Python et CLI

Composants principaux

Détecteur: Architecture basée sur le DETR pour la détection de concepts au niveau de l'image
- Encodeur de texte pour les phrases nominales
- Encodeur d'exemples pour les messages-guides basés sur l'image
- Encodeur de fusion pour conditionner les caractéristiques de l'image sur des invites
- Nouvelle tête de présence qui dissocie la reconnaissance ("quoi") de la localisation ("où")
- Tête de masque pour générer des masques de segmentation d'instance
Traqueur: Segmentation vidéo basée sur la mémoire héritée de SAM 2
- Encodeur de messages, décodeur de masques, encodeur de mémoire
- Banque de mémoire pour le stockage de l'apparence des objets à travers les images
- Désambiguïsation temporelle assistée par des techniques telles que le filtre de Kalman dans des contextes multi-objets
Jeton de présence: Un jeton global appris qui prédit si le concept cible est présent dans l'image ou la séquence, ce qui améliore la détection en séparant la reconnaissance de la localisation.

Architecture SAM 3

Principales innovations

Reconnaissance et localisation découplées: La tête de présence prédit la présence du concept à l'échelle mondiale, tandis que les requêtes de proposition se concentrent uniquement sur la localisation, ce qui permet d'éviter les conflits d'objectifs.
Invitations conceptuelles et visuelles unifiées: Prend en charge à la fois les PCS (invites conceptuelles) et les PVS (invites visuelles telles que les clics/boîtes de SAM 2) dans un seul modèle.
Affinage interactif des exemples: Les utilisateurs peuvent ajouter des exemples d'images positives ou négatives pour affiner les résultats de manière itérative, le modèle se généralisant à des objets similaires au lieu de se contenter de corriger des exemples individuels.
Désambiguïsation temporelle: Utilise les scores de détection des masques et les relances périodiques pour gérer les occlusions, les scènes encombrées et les échecs de suivi dans les vidéos, en s'alignant sur les meilleures pratiques en matière de segmentation et de suivi des instances.

Ensemble de données SA-Co

SAM 3 est entraîné sur Segment Anything with Concepts (SA-Co), l'ensemble de données de segmentation le plus vaste et le plus diversifié de Meta à ce jour, qui va au-delà des références courantes telles que COCO et LVIS.

Données de formation

Composant de l'ensemble de données	Description	Échelle
SA-Co/HQ	Données d'images de haute qualité annotées par l'homme grâce à un moteur de données en 4 phases	5,2 millions d'images, 4 millions d'expressions nominales uniques
SA-Co/SYN	Ensemble de données synthétiques étiquetées par l'IA sans intervention humaine	38 millions de noms, 1,4 milliard de masques
SA-Co/EXT	15 ensembles de données externes enrichis de négatifs durs	Varie selon la source
SA-Co/VIDEO	Annotations vidéo avec suivi temporel	52.5K vidéos, 24.8K expressions nominales uniques

Données de référence

Le référentiel d'évaluation SA-Co contient 214 000 phrases uniques réparties sur 126 000 images et vidéos, soit 50 fois plus de concepts que les référentiels existants. Il comprend

SA-Co/Gold: 7 domaines, triple annotés pour mesurer les limites de la performance humaine
SA-Co/Silver: 10 domaines, une seule annotation humaine
SA-Co/Bronze et SA-Co/Bio: 9 jeux de données existants adaptés à la segmentation des concepts
SA-Co/VEval: test vidéo avec 3 domaines (SA-V, YT-Temporal-1B, SmartGlasses)

Innovations en matière de moteur de données

Le moteur de données évolutif de SAM 3, basé sur des humains et des modèles en boucle, permet de multiplier par deux le débit d'annotation:

Annotateurs d'IA: Les modèles basés sur les lamas proposent diverses expressions nominales, y compris des négations dures.
Vérificateurs d'IA: Des LLM multimodaux finement réglés vérifient la qualité et l'exhaustivité des masques avec des performances proches de celles de l'homme.
Exploitation minière active: L'effort humain se concentre sur les cas d'échec difficiles pour lesquels l'intelligence artificielle éprouve des difficultés.
Piloté par l'ontologie: Exploite une vaste ontologie fondée sur Wikidata pour la couverture des concepts.

Installation

SAM 3 sera disponible directement dans le package Ultralytics une fois l'intégration réalisée. L'installation sera maintenue :

pip install ultralytics

Les modèles sont téléchargés automatiquement lors de leur première utilisation. Vous pouvez ensuite utiliser le mode prédictif standard et exporter ultérieurement les modèles dans des formats tels que ONNX et TensorRT pour le déploiement. Une mise à jour du paquet avec les poids et les configurations de SAM sera bientôt disponible.

Comment utiliser SAM 3 : Versatilité dans la segmentation des concepts

Aperçu de l'API Ultralytics

Les exemples suivants montrent l'API Ultralytics prévue une fois que SAM 3 sera livré. Jusqu'à l'intégration, les détails peuvent changer.

Tâches et modèles pris en charge

SAM 3 prend en charge les tâches de segmentation conceptuelle rapide (PCS) et de segmentation visuelle rapide (PVS) :

Type de tâche	Types d'invites	Sortie
Segmentation du concept (PCS)	Texte (phrases nominales), images exemplaires	Toutes les instances correspondant au concept
Segmentation visuelle (PVS)	Points, boîtes, masques	Instance d'un seul objetSAM styleSAM 2)
Affinement interactif	Ajouter/supprimer des exemples ou des clics de manière itérative	Segmentation affinée avec une meilleure précision

Exemples de segmentation de concepts

Segmenter à l'aide d'invites textuelles

Segmentation des concepts basée sur le texte

Trouver et segment toutes les instances d'un concept à l'aide d'une description textuelle.

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Segment avec des exemples d'images

Segmentation basée sur les exemples d'images

Utilisez un ou plusieurs exemples d'objets pour trouver toutes les instances similaires.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Raffinement itératif à l'aide d'exemples

Améliorer progressivement les résultats en ajoutant des messages-types basés sur les résultats initiaux.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Segmentation des concepts vidéo

Suivre les concepts à travers la vidéo

Détecter et track toutes les occurrences d'un concept dans une vidéo.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Pour les installations de production et de diffusion en continu plus larges, voir le suivi des objets et l'affichage des résultats dans le terminal.

Invitations visuellesSAM compatibilitéSAM 2)

SAM 3 conserve une compatibilité ascendante totale avec l'assistance visuelle de SAM 2 :

Invitations visuelles SAM 2 Style

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Bancs d'essai de performance

Segmentation d'images

SAM 3 obtient des résultats de pointe sur de nombreux bancs d'essai, y compris des ensembles de données réelles comme LVIS et COCO pour la segmentation:

Benchmark	Métrique	SAM 3	Précédent Best	Amélioration
LVIS (tir à vide)	Masque AP	47.0	38.5	+22.1%
SA-Co/Or	CGF1	65.0	34.3 (OWLv2)	+89.5%
COCO (zéro-coup)	Boîte AP	53.5	52,2 (T-Rex2)	+2.5%
ADE-847 (segment sémantique)	mIoU	14.7	9,2 (APE-D)	+59.8%
PascalConcept-59	mIoU	59.4	58,5 (APE-D)	+1.5%
Paysages urbains (segment sémantique)	mIoU	65.1	44,2 (APE-D)	+47.3%

Explorer les options d'ensembles de données pour une expérimentation rapide dans les ensembles de donnéesUltralytics .

Performances de la segmentation vidéo

SAM 3 montre des améliorations significatives par rapport à SAM 2 et à l'état de l'art antérieur sur des benchmarks vidéo tels que DAVIS 2017 et YouTube-VOS:

Benchmark	Métrique	SAM 3	SAM 2.1 L	Amélioration
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Adaptation en quelques plans

SAM 3 excelle à s'adapter à de nouveaux domaines avec un minimum d'exemples, ce qui est pertinent pour les flux de travail d'IA centrés sur les données:

Benchmark	AP à 0 coup	AP à 10 coups	Meilleur précédent (10 coups)
ODinW13	59.9	71.6	67,9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33,7 (gDino-T)

Les messages-guides de SAM 3, basés sur des concepts et accompagnés d'exemples, convergent beaucoup plus rapidement que les messages-guides visuels :

Invitations ajoutées	Score CGF1	Gain ou texte seul	Gain par rapport à la ligne de base du PVS
Texte uniquement	46.4	ligne de base	ligne de base
+1 exemplaire	57.6	+11.2	+6.7
+2 exemples	62.2	+15.8	+9.7
+3 exemples	65.0	+18.6	+11.2
+4 exemplaires	65.7	+19.3	+11,5 (plateau)

Précision du comptage d'objets

SAM 3 permet un comptage précis en segmentant toutes les instances, une exigence courante dans le comptage d'objets:

Benchmark	Précision	MAE	vs Best MLLM
Bancs d'essai	95.6%	0.11	92,4% (Gemini 2.5)
PixMo-Count	87.3%	0.22	88,8 % (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Comparaison

Nous comparons ici les capacités de SAM 3 à celles de SAM 2 et de YOLO11 et les modèles YOLO11

Capacité	SAM 3	SAM 2	YOLO11n-seg
Segmentation des concepts	✅ Toutes les instances du texte/exemplaires	❌ Non pris en charge	❌ Non pris en charge
Segmentation visuelle	✅ Instance uniqueSAM compatibleSAM 2)	✅ Instance unique	Toutes les instances
Capacité de tir nul	✅ Vocabulaire ouvert	✅ Incitations à la géométrie	❌ Ensemble fermé
Affinement interactif	✅ Exemplaires + clics	Clics uniquement	❌ Non pris en charge
Suivi vidéo	✅ Multi-objets avec identités	✅ Multi-objets	✅ Multi-objets
Masque LVIS AP (tir nul)	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
Vitesse d'inférence (H200)	30 ms (100+ objets)	~23 ms (par objet)	2-3 ms (image)
Taille du modèle	Large (~400+ MB attendus)	162 MB (base)	5.9 MB

Principaux enseignements:

SAM 3: Meilleur pour la segmentation de concepts à vocabulaire ouvert, la recherche de toutes les occurrences d'un concept à l'aide d'un texte ou d'un exemple.
SAM 2: La meilleure solution pour la segmentation interactive d'un seul objet dans des images et des vidéos avec des invites géométriques
YOLO11: Le meilleur pour la segmentation en temps réel et à grande vitesse dans les déploiements à ressources limitées en utilisant des pipelines d'exportation efficaces tels que ONNX et TensorRT

Mesures d'évaluation

SAM 3 introduit de nouvelles mesures conçues pour la tâche PCS, en complément des mesures familières telles que le score F1, la précision et le rappel.

Classification-Gated F1 (CGF1)

Il s'agit de la principale mesure combinant la localisation et la classification :

CGF1 = 100 × pmF1 × IL_MCC

Où :

pmF1 (Positive Macro F1) : Mesure la qualité de la localisation sur des exemples positifs
IL_MCC (coefficient de corrélation de Matthews au niveau de l'image) : Mesure la précision de la classification binaire ("le concept est-il présent ?")

Pourquoi ces mesures ?

Les mesures traditionnelles d'AP ne tiennent pas compte de l'étalonnage, ce qui rend les modèles difficiles à utiliser dans la pratique. En n'évaluant que les prédictions supérieures à 0,5 de confiance, les mesures de SAM 3 imposent un bon calibrage et imitent les modèles d'utilisation du monde réel dans les domaines de la prédiction interactive et du track boucles interactives.

Ablations et aperçus clés

Impact de la tête de présence

La tête de présence dissocie la reconnaissance de la localisation, ce qui apporte des améliorations significatives :

Configuration	CGF1	IL_MCC	pmF1
Sans présence	57.6	0.77	74.7
Avec présence	63.3	0.82	77.1

La tête de présence apporte un gain de +5,7 CGF1 (+9,9 %), améliorant principalement la capacité de reconnaissance (IL_MCC +6,5 %).

Effet des négatifs durs

Négatifs durs/Image	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

Les négations dures sont cruciales pour la reconnaissance du vocabulaire ouvert, améliorant IL_MCC de 54,5 % (0,44 → 0,68).

Mise à l'échelle des données d'apprentissage

Sources de données	CGF1	IL_MCC	pmF1
Externe uniquement	30.9	0.46	66.3
Externe + synthétique	39.7	0.57	70.6
Extérieur + Siège	51.8	0.71	73.2
Les trois	54.3	0.74	73.5

Des annotations humaines de haute qualité permettent d'obtenir des gains importants par rapport aux données synthétiques ou externes seules. Pour en savoir plus sur les pratiques en matière de qualité des données, voir Collecte et annotation des données.

Applications

La capacité de segmentation des concepts de SAM 3 permet de nouveaux cas d'utilisation :

Modération du contenu: Recherche de toutes les occurrences de types de contenus spécifiques dans les médiathèques
Commerce électronique: Segmentation de tous les produits d'un certain type dans les images de catalogue, avec prise en charge de l 'auto-annotation
Imagerie médicale: Identifier toutes les occurrences de types de tissus ou d'anomalies spécifiques
Systèmes autonomes: Suivre toutes les occurrences de panneaux de signalisation, de piétons ou de véhicules par catégorie.
Analyse vidéo: Compter et track toutes les personnes portant des vêtements spécifiques ou effectuant des actions.
Annotation des ensembles de données: Annotation rapide de toutes les instances de catégories d'objets rares
Recherche scientifique: Quantifier et analyser tous les spécimens correspondant à des critères spécifiques

SAM 3 Agent : Raisonnement en langage étendu

SAM 3 peut être combiné avec des modèles linguistiques multimodaux (MLLM) pour traiter des requêtes complexes nécessitant un raisonnement, dans un esprit similaire à celui des systèmes de vocabulaire ouvert tels que OWLv2 et T-Rex.

Performance dans les tâches de raisonnement

Benchmark	Métrique	SAM 3 Agent (Gemini 2.5 Pro)	Précédent Best
ReasonSeg (validation)	gIoU	76.0	65,0 (SoTA)
ReasonSeg (test)	gIoU	73.8	61,3 (SoTA)
OmniLabel (validation)	AP	46.7	36,5 (RÉEL)
RefCOCO+	Acc	91.2	89,3 (LISA)

Exemple de requêtes complexes

SAM 3 L'agent peut traiter des requêtes nécessitant un raisonnement :

"Les gens sont assis mais ne tiennent pas de paquet cadeau dans leurs mains.
"Le chien le plus proche de la caméra qui ne porte pas de collier.
"Objets rouges plus grands que la main de la personne".

Le MLLM propose des requêtes de phrases nominales simples à SAM 3, analyse les masques renvoyés et itère jusqu'à ce qu'il soit satisfait.

Limites

Bien que SAM 3 représente une avancée majeure, il présente certaines limites :

Complexité des phrases: Convient mieux aux phrases simples ; les expressions longues ou les raisonnements complexes peuvent nécessiter l'intégration de MLLM.
Traitement de l'ambiguïté: Certains concepts restent intrinsèquement ambigus (par exemple, "petite fenêtre", "chambre confortable").
Exigences informatiques: Plus grand et plus lent que les modèles de détection spécialisés tels que YOLO
Portée du vocabulaire: Concentré sur les concepts visuels atomiques ; le raisonnement compositionnel est limité sans l'aide de MLLM
Concepts rares: Les performances peuvent se dégrader pour des concepts extrêmement rares ou très fins qui ne sont pas bien représentés dans les données d'apprentissage.

Citation

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quand SAM 3 sortira-t-il ?

SAM 3 a été publié par Meta le 20 novembre 2025. La prise en charge d'Ultralytics est en cours et sera livrée dans une prochaine mise à jour du paquet avec des documents complets pour le mode prédictif et le mode detrack .

SAM 3 sera-t-il intégré à Ultralytics?

Oui, SAM 3 sera pris en charge dans le package Ultralytics Python dès sa sortie, y compris la segmentation des concepts, les invites visuelles de type SAM 2 et le suivi vidéo multi-objets. Vous pourrez exporter vers des formats tels que ONNX et TensorRT pour le déploiement, avec des outils Python et CLI rationalisés.

Calendrier de mise en œuvre

Les exemples de code figurant dans cette documentation sont des versions préliminaires montrant les schémas d'utilisation prévus. L'implémentation réelle sera disponible une fois l'intégration d'Ultralytics terminée.

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

PCS est une nouvelle tâche introduite dans SAM 3 qui segmente toutes les instances d'un concept visuel dans une image ou une vidéo. Contrairement à la segmentation traditionnelle qui cible une instance d'objet spécifique, PCS trouve toutes les occurrences d'une catégorie. Par exemple :

Texte d'incitation: "bus scolaire jaune" → segmente tous les bus scolaires jaunes de la scène
Exemple d'image: Encadrement d'un chien → segmentation de tous les chiens de l'image
Combiné: "chat rayé" + boîte à exemples → segmente tous les chats rayés correspondant à l'exemple.

Voir les informations générales sur la détection d'objets et la segmentation d'instances.

En quoi SAM 3 diffère-t-il de SAM 2 ?

Fonctionnalité	SAM 2	SAM 3
Tâche	Un seul objet par invite	Toutes les instances d'un concept
Types d'invites	Points, boîtes, masques	+ phrases de texte, exemples d'images
Capacité de détection	Nécessite un détecteur externe	Détecteur de vocabulaire ouvert intégré
Reconnaissance	Basé sur la géométrie uniquement	Reconnaissance textuelle et visuelle
Architecture	Traceur uniquement	Détecteur + Traceur avec tête de présence
Performance du tir à zéro	N/A (nécessite des indications visuelles)	47,0 AP sur LVIS, 2× meilleur sur SA-Co
Affinement interactif	Clics uniquement	Clics + généralisation de l'exemple

SAM 3 conserve la compatibilité ascendante avec l'aide visuelle de SAM 2 tout en ajoutant des capacités basées sur des concepts.

Quels sont les ensembles de données utilisés pour former SAM 3 ?

SAM 3 est entraîné sur l'ensemble de données Segment Anything with Concepts (SA-Co) :

Données de formation:

5,2 millions d'images avec 4 millions d'expressions nominales uniques (SA-Co/HQ) - annotations humaines de haute qualité
52,5K vidéos avec 24,8K expressions nominales uniques (SA-Co/VIDEO)
1,4 milliard de masques synthétiques à travers 38 millions d'expressions nominales (SA-Co/SYN)
15 ensembles de données externes enrichis de négatifs durs (SA-Co/EXT)

Données de référence:

214K concepts uniques à travers 126K images/vidéos
50× plus de concepts que les références existantes (par exemple, LVIS a ~4K concepts)
Triple annotation sur SA-Co/Gold pour mesurer les limites de la performance humaine

Cette échelle massive et cette diversité permettent à SAM 3 d'obtenir une généralisation sans faille des concepts à vocabulaire ouvert.

Comment SAM 3 se compare-t-il à YOLO11 pour la segmentation ?

SAM 3 et YOLO11 répondent à des besoins différents :

SAM 3 Avantages:

Vocabulaire ouvert: Permet de segmenter n'importe quel concept à l'aide d'invites textuelles sans formation.
Zéro coup: Travaille immédiatement sur les nouvelles catégories
Interactif: Le raffinement basé sur l'exemple se généralise aux objets similaires
Basé sur des concepts: Recherche automatique de toutes les instances d'une catégorie
Précision: 47,0 AP sur la segmentation de l'instance LVIS zéro-shot

YOLO11 Avantages:

Vitesse: inférence 10-15× plus rapide (2-3ms vs 30ms par image)
Efficacité: modèles 70 fois plus petits (5,9 Mo contre ~400 Mo prévus)
Respectueux des ressources: Fonctionne sur les appareils périphériques et mobiles
En temps réel: Optimisé pour les déploiements en production

Recommandation:

Utilisez SAM 3 pour une segmentation flexible et ouverte du vocabulaire lorsque vous devez trouver toutes les occurrences de concepts décrits par un texte ou des exemples.
Utiliser YOLO11 pour les déploiements de production à grande vitesse où les catégories sont connues à l'avance
Utilisez SAM 2 pour la segmentation interactive d'un seul objet à l'aide d'invites géométriques.

SAM 3 peut-il traiter des requêtes linguistiques complexes ?

SAM 3 est conçu pour les phrases nominales simples (par exemple, "pomme rouge", "personne portant un chapeau"). Pour les requêtes complexes nécessitant un raisonnement, il convient de combiner SAM 3 avec un MLLM sous le nom de SAM 3 Agent:

Requêtes simples (native SAM 3):

"bus scolaire jaune"
"chat rayé
"Personne portant un chapeau rouge

Requêtes complexes (SAM 3 Agent avec MLLM) :

"Les gens s'assoient mais ne tiennent pas de paquet cadeau.
"Le chien le plus proche de l'appareil photo sans collier
"Objets rouges plus grands que la main de la personne".

L'agent SAM 3 atteint 76,0 gIoU sur la validation ReasonSeg (contre 65,0 pour la meilleure performance précédente, soit une amélioration de +16,9%) en combinant la segmentation de SAM 3 avec les capacités de raisonnement de MLLM.

Quelle est la précision de SAM 3 par rapport à la performance humaine ?

Sur le benchmark SA-Co/Gold avec une triple annotation humaine :

Limite inférieure humaine: 74,2 CGF1 (annotateur le plus conservateur)
PerformanceSAM 3: 65,0 CGF1
Réalisation: 88% de la limite inférieure humaine estimée
Limite supérieure humaine: 81,4 CGF1 (annotateur le plus libéral)

SAM 3 atteint des performances élevées, proches de la précision humaine, dans la segmentation des concepts du vocabulaire ouvert, l'écart se situant principalement au niveau des concepts ambigus ou subjectifs (par exemple, "petite fenêtre", "chambre confortable").

📅C réé il y a 1 mois ✏️ Mis à jour il y a 1 jour

SAM 3 : Segmenter n'importe quoi avec des concepts

Aperçu

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

Principaux indicateurs de performance

Architecture

Composants principaux

Principales innovations

Ensemble de données SA-Co

Données de formation

Données de référence

Innovations en matière de moteur de données

Installation

Comment utiliser SAM 3 : Versatilité dans la segmentation des concepts

Tâches et modèles pris en charge

Exemples de segmentation de concepts

Segmenter à l'aide d'invites textuelles

Segment avec des exemples d'images

Affinement interactif

Segmentation des concepts vidéo

Invitations visuellesSAM compatibilitéSAM 2)

Bancs d'essai de performance

Segmentation d'images

Performances de la segmentation vidéo

Adaptation en quelques plans

Efficacité du raffinement interactif

Précision du comptage d'objets

SAM 3 vs SAM 2 vs YOLO Comparaison

Mesures d'évaluation

Classification-Gated F1 (CGF1)

Pourquoi ces mesures ?

Ablations et aperçus clés

Impact de la tête de présence

Effet des négatifs durs

Mise à l'échelle des données d'apprentissage

Applications

SAM 3 Agent : Raisonnement en langage étendu

Performance dans les tâches de raisonnement

Exemple de requêtes complexes

Limites

Citation

FAQ

Quand SAM 3 sortira-t-il ?

SAM 3 sera-t-il intégré à Ultralytics?

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

En quoi SAM 3 diffère-t-il de SAM 2 ?

Quels sont les ensembles de données utilisés pour former SAM 3 ?

Comment SAM 3 se compare-t-il à YOLO11 pour la segmentation ?

SAM 3 peut-il traiter des requêtes linguistiques complexes ?

Quelle est la précision de SAM 3 par rapport à la performance humaine ?

Commentaires