SAM 3 : Segmenter n'importe quoi avec des concepts
Prochainement ⚠️
SAM Les modèles SAM 3 n'ont pas encore été rendus publics par Meta. Les informations ci-dessous sont basées sur le document de recherche soumis à l'ICLR 2026. Les téléchargements de modèles et les benchmarks finaux seront disponibles après la publication officielle de Meta.
SAM 3 (Segment Anything Model 3) représente le modèle de base de nouvelle génération de Meta pour la segmentation de concepts par messages-guides (PCS). S'appuyant sur SAM 2, SAM 3 introduit une capacité fondamentalement nouvelle : la détection, la segmentation et le suivi de toutes les instances d'un concept visuel spécifié par des invites textuelles, des exemples d'images, ou les deux. Contrairement aux versions précédentes de SAM qui segmentent des objets uniques par invite, SAM 3 peut trouver et segmenter chaque occurrence d'un concept apparaissant n'importe où dans les images ou les vidéos, s'alignant ainsi sur les objectifs de vocabulaire ouvert dans la segmentation d'instance moderne.
Aperçu
SAM 3 réalise un gain de performance de 2× par rapport aux systèmes existants dans le domaine de la segmentation conceptuelle avec invite, tout en conservant et en améliorant les capacités de SAM 2 en matière de segmentation visuelle interactive. Le modèle excelle dans la segmentation à vocabulaire ouvert, permettant aux utilisateurs de spécifier des concepts à l'aide d'expressions nominales simples (par exemple, "bus scolaire jaune", "chat rayé") ou en fournissant des exemples d'images de l'objet cible. Ces capacités complètent les pipelines prêts pour la production qui s'appuient sur des flux de travail rationalisés de prédiction et de suivi.
Qu'est-ce que la segmentation en concepts promouvables (PCS) ?
La tâche PCS prend un concept en entrée et renvoie des masques de segmentation avec des identités uniques pour toutes les instances d'objets correspondantes. Les invites conceptuelles peuvent être :
- Texte: Expressions nominales simples telles que "pomme rouge" ou "personne portant un chapeau", similaires à l'apprentissage en mode "zéro".
- Exemples d'images: Boîtes de délimitation autour des exemples d'objets (positifs ou négatifs) pour une généralisation rapide
- Combiné: Les exemples de texte et d'image sont combinés pour un contrôle précis.
Cela diffère des invites visuelles traditionnelles (points, boîtes, masques) qui ne segmentent qu'une seule instance d'objet spécifique, comme l'a popularisé la familleSAM d'origine.
Principaux indicateurs de performance
Métrique | SAM 3 Réalisation |
---|---|
LVIS Zero-Shot Mask AP | 47,0 (contre 38,5 précédemment, soit une amélioration de +22%) |
Benchmark SA-Co | 2× plus performant que les systèmes existants |
Vitesse d'inférence ( GPU H200) | 30 ms par image avec plus de 100 objets détectés |
Performance vidéo | Presque en temps réel pour ~5 objets simultanés |
Benchmark MOSEv2 VOS | 60,1 J&F (+25,5% par rapport à SAM 2.1, +17% par rapport à la SOTA précédente) |
Affinement interactif | +18,6 Amélioration du CGF1 après 3 messages types |
Lacunes en matière de performances humaines | Atteint 88% de la limite inférieure estimée pour SA-Co/Gold |
Pour en savoir plus sur les mesures des modèles et les compromis en matière de production, voir les informations relatives à l'évaluation des modèles et les mesures de performanceYOLO .
Architecture
SAM 3 se compose d'un détecteur et d'un suiveur qui partagent un encodeur de perception (PE). Cette conception découplée évite les conflits de tâches tout en permettant à la fois la détection au niveau de l'image et le suivi au niveau de la vidéo, avec une interface compatible avec l'utilisation d' Ultralytics Python et CLI
Composants principaux
-
Détecteur: Architecture basée sur le DETR pour la détection de concepts au niveau de l'image
- Encodeur de texte pour les phrases nominales
- Encodeur d'exemples pour les messages-guides basés sur l'image
- Encodeur de fusion pour conditionner les caractéristiques de l'image sur des invites
- Nouvelle tête de présence qui dissocie la reconnaissance ("quoi") de la localisation ("où")
- Tête de masque pour générer des masques de segmentation d'instance
-
Traqueur: Segmentation vidéo basée sur la mémoire héritée de SAM 2
- Encodeur de messages, décodeur de masques, encodeur de mémoire
- Banque de mémoire pour le stockage de l'apparence des objets à travers les images
- Désambiguïsation temporelle assistée par des techniques telles que le filtre de Kalman dans des contextes multi-objets
-
Jeton de présence: Un jeton global appris qui prédit si le concept cible est présent dans l'image ou la séquence, ce qui améliore la détection en séparant la reconnaissance de la localisation.
Principales innovations
- Reconnaissance et localisation découplées: La tête de présence prédit la présence du concept à l'échelle mondiale, tandis que les requêtes de proposition se concentrent uniquement sur la localisation, ce qui permet d'éviter les conflits d'objectifs.
- Invitations conceptuelles et visuelles unifiées: Prend en charge à la fois les PCS (invites conceptuelles) et les PVS (invites visuelles telles que les clics/boîtes de SAM 2) dans un seul modèle.
- Affinage interactif des exemples: Les utilisateurs peuvent ajouter des exemples d'images positives ou négatives pour affiner les résultats de manière itérative, le modèle se généralisant à des objets similaires au lieu de se contenter de corriger des exemples individuels.
- Désambiguïsation temporelle: Utilise les scores de détection des masques et les relances périodiques pour gérer les occlusions, les scènes encombrées et les échecs de suivi dans les vidéos, en s'alignant sur les meilleures pratiques en matière de segmentation et de suivi des instances.
Ensemble de données SA-Co
SAM 3 est entraîné sur Segment Anything with Concepts (SA-Co), l'ensemble de données de segmentation le plus important et le plus diversifié de Meta à ce jour, qui va au-delà des références communes telles que COCO et LVIS.
Données de formation
Composant de l'ensemble de données | Description | Échelle |
---|---|---|
SA-Co/HQ | Données d'images de haute qualité annotées par l'homme grâce à un moteur de données en 4 phases | 5,2 millions d'images, 4 millions d'expressions nominales uniques |
SA-Co/SYN | Ensemble de données synthétiques étiquetées par l'IA sans intervention humaine | 38 millions de noms, 1,4 milliard de masques |
SA-Co/EXT | 15 ensembles de données externes enrichis de négatifs durs | Varie selon la source |
SA-Co/VIDEO | Annotations vidéo avec suivi temporel | 52.5K vidéos, 24.8K expressions nominales uniques |
Données de référence
Le référentiel d'évaluation SA-Co contient 214 000 phrases uniques réparties sur 126 000 images et vidéos, soit 50 fois plus de concepts que les référentiels existants. Il comprend
- SA-Co/Gold: 7 domaines, triple annotés pour mesurer les limites de la performance humaine
- SA-Co/Silver: 10 domaines, une seule annotation humaine
- SA-Co/Bronze et SA-Co/Bio: 9 jeux de données existants adaptés à la segmentation des concepts
- SA-Co/VEval: test vidéo avec 3 domaines (SA-V, YT-Temporal-1B, SmartGlasses)
Innovations en matière de moteur de données
Le moteur de données évolutif de SAM 3, basé sur des humains et des modèles en boucle, permet de multiplier par deux le débit d'annotation:
- Annotateurs d'IA: Les modèles basés sur les lamas proposent diverses expressions nominales, y compris des négations dures.
- Vérificateurs d'IA: Des LLM multimodaux finement réglés vérifient la qualité et l'exhaustivité des masques avec des performances proches de celles de l'homme.
- Exploitation minière active: L'effort humain se concentre sur les cas d'échec difficiles pour lesquels l'intelligence artificielle éprouve des difficultés.
- Piloté par l'ontologie: Exploite une vaste ontologie fondée sur Wikidata pour la couverture des concepts.
Installation
SAM 3 sera supporté nativement dans le package Ultralytics dès sa sortie :
pip install ultralytics
Les modèles sont téléchargés automatiquement lors de leur première utilisation. Vous pouvez ensuite utiliser le mode prédictif standard et exporter ultérieurement les modèles dans des formats tels que ONNX et TensorRT pour le déploiement.
Comment utiliser SAM 3 : Versatilité dans la segmentation des concepts
Aperçu de l'API - Sous réserve de modifications
Les exemples de code ci-dessous illustrent les schémas d'utilisation prévus sur la base du document de recherche. L'API proprement dite sera disponible ultérieurement :
- Meta open-sources SAM 3 model weights (en anglais)
- Ultralytics intègre SAM 3 dans le package
La syntaxe et les paramètres peuvent différer dans la mise en œuvre finale. Ces exemples donnent un aperçu des fonctionnalités attendues.
Tâches et modèles pris en charge
SAM 3 prend en charge les tâches de segmentation conceptuelle rapide (PCS) et de segmentation visuelle rapide (PVS) :
Type de tâche | Types d'invites | Sortie |
---|---|---|
Segmentation du concept (PCS) | Texte (phrases nominales), images exemplaires | Toutes les instances correspondant au concept |
Segmentation visuelle (PVS) | Points, boîtes, masques | Instance d'un seul objetSAM styleSAM 2) |
Affinement interactif | Ajouter/supprimer des exemples ou des clics de manière itérative | Segmentation affinée avec une meilleure précision |
Exemples de segmentation de concepts
Segmenter à l'aide d'invites textuelles
Segmentation des concepts basée sur le texte
Trouver et segmenter toutes les instances d'un concept à l'aide d'une description textuelle.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
Aperçu de l'API
Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .
Segment avec des exemples d'images
Segmentation basée sur les exemples d'images
Utilisez un ou plusieurs exemples d'objets pour trouver toutes les instances similaires.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
Aperçu de l'API
Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .
Affinement interactif
Raffinement itératif à l'aide d'exemples
Améliorer progressivement les résultats en ajoutant des messages-types basés sur les résultats initiaux.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
Aperçu de l'API
Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .
Segmentation des concepts vidéo
Suivre les concepts à travers la vidéo
Détecter et suivre toutes les occurrences d'un concept dans une vidéo.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
Aperçu de l'API
Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .
Pour les installations de production et de diffusion en continu plus larges, voir le suivi des objets et l'affichage des résultats dans le terminal.
Invitations visuellesSAM compatibilitéSAM 2)
SAM 3 conserve une compatibilité ascendante totale avec l'assistance visuelle de SAM 2 :
Invitations visuelles SAM 2 Style
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
Aperçu de l'API
Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .
Bancs d'essai de performance
Segmentation d'images
SAM 3 obtient des résultats de pointe sur de nombreux bancs d'essai, y compris des ensembles de données réelles comme LVIS et COCO pour la segmentation:
Benchmark | Métrique | SAM 3 | Précédent Best | Amélioration |
---|---|---|---|---|
LVIS (tir à vide) | Masque AP | 47.0 | 38.5 | +22.1% |
SA-Co/Or | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
COCO (zéro-coup) | Boîte AP | 53.5 | 52,2 (T-Rex2) | +2.5% |
ADE-847 (segment sémantique) | mIoU | 14.7 | 9,2 (APE-D) | +59.8% |
PascalConcept-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
Paysages urbains (segment sémantique) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Explorer les options d'ensembles de données pour une expérimentation rapide dans les ensembles de donnéesUltralytics .
Performances de la segmentation vidéo
SAM 3 montre des améliorations significatives par rapport à SAM 2 et à l'état de l'art antérieur sur des benchmarks vidéo tels que DAVIS 2017 et YouTube-VOS:
Benchmark | Métrique | SAM 3 | SAM 2.1 L | Amélioration |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Adaptation en quelques plans
SAM 3 excelle à s'adapter à de nouveaux domaines avec un minimum d'exemples, ce qui est pertinent pour les flux de travail d'IA centrés sur les données:
Benchmark | AP à 0 coup | AP à 10 coups | Meilleur précédent (10 coups) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33,7 (gDino-T) |
Efficacité du raffinement interactif
Les messages-guides de SAM 3, basés sur des concepts et accompagnés d'exemples, convergent beaucoup plus rapidement que les messages-guides visuels :
Invitations ajoutées | Score CGF1 | Gain ou texte seul | Gain par rapport à la ligne de base du PVS |
---|---|---|---|
Texte uniquement | 46.4 | ligne de base | ligne de base |
+1 exemplaire | 57.6 | +11.2 | +6.7 |
+2 exemples | 62.2 | +15.8 | +9.7 |
+3 exemples | 65.0 | +18.6 | +11.2 |
+4 exemplaires | 65.7 | +19.3 | +11,5 (plateau) |
Précision du comptage d'objets
SAM 3 permet un comptage précis en segmentant toutes les instances, une exigence courante dans le comptage d'objets:
Benchmark | Précision | MAE | vs Best MLLM |
---|---|---|---|
Bancs d'essai | 95.6% | 0.11 | 92,4% (Gemini 2.5) |
PixMo-Count | 87.3% | 0.22 | 88,8 % (Molmo-72B) |
SAM 3 vs SAM 2 vs YOLO Comparaison
Nous comparons ici les capacités de SAM 3 à celles de SAM 2 et de YOLO11 et les modèles YOLO11
Capacité | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
Segmentation des concepts | ✅ Toutes les instances du texte/exemplaires | ❌ Non pris en charge | ❌ Non pris en charge |
Segmentation visuelle | ✅ Instance uniqueSAM compatibleSAM 2) | ✅ Instance unique | Toutes les instances |
Capacité de tir nul | ✅ Vocabulaire ouvert | ✅ Incitations à la géométrie | ❌ Ensemble fermé |
Affinement interactif | ✅ Exemplaires + clics | Clics uniquement | ❌ Non pris en charge |
Suivi vidéo | ✅ Multi-objets avec identités | ✅ Multi-objets | ✅ Multi-objets |
Masque LVIS AP (tir nul) | 47.0 | N/A | N/A |
MOSEv2 J&F | 60.1 | 47.9 | N/A |
Vitesse d'inférence (H200) | 30 ms (100+ objets) | ~23 ms (par objet) | 2-3 ms (image) |
Taille du modèle | Large (~400+ MB attendus) | 162 MB (base) | 5.9 MB |
Principaux enseignements:
- SAM 3: Meilleur pour la segmentation de concepts à vocabulaire ouvert, la recherche de toutes les occurrences d'un concept à l'aide d'un texte ou d'un exemple.
- SAM 2: La meilleure solution pour la segmentation interactive d'un seul objet dans des images et des vidéos avec des invites géométriques
- YOLO11: Le meilleur pour la segmentation en temps réel et à grande vitesse dans les déploiements à ressources limitées en utilisant des pipelines d'exportation efficaces tels que ONNX et TensorRT
Mesures d'évaluation
SAM 3 introduit de nouvelles mesures conçues pour la tâche PCS, en complément des mesures familières telles que le score F1, la précision et le rappel.
Classification-Gated F1 (CGF1)
Il s'agit de la principale mesure combinant la localisation et la classification :
CGF1 = 100 × pmF1 × IL_MCC
Où :
- pmF1 (Positive Macro F1) : Mesure la qualité de la localisation sur des exemples positifs
- IL_MCC (coefficient de corrélation de Matthews au niveau de l'image) : Mesure la précision de la classification binaire ("le concept est-il présent ?")
Pourquoi ces mesures ?
Les mesures traditionnelles d'AP ne tiennent pas compte de l'étalonnage, ce qui rend les modèles difficiles à utiliser dans la pratique. En n'évaluant que les prédictions supérieures à 0,5 de confiance, les mesures de SAM 3 imposent une bonne calibration et imitent les modèles d'utilisation du monde réel dans les boucles interactives de prédiction et de suivi.
Ablations et aperçus clés
Impact de la tête de présence
La tête de présence dissocie la reconnaissance de la localisation, ce qui apporte des améliorations significatives :
Configuration | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Sans présence | 57.6 | 0.77 | 74.7 |
Avec présence | 63.3 | 0.82 | 77.1 |
La tête de présence apporte un gain de +5,7 CGF1 (+9,9 %), améliorant principalement la capacité de reconnaissance (IL_MCC +6,5 %).
Effet des négatifs durs
Négatifs durs/Image | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
Les négations dures sont cruciales pour la reconnaissance du vocabulaire ouvert, améliorant IL_MCC de 54,5 % (0,44 → 0,68).
Mise à l'échelle des données d'apprentissage
Sources de données | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Externe uniquement | 30.9 | 0.46 | 66.3 |
Externe + synthétique | 39.7 | 0.57 | 70.6 |
Extérieur + Siège | 51.8 | 0.71 | 73.2 |
Les trois | 54.3 | 0.74 | 73.5 |
Des annotations humaines de haute qualité permettent d'obtenir des gains importants par rapport aux données synthétiques ou externes seules. Pour en savoir plus sur les pratiques en matière de qualité des données, voir Collecte et annotation des données.
Applications
La capacité de segmentation des concepts de SAM 3 permet de nouveaux cas d'utilisation :
- Modération du contenu: Recherche de toutes les occurrences de types de contenus spécifiques dans les médiathèques
- Commerce électronique: Segmentation de tous les produits d'un certain type dans les images de catalogue, avec prise en charge de l 'auto-annotation
- Imagerie médicale: Identifier toutes les occurrences de types de tissus ou d'anomalies spécifiques
- Systèmes autonomes: Suivre toutes les occurrences de panneaux de signalisation, de piétons ou de véhicules par catégorie.
- Analyse vidéo: Compter et suivre toutes les personnes portant des vêtements spécifiques ou effectuant des actions.
- Annotation des ensembles de données: Annotation rapide de toutes les instances de catégories d'objets rares
- Recherche scientifique: Quantifier et analyser tous les spécimens correspondant à des critères spécifiques
SAM 3 Agent : Raisonnement en langage étendu
SAM 3 peut être combiné avec des modèles linguistiques multimodaux (MLLM) pour traiter des requêtes complexes nécessitant un raisonnement, dans un esprit similaire à celui des systèmes de vocabulaire ouvert tels que OWLv2 et T-Rex.
Performance dans les tâches de raisonnement
Benchmark | Métrique | SAM 3 Agent (Gemini 2.5 Pro) | Précédent Best |
---|---|---|---|
ReasonSeg (validation) | gIoU | 76.0 | 65,0 (SoTA) |
ReasonSeg (test) | gIoU | 73.8 | 61,3 (SoTA) |
OmniLabel (validation) | AP | 46.7 | 36,5 (RÉEL) |
RefCOCO+ | Acc | 91.2 | 89,3 (LISA) |
Exemple de requêtes complexes
SAM 3 L'agent peut traiter des requêtes nécessitant un raisonnement :
- "Les gens sont assis mais ne tiennent pas de paquet cadeau dans leurs mains.
- "Le chien le plus proche de la caméra qui ne porte pas de collier.
- "Objets rouges plus grands que la main de la personne".
Le MLLM propose des requêtes de phrases nominales simples à SAM 3, analyse les masques renvoyés et itère jusqu'à ce qu'il soit satisfait.
Limites
Bien que SAM 3 représente une avancée majeure, il présente certaines limites :
- Complexité des phrases: Convient mieux aux phrases simples ; les expressions longues ou les raisonnements complexes peuvent nécessiter l'intégration de MLLM.
- Traitement de l'ambiguïté: Certains concepts restent intrinsèquement ambigus (par exemple, "petite fenêtre", "chambre confortable").
- Exigences informatiques: Plus grand et plus lent que les modèles de détection spécialisés tels que YOLO
- Portée du vocabulaire: Concentré sur les concepts visuels atomiques ; le raisonnement compositionnel est limité sans l'aide de MLLM
- Concepts rares: Les performances peuvent se dégrader pour des concepts extrêmement rares ou très fins qui ne sont pas bien représentés dans les données d'apprentissage.
Citation
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
FAQ
Quand SAM 3 sortira-t-il ?
SAM 3 est actuellement en cours d'examen à l'ICLR 2026 (conférence en 2026, examen en 2025). Les modèles officiels, les poids et les indices de référence seront rendus publics à l'issue du processus de révision, probablement en 2026. Ultralytics fournira un support immédiat pour l'intégration de SAM 3 dès la sortie de Meta et documentera l'utilisation en mode prédictif et en mode suivi.
SAM 3 sera-t-il intégré à Ultralytics?
Oui, SAM 3 sera pris en charge dans le package Ultralytics Python dès sa sortie, y compris la segmentation des concepts, les invites visuelles de type SAM 2 et le suivi vidéo multi-objets. Vous pourrez exporter vers des formats tels que ONNX et TensorRT pour le déploiement, avec des outils Python et CLI rationalisés.
Calendrier de mise en œuvre
Les exemples de code figurant dans cette documentation sont des versions préliminaires montrant les schémas d'utilisation prévus. L'implémentation réelle sera disponible après que Meta ait publié SAM 3 weights et qu'Ultralytics ait terminé l'intégration.
Qu'est-ce que la segmentation en concepts promouvables (PCS) ?
PCS est une nouvelle tâche introduite dans SAM 3 qui segmente toutes les instances d'un concept visuel dans une image ou une vidéo. Contrairement à la segmentation traditionnelle qui cible une instance d'objet spécifique, PCS trouve toutes les occurrences d'une catégorie. Par exemple :
- Texte d'incitation: "bus scolaire jaune" → segmente tous les bus scolaires jaunes de la scène
- Exemple d'image: Encadrement d'un chien → segmentation de tous les chiens de l'image
- Combiné: "chat rayé" + boîte à exemples → segmente tous les chats rayés correspondant à l'exemple.
Voir les informations générales sur la détection d'objets et la segmentation d'instances.
En quoi SAM 3 diffère-t-il de SAM 2 ?
Fonctionnalité | SAM 2 | SAM 3 |
---|---|---|
Tâche | Un seul objet par invite | Toutes les instances d'un concept |
Types d'invites | Points, boîtes, masques | + phrases de texte, exemples d'images |
Capacité de détection | Nécessite un détecteur externe | Détecteur de vocabulaire ouvert intégré |
Reconnaissance | Basé sur la géométrie uniquement | Reconnaissance textuelle et visuelle |
Architecture | Traceur uniquement | Détecteur + Traceur avec tête de présence |
Performance du tir à zéro | N/A (nécessite des indications visuelles) | 47,0 AP sur LVIS, 2× meilleur sur SA-Co |
Affinement interactif | Clics uniquement | Clics + généralisation de l'exemple |
SAM 3 conserve la compatibilité ascendante avec l'aide visuelle de SAM 2 tout en ajoutant des capacités basées sur des concepts.
Quels sont les ensembles de données utilisés pour former SAM 3 ?
SAM 3 est entraîné sur l'ensemble de données Segment Anything with Concepts (SA-Co) :
Données de formation:
- 5,2 millions d'images avec 4 millions d'expressions nominales uniques (SA-Co/HQ) - annotations humaines de haute qualité
- 52,5K vidéos avec 24,8K expressions nominales uniques (SA-Co/VIDEO)
- 1,4 milliard de masques synthétiques à travers 38 millions d'expressions nominales (SA-Co/SYN)
- 15 ensembles de données externes enrichis de négatifs durs (SA-Co/EXT)
Données de référence:
- 214K concepts uniques à travers 126K images/vidéos
- 50× plus de concepts que les références existantes (par exemple, LVIS a ~4K concepts)
- Triple annotation sur SA-Co/Gold pour mesurer les limites de la performance humaine
Cette échelle massive et cette diversité permettent à SAM 3 d'obtenir une généralisation sans faille des concepts à vocabulaire ouvert.
Comment SAM 3 se compare-t-il à YOLO11 pour la segmentation ?
SAM 3 et YOLO11 répondent à des besoins différents :
SAM 3 Avantages:
- Vocabulaire ouvert: Permet de segmenter n'importe quel concept à l'aide d'invites textuelles sans formation.
- Zéro coup: Travaille immédiatement sur les nouvelles catégories
- Interactif: Le raffinement basé sur l'exemple se généralise aux objets similaires
- Basé sur des concepts: Recherche automatique de toutes les instances d'une catégorie
- Précision: 47,0 AP sur la segmentation de l'instance LVIS zéro-shot
YOLO11 Avantages:
- Vitesse: inférence 10-15× plus rapide (2-3ms vs 30ms par image)
- Efficacité: modèles 70 fois plus petits (5,9 Mo contre ~400 Mo prévus)
- Respectueux des ressources: Fonctionne sur les appareils périphériques et mobiles
- En temps réel: Optimisé pour les déploiements en production
Recommandation:
- Utilisez SAM 3 pour une segmentation flexible et ouverte du vocabulaire lorsque vous devez trouver toutes les occurrences de concepts décrits par un texte ou des exemples.
- Utiliser YOLO11 pour les déploiements de production à grande vitesse où les catégories sont connues à l'avance
- Utilisez SAM 2 pour la segmentation interactive d'un seul objet à l'aide d'invites géométriques.
SAM 3 peut-il traiter des requêtes linguistiques complexes ?
SAM 3 est conçu pour les phrases nominales simples (par exemple, "pomme rouge", "personne portant un chapeau"). Pour les requêtes complexes nécessitant un raisonnement, il convient de combiner SAM 3 avec un MLLM sous le nom de SAM 3 Agent:
Requêtes simples (native SAM 3):
- "bus scolaire jaune"
- "chat rayé
- "Personne portant un chapeau rouge
Requêtes complexes (SAM 3 Agent avec MLLM) :
- "Les gens s'assoient mais ne tiennent pas de paquet cadeau.
- "Le chien le plus proche de l'appareil photo sans collier
- "Objets rouges plus grands que la main de la personne".
L'agent SAM 3 atteint 76,0 gIoU sur la validation ReasonSeg (contre 65,0 pour la meilleure performance précédente, soit une amélioration de +16,9%) en combinant la segmentation de SAM 3 avec les capacités de raisonnement de MLLM.
Quelle est la précision de SAM 3 par rapport à la performance humaine ?
Sur le benchmark SA-Co/Gold avec une triple annotation humaine :
- Limite inférieure humaine: 74,2 CGF1 (annotateur le plus conservateur)
- PerformanceSAM 3: 65,0 CGF1
- Réalisation: 88% de la limite inférieure humaine estimée
- Limite supérieure humaine: 81,4 CGF1 (annotateur le plus libéral)
SAM 3 atteint des performances élevées, proches de la précision humaine, dans la segmentation des concepts du vocabulaire ouvert, l'écart se situant principalement au niveau des concepts ambigus ou subjectifs (par exemple, "petite fenêtre", "chambre confortable").