Passer au contenu

SAM 3 : Segmenter n'importe quoi avec des concepts

Prochainement ⚠️

SAM Les modèles SAM 3 n'ont pas encore été rendus publics par Meta. Les informations ci-dessous sont basées sur le document de recherche soumis à l'ICLR 2026. Les téléchargements de modèles et les benchmarks finaux seront disponibles après la publication officielle de Meta.

SAM 3 - Vue d'ensemble

SAM 3 (Segment Anything Model 3) représente le modèle de base de nouvelle génération de Meta pour la segmentation de concepts par messages-guides (PCS). S'appuyant sur SAM 2, SAM 3 introduit une capacité fondamentalement nouvelle : la détection, la segmentation et le suivi de toutes les instances d'un concept visuel spécifié par des invites textuelles, des exemples d'images, ou les deux. Contrairement aux versions précédentes de SAM qui segmentent des objets uniques par invite, SAM 3 peut trouver et segmenter chaque occurrence d'un concept apparaissant n'importe où dans les images ou les vidéos, s'alignant ainsi sur les objectifs de vocabulaire ouvert dans la segmentation d'instance moderne.

Aperçu

SAM 3 réalise un gain de performance de 2× par rapport aux systèmes existants dans le domaine de la segmentation conceptuelle avec invite, tout en conservant et en améliorant les capacités de SAM 2 en matière de segmentation visuelle interactive. Le modèle excelle dans la segmentation à vocabulaire ouvert, permettant aux utilisateurs de spécifier des concepts à l'aide d'expressions nominales simples (par exemple, "bus scolaire jaune", "chat rayé") ou en fournissant des exemples d'images de l'objet cible. Ces capacités complètent les pipelines prêts pour la production qui s'appuient sur des flux de travail rationalisés de prédiction et de suivi.

SAM 3 Segmentation

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

La tâche PCS prend un concept en entrée et renvoie des masques de segmentation avec des identités uniques pour toutes les instances d'objets correspondantes. Les invites conceptuelles peuvent être :

  • Texte: Expressions nominales simples telles que "pomme rouge" ou "personne portant un chapeau", similaires à l'apprentissage en mode "zéro".
  • Exemples d'images: Boîtes de délimitation autour des exemples d'objets (positifs ou négatifs) pour une généralisation rapide
  • Combiné: Les exemples de texte et d'image sont combinés pour un contrôle précis.

Cela diffère des invites visuelles traditionnelles (points, boîtes, masques) qui ne segmentent qu'une seule instance d'objet spécifique, comme l'a popularisé la familleSAM d'origine.

Principaux indicateurs de performance

Métrique SAM 3 Réalisation
LVIS Zero-Shot Mask AP 47,0 (contre 38,5 précédemment, soit une amélioration de +22%)
Benchmark SA-Co 2× plus performant que les systèmes existants
Vitesse d'inférence ( GPU H200) 30 ms par image avec plus de 100 objets détectés
Performance vidéo Presque en temps réel pour ~5 objets simultanés
Benchmark MOSEv2 VOS 60,1 J&F (+25,5% par rapport à SAM 2.1, +17% par rapport à la SOTA précédente)
Affinement interactif +18,6 Amélioration du CGF1 après 3 messages types
Lacunes en matière de performances humaines Atteint 88% de la limite inférieure estimée pour SA-Co/Gold

Pour en savoir plus sur les mesures des modèles et les compromis en matière de production, voir les informations relatives à l'évaluation des modèles et les mesures de performanceYOLO .

Architecture

SAM 3 se compose d'un détecteur et d'un suiveur qui partagent un encodeur de perception (PE). Cette conception découplée évite les conflits de tâches tout en permettant à la fois la détection au niveau de l'image et le suivi au niveau de la vidéo, avec une interface compatible avec l'utilisation d' Ultralytics Python et CLI

Composants principaux

  • Détecteur: Architecture basée sur le DETR pour la détection de concepts au niveau de l'image

    • Encodeur de texte pour les phrases nominales
    • Encodeur d'exemples pour les messages-guides basés sur l'image
    • Encodeur de fusion pour conditionner les caractéristiques de l'image sur des invites
    • Nouvelle tête de présence qui dissocie la reconnaissance ("quoi") de la localisation ("où")
    • Tête de masque pour générer des masques de segmentation d'instance
  • Traqueur: Segmentation vidéo basée sur la mémoire héritée de SAM 2

    • Encodeur de messages, décodeur de masques, encodeur de mémoire
    • Banque de mémoire pour le stockage de l'apparence des objets à travers les images
    • Désambiguïsation temporelle assistée par des techniques telles que le filtre de Kalman dans des contextes multi-objets
  • Jeton de présence: Un jeton global appris qui prédit si le concept cible est présent dans l'image ou la séquence, ce qui améliore la détection en séparant la reconnaissance de la localisation.

Architecture SAM 3

Principales innovations

  1. Reconnaissance et localisation découplées: La tête de présence prédit la présence du concept à l'échelle mondiale, tandis que les requêtes de proposition se concentrent uniquement sur la localisation, ce qui permet d'éviter les conflits d'objectifs.
  2. Invitations conceptuelles et visuelles unifiées: Prend en charge à la fois les PCS (invites conceptuelles) et les PVS (invites visuelles telles que les clics/boîtes de SAM 2) dans un seul modèle.
  3. Affinage interactif des exemples: Les utilisateurs peuvent ajouter des exemples d'images positives ou négatives pour affiner les résultats de manière itérative, le modèle se généralisant à des objets similaires au lieu de se contenter de corriger des exemples individuels.
  4. Désambiguïsation temporelle: Utilise les scores de détection des masques et les relances périodiques pour gérer les occlusions, les scènes encombrées et les échecs de suivi dans les vidéos, en s'alignant sur les meilleures pratiques en matière de segmentation et de suivi des instances.

Ensemble de données SA-Co

SAM 3 est entraîné sur Segment Anything with Concepts (SA-Co), l'ensemble de données de segmentation le plus important et le plus diversifié de Meta à ce jour, qui va au-delà des références communes telles que COCO et LVIS.

Données de formation

Composant de l'ensemble de données Description Échelle
SA-Co/HQ Données d'images de haute qualité annotées par l'homme grâce à un moteur de données en 4 phases 5,2 millions d'images, 4 millions d'expressions nominales uniques
SA-Co/SYN Ensemble de données synthétiques étiquetées par l'IA sans intervention humaine 38 millions de noms, 1,4 milliard de masques
SA-Co/EXT 15 ensembles de données externes enrichis de négatifs durs Varie selon la source
SA-Co/VIDEO Annotations vidéo avec suivi temporel 52.5K vidéos, 24.8K expressions nominales uniques

Données de référence

Le référentiel d'évaluation SA-Co contient 214 000 phrases uniques réparties sur 126 000 images et vidéos, soit 50 fois plus de concepts que les référentiels existants. Il comprend

  • SA-Co/Gold: 7 domaines, triple annotés pour mesurer les limites de la performance humaine
  • SA-Co/Silver: 10 domaines, une seule annotation humaine
  • SA-Co/Bronze et SA-Co/Bio: 9 jeux de données existants adaptés à la segmentation des concepts
  • SA-Co/VEval: test vidéo avec 3 domaines (SA-V, YT-Temporal-1B, SmartGlasses)

Innovations en matière de moteur de données

Le moteur de données évolutif de SAM 3, basé sur des humains et des modèles en boucle, permet de multiplier par deux le débit d'annotation:

  1. Annotateurs d'IA: Les modèles basés sur les lamas proposent diverses expressions nominales, y compris des négations dures.
  2. Vérificateurs d'IA: Des LLM multimodaux finement réglés vérifient la qualité et l'exhaustivité des masques avec des performances proches de celles de l'homme.
  3. Exploitation minière active: L'effort humain se concentre sur les cas d'échec difficiles pour lesquels l'intelligence artificielle éprouve des difficultés.
  4. Piloté par l'ontologie: Exploite une vaste ontologie fondée sur Wikidata pour la couverture des concepts.

Installation

SAM 3 sera supporté nativement dans le package Ultralytics dès sa sortie :

pip install ultralytics

Les modèles sont téléchargés automatiquement lors de leur première utilisation. Vous pouvez ensuite utiliser le mode prédictif standard et exporter ultérieurement les modèles dans des formats tels que ONNX et TensorRT pour le déploiement.

Comment utiliser SAM 3 : Versatilité dans la segmentation des concepts

Aperçu de l'API - Sous réserve de modifications

Les exemples de code ci-dessous illustrent les schémas d'utilisation prévus sur la base du document de recherche. L'API proprement dite sera disponible ultérieurement :

  1. Meta open-sources SAM 3 model weights (en anglais)
  2. Ultralytics intègre SAM 3 dans le package

La syntaxe et les paramètres peuvent différer dans la mise en œuvre finale. Ces exemples donnent un aperçu des fonctionnalités attendues.

Tâches et modèles pris en charge

SAM 3 prend en charge les tâches de segmentation conceptuelle rapide (PCS) et de segmentation visuelle rapide (PVS) :

Type de tâche Types d'invites Sortie
Segmentation du concept (PCS) Texte (phrases nominales), images exemplaires Toutes les instances correspondant au concept
Segmentation visuelle (PVS) Points, boîtes, masques Instance d'un seul objetSAM styleSAM 2)
Affinement interactif Ajouter/supprimer des exemples ou des clics de manière itérative Segmentation affinée avec une meilleure précision

Exemples de segmentation de concepts

Segmenter à l'aide d'invites textuelles

Segmentation des concepts basée sur le texte

Trouver et segmenter toutes les instances d'un concept à l'aide d'une description textuelle.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .

Segment avec des exemples d'images

Segmentation basée sur les exemples d'images

Utilisez un ou plusieurs exemples d'objets pour trouver toutes les instances similaires.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .

Affinement interactif

Raffinement itératif à l'aide d'exemples

Améliorer progressivement les résultats en ajoutant des messages-types basés sur les résultats initiaux.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .

Segmentation des concepts vidéo

Suivre les concepts à travers la vidéo

Détecter et suivre toutes les occurrences d'un concept dans une vidéo.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .

Pour les installations de production et de diffusion en continu plus larges, voir le suivi des objets et l'affichage des résultats dans le terminal.

Invitations visuellesSAM compatibilitéSAM 2)

SAM 3 conserve une compatibilité ascendante totale avec l'assistance visuelle de SAM 2 :

Invitations visuelles SAM 2 Style

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective attend la sortie de Meta et l'intégration d'Ultralytics .

Bancs d'essai de performance

Segmentation d'images

SAM 3 obtient des résultats de pointe sur de nombreux bancs d'essai, y compris des ensembles de données réelles comme LVIS et COCO pour la segmentation:

Benchmark Métrique SAM 3 Précédent Best Amélioration
LVIS (tir à vide) Masque AP 47.0 38.5 +22.1%
SA-Co/Or CGF1 65.0 34.3 (OWLv2) +89.5%
COCO (zéro-coup) Boîte AP 53.5 52,2 (T-Rex2) +2.5%
ADE-847 (segment sémantique) mIoU 14.7 9,2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Paysages urbains (segment sémantique) mIoU 65.1 44,2 (APE-D) +47.3%

Explorer les options d'ensembles de données pour une expérimentation rapide dans les ensembles de donnéesUltralytics .

Performances de la segmentation vidéo

SAM 3 montre des améliorations significatives par rapport à SAM 2 et à l'état de l'art antérieur sur des benchmarks vidéo tels que DAVIS 2017 et YouTube-VOS:

Benchmark Métrique SAM 3 SAM 2.1 L Amélioration
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Adaptation en quelques plans

SAM 3 excelle à s'adapter à de nouveaux domaines avec un minimum d'exemples, ce qui est pertinent pour les flux de travail d'IA centrés sur les données:

Benchmark AP à 0 coup AP à 10 coups Meilleur précédent (10 coups)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

Efficacité du raffinement interactif

Les messages-guides de SAM 3, basés sur des concepts et accompagnés d'exemples, convergent beaucoup plus rapidement que les messages-guides visuels :

Invitations ajoutées Score CGF1 Gain ou texte seul Gain par rapport à la ligne de base du PVS
Texte uniquement 46.4 ligne de base ligne de base
+1 exemplaire 57.6 +11.2 +6.7
+2 exemples 62.2 +15.8 +9.7
+3 exemples 65.0 +18.6 +11.2
+4 exemplaires 65.7 +19.3 +11,5 (plateau)

Précision du comptage d'objets

SAM 3 permet un comptage précis en segmentant toutes les instances, une exigence courante dans le comptage d'objets:

Benchmark Précision MAE vs Best MLLM
Bancs d'essai 95.6% 0.11 92,4% (Gemini 2.5)
PixMo-Count 87.3% 0.22 88,8 % (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Comparaison

Nous comparons ici les capacités de SAM 3 à celles de SAM 2 et de YOLO11 et les modèles YOLO11

Capacité SAM 3 SAM 2 YOLO11n-seg
Segmentation des concepts ✅ Toutes les instances du texte/exemplaires ❌ Non pris en charge ❌ Non pris en charge
Segmentation visuelle ✅ Instance uniqueSAM compatibleSAM 2) ✅ Instance unique Toutes les instances
Capacité de tir nul ✅ Vocabulaire ouvert ✅ Incitations à la géométrie ❌ Ensemble fermé
Affinement interactif ✅ Exemplaires + clics Clics uniquement ❌ Non pris en charge
Suivi vidéo ✅ Multi-objets avec identités ✅ Multi-objets ✅ Multi-objets
Masque LVIS AP (tir nul) 47.0 N/A N/A
MOSEv2 J&F 60.1 47.9 N/A
Vitesse d'inférence (H200) 30 ms (100+ objets) ~23 ms (par objet) 2-3 ms (image)
Taille du modèle Large (~400+ MB attendus) 162 MB (base) 5.9 MB

Principaux enseignements:

  • SAM 3: Meilleur pour la segmentation de concepts à vocabulaire ouvert, la recherche de toutes les occurrences d'un concept à l'aide d'un texte ou d'un exemple.
  • SAM 2: La meilleure solution pour la segmentation interactive d'un seul objet dans des images et des vidéos avec des invites géométriques
  • YOLO11: Le meilleur pour la segmentation en temps réel et à grande vitesse dans les déploiements à ressources limitées en utilisant des pipelines d'exportation efficaces tels que ONNX et TensorRT

Mesures d'évaluation

SAM 3 introduit de nouvelles mesures conçues pour la tâche PCS, en complément des mesures familières telles que le score F1, la précision et le rappel.

Classification-Gated F1 (CGF1)

Il s'agit de la principale mesure combinant la localisation et la classification :

CGF1 = 100 × pmF1 × IL_MCC

Où :

  • pmF1 (Positive Macro F1) : Mesure la qualité de la localisation sur des exemples positifs
  • IL_MCC (coefficient de corrélation de Matthews au niveau de l'image) : Mesure la précision de la classification binaire ("le concept est-il présent ?")

Pourquoi ces mesures ?

Les mesures traditionnelles d'AP ne tiennent pas compte de l'étalonnage, ce qui rend les modèles difficiles à utiliser dans la pratique. En n'évaluant que les prédictions supérieures à 0,5 de confiance, les mesures de SAM 3 imposent une bonne calibration et imitent les modèles d'utilisation du monde réel dans les boucles interactives de prédiction et de suivi.

Ablations et aperçus clés

Impact de la tête de présence

La tête de présence dissocie la reconnaissance de la localisation, ce qui apporte des améliorations significatives :

Configuration CGF1 IL_MCC pmF1
Sans présence 57.6 0.77 74.7
Avec présence 63.3 0.82 77.1

La tête de présence apporte un gain de +5,7 CGF1 (+9,9 %), améliorant principalement la capacité de reconnaissance (IL_MCC +6,5 %).

Effet des négatifs durs

Négatifs durs/Image CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Les négations dures sont cruciales pour la reconnaissance du vocabulaire ouvert, améliorant IL_MCC de 54,5 % (0,44 → 0,68).

Mise à l'échelle des données d'apprentissage

Sources de données CGF1 IL_MCC pmF1
Externe uniquement 30.9 0.46 66.3
Externe + synthétique 39.7 0.57 70.6
Extérieur + Siège 51.8 0.71 73.2
Les trois 54.3 0.74 73.5

Des annotations humaines de haute qualité permettent d'obtenir des gains importants par rapport aux données synthétiques ou externes seules. Pour en savoir plus sur les pratiques en matière de qualité des données, voir Collecte et annotation des données.

Applications

La capacité de segmentation des concepts de SAM 3 permet de nouveaux cas d'utilisation :

  • Modération du contenu: Recherche de toutes les occurrences de types de contenus spécifiques dans les médiathèques
  • Commerce électronique: Segmentation de tous les produits d'un certain type dans les images de catalogue, avec prise en charge de l 'auto-annotation
  • Imagerie médicale: Identifier toutes les occurrences de types de tissus ou d'anomalies spécifiques
  • Systèmes autonomes: Suivre toutes les occurrences de panneaux de signalisation, de piétons ou de véhicules par catégorie.
  • Analyse vidéo: Compter et suivre toutes les personnes portant des vêtements spécifiques ou effectuant des actions.
  • Annotation des ensembles de données: Annotation rapide de toutes les instances de catégories d'objets rares
  • Recherche scientifique: Quantifier et analyser tous les spécimens correspondant à des critères spécifiques

SAM 3 Agent : Raisonnement en langage étendu

SAM 3 peut être combiné avec des modèles linguistiques multimodaux (MLLM) pour traiter des requêtes complexes nécessitant un raisonnement, dans un esprit similaire à celui des systèmes de vocabulaire ouvert tels que OWLv2 et T-Rex.

Performance dans les tâches de raisonnement

Benchmark Métrique SAM 3 Agent (Gemini 2.5 Pro) Précédent Best
ReasonSeg (validation) gIoU 76.0 65,0 (SoTA)
ReasonSeg (test) gIoU 73.8 61,3 (SoTA)
OmniLabel (validation) AP 46.7 36,5 (RÉEL)
RefCOCO+ Acc 91.2 89,3 (LISA)

Exemple de requêtes complexes

SAM 3 L'agent peut traiter des requêtes nécessitant un raisonnement :

  • "Les gens sont assis mais ne tiennent pas de paquet cadeau dans leurs mains.
  • "Le chien le plus proche de la caméra qui ne porte pas de collier.
  • "Objets rouges plus grands que la main de la personne".

Le MLLM propose des requêtes de phrases nominales simples à SAM 3, analyse les masques renvoyés et itère jusqu'à ce qu'il soit satisfait.

Limites

Bien que SAM 3 représente une avancée majeure, il présente certaines limites :

  • Complexité des phrases: Convient mieux aux phrases simples ; les expressions longues ou les raisonnements complexes peuvent nécessiter l'intégration de MLLM.
  • Traitement de l'ambiguïté: Certains concepts restent intrinsèquement ambigus (par exemple, "petite fenêtre", "chambre confortable").
  • Exigences informatiques: Plus grand et plus lent que les modèles de détection spécialisés tels que YOLO
  • Portée du vocabulaire: Concentré sur les concepts visuels atomiques ; le raisonnement compositionnel est limité sans l'aide de MLLM
  • Concepts rares: Les performances peuvent se dégrader pour des concepts extrêmement rares ou très fins qui ne sont pas bien représentés dans les données d'apprentissage.

Citation

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quand SAM 3 sortira-t-il ?

SAM 3 est actuellement en cours d'examen à l'ICLR 2026 (conférence en 2026, examen en 2025). Les modèles officiels, les poids et les indices de référence seront rendus publics à l'issue du processus de révision, probablement en 2026. Ultralytics fournira un support immédiat pour l'intégration de SAM 3 dès la sortie de Meta et documentera l'utilisation en mode prédictif et en mode suivi.

SAM 3 sera-t-il intégré à Ultralytics?

Oui, SAM 3 sera pris en charge dans le package Ultralytics Python dès sa sortie, y compris la segmentation des concepts, les invites visuelles de type SAM 2 et le suivi vidéo multi-objets. Vous pourrez exporter vers des formats tels que ONNX et TensorRT pour le déploiement, avec des outils Python et CLI rationalisés.

Calendrier de mise en œuvre

Les exemples de code figurant dans cette documentation sont des versions préliminaires montrant les schémas d'utilisation prévus. L'implémentation réelle sera disponible après que Meta ait publié SAM 3 weights et qu'Ultralytics ait terminé l'intégration.

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

PCS est une nouvelle tâche introduite dans SAM 3 qui segmente toutes les instances d'un concept visuel dans une image ou une vidéo. Contrairement à la segmentation traditionnelle qui cible une instance d'objet spécifique, PCS trouve toutes les occurrences d'une catégorie. Par exemple :

  • Texte d'incitation: "bus scolaire jaune" → segmente tous les bus scolaires jaunes de la scène
  • Exemple d'image: Encadrement d'un chien → segmentation de tous les chiens de l'image
  • Combiné: "chat rayé" + boîte à exemples → segmente tous les chats rayés correspondant à l'exemple.

Voir les informations générales sur la détection d'objets et la segmentation d'instances.

En quoi SAM 3 diffère-t-il de SAM 2 ?

Fonctionnalité SAM 2 SAM 3
Tâche Un seul objet par invite Toutes les instances d'un concept
Types d'invites Points, boîtes, masques + phrases de texte, exemples d'images
Capacité de détection Nécessite un détecteur externe Détecteur de vocabulaire ouvert intégré
Reconnaissance Basé sur la géométrie uniquement Reconnaissance textuelle et visuelle
Architecture Traceur uniquement Détecteur + Traceur avec tête de présence
Performance du tir à zéro N/A (nécessite des indications visuelles) 47,0 AP sur LVIS, 2× meilleur sur SA-Co
Affinement interactif Clics uniquement Clics + généralisation de l'exemple

SAM 3 conserve la compatibilité ascendante avec l'aide visuelle de SAM 2 tout en ajoutant des capacités basées sur des concepts.

Quels sont les ensembles de données utilisés pour former SAM 3 ?

SAM 3 est entraîné sur l'ensemble de données Segment Anything with Concepts (SA-Co) :

Données de formation:

  • 5,2 millions d'images avec 4 millions d'expressions nominales uniques (SA-Co/HQ) - annotations humaines de haute qualité
  • 52,5K vidéos avec 24,8K expressions nominales uniques (SA-Co/VIDEO)
  • 1,4 milliard de masques synthétiques à travers 38 millions d'expressions nominales (SA-Co/SYN)
  • 15 ensembles de données externes enrichis de négatifs durs (SA-Co/EXT)

Données de référence:

  • 214K concepts uniques à travers 126K images/vidéos
  • 50× plus de concepts que les références existantes (par exemple, LVIS a ~4K concepts)
  • Triple annotation sur SA-Co/Gold pour mesurer les limites de la performance humaine

Cette échelle massive et cette diversité permettent à SAM 3 d'obtenir une généralisation sans faille des concepts à vocabulaire ouvert.

Comment SAM 3 se compare-t-il à YOLO11 pour la segmentation ?

SAM 3 et YOLO11 répondent à des besoins différents :

SAM 3 Avantages:

  • Vocabulaire ouvert: Permet de segmenter n'importe quel concept à l'aide d'invites textuelles sans formation.
  • Zéro coup: Travaille immédiatement sur les nouvelles catégories
  • Interactif: Le raffinement basé sur l'exemple se généralise aux objets similaires
  • Basé sur des concepts: Recherche automatique de toutes les instances d'une catégorie
  • Précision: 47,0 AP sur la segmentation de l'instance LVIS zéro-shot

YOLO11 Avantages:

  • Vitesse: inférence 10-15× plus rapide (2-3ms vs 30ms par image)
  • Efficacité: modèles 70 fois plus petits (5,9 Mo contre ~400 Mo prévus)
  • Respectueux des ressources: Fonctionne sur les appareils périphériques et mobiles
  • En temps réel: Optimisé pour les déploiements en production

Recommandation:

  • Utilisez SAM 3 pour une segmentation flexible et ouverte du vocabulaire lorsque vous devez trouver toutes les occurrences de concepts décrits par un texte ou des exemples.
  • Utiliser YOLO11 pour les déploiements de production à grande vitesse où les catégories sont connues à l'avance
  • Utilisez SAM 2 pour la segmentation interactive d'un seul objet à l'aide d'invites géométriques.

SAM 3 peut-il traiter des requêtes linguistiques complexes ?

SAM 3 est conçu pour les phrases nominales simples (par exemple, "pomme rouge", "personne portant un chapeau"). Pour les requêtes complexes nécessitant un raisonnement, il convient de combiner SAM 3 avec un MLLM sous le nom de SAM 3 Agent:

Requêtes simples (native SAM 3):

  • "bus scolaire jaune"
  • "chat rayé
  • "Personne portant un chapeau rouge

Requêtes complexes (SAM 3 Agent avec MLLM) :

  • "Les gens s'assoient mais ne tiennent pas de paquet cadeau.
  • "Le chien le plus proche de l'appareil photo sans collier
  • "Objets rouges plus grands que la main de la personne".

L'agent SAM 3 atteint 76,0 gIoU sur la validation ReasonSeg (contre 65,0 pour la meilleure performance précédente, soit une amélioration de +16,9%) en combinant la segmentation de SAM 3 avec les capacités de raisonnement de MLLM.

Quelle est la précision de SAM 3 par rapport à la performance humaine ?

Sur le benchmark SA-Co/Gold avec une triple annotation humaine :

  • Limite inférieure humaine: 74,2 CGF1 (annotateur le plus conservateur)
  • PerformanceSAM 3: 65,0 CGF1
  • Réalisation: 88% de la limite inférieure humaine estimée
  • Limite supérieure humaine: 81,4 CGF1 (annotateur le plus libéral)

SAM 3 atteint des performances élevées, proches de la précision humaine, dans la segmentation des concepts du vocabulaire ouvert, l'écart se situant principalement au niveau des concepts ambigus ou subjectifs (par exemple, "petite fenêtre", "chambre confortable").



📅 Créé il y a 0 jour ✏️ Mis à jour il y a 0 jour

Commentaires