Passer au contenu

SAM 3 : Segmenter n'importe quoi avec des concepts

Released - Intégration d'Ultralytics en cours

Meta a publié SAM le 20 novembre 2025. Ultralytics est en train d'intégrer les modèles et fournira bientôt une mise à jour du paquet avec un support natif. En attendant, vous pouvez suivre les étapes du README officiel de SAM 3 ci-dessous pour essayer la version amont.

SAM 3 - Vue d'ensemble

SAM 3 (Segment Anything Model 3) est le modèle de base publié par Meta pour la segmentation de concepts par messages-guides (PCS). S'appuyant sur SAM 2, SAM 3 introduit une capacité fondamentalement nouvelle : la détection, la segmentation et le suivi de toutes les occurrences d'un concept visuel spécifié par des invites textuelles, des exemples d'images, ou les deux. Contrairement aux versions précédentes de SAM qui segment objets uniques par invite, SAM 3 peut trouver et segment chaque occurrence d'un concept apparaissant n'importe où dans les images ou les vidéos, s'alignant ainsi sur les objectifs de vocabulaire ouvert dans la segmentation d'instance moderne.

Ultralytics intègre activement SAM dans le système de gestion de l'information de l'entreprise. ultralytics . En attendant cette version, vous pouvez expérimenter l'implémentation de Meta en amont. En attendant cette version, vous pouvez expérimenter l'implémentation de Meta en amont en suivant les étapes d'installation et d'utilisation officielles ci-dessous.

Aperçu

SAM 3 réalise un gain de performance de 2× par rapport aux systèmes existants dans le domaine de la segmentation conceptuelle avec invite, tout en conservant et en améliorant les capacités de SAM 2 en matière de segmentation visuelle interactive. Le modèle excelle dans la segmentation à vocabulaire ouvert, permettant aux utilisateurs de spécifier des concepts à l'aide d'expressions nominales simples (par exemple, "bus scolaire jaune", "chat rayé") ou en fournissant des exemples d'images de l'objet cible. Ces capacités complètent les chaînes de production prêtes à l'emploi qui reposent sur des processus rationalisés de prédiction et de track rationalisés.

SAM 3 Segmentation

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

La tâche PCS prend un concept en entrée et renvoie des masques de segmentation avec des identités uniques pour toutes les instances d'objets correspondantes. Les invites conceptuelles peuvent être :

  • Texte: Expressions nominales simples telles que "pomme rouge" ou "personne portant un chapeau", similaires à l'apprentissage en mode "zéro".
  • Exemples d'images: Boîtes de délimitation autour des exemples d'objets (positifs ou négatifs) pour une généralisation rapide
  • Combiné: Les exemples de texte et d'image sont combinés pour un contrôle précis.

Cela diffère des invites visuelles traditionnelles (points, boîtes, masques) qui ne segment qu'une seule instance d'objet spécifique, comme l'a popularisé la familleSAM d'origine.

Principaux indicateurs de performance

MétriqueSAM 3 Réalisation
LVIS Zero-Shot Mask AP47,0 (contre 38,5 précédemment, soit une amélioration de +22%)
Benchmark SA-Co2× plus performant que les systèmes existants
Vitesse d'inférence ( GPU H200)30 ms par image avec plus de 100 objets détectés
Performance vidéoPresque en temps réel pour ~5 objets simultanés
Benchmark MOSEv2 VOS60,1 J&F (+25,5% par rapport à SAM 2.1, +17% par rapport à la SOTA précédente)
Affinement interactif+18,6 Amélioration du CGF1 après 3 messages types
Lacunes en matière de performances humainesAtteint 88% de la limite inférieure estimée pour SA-Co/Gold

Pour en savoir plus sur les mesures des modèles et les compromis en matière de production, voir les informations relatives à l'évaluation des modèles et les mesures de performanceYOLO .

Architecture

SAM 3 se compose d'un détecteur et d'un suiveur qui partagent un encodeur de perception (PE). Cette conception découplée évite les conflits de tâches tout en permettant à la fois la détection au niveau de l'image et le suivi au niveau de la vidéo, avec une interface compatible avec l'utilisation d' Ultralytics Python et CLI

Composants principaux

  • Détecteur: Architecture basée sur le DETR pour la détection de concepts au niveau de l'image

    • Encodeur de texte pour les phrases nominales
    • Encodeur d'exemples pour les messages-guides basés sur l'image
    • Encodeur de fusion pour conditionner les caractéristiques de l'image sur des invites
    • Nouvelle tête de présence qui dissocie la reconnaissance ("quoi") de la localisation ("où")
    • Tête de masque pour générer des masques de segmentation d'instance
  • Traqueur: Segmentation vidéo basée sur la mémoire héritée de SAM 2

    • Encodeur de messages, décodeur de masques, encodeur de mémoire
    • Banque de mémoire pour le stockage de l'apparence des objets à travers les images
    • Désambiguïsation temporelle assistée par des techniques telles que le filtre de Kalman dans des contextes multi-objets
  • Jeton de présence: Un jeton global appris qui prédit si le concept cible est présent dans l'image ou la séquence, ce qui améliore la détection en séparant la reconnaissance de la localisation.

Architecture SAM 3

Principales innovations

  1. Reconnaissance et localisation découplées: La tête de présence prédit la présence du concept à l'échelle mondiale, tandis que les requêtes de proposition se concentrent uniquement sur la localisation, ce qui permet d'éviter les conflits d'objectifs.
  2. Invitations conceptuelles et visuelles unifiées: Prend en charge à la fois les PCS (invites conceptuelles) et les PVS (invites visuelles telles que les clics/boîtes de SAM 2) dans un seul modèle.
  3. Affinage interactif des exemples: Les utilisateurs peuvent ajouter des exemples d'images positives ou négatives pour affiner les résultats de manière itérative, le modèle se généralisant à des objets similaires au lieu de se contenter de corriger des exemples individuels.
  4. Désambiguïsation temporelle: Utilise les scores de détection des masques et les relances périodiques pour gérer les occlusions, les scènes encombrées et les échecs de suivi dans les vidéos, en s'alignant sur les meilleures pratiques en matière de segmentation et de suivi des instances.

Ensemble de données SA-Co

SAM 3 est entraîné sur Segment Anything with Concepts (SA-Co), l'ensemble de données de segmentation le plus vaste et le plus diversifié de Meta à ce jour, qui va au-delà des références courantes telles que COCO et LVIS.

Données de formation

Composant de l'ensemble de donnéesDescriptionÉchelle
SA-Co/HQDonnées d'images de haute qualité annotées par l'homme grâce à un moteur de données en 4 phases5,2 millions d'images, 4 millions d'expressions nominales uniques
SA-Co/SYNEnsemble de données synthétiques étiquetées par l'IA sans intervention humaine38 millions de noms, 1,4 milliard de masques
SA-Co/EXT15 ensembles de données externes enrichis de négatifs dursVarie selon la source
SA-Co/VIDEOAnnotations vidéo avec suivi temporel52.5K vidéos, 24.8K expressions nominales uniques

Données de référence

Le référentiel d'évaluation SA-Co contient 214 000 phrases uniques réparties sur 126 000 images et vidéos, soit 50 fois plus de concepts que les référentiels existants. Il comprend

  • SA-Co/Gold: 7 domaines, triple annotés pour mesurer les limites de la performance humaine
  • SA-Co/Silver: 10 domaines, une seule annotation humaine
  • SA-Co/Bronze et SA-Co/Bio: 9 jeux de données existants adaptés à la segmentation des concepts
  • SA-Co/VEval: test vidéo avec 3 domaines (SA-V, YT-Temporal-1B, SmartGlasses)

Innovations en matière de moteur de données

Le moteur de données évolutif de SAM 3, basé sur des humains et des modèles en boucle, permet de multiplier par deux le débit d'annotation:

  1. Annotateurs d'IA: Les modèles basés sur les lamas proposent diverses expressions nominales, y compris des négations dures.
  2. Vérificateurs d'IA: Des LLM multimodaux finement réglés vérifient la qualité et l'exhaustivité des masques avec des performances proches de celles de l'homme.
  3. Exploitation minière active: L'effort humain se concentre sur les cas d'échec difficiles pour lesquels l'intelligence artificielle éprouve des difficultés.
  4. Piloté par l'ontologie: Exploite une vaste ontologie fondée sur Wikidata pour la couverture des concepts.

Installation

SAM 3 sera disponible directement dans le package Ultralytics une fois l'intégration réalisée. L'installation sera maintenue :

pip install ultralytics

Les modèles sont téléchargés automatiquement lors de leur première utilisation. Vous pouvez ensuite utiliser le mode prédictif standard et exporter ultérieurement les modèles dans des formats tels que ONNX et TensorRT pour le déploiement. Une mise à jour du paquet avec les poids et les configurations de SAM sera bientôt disponible.

Comment utiliser SAM 3 : Versatilité dans la segmentation des concepts

Aperçu de l'API Ultralytics

Les exemples suivants montrent l'API Ultralytics prévue une fois que SAM 3 sera livré. Jusqu'à l'intégration, les détails peuvent changer.

Tâches et modèles pris en charge

SAM 3 prend en charge les tâches de segmentation conceptuelle rapide (PCS) et de segmentation visuelle rapide (PVS) :

Type de tâcheTypes d'invitesSortie
Segmentation du concept (PCS)Texte (phrases nominales), images exemplairesToutes les instances correspondant au concept
Segmentation visuelle (PVS)Points, boîtes, masquesInstance d'un seul objetSAM styleSAM 2)
Affinement interactifAjouter/supprimer des exemples ou des clics de manière itérativeSegmentation affinée avec une meilleure précision

Exemples de segmentation de concepts

Segmenter à l'aide d'invites textuelles

Segmentation des concepts basée sur le texte

Trouver et segment toutes les instances d'un concept à l'aide d'une description textuelle.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Segment avec des exemples d'images

Segmentation basée sur les exemples d'images

Utilisez un ou plusieurs exemples d'objets pour trouver toutes les instances similaires.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Affinement interactif

Raffinement itératif à l'aide d'exemples

Améliorer progressivement les résultats en ajoutant des messages-types basés sur les résultats initiaux.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Segmentation des concepts vidéo

Suivre les concepts à travers la vidéo

Détecter et track toutes les occurrences d'un concept dans une vidéo.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Pour les installations de production et de diffusion en continu plus larges, voir le suivi des objets et l'affichage des résultats dans le terminal.

Invitations visuellesSAM compatibilitéSAM 2)

SAM 3 conserve une compatibilité ascendante totale avec l'assistance visuelle de SAM 2 :

Invitations visuelles SAM 2 Style

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Aperçu de l'API

Cet exemple montre l'utilisation prévue. La mise en œuvre effective dépend de l'intégration d'Ultralytics .

Bancs d'essai de performance

Segmentation d'images

SAM 3 obtient des résultats de pointe sur de nombreux bancs d'essai, y compris des ensembles de données réelles comme LVIS et COCO pour la segmentation:

BenchmarkMétriqueSAM 3Précédent BestAmélioration
LVIS (tir à vide)Masque AP47.038.5+22.1%
SA-Co/OrCGF165.034.3 (OWLv2)+89.5%
COCO (zéro-coup)Boîte AP53.552,2 (T-Rex2)+2.5%
ADE-847 (segment sémantique)mIoU14.79,2 (APE-D)+59.8%
PascalConcept-59mIoU59.458,5 (APE-D)+1.5%
Paysages urbains (segment sémantique)mIoU65.144,2 (APE-D)+47.3%

Explorer les options d'ensembles de données pour une expérimentation rapide dans les ensembles de donnéesUltralytics .

Performances de la segmentation vidéo

SAM 3 montre des améliorations significatives par rapport à SAM 2 et à l'état de l'art antérieur sur des benchmarks vidéo tels que DAVIS 2017 et YouTube-VOS:

BenchmarkMétriqueSAM 3SAM 2.1 LAmélioration
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Adaptation en quelques plans

SAM 3 excelle à s'adapter à de nouveaux domaines avec un minimum d'exemples, ce qui est pertinent pour les flux de travail d'IA centrés sur les données:

BenchmarkAP à 0 coupAP à 10 coupsMeilleur précédent (10 coups)
ODinW1359.971.667,9 (gDino1.5-Pro)
RF100-VL14.335.733,7 (gDino-T)

Efficacité du raffinement interactif

Les messages-guides de SAM 3, basés sur des concepts et accompagnés d'exemples, convergent beaucoup plus rapidement que les messages-guides visuels :

Invitations ajoutéesScore CGF1Gain ou texte seulGain par rapport à la ligne de base du PVS
Texte uniquement46.4ligne de baseligne de base
+1 exemplaire57.6+11.2+6.7
+2 exemples62.2+15.8+9.7
+3 exemples65.0+18.6+11.2
+4 exemplaires65.7+19.3+11,5 (plateau)

Précision du comptage d'objets

SAM 3 permet un comptage précis en segmentant toutes les instances, une exigence courante dans le comptage d'objets:

BenchmarkPrécisionMAEvs Best MLLM
Bancs d'essai95.6%0.1192,4% (Gemini 2.5)
PixMo-Count87.3%0.2288,8 % (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Comparaison

Nous comparons ici les capacités de SAM 3 à celles de SAM 2 et de YOLO11 et les modèles YOLO11

CapacitéSAM 3SAM 2YOLO11n-seg
Segmentation des concepts✅ Toutes les instances du texte/exemplaires❌ Non pris en charge❌ Non pris en charge
Segmentation visuelle✅ Instance uniqueSAM compatibleSAM 2)✅ Instance uniqueToutes les instances
Capacité de tir nul✅ Vocabulaire ouvert✅ Incitations à la géométrie❌ Ensemble fermé
Affinement interactif✅ Exemplaires + clicsClics uniquement❌ Non pris en charge
Suivi vidéo✅ Multi-objets avec identités✅ Multi-objets✅ Multi-objets
Masque LVIS AP (tir nul)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
Vitesse d'inférence (H200)30 ms (100+ objets)~23 ms (par objet)2-3 ms (image)
Taille du modèleLarge (~400+ MB attendus)162 MB (base)5.9 MB

Principaux enseignements:

  • SAM 3: Meilleur pour la segmentation de concepts à vocabulaire ouvert, la recherche de toutes les occurrences d'un concept à l'aide d'un texte ou d'un exemple.
  • SAM 2: La meilleure solution pour la segmentation interactive d'un seul objet dans des images et des vidéos avec des invites géométriques
  • YOLO11: Le meilleur pour la segmentation en temps réel et à grande vitesse dans les déploiements à ressources limitées en utilisant des pipelines d'exportation efficaces tels que ONNX et TensorRT

Mesures d'évaluation

SAM 3 introduit de nouvelles mesures conçues pour la tâche PCS, en complément des mesures familières telles que le score F1, la précision et le rappel.

Classification-Gated F1 (CGF1)

Il s'agit de la principale mesure combinant la localisation et la classification :

CGF1 = 100 × pmF1 × IL_MCC

Où :

  • pmF1 (Positive Macro F1) : Mesure la qualité de la localisation sur des exemples positifs
  • IL_MCC (coefficient de corrélation de Matthews au niveau de l'image) : Mesure la précision de la classification binaire ("le concept est-il présent ?")

Pourquoi ces mesures ?

Les mesures traditionnelles d'AP ne tiennent pas compte de l'étalonnage, ce qui rend les modèles difficiles à utiliser dans la pratique. En n'évaluant que les prédictions supérieures à 0,5 de confiance, les mesures de SAM 3 imposent un bon calibrage et imitent les modèles d'utilisation du monde réel dans les domaines de la prédiction interactive et du track boucles interactives.

Ablations et aperçus clés

Impact de la tête de présence

La tête de présence dissocie la reconnaissance de la localisation, ce qui apporte des améliorations significatives :

ConfigurationCGF1IL_MCCpmF1
Sans présence57.60.7774.7
Avec présence63.30.8277.1

La tête de présence apporte un gain de +5,7 CGF1 (+9,9 %), améliorant principalement la capacité de reconnaissance (IL_MCC +6,5 %).

Effet des négatifs durs

Négatifs durs/ImageCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Les négations dures sont cruciales pour la reconnaissance du vocabulaire ouvert, améliorant IL_MCC de 54,5 % (0,44 → 0,68).

Mise à l'échelle des données d'apprentissage

Sources de donnéesCGF1IL_MCCpmF1
Externe uniquement30.90.4666.3
Externe + synthétique39.70.5770.6
Extérieur + Siège51.80.7173.2
Les trois54.30.7473.5

Des annotations humaines de haute qualité permettent d'obtenir des gains importants par rapport aux données synthétiques ou externes seules. Pour en savoir plus sur les pratiques en matière de qualité des données, voir Collecte et annotation des données.

Applications

La capacité de segmentation des concepts de SAM 3 permet de nouveaux cas d'utilisation :

  • Modération du contenu: Recherche de toutes les occurrences de types de contenus spécifiques dans les médiathèques
  • Commerce électronique: Segmentation de tous les produits d'un certain type dans les images de catalogue, avec prise en charge de l 'auto-annotation
  • Imagerie médicale: Identifier toutes les occurrences de types de tissus ou d'anomalies spécifiques
  • Systèmes autonomes: Suivre toutes les occurrences de panneaux de signalisation, de piétons ou de véhicules par catégorie.
  • Analyse vidéo: Compter et track toutes les personnes portant des vêtements spécifiques ou effectuant des actions.
  • Annotation des ensembles de données: Annotation rapide de toutes les instances de catégories d'objets rares
  • Recherche scientifique: Quantifier et analyser tous les spécimens correspondant à des critères spécifiques

SAM 3 Agent : Raisonnement en langage étendu

SAM 3 peut être combiné avec des modèles linguistiques multimodaux (MLLM) pour traiter des requêtes complexes nécessitant un raisonnement, dans un esprit similaire à celui des systèmes de vocabulaire ouvert tels que OWLv2 et T-Rex.

Performance dans les tâches de raisonnement

BenchmarkMétriqueSAM 3 Agent (Gemini 2.5 Pro)Précédent Best
ReasonSeg (validation)gIoU76.065,0 (SoTA)
ReasonSeg (test)gIoU73.861,3 (SoTA)
OmniLabel (validation)AP46.736,5 (RÉEL)
RefCOCO+Acc91.289,3 (LISA)

Exemple de requêtes complexes

SAM 3 L'agent peut traiter des requêtes nécessitant un raisonnement :

  • "Les gens sont assis mais ne tiennent pas de paquet cadeau dans leurs mains.
  • "Le chien le plus proche de la caméra qui ne porte pas de collier.
  • "Objets rouges plus grands que la main de la personne".

Le MLLM propose des requêtes de phrases nominales simples à SAM 3, analyse les masques renvoyés et itère jusqu'à ce qu'il soit satisfait.

Limites

Bien que SAM 3 représente une avancée majeure, il présente certaines limites :

  • Complexité des phrases: Convient mieux aux phrases simples ; les expressions longues ou les raisonnements complexes peuvent nécessiter l'intégration de MLLM.
  • Traitement de l'ambiguïté: Certains concepts restent intrinsèquement ambigus (par exemple, "petite fenêtre", "chambre confortable").
  • Exigences informatiques: Plus grand et plus lent que les modèles de détection spécialisés tels que YOLO
  • Portée du vocabulaire: Concentré sur les concepts visuels atomiques ; le raisonnement compositionnel est limité sans l'aide de MLLM
  • Concepts rares: Les performances peuvent se dégrader pour des concepts extrêmement rares ou très fins qui ne sont pas bien représentés dans les données d'apprentissage.

Citation

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quand SAM 3 sortira-t-il ?

SAM 3 a été publié par Meta le 20 novembre 2025. La prise en charge d'Ultralytics est en cours et sera livrée dans une prochaine mise à jour du paquet avec des documents complets pour le mode prédictif et le mode detrack .

SAM 3 sera-t-il intégré à Ultralytics?

Oui, SAM 3 sera pris en charge dans le package Ultralytics Python dès sa sortie, y compris la segmentation des concepts, les invites visuelles de type SAM 2 et le suivi vidéo multi-objets. Vous pourrez exporter vers des formats tels que ONNX et TensorRT pour le déploiement, avec des outils Python et CLI rationalisés.

Calendrier de mise en œuvre

Les exemples de code figurant dans cette documentation sont des versions préliminaires montrant les schémas d'utilisation prévus. L'implémentation réelle sera disponible une fois l'intégration d'Ultralytics terminée.

Qu'est-ce que la segmentation en concepts promouvables (PCS) ?

PCS est une nouvelle tâche introduite dans SAM 3 qui segmente toutes les instances d'un concept visuel dans une image ou une vidéo. Contrairement à la segmentation traditionnelle qui cible une instance d'objet spécifique, PCS trouve toutes les occurrences d'une catégorie. Par exemple :

  • Texte d'incitation: "bus scolaire jaune" → segmente tous les bus scolaires jaunes de la scène
  • Exemple d'image: Encadrement d'un chien → segmentation de tous les chiens de l'image
  • Combiné: "chat rayé" + boîte à exemples → segmente tous les chats rayés correspondant à l'exemple.

Voir les informations générales sur la détection d'objets et la segmentation d'instances.

En quoi SAM 3 diffère-t-il de SAM 2 ?

FonctionnalitéSAM 2SAM 3
TâcheUn seul objet par inviteToutes les instances d'un concept
Types d'invitesPoints, boîtes, masques+ phrases de texte, exemples d'images
Capacité de détectionNécessite un détecteur externeDétecteur de vocabulaire ouvert intégré
ReconnaissanceBasé sur la géométrie uniquementReconnaissance textuelle et visuelle
ArchitectureTraceur uniquementDétecteur + Traceur avec tête de présence
Performance du tir à zéroN/A (nécessite des indications visuelles)47,0 AP sur LVIS, 2× meilleur sur SA-Co
Affinement interactifClics uniquementClics + généralisation de l'exemple

SAM 3 conserve la compatibilité ascendante avec l'aide visuelle de SAM 2 tout en ajoutant des capacités basées sur des concepts.

Quels sont les ensembles de données utilisés pour former SAM 3 ?

SAM 3 est entraîné sur l'ensemble de données Segment Anything with Concepts (SA-Co) :

Données de formation:

  • 5,2 millions d'images avec 4 millions d'expressions nominales uniques (SA-Co/HQ) - annotations humaines de haute qualité
  • 52,5K vidéos avec 24,8K expressions nominales uniques (SA-Co/VIDEO)
  • 1,4 milliard de masques synthétiques à travers 38 millions d'expressions nominales (SA-Co/SYN)
  • 15 ensembles de données externes enrichis de négatifs durs (SA-Co/EXT)

Données de référence:

  • 214K concepts uniques à travers 126K images/vidéos
  • 50× plus de concepts que les références existantes (par exemple, LVIS a ~4K concepts)
  • Triple annotation sur SA-Co/Gold pour mesurer les limites de la performance humaine

Cette échelle massive et cette diversité permettent à SAM 3 d'obtenir une généralisation sans faille des concepts à vocabulaire ouvert.

Comment SAM 3 se compare-t-il à YOLO11 pour la segmentation ?

SAM 3 et YOLO11 répondent à des besoins différents :

SAM 3 Avantages:

  • Vocabulaire ouvert: Permet de segmenter n'importe quel concept à l'aide d'invites textuelles sans formation.
  • Zéro coup: Travaille immédiatement sur les nouvelles catégories
  • Interactif: Le raffinement basé sur l'exemple se généralise aux objets similaires
  • Basé sur des concepts: Recherche automatique de toutes les instances d'une catégorie
  • Précision: 47,0 AP sur la segmentation de l'instance LVIS zéro-shot

YOLO11 Avantages:

  • Vitesse: inférence 10-15× plus rapide (2-3ms vs 30ms par image)
  • Efficacité: modèles 70 fois plus petits (5,9 Mo contre ~400 Mo prévus)
  • Respectueux des ressources: Fonctionne sur les appareils périphériques et mobiles
  • En temps réel: Optimisé pour les déploiements en production

Recommandation:

  • Utilisez SAM 3 pour une segmentation flexible et ouverte du vocabulaire lorsque vous devez trouver toutes les occurrences de concepts décrits par un texte ou des exemples.
  • Utiliser YOLO11 pour les déploiements de production à grande vitesse où les catégories sont connues à l'avance
  • Utilisez SAM 2 pour la segmentation interactive d'un seul objet à l'aide d'invites géométriques.

SAM 3 peut-il traiter des requêtes linguistiques complexes ?

SAM 3 est conçu pour les phrases nominales simples (par exemple, "pomme rouge", "personne portant un chapeau"). Pour les requêtes complexes nécessitant un raisonnement, il convient de combiner SAM 3 avec un MLLM sous le nom de SAM 3 Agent:

Requêtes simples (native SAM 3):

  • "bus scolaire jaune"
  • "chat rayé
  • "Personne portant un chapeau rouge

Requêtes complexes (SAM 3 Agent avec MLLM) :

  • "Les gens s'assoient mais ne tiennent pas de paquet cadeau.
  • "Le chien le plus proche de l'appareil photo sans collier
  • "Objets rouges plus grands que la main de la personne".

L'agent SAM 3 atteint 76,0 gIoU sur la validation ReasonSeg (contre 65,0 pour la meilleure performance précédente, soit une amélioration de +16,9%) en combinant la segmentation de SAM 3 avec les capacités de raisonnement de MLLM.

Quelle est la précision de SAM 3 par rapport à la performance humaine ?

Sur le benchmark SA-Co/Gold avec une triple annotation humaine :

  • Limite inférieure humaine: 74,2 CGF1 (annotateur le plus conservateur)
  • PerformanceSAM 3: 65,0 CGF1
  • Réalisation: 88% de la limite inférieure humaine estimée
  • Limite supérieure humaine: 81,4 CGF1 (annotateur le plus libéral)

SAM 3 atteint des performances élevées, proches de la précision humaine, dans la segmentation des concepts du vocabulaire ouvert, l'écart se situant principalement au niveau des concepts ambigus ou subjectifs (par exemple, "petite fenêtre", "chambre confortable").



📅C réé il y a 1 mois ✏️ Mis à jour il y a 1 jour
glenn-jocherY-T-G

Commentaires