Link to this sectionSAM 2 : Segment Anything Model 2#
SAM 2, le successeur du Segment Anything Model (SAM) de Meta, est un outil de pointe conçu pour la segmentation complète d'objets dans les images et les vidéos. Il excelle dans le traitement de données visuelles complexes grâce à une architecture de modèle unifiée et capable de répondre à des invites, prenant en charge le traitement en temps réel et la généralisation zero-shot.
Les modèles SAM 2.1 alimentent la fonctionnalité d'annotation intelligente sur Ultralytics Platform, permettant une segmentation basée sur le clic pour un étiquetage rapide des datasets. Consulte le guide d'annotation pour plus de détails.

Link to this sectionFonctionnalités clés#
Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉
Link to this sectionArchitecture de modèle unifiée#
SAM 2 combine les capacités de segmentation d'images et de vidéos dans un seul modèle. Cette unification simplifie le déploiement et permet une performance cohérente sur différents types de médias. Il exploite une interface flexible basée sur des invites, permettant aux utilisateurs de spécifier les objets d'intérêt via divers types d'invites, tels que des points, des boîtes englobantes ou des masques.
Link to this sectionPerformance en temps réel#
Le modèle atteint des vitesses d'inférence en temps réel, traitant environ 44 images par seconde. Cela rend SAM 2 adapté aux applications nécessitant un retour immédiat, comme le montage vidéo et la réalité augmentée.
Link to this sectionGénéralisation zero-shot#
SAM 2 peut segmenter des objets qu'il n'a jamais rencontrés auparavant, démontrant une forte généralisation zero-shot. Cela est particulièrement utile dans des domaines visuels divers ou en évolution où les catégories prédéfinies peuvent ne pas couvrir tous les objets possibles.
Link to this sectionRaffinement interactif#
Tu peux raffiner les résultats de segmentation de manière itérative en fournissant des invites supplémentaires, ce qui permet un contrôle précis sur le résultat. Cette interactivité est essentielle pour affiner les résultats dans des applications comme l'annotation vidéo ou l'imagerie médicale.
Link to this sectionGestion avancée des défis visuels#
SAM 2 inclut des mécanismes pour gérer les défis courants de segmentation vidéo, tels que l'occlusion d'objets et leur réapparition. Il utilise un mécanisme de mémoire sophistiqué pour garder une trace des objets à travers les images, assurant la continuité même lorsque les objets sont temporairement obscurcis ou sortent et rentrent dans la scène.
Pour une compréhension plus approfondie de l'architecture et des capacités de SAM 2, explore le document de recherche sur SAM 2.
Link to this sectionPerformance et détails techniques#
SAM 2 établit une nouvelle référence dans le domaine, surpassant les modèles précédents sur diverses métriques :
| Métrique | SAM 2 | Précédent SOTA |
|---|---|---|
| Segmentation vidéo interactive | Meilleur | - |
| Interactions humaines requises | 3x moins | Ligne de base |
| Précision de segmentation d'image | Améliorée | SAM |
| Vitesse d'inférence | 6x plus rapide | SAM |
Link to this sectionArchitecture du modèle#
Link to this sectionComposants principaux#
- Encodeur d'image et de vidéo : Utilise une architecture basée sur transformer pour extraire des caractéristiques de haut niveau à partir d'images et de séquences vidéo. Ce composant est responsable de la compréhension du contenu visuel à chaque instant.
- Encodeur d'invites : Traite les invites fournies par l'utilisateur (points, boîtes, masques) pour guider la tâche de segmentation. Cela permet à SAM 2 de s'adapter à l'entrée de l'utilisateur et de cibler des objets spécifiques dans une scène.
- Mécanisme de mémoire : Inclut un encodeur de mémoire, une banque de mémoire et un module d'attention à la mémoire. Ces composants stockent et utilisent collectivement des informations provenant d'images passées, permettant au modèle de maintenir un suivi d'objet cohérent dans le temps.
- Décodeur de masque : Génère les masques de segmentation finaux basés sur les caractéristiques d'image encodées et les invites. Dans la vidéo, il utilise également le contexte de mémoire pour assurer un suivi précis à travers les images.

Link to this sectionMécanisme de mémoire et gestion des occlusions#
Le mécanisme de mémoire permet à SAM 2 de gérer les dépendances temporelles et les occlusions dans les données vidéo. À mesure que les objets se déplacent et interagissent, SAM 2 enregistre leurs caractéristiques dans une banque de mémoire. Lorsqu'un objet est occlus, le modèle peut s'appuyer sur cette mémoire pour prédire sa position et son apparence lorsqu'il réapparaît. La tête d'occlusion gère spécifiquement les scénarios où les objets ne sont pas visibles, prédisant la probabilité qu'un objet soit occlus.
Link to this sectionRésolution d'ambiguïté multi-masques#
Dans les situations avec ambiguïté (par exemple, des objets qui se chevauchent), SAM 2 peut générer plusieurs prédictions de masques. Cette fonctionnalité est cruciale pour représenter avec précision des scènes complexes où un seul masque pourrait ne pas décrire suffisamment les nuances de la scène.
Link to this sectionDataset SA-V#
Le dataset SA-V, développé pour l'entraînement de SAM 2, est l'un des datasets de segmentation vidéo les plus vastes et les plus diversifiés disponibles. Il comprend :
- 51 000+ Vidéos : Capturées dans 47 pays, offrant une large gamme de scénarios du monde réel.
- 600 000+ Annotations de masques : Annotations de masques spatio-temporelles détaillées, appelées "masklets", couvrant des objets entiers et des parties.
- Échelle du dataset : Il présente 4,5 fois plus de vidéos et 53 fois plus d'annotations que les datasets les plus vastes précédents, offrant une diversité et une complexité sans précédent.
Link to this sectionBenchmarks#
Link to this sectionSegmentation d'objets vidéo#
SAM 2 a démontré des performances supérieures sur les principaux benchmarks de segmentation vidéo :
| Dataset | J&F | J | F |
|---|---|---|---|
| DAVIS 2017 | 82.5 | 79.8 | 85.2 |
| YouTube-VOS | 81.2 | 78.9 | 83.5 |
Link to this sectionSegmentation interactive#
Dans les tâches de segmentation interactive, SAM 2 montre une efficacité et une précision significatives :
| Dataset | NoC@90 | AUC |
|---|---|---|
| DAVIS Interactive | 1.54 | 0.872 |
Link to this sectionInstallation#
Pour installer SAM 2, utilise la commande suivante. Tous les modèles SAM 2 se téléchargeront automatiquement lors de la première utilisation.
pip install ultralyticsLink to this sectionComment utiliser SAM 2 : Polyvalence dans la segmentation d'images et de vidéos#
Le tableau suivant détaille les modèles SAM 2 disponibles, leurs poids pré-entraînés, les tâches prises en charge et la compatibilité avec différents modes d'opération comme Inférence, Validation, Entraînement et Exportation.
| Type de modèle | Poids pré-entraînés | Tâches prises en charge | Inférence | Validation | Entraînement | Exportation |
|---|---|---|---|---|---|---|
| SAM 2 tiny | sam2_t.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2 small | sam2_s.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2 base | sam2_b.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2 large | sam2_l.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 tiny | sam2.1_t.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 small | sam2.1_s.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 base | sam2.1_b.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 large | sam2.1_l.pt | Segmentation d'instance | ✅ | ❌ | ❌ | ❌ |
Link to this sectionExemples de prédiction SAM 2#
SAM 2 peut être utilisé dans un large éventail de tâches, notamment le montage vidéo en temps réel, l'imagerie médicale et les systèmes autonomes. Sa capacité à segmenter des données visuelles aussi bien statiques que dynamiques en fait un outil polyvalent pour les chercheurs et les développeurs.
Link to this sectionSegmenter avec des invites (prompts)#
Utilise des invites pour segmenter des objets spécifiques dans des images ou des vidéos.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Link to this sectionSegmenter tout#
Segmente tout le contenu d'une image ou d'une vidéo sans invites spécifiques.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/video.mp4")Link to this sectionSegmenter une vidéo et suivre des objets#
Segmente tout le contenu d'une vidéo avec des invites spécifiques et suis les objets.
from ultralytics.models.sam import SAM2VideoPredictor
# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)
# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])
# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])- Cet exemple démontre comment SAM 2 peut être utilisé pour segmenter l'intégralité du contenu d'une image ou d'une vidéo si aucune invite (bboxes/points/masques) n'est fournie.
Link to this sectionSegmenter et suivre de manière dynamique et interactive#
SAM2DynamicInteractivePredictor est une extension avancée sans entraînement de SAM2 qui permet une interaction dynamique avec plusieurs images et des capacités d'apprentissage continu. Ce prédicteur prend en charge les mises à jour d'invites en temps réel et la gestion de la mémoire pour améliorer les performances de suivi sur une séquence d'images. Par rapport au SAM2 original, SAM2DynamicInteractivePredictor reconstruit le flux d'inférence pour exploiter au mieux les modèles SAM2 pré-entraînés sans nécessiter d'entraînement supplémentaire.

Link to this sectionFonctionnalités clés#
Il offre trois améliorations significatives :
- Interactif dynamique : Ajoute de nouvelles invites pour fusionner ou suivre de nouvelles instances non suivies dans les images suivantes à tout moment pendant le traitement vidéo
- Apprentissage continu : Ajoute de nouvelles invites pour les instances existantes afin d'améliorer les performances du modèle au fil du temps
- Prise en charge indépendante de plusieurs images : Traite plusieurs images indépendantes (pas nécessairement issues d'une séquence vidéo) avec un partage de mémoire et un suivi d'objets inter-images
Link to this sectionCapacités principales#
- Flexibilité des invites : Accepte les boîtes englobantes, les points et les masques comme invites
- Gestion de la banque de mémoire : Maintient une banque de mémoire dynamique pour stocker les états des objets à travers les images
- Suivi multi-objets : Prend en charge le suivi simultané de plusieurs objets avec des ID d'objets individuels
- Mises à jour en temps réel : Permet d'ajouter de nouvelles invites pendant l'inférence sans retraiter les images précédentes
- Traitement indépendant des images : Traite des images isolées avec un contexte de mémoire partagée pour une cohérence des objets entre les images
from ultralytics.models.sam import SAM2DynamicInteractivePredictor
# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)
# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)
# Detect this particular object in a new image
results = predictor(source="image2.jpg")
# Add new category with a new object ID
results = predictor(
source="image4.jpg",
bboxes=[[300, 300, 400, 400]], # New object
obj_ids=[1], # New object ID
update_memory=True, # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")
# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
source="image6.jpg",
points=[[150, 150]], # Refinement point
labels=[1], # Positive point
obj_ids=[1], # Same object ID
update_memory=True, # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")Le SAM2DynamicInteractivePredictor est conçu pour fonctionner avec les modèles SAM2 et prend en charge l'ajout/le raffinement natif de catégories par toutes les invites box/point/masque que SAM2 supporte. Il est particulièrement utile pour les scénarios où les objets apparaissent ou changent au fil du temps, comme dans les tâches d'annotation vidéo ou d'édition interactive.
Link to this sectionArguments#
| Nom | Valeur par défaut | Type de données | Description |
|---|---|---|---|
max_obj_num | 3 | int | Le nombre maximum prédéfini de catégories |
update_memory | False | bool | Indique s'il faut mettre à jour la mémoire avec de nouvelles invites |
obj_ids | None | List[int] | Liste des ID d'objets correspondant aux invites |
Link to this sectionCas d'utilisation#
SAM2DynamicInteractivePredictor est idéal pour :
- Flux de travail d'annotation vidéo où de nouveaux objets apparaissent pendant la séquence
- Montage vidéo interactif nécessitant l'ajout et le raffinement d'objets en temps réel
- Applications de surveillance avec des besoins de suivi dynamique d'objets
- Imagerie médicale pour suivre des structures anatomiques dans des séries temporelles
- Systèmes autonomes nécessitant une détection et un suivi d'objets adaptatifs
- Jeux de données multi-images pour une segmentation cohérente des objets sur des images indépendantes
- Analyse de collections d'images où les objets doivent être suivis à travers différentes scènes
- Segmentation inter-domaines tirant parti de la mémoire provenant de divers contextes d'images
- Annotation semi-automatique pour une création efficace de jeux de données avec une intervention manuelle minimale
Link to this sectionComparaison SAM vs YOLO#
Nous comparons ici les modèles SAM 2 de Meta, y compris la plus petite variante SAM2-t, avec les modèles de segmentation d'Ultralytics, notamment YOLO26n-seg :
| Modèle | Taille (Mo) | Paramètres (M) | Vitesse (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM2-b | 162 | 80.8 | 28867 |
| Meta SAM2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s avec backbone YOLOv8 | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (11.0x plus petit) | 3.4 (11.4x moins) | 24.8 (945x plus rapide) |
| Ultralytics YOLO11n-seg | 6.2 (12.6x plus petit) | 2.9 (13.4x moins) | 24.3 (964x plus rapide) |
| Ultralytics YOLO26n-seg | 6.7 (11.7x plus petit) | 2.7 (14.4x moins) | 25.2 (930x plus rapide) |
Cette comparaison démontre les différences substantielles de taille et de vitesse des modèles entre les variantes de SAM et les modèles de segmentation YOLO. Bien que SAM offre des capacités de segmentation automatique uniques, les modèles YOLO, en particulier YOLOv8n-seg, YOLO11n-seg et YOLO26n-seg, sont nettement plus petits, plus rapides et plus efficaces sur le plan informatique.
Vitesses SAM mesurées avec PyTorch, vitesses YOLO mesurées avec ONNX Runtime. Tests effectués sur un Apple M4 Air de 2025 avec 16 Go de RAM en utilisant torch==2.10.0, ultralytics==8.4.31 et onnxruntime==1.24.4. Pour reproduire ce test :
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Link to this sectionAuto-annotation : création efficace de jeux de données#
L'auto-annotation est une fonctionnalité puissante de SAM 2, permettant aux utilisateurs de générer des jeux de données de segmentation rapidement et avec précision en tirant parti de modèles pré-entraînés. Cette capacité est particulièrement utile pour créer de grands jeux de données de haute qualité sans effort manuel intensif.
Link to this sectionComment procéder à l'auto-annotation avec SAM 2#
Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling
Pour auto-annoter ton jeu de données en utilisant SAM 2, suis cet exemple :
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")| Argument | Type | Par défaut | Description |
|---|---|---|---|
data | str | requis | Chemin d'accès au répertoire contenant les images cibles pour l'annotation ou la segmentation. |
det_model | str | 'yolo26x.pt' | Chemin du modèle de détection YOLO pour la détection initiale des objets. |
sam_model | str | 'sam_b.pt' | Chemin du modèle SAM pour la segmentation (prend en charge les poids SAM, SAM 2, MobileSAM et SAM 3). |
device | str | '' | Périphérique de calcul (par ex., 'cuda:0', 'cpu' ou '' pour une détection automatique du périphérique). |
conf | float | 0.25 | Seuil de confiance de détection YOLO pour filtrer les détections faibles. |
iou | float | 0.45 | Seuil d'IoU pour la Non-Maximum Suppression afin de filtrer les boîtes qui se chevauchent. |
imgsz | int | 640 | Taille d'entrée pour le redimensionnement des images (doit être un multiple de 32). |
max_det | int | 300 | Nombre maximum de détections par image pour l'efficacité de la mémoire. |
classes | list[int] | None | Liste des indices de classe à détecter (par ex. [0, 1] pour personne et vélo). |
output_dir | str | None | Répertoire de sauvegarde pour les annotations (par défaut : dossier frère <data>_auto_annotate_labels). |
Cette fonction facilite la création rapide de jeux de données de segmentation de haute qualité, idéale pour les chercheurs et les développeurs souhaitant accélérer leurs projets.
Link to this sectionLimites#
Malgré ses points forts, SAM 2 présente certaines limites :
- Stabilité du suivi : SAM 2 peut perdre la trace d'objets lors de séquences prolongées ou de changements de point de vue importants.
- Confusion d'objets : Le modèle peut parfois confondre des objets qui se ressemblent, en particulier dans les scènes encombrées.
- Efficacité avec plusieurs objets : L'efficacité de la segmentation diminue lors du traitement simultané de plusieurs objets en raison de l'absence de communication entre les objets.
- Précision des détails : Peut manquer des détails fins, surtout avec des objets se déplaçant rapidement. Des invites supplémentaires peuvent partiellement résoudre ce problème, mais la fluidité temporelle n'est pas garantie.
Link to this sectionCitations et remerciements#
Si SAM 2 est une partie cruciale de ton travail de recherche ou de développement, merci de le citer en utilisant la référence suivante :
@article{ravi2024sam2,
title={SAM 2: Segment Anything in Images and Videos},
author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
journal={arXiv preprint},
year={2024}
}Nous exprimons notre gratitude à Meta AI pour leurs contributions à la communauté IA avec ce modèle et ce jeu de données révolutionnaires.
Link to this sectionFAQ#
Link to this sectionQu'est-ce que SAM 2 et comment améliore-t-il le Segment Anything Model (SAM) original ?#
SAM 2, successeur du Segment Anything Model (SAM) de Meta, est un outil de pointe conçu pour la segmentation complète d'objets dans les images et les vidéos. Il excelle dans la gestion de données visuelles complexes grâce à une architecture de modèle unifiée et orientée par invites, qui prend en charge le traitement en temps réel et la généralisation zero-shot. SAM 2 offre plusieurs améliorations par rapport au SAM original, notamment :
- Architecture de modèle unifiée : Combine les capacités de segmentation d'images et de vidéos en un seul modèle.
- Performance en temps réel : Traite environ 44 images par seconde, ce qui le rend adapté aux applications nécessitant un retour immédiat.
- Généralisation Zero-Shot : Segmente des objets jamais rencontrés auparavant, utile dans divers domaines visuels.
- Raffinement interactif : Permet aux utilisateurs d'affiner de manière itérative les résultats de segmentation en fournissant des invites supplémentaires.
- Gestion avancée des défis visuels : Gère les défis courants de segmentation vidéo comme l'occlusion d'objets et leur réapparition.
Pour plus de détails sur l'architecture et les capacités de SAM 2, explore le document de recherche sur SAM 2.
Link to this sectionComment puis-je utiliser SAM 2 pour la segmentation vidéo en temps réel ?#
SAM 2 peut être utilisé pour la segmentation vidéo en temps réel en tirant parti de son interface orientée par invites et de ses capacités d'inférence en temps réel. Voici un exemple de base :
Utilise des invites pour segmenter des objets spécifiques dans des images ou des vidéos.
from ultralytics import SAM
# Load a model
model = SAM("sam2_b.pt")
# Display model information (optional)
model.info()
# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])Pour une utilisation plus complète, reporte-toi à la section Comment utiliser SAM 2.
Link to this sectionQuels jeux de données sont utilisés pour entraîner SAM 2, et comment améliorent-ils ses performances ?#
SAM 2 est entraîné sur le jeu de données SA-V, l'un des jeux de données de segmentation vidéo les plus vastes et les plus diversifiés disponibles. Le jeu de données SA-V comprend :
- 51 000+ Vidéos : Capturées dans 47 pays, offrant une large gamme de scénarios du monde réel.
- 600 000+ Annotations de masques : Annotations de masques spatio-temporelles détaillées, appelées "masklets", couvrant des objets entiers et des parties.
- Échelle du jeu de données : Comporte 4,5 fois plus de vidéos et 53 fois plus d'annotations que les précédents plus grands jeux de données, offrant une diversité et une complexité sans précédent.
Ce vaste jeu de données permet à SAM 2 d'atteindre des performances supérieures sur les principaux benchmarks de segmentation vidéo et améliore ses capacités de généralisation zero-shot. Pour plus d'informations, voir la section Jeu de données SA-V.
Link to this sectionComment SAM 2 gère-t-il les occlusions et les réapparitions d'objets dans la segmentation vidéo ?#
SAM 2 inclut un mécanisme de mémoire sophistiqué pour gérer les dépendances temporelles et les occlusions dans les données vidéo. Le mécanisme de mémoire se compose de :
- Encodeur de mémoire et banque de mémoire : Stocke les caractéristiques des images passées.
- Module d'attention à la mémoire : Utilise les informations stockées pour maintenir un suivi cohérent des objets au fil du temps.
- Tête d'occlusion : Gère spécifiquement les scénarios où les objets ne sont pas visibles, en prédisant la probabilité qu'un objet soit occlus.
Ce mécanisme garantit la continuité même lorsque les objets sont temporairement masqués ou sortent puis rentrent dans la scène. Pour plus de détails, reporte-toi à la section Mécanisme de mémoire et gestion des occlusions.
Link to this sectionComment SAM 2 se compare-t-il à d'autres modèles de segmentation comme YOLO26 ?#
Les modèles SAM 2, tels que SAM2-t et SAM2-b de Meta, offrent de puissantes capacités de segmentation zero-shot mais sont nettement plus volumineux et plus lents que les modèles YOLO. Par exemple, YOLO26n-seg est environ 24 fois plus petit et plus de 1145 fois plus rapide que SAM2-b sur CPU. Alors que SAM 2 excelle dans les scénarios de segmentation polyvalents, basés sur des invites et zero-shot, YOLO26 est optimisé pour la vitesse, l'efficacité et les applications en temps réel avec une inférence de bout en bout sans NMS, ce qui le rend mieux adapté au déploiement dans des environnements aux ressources limitées.