Перейти к содержанию

SAM 3: Сегментируйте что угодно с помощью концепций

Скоро будет ⚠️

SAM Модели SAM 3 еще не были опубликованы компанией Meta. Приведенная ниже информация основана на исследовательском документе, представленном на ICLR 2026. Загрузка моделей и финальные контрольные показатели будут доступны после официального релиза Meta.

Обзор SAM 3

SAM 3 (Segment Anything Model 3) представляет собой базовую модель нового поколения для Promptable Concept Segmentation (PCS) компании Meta. Развивая SAM 2, SAM 3 представляет принципиально новую возможность: обнаружение, сегментирование и отслеживание всех экземпляров визуальной концепции, заданной текстовыми подсказками, образцами изображений или тем и другим. В отличие от предыдущих версий SAM , которые сегментировали отдельные объекты по подсказке, SAM 3 может находить и сегментировать все случаи появления понятия в любом месте изображения или видео, что соответствует целям открытого словаря в современной сегментации экземпляров.

Обзор

SAM 3 обеспечивает прирост производительности в 2 раза по сравнению с существующими системами в сегментации понятий с помощью подсказок, сохраняя и улучшая возможности SAM 2 по интерактивной визуальной сегментации. Модель демонстрирует превосходство в сегментации с открытым словарем, позволяя пользователям задавать понятия с помощью простых именных фраз (например, "желтый школьный автобус", "полосатый кот") или предоставляя примеры изображений целевого объекта. Эти возможности дополняют готовые к производству конвейеры, основанные на оптимизированных рабочих процессах прогнозирования и отслеживания.

SAM 3 Сегментация

Что такое Promptable Concept Segmentation (PCS)?

Задача PCS принимает на вход запрос концепции и возвращает маски сегментации с уникальными идентификаторами для всех совпадающих экземпляров объектов. Концептуальные подсказки могут быть:

  • Текст: Простые фразы существительных, такие как "красное яблоко" или "человек в шляпе", аналогично обучению с нулевым результатом
  • Образцы изображений: Ограничительные рамки вокруг объектов-образцов (положительных или отрицательных) для быстрого обобщения
  • Комбинированный: Экземпляры текста и изображения вместе для точного контроля

Это отличается от традиционных визуальных подсказок (точек, квадратиков, масок), которые сегментируют только один конкретный экземпляр объекта, как это было принято в оригинальном семействеSAM .

Ключевые показатели эффективности

Метрика SAM 3 Достижения
LVIS Zero-Shot Mask AP 47,0 (по сравнению с предыдущим лучшим результатом 38,5, +22% улучшения)
Контрольный показатель SA-Co В 2 раза лучше, чем существующие системы
Скорость вывода (H200 GPU) 30 мс на изображение с 100+ обнаруженными объектами
Видеоспектакль Почти в реальном времени для ~5 одновременно работающих объектов
Бенчмарк MOSEv2 VOS 60,1 J&F (+25,5% по сравнению с SAM 2.1, +17% по сравнению с предыдущей SOTA)
Интерактивное уточнение +18,6 улучшение CGF1 после 3 образцовых подсказок
Разрыв в производительности человека Достижение 88% расчетной нижней границы для SA-Co/Gold

О метриках модели и компромиссах в производстве читайте в разделах "Оценка модели" и "Метрики производительностиYOLO ".

Архитектура

SAM 3 состоит из детектора и трекера, которые совместно используют основу видения Perception Encoder (PE). Такая раздельная конструкция позволяет избежать конфликтов задач, обеспечивая как обнаружение на уровне изображения, так и отслеживание на уровне видео, с интерфейсом, совместимым сиспользованием Ultralytics Python и CLI .

Основные компоненты

  • Детектор: Архитектура на основе DETR для обнаружения концептов на уровне изображений

    • Кодировщик текста для подсказок с фразами существительных
    • Образцовый кодировщик для подсказок на основе изображений
    • Кодировщик слияния для определения характеристик изображения по подсказкам
    • Новая голова присутствия, которая отделяет распознавание ("что") от локализации ("где")
    • Масочная головка для генерации масок сегментации экземпляров
  • Трекер: Сегментация видео на основе памяти, унаследованная от SAM 2

    • Кодировщик подсказок, декодер масок, кодировщик памяти
    • Банк памяти для хранения внешнего вида объектов в разных кадрах
    • Темпоральная деамбигуация с помощью методов, подобных фильтру Калмана, в многообъектных условиях
  • Жетон присутствия: Выученный глобальный маркер, который предсказывает, присутствует ли целевое понятие на изображении/кадре, улучшая обнаружение за счет разделения распознавания и локализации.

Архитектура SAM 3

Ключевые инновации

  1. Раздельное распознавание и локализация: Головка присутствия предсказывает присутствие концепта в глобальном масштабе, в то время как запросы предложений сосредоточены только на локализации, что позволяет избежать конфликтующих целей.
  2. Унифицированные концептуальные и визуальные подсказки: Поддерживает как PCS (концептуальные подсказки), так и PVS (визуальные подсказки, такие как щелчки/коробки в SAM 2) в одной модели.
  3. Интерактивное уточнение образцов: Пользователи могут добавлять положительные или отрицательные образцы изображений для итеративного уточнения результатов, при этом модель обобщается на похожие объекты, а не просто корректирует отдельные экземпляры.
  4. Временная дискрипция: Использует оценки обнаружения маскетов и периодические повторные запросы для обработки окклюзий, переполненных сцен и сбоев отслеживания в видео, что соответствует лучшим практикам сегментации экземпляров и отслеживания.

Набор данных SA-Co

SAM 3 обучен на Segment Anything with Concepts (SA-Co), самом большом и разнообразном наборе данных сегментации, разработанном Meta на сегодняшний день и выходящем за рамки таких распространенных эталонов, как COCO и LVIS.

Учебные данные

Компонент набора данных Описание Масштаб
SA-Co/HQ Высококачественные аннотированные человеком данные изображений, полученные с помощью 4-фазной системы обработки данных 5,2 млн изображений, 4 млн уникальных именных фраз
SA-Co/SYN Синтетический набор данных, помеченный ИИ без участия человека 38M именных фраз, 1.4B масок
SA-Co/EXT 15 внешних наборов данных, обогащенных жесткими негативами Зависит от источника
SA-Co/VIDEO Аннотации к видео с временным отслеживанием 52,5 тыс. видеороликов, 24,8 тыс. уникальных именных фраз

Контрольные данные

Эталон оценки SA-Co содержит 214 тыс. уникальных фраз на 126 тыс. изображений и видео, что позволяет получить более чем 50-кратное увеличение числа концепций по сравнению с существующими эталонами. Он включает в себя:

  • SA-Co/Gold: 7 доменов, трижды проаннотированных для измерения границ человеческой производительности
  • SA-Co/Silver: 10 доменов, одна аннотация человека
  • SA-Co/Bronze и SA-Co/Bio: 9 существующих наборов данных, адаптированных для сегментации концепций
  • SA-Co/VEval: Видеоэталон с 3 доменами (SA-V, YT-Temporal-1B, SmartGlasses)

Инновации в области Data Engine

Масштабируемая система обработки данных SAM 3, основанная на человеческих и модельных данных, обеспечивает производительность аннотирования в 2 раза выше:

  1. Аннотаторы искусственного интеллекта: Модели на основе Llama предлагают различные фразы существительных, включая жесткие отрицания
  2. ИИ-верификаторы: Тонко настроенные мультимодальные LLM проверяют качество и исчерпанность масок с производительностью, близкой к человеческой
  3. Активный майнинг: Сосредоточение усилий человека на сложных случаях, когда ИИ не справляется.
  4. Ориентирован на онтологию: Использует большую онтологию, основанную на Викиданных, для охвата концепций

Установка

После выхода SAM 3 будет поддерживаться в пакете Ultralytics :

pip install ultralytics

Модели загружаются автоматически при первом использовании. Затем вы можете использовать стандартный режим прогнозирования и позже экспортировать модели в такие форматы, как ONNX и TensorRT для развертывания.

Как использовать SAM 3: универсальность в сегментации понятий

Предварительный просмотр API - возможны изменения

Приведенные ниже примеры кода демонстрируют предполагаемые модели использования, основанные на исследовательской работе. Фактический API будет доступен после:

  1. Мета-версия с открытыми исходными кодами весов модели SAM 3
  2. Ultralytics интегрирует SAM 3 в пакет

Синтаксис и параметры могут отличаться в окончательной реализации. Эти примеры служат для предварительного ознакомления с ожидаемой функциональностью.

Поддерживаемые задачи и модели

SAM 3 поддерживает задачи Promptable Concept Segmentation (PCS) и Promptable Visual Segmentation (PVS):

Тип задачи Типы подсказок Выход
Сегментация концепции (PCS) Текст (фразы существительных), образцы изображений Все экземпляры, соответствующие понятию
Визуальная сегментация (PVS) Точки, коробки, маски Одиночный экземпляр объектаSAM стильSAM 2)
Интерактивное уточнение Добавляйте/удаляйте образцы или клики итеративно Уточненная сегментация с повышенной точностью

Примеры сегментации понятий

Сегмент с текстовыми подсказками

Сегментация понятий на основе текста

Найдите и сегментируйте все экземпляры понятия по текстовому описанию.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Предварительный просмотр API

Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .

Сегмент с образцами изображений

Сегментация на основе образцов изображений

Используйте один или несколько примеров объектов, чтобы найти все похожие экземпляры.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Предварительный просмотр API

Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .

Интерактивное уточнение

Итеративная доработка с помощью образцов

Постепенно улучшайте результаты, добавляя примерные подсказки на основе первоначального результата.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Предварительный просмотр API

Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .

Сегментация видеоконцептов

Отслеживание концепций по видео

Обнаружение и отслеживание всех случаев использования концепции на протяжении всего видео.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Предварительный просмотр API

Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .

Для более широких потоковых и производственных настроек см. раздел "Отслеживание объектов и просмотр результатов в терминале".

Визуальные подсказкиSAM совместимость сSAM 2)

SAM 3 сохраняет полную обратную совместимость с визуальными подсказками SAM 2:

Визуальные подсказки в стиле SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Предварительный просмотр API

Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .

Ориентиры производительности

Сегментация изображений

SAM 3 достигает лучших результатов в различных бенчмарках, включая такие реальные наборы данных, как LVIS и COCO для сегментации:

Бенчмарк Метрика SAM 3 Предыдущий Лучший Улучшение
LVIS (нулевой выстрел) Маска AP 47.0 38.5 +22.1%
SA-Co/золото CGF1 65.0 34.3 (OWLv2) +89.5%
КОКО (нулевой выстрел) Box AP 53.5 52,2 (T-Rex2) +2.5%
ADE-847 (семантический сегмент) mIoU 14.7 9.2 (APE-D) +59.8%
ПаскальКонцепт-59 mIoU 59.4 58,5 (APE-D) +1.5%
Городские пейзажи (семантический сегмент) mIoU 65.1 44,2 (APE-D) +47.3%

Изучите варианты наборов данных для быстрых экспериментов с наборами данныхUltralytics .

Производительность сегментации видео

SAM 3 демонстрирует значительные улучшения по сравнению с SAM 2 и предшествующими современными технологиями в таких бенчмарках видео, как DAVIS 2017 и YouTube-VOS:

Бенчмарк Метрика SAM 3 SAM 2.1 L Улучшение
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Адаптация на несколько кадров

SAM 3 отлично адаптируется к новым областям с минимальным количеством примеров, что актуально для рабочих процессов ИИ, ориентированных на данные:

Бенчмарк 0-выстрел AP 10 выстрелов AP Предыдущий лучший (10 выстрелов)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (гДино-Т)

Эффективность интерактивной доработки

Концептуальные подсказки SAM 3 с примерами сходятся гораздо быстрее, чем визуальные подсказки:

Добавлены подсказки CGF1 Score Усиление в сравнении с использованием только текста Увеличение по сравнению с исходным уровнем PVS
Только текст 46.4 базовый уровень базовый уровень
+1 экземпляр 57.6 +11.2 +6.7
+2 образца 62.2 +15.8 +9.7
+3 образца 65.0 +18.6 +11.2
+4 экземляра 65.7 +19.3 +11,5 (плато)

Точность подсчета объектов

SAM 3 обеспечивает точный подсчет, сегментируя все экземпляры, что является общим требованием при подсчете объектов:

Бенчмарк Точность МАЭ Против лучшего МЛЛМ
CountBench 95.6% 0.11 92,4% (Gemini 2.5)
PixMo-Count 87.3% 0.22 88,8% (Molmo-72B)

Сравнение SAM 3 с SAM 2 с YOLO

Здесь мы сравниваем возможности SAM 3 с SAM 2 и YOLO11 моделями:

Возможности SAM 3 SAM 2 YOLO11n-seg
Сегментация понятий ✅ Все экземпляры из текста/образцов ❌ Не поддерживается ❌ Не поддерживается
Визуальная сегментация ✅ Один экземплярSAM совместимый сSAM 2) ✅ Единственный экземпляр ✅ Все экземпляры
Возможность нулевого выстрела ✅ Открытый словарь ✅ Геометрические подсказки ❌ Закрытый набор
Интерактивное уточнение ✅ Образцы + клики ✅ Только клики ❌ Не поддерживается
Отслеживание видео ✅ Мультиобъект с идентичностью ✅ Мультиобъект ✅ Мультиобъект
LVIS Mask AP (нулевой выстрел) 47.0 Н/Д Н/Д
MOSEv2 J&F 60.1 47.9 Н/Д
Скорость вывода (H200) 30 мс (100+ объектов) ~23 мс (на объект) 2-3 мс (изображение)
Размер модели Большой (ожидается ~400+ МБ) 162 МБ (базовый) 5,9 МБ

Основные выводы:

  • SAM 3: Лучше всего подходит для сегментации понятий в открытом словаре, позволяя найти все случаи употребления понятия с помощью текста или примеров.
  • SAM 2: Лучшее решение для интерактивной сегментации одиночных объектов на изображениях и видео с геометрическими подсказками
  • YOLO11: Лучшее решение для высокоскоростной сегментации в реальном времени в условиях ограниченных ресурсов с использованием эффективных конвейеров экспорта, таких как ONNX и TensorRT

Метрики оценки

В SAM 3 представлены новые метрики, разработанные для задачи PCS, дополняющие такие привычные показатели, как F1 score, precision и recall.

Классификация - F1 (CGF1)

Основная метрика, объединяющая локализацию и классификацию:

CGF1 = 100 × pmF1 × IL_MCC

Где:

  • pmF1 (Positive Macro F1): Измеряет качество локализации на положительных примерах
  • IL_MCC (коэффициент корреляции Мэтьюса на уровне изображения): Измеряет точность бинарной классификации ("присутствует ли понятие?").

Почему именно эти показатели?

Традиционные метрики AP не учитывают калибровку, что затрудняет использование моделей на практике. Оценивая только прогнозы с достоверностью выше 0,5, метрики SAM 3 обеспечивают хорошую калибровку и имитируют реальные шаблоны использования в интерактивных циклах прогнозирования и отслеживания.

Ключевые абляции и выводы

Влияние присутствия руководителя

Головка присутствия отделяет распознавание от локализации, обеспечивая значительные улучшения:

Конфигурация CGF1 IL_MCC pmF1
Без присутствия 57.6 0.77 74.7
С присутствием 63.3 0.82 77.1

Присутствующая голова дает прирост в +5,7 CGF1 (+9,9%), в первую очередь улучшая способность к распознаванию (IL_MCC +6,5%).

Эффект жесткого негатива

Жесткие негативы/изображения CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Твердые отрицания играют решающую роль в распознавании открытой лексики, улучшая IL_MCC на 54,5% (0,44 → 0,68).

Масштабирование обучающих данных

Источники данных CGF1 IL_MCC pmF1
Только внешние 30.9 0.46 66.3
Внешний + синтетический 39.7 0.57 70.6
Внешний + штабной 51.8 0.71 73.2
Все три 54.3 0.74 73.5

Высококачественные человеческие аннотации дают значительный выигрыш по сравнению с синтетическими или внешними данными. О практике качества данных см. в разделе " Сбор и аннотирование данных".

Приложения

Возможность сегментации концепций в SAM 3 позволяет использовать новые возможности:

  • Модерация контента: Поиск всех экземпляров определенных типов контента в медиатеках
  • Электронная коммерция: Выделение всех товаров определенного типа в изображениях каталога с поддержкой автоаннотирования
  • Медицинская визуализация: Выявление всех случаев обнаружения определенных типов тканей или аномалий
  • Автономные системы: Отслеживайте все случаи появления дорожных знаков, пешеходов или транспортных средств по категориям
  • Видеоаналитика: Подсчет и отслеживание всех людей, носящих определенную одежду или выполняющих определенные действия
  • Аннотирование массивов данных: Быстрое аннотирование всех экземпляров редких категорий объектов
  • Научные исследования: Количественная оценка и анализ всех образцов, соответствующих определенным критериям

SAM 3 Агент: Расширенный язык рассуждений

SAM 3 может быть объединен с мультимодальными моделями больших языков (MLLM) для обработки сложных запросов, требующих рассуждений, по духу схожих с системами открытых словарей, такими как OWLv2 и T-Rex.

Результаты выполнения заданий на рассуждение

Бенчмарк Метрика SAM 3 Agent (Gemini 2.5 Pro) Предыдущий Лучший
ReasonSeg (проверка) gIoU 76.0 65,0 (SoTA)
ReasonSeg (тест) gIoU 73.8 61,3 (SoTA)
OmniLabel (валидация) AP 46.7 36,5 (REAL)
RefCOCO+ Acc 91.2 89,3 (LISA)

Пример сложных запросов

SAM 3 Агент может обрабатывать запросы, требующие рассуждений:

  • "Люди сидят, но не держат в руках подарочную коробку".
  • "Ближайшая к камере собака, на которой нет ошейника".
  • "Красные предметы размером больше ладони человека".

MLLM предлагает простые запросы с фразами существительных к SAM 3, анализирует возвращенные маски и выполняет итерации до тех пор, пока не будет удовлетворена.

Ограничения

Хотя SAM 3 представляет собой значительное достижение, он имеет определенные ограничения:

  • Сложность фразы: Лучше всего подходит для простых именных фраз; длинные референтные выражения или сложные рассуждения могут потребовать интеграции MLLM
  • Работа с двусмысленностью: Некоторые понятия остаются неоднозначными по своей сути (например, "маленькое окно", "уютная комната")
  • Вычислительные требования: Больше и медленнее, чем специализированные модели обнаружения, такие как YOLO
  • Объем словарного запаса: Сосредоточен на атомарных визуальных концепциях; композиционные рассуждения ограничены без помощи МЛМ
  • Редкие понятия: Производительность может снизиться при работе с очень редкими или мелкими понятиями, не представленными в обучающих данных

Цитировать

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Часто задаваемые вопросы

Когда выйдет SAM 3?

В настоящее время SAM 3 находится на рассмотрении в ICLR 2026 (конференция в 2026 году, рассмотрение в 2025 году). Официальные модели, веса и бенчмарки будут опубликованы после завершения процесса рассмотрения, скорее всего, в 2026 году. Ultralytics обеспечит немедленную поддержку интеграции SAM 3 после выхода Meta и документирует использование в режиме прогнозирования и отслеживания.

Будет ли SAM 3 интегрирован в Ultralytics?

Да. После выхода пакета Ultralytics Python будет поддерживаться SAM 3, включая сегментацию концепций, визуальные подсказки в стиле SAM 2 и многообъектное отслеживание видео. Вы сможете экспортировать данные в такие форматы, как ONNX и TensorRT для развертывания, а также оптимизированный Python и CLI рабочие процессы.

Сроки реализации

Примеры кода в этой документации являются предварительными версиями, демонстрирующими предполагаемые модели использования. Реальная реализация будет доступна после того, как Meta выпустит SAM 3 weight и Ultralytics завершит интеграцию.

Что такое Promptable Concept Segmentation (PCS)?

PCS - это новая задача, представленная в SAM 3, которая сегментирует все случаи визуального понятия в изображении или видео. В отличие от традиционной сегментации, которая нацелена на конкретный экземпляр объекта, PCS находит каждое вхождение категории. Например:

  • Текстовая подсказка: "желтый школьный автобус" → сегменты всех желтых школьных автобусов в сцене
  • Образец изображения: Коробка вокруг одной собаки → сегменты всех собак на изображении
  • Комбинированный: "полосатая кошка" + блок примеров → сегменты всех полосатых кошек, соответствующих примеру

См. сопутствующую информацию об обнаружении объектов и сегментации экземпляров.

Чем SAM 3 отличается от SAM 2?

Характеристика SAM 2 SAM 3
Задача Один объект в подсказке Все экземпляры понятия
Типы подсказок Точки, коробки, маски + Текстовые фразы, образцы изображений
Возможность обнаружения Требуется внешний детектор Встроенный детектор открытой лексики
Признание Только на основе геометрии Текстовое и визуальное распознавание
Архитектура Только трекер Детектор + трекер с головкой присутствия
Производительность при нулевом выстреле Н/Д (требуются визуальные подсказки) 47,0 AP на LVIS, 2× лучше на SA-Co
Интерактивное уточнение Только клики Клики + обобщение примеров

SAM 3 сохраняет обратную совместимость с визуальными подсказками SAM 2, добавляя при этом возможности, основанные на концепции.

Какие наборы данных используются для обучения SAM 3?

SAM 3 обучен на наборе данных Segment Anything with Concepts (SA-Co):

Учебные данные:

  • 5,2 млн изображений с 4 млн уникальных именных фраз (SA-Co/HQ) - высококачественные человеческие аннотации
  • 52,5 тыс. видеороликов с 24,8 тыс. уникальных именных фраз (SA-Co/VIDEO)
  • 1,4B синтетических масок в 38M фразах существительных (SA-Co/SYN)
  • 15 внешних наборов данных, обогащенных жесткими негативами (SA-Co/EXT)

Контрольные данные:

  • 214 000 уникальных концепций на 126 000 изображений/видео
  • В 50 раз больше концепций, чем в существующих эталонах (например, в LVIS ~4K концепций).
  • Тройная аннотация на SA-Co/Gold для измерения границ человеческой производительности

Такой масштаб и разнообразие позволяют SAM 3 добиться превосходного обобщения с нулевым результатом по всем понятиям открытого словаря.

Чем SAM 3 отличается от YOLO11 в плане сегментации?

SAM 3 и YOLO11 служат для разных целей:

SAM 3 Преимущества:

  • Открытый словарный запас: Сегментирует любые понятия с помощью текстовых подсказок без обучения
  • Нулевой выстрел: Сразу же работает с новыми категориями
  • Интерактив: Уточнение на основе образцов обобщается на похожие объекты
  • Концептуальный: Автоматически находит все экземпляры категории
  • Точность: 47,0 AP при сегментации экземпляров LVIS с нулевым снимком

YOLO11 Преимущества:

  • Скорость: 10-15× более быстрый вывод (2-3 мс против 30 мс на изображение)
  • Эффективность: 70× меньшие модели (5,9 МБ против ~400 МБ ожидаемых)
  • Удобство использования ресурсов: Работает на мобильных и стационарных устройствах
  • В режиме реального времени: Оптимизировано для производственных развертываний

Рекомендация:

  • Используйте SAM 3 для гибкой сегментации с открытым словарем, когда вам нужно найти все случаи концепций, описанных в тексте или примерах.
  • Используйте YOLO11 для высокоскоростных производственных развертываний, где категории известны заранее
  • Используйте SAM 2 для интерактивной сегментации одного объекта с геометрическими подсказками

Может ли SAM 3 обрабатывать сложные языковые запросы?

SAM 3 предназначен для простых именных фраз (например, "красное яблоко", "человек в шляпе"). Для сложных запросов, требующих рассуждений, объедините SAM 3 с MLLM в виде SAM 3 Agent:

Простые запросы (родной SAM 3):

  • "Желтый школьный автобус"
  • "Полосатый кот"
  • "человек в красной шляпе"

Сложные запросы (SAM 3 Agent с MLLM):

  • "Люди сидят, но не держат в руках подарочную коробку".
  • "Ближайшая к камере собака без ошейника".
  • "Красные предметы размером больше ладони человека".

SAM 3 Agent достигает 76,0 gIoU при проверке ReasonSeg (против 65,0 в предыдущем случае, улучшение +16,9%) благодаря сочетанию сегментации SAM 3 с возможностями рассуждений MLLM.

Насколько точен SAM 3 по сравнению с человеческими показателями?

На эталоне SA-Co/Gold с тройной человеческой аннотацией:

  • Нижняя граница для человека: 74,2 CGF1 (самый консервативный аннотатор)
  • ПроизводительностьSAM 3: 65,0 CGF1
  • Достижение: 88% от предполагаемой нижней границы человеческих возможностей
  • Верхняя граница для человека: 81,4 CGF1 (наиболее либеральный аннотатор)

При сегментации понятий в открытом словаре SAM 3 достигает высоких результатов, приближающихся к человеческому уровню точности, причем разрыв достигается в основном на неоднозначных или субъективных понятиях (например, "маленькое окно", "уютная комната").



📅 Создано 0 дней назад ✏️ Обновлено 0 дней назад

Комментарии