Перейти к содержанию

SAM 3: Сегментируйте что угодно с помощью концепций

Выпущено - интеграция с Ultralytics продолжается

Мета выпустила SAM 20 ноября 2025 года. Сейчас Ultralytics занимается интеграцией моделей и вскоре выпустит обновление пакета с нативной поддержкой. А пока вы можете воспользоваться официальной инструкцией SAM 3 README, приведенной ниже, чтобы опробовать upstream-релиз.

Обзор SAM 3

SAM 3 (Segment Anything Model 3) - это выпущенная компанией Meta базовая модель для сегментации концептов с подсказками (PCS). Развивая SAM 2, SAM 3 представляет принципиально новую возможность: обнаружение, сегментирование и отслеживание всех случаев визуального понятия, заданного текстовыми подсказками, образцами изображений или тем и другим. В отличие от предыдущих версий SAM , которые segment отдельные объекты по подсказке, SAM 3 может находить и segment все случаи появления понятия в любом месте изображения или видео, что соответствует целям открытого словаря в современной сегментации экземпляров.

Ultralytics активно внедряет SAM в ultralytics пакет. Пока этот релиз не вышел, вы можете поэкспериментировать с реализацией Meta из восходящего потока, используя официальные шаги по установке и использованию, описанные ниже.

Обзор

SAM 3 обеспечивает прирост производительности в 2 раза по сравнению с существующими системами в сегментации понятий с помощью подсказок, сохраняя и улучшая возможности SAM 2 по интерактивной визуальной сегментации. Модель демонстрирует превосходство в сегментации с открытым словарем, позволяя пользователям задавать понятия с помощью простых именных фраз (например, "желтый школьный автобус", "полосатый кот") или предоставляя примеры изображений целевого объекта. Эти возможности дополняют готовые к производству конвейеры, которые полагаются на оптимизированное прогнозирование и track рабочие процессы.

SAM 3 Сегментация

Что такое Promptable Concept Segmentation (PCS)?

Задача PCS принимает на вход запрос концепции и возвращает маски сегментации с уникальными идентификаторами для всех совпадающих экземпляров объектов. Концептуальные подсказки могут быть:

  • Текст: Простые фразы существительных, такие как "красное яблоко" или "человек в шляпе", аналогично обучению с нулевым результатом
  • Образцы изображений: Ограничительные рамки вокруг объектов-образцов (положительных или отрицательных) для быстрого обобщения
  • Комбинированный: Экземпляры текста и изображения вместе для точного контроля

Это отличается от традиционных визуальных подсказок (точек, квадратиков, масок), которые segment только один конкретный экземпляр объекта, как это было принято в оригинальном семействеSAM .

Ключевые показатели эффективности

МетрикаSAM 3 Достижения
LVIS Zero-Shot Mask AP47,0 (по сравнению с предыдущим лучшим результатом 38,5, +22% улучшения)
Контрольный показатель SA-CoВ 2 раза лучше, чем существующие системы
Скорость вывода (H200 GPU)30 мс на изображение с 100+ обнаруженными объектами
ВидеоспектакльПочти в реальном времени для ~5 одновременно работающих объектов
Бенчмарк MOSEv2 VOS60,1 J&F (+25,5% по сравнению с SAM 2.1, +17% по сравнению с предыдущей SOTA)
Интерактивное уточнение+18,6 улучшение CGF1 после 3 образцовых подсказок
Разрыв в производительности человекаДостижение 88% расчетной нижней границы для SA-Co/Gold

О метриках модели и компромиссах в производстве читайте в разделах "Оценка модели" и "Метрики производительностиYOLO ".

Архитектура

SAM 3 состоит из детектора и трекера, которые совместно используют основу видения Perception Encoder (PE). Такая раздельная конструкция позволяет избежать конфликтов задач, обеспечивая как обнаружение на уровне изображения, так и отслеживание на уровне видео, с интерфейсом, совместимым сиспользованием Ultralytics Python и CLI .

Основные компоненты

  • Детектор: Архитектура на основе DETR для обнаружения концептов на уровне изображений

    • Кодировщик текста для подсказок с фразами существительных
    • Образцовый кодировщик для подсказок на основе изображений
    • Кодировщик слияния для определения характеристик изображения по подсказкам
    • Новая голова присутствия, которая отделяет распознавание ("что") от локализации ("где")
    • Масочная головка для генерации масок сегментации экземпляров
  • Трекер: Сегментация видео на основе памяти, унаследованная от SAM 2

    • Кодировщик подсказок, декодер масок, кодировщик памяти
    • Банк памяти для хранения внешнего вида объектов в разных кадрах
    • Темпоральная деамбигуация с помощью методов, подобных фильтру Калмана, в многообъектных условиях
  • Жетон присутствия: Выученный глобальный маркер, который предсказывает, присутствует ли целевое понятие на изображении/кадре, улучшая обнаружение за счет разделения распознавания и локализации.

Архитектура SAM 3

Ключевые инновации

  1. Раздельное распознавание и локализация: Головка присутствия предсказывает присутствие концепта в глобальном масштабе, в то время как запросы предложений сосредоточены только на локализации, что позволяет избежать конфликтующих целей.
  2. Унифицированные концептуальные и визуальные подсказки: Поддерживает как PCS (концептуальные подсказки), так и PVS (визуальные подсказки, такие как щелчки/коробки в SAM 2) в одной модели.
  3. Интерактивное уточнение образцов: Пользователи могут добавлять положительные или отрицательные образцы изображений для итеративного уточнения результатов, при этом модель обобщается на похожие объекты, а не просто корректирует отдельные экземпляры.
  4. Временная дискрипция: Использует оценки обнаружения маскетов и периодические повторные запросы для обработки окклюзий, переполненных сцен и сбоев отслеживания в видео, что соответствует лучшим практикам сегментации экземпляров и отслеживания.

Набор данных SA-Co

SAM 3 обучен на Segment Anything with Concepts (SA-Co)- самом большом и разнообразном наборе данных для сегментации, разработанном компанией Meta, который выходит за рамки таких распространенных эталонов, как COCO и LVIS.

Учебные данные

Компонент набора данныхОписаниеМасштаб
SA-Co/HQВысококачественные аннотированные человеком данные изображений, полученные с помощью 4-фазной системы обработки данных5,2 млн изображений, 4 млн уникальных именных фраз
SA-Co/SYNСинтетический набор данных, помеченный ИИ без участия человека38M именных фраз, 1.4B масок
SA-Co/EXT15 внешних наборов данных, обогащенных жесткими негативамиЗависит от источника
SA-Co/VIDEOАннотации к видео с временным отслеживанием52,5 тыс. видеороликов, 24,8 тыс. уникальных именных фраз

Контрольные данные

Эталон оценки SA-Co содержит 214 тыс. уникальных фраз на 126 тыс. изображений и видео, что позволяет получить более чем 50-кратное увеличение числа концепций по сравнению с существующими эталонами. Он включает в себя:

  • SA-Co/Gold: 7 доменов, трижды проаннотированных для измерения границ человеческой производительности
  • SA-Co/Silver: 10 доменов, одна аннотация человека
  • SA-Co/Bronze и SA-Co/Bio: 9 существующих наборов данных, адаптированных для сегментации концепций
  • SA-Co/VEval: Видеоэталон с 3 доменами (SA-V, YT-Temporal-1B, SmartGlasses)

Инновации в области Data Engine

Масштабируемая система обработки данных SAM 3, основанная на человеческих и модельных данных, обеспечивает производительность аннотирования в 2 раза выше:

  1. Аннотаторы искусственного интеллекта: Модели на основе Llama предлагают различные фразы существительных, включая жесткие отрицания
  2. ИИ-верификаторы: Тонко настроенные мультимодальные LLM проверяют качество и исчерпанность масок с производительностью, близкой к человеческой
  3. Активный майнинг: Сосредоточение усилий человека на сложных случаях, когда ИИ не справляется.
  4. Ориентирован на онтологию: Использует большую онтологию, основанную на Викиданных, для охвата концепций

Установка

SAM 3 будет доступен непосредственно в пакете Ultralytics после интеграции. Установка останется:

pip install ultralytics

Модели загружаются автоматически при первом использовании. Затем вы можете использовать стандартный режим прогнозирования и позже экспортировать модели в такие форматы, как ONNX и TensorRT для развертывания. Следите за обновлением пакета с весами и конфигурациями SAM в ближайшее время.

Как использовать SAM 3: универсальность в сегментации понятий

Предварительный просмотр API Ultralytics

В следующих примерах показан предполагаемый API Ultralytics , когда SAM 3 будет поставляться в комплекте. До момента интеграции детали могут измениться.

Поддерживаемые задачи и модели

SAM 3 поддерживает задачи Promptable Concept Segmentation (PCS) и Promptable Visual Segmentation (PVS):

Тип задачиТипы подсказокВыход
Сегментация концепции (PCS)Текст (фразы существительных), образцы изображенийВсе экземпляры, соответствующие понятию
Визуальная сегментация (PVS)Точки, коробки, маскиОдиночный экземпляр объектаSAM стильSAM 2)
Интерактивное уточнениеДобавляйте/удаляйте образцы или клики итеративноУточненная сегментация с повышенной точностью

Примеры сегментации понятий

Сегмент с текстовыми подсказками

Сегментация понятий на основе текста

Найдите и segment все экземпляры понятия по текстовому описанию.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Сегмент с образцами изображений

Сегментация на основе образцов изображений

Используйте один или несколько примеров объектов, чтобы найти все похожие экземпляры.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Интерактивное уточнение

Итеративная доработка с помощью образцов

Постепенно улучшайте результаты, добавляя примерные подсказки на основе первоначального результата.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Сегментация видеоконцептов

Отслеживание концепций по видео

Обнаружение и track всех случаев использования концепции на протяжении всего видео.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Для более широких потоковых и производственных настроек см. раздел "Отслеживание объектов и просмотр результатов в терминале".

Визуальные подсказкиSAM совместимость сSAM 2)

SAM 3 сохраняет полную обратную совместимость с визуальными подсказками SAM 2:

Визуальные подсказки в стиле SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Ориентиры производительности

Сегментация изображений

SAM 3 достигает лучших результатов в различных бенчмарках, включая такие реальные наборы данных, как LVIS и COCO для сегментации:

БенчмаркМетрикаSAM 3Предыдущий ЛучшийУлучшение
LVIS (нулевой выстрел)Маска AP47.038.5+22.1%
SA-Co/золотоCGF165.034.3 (OWLv2)+89.5%
COCO (нулевой выстрел)Box AP53.552,2 (T-Rex2)+2.5%
ADE-847 (семантический сегмент)mIoU14.79.2 (APE-D)+59.8%
ПаскальКонцепт-59mIoU59.458,5 (APE-D)+1.5%
Городские пейзажи (семантический сегмент)mIoU65.144,2 (APE-D)+47.3%

Изучите варианты наборов данных для быстрых экспериментов с наборами данныхUltralytics .

Производительность сегментации видео

SAM 3 демонстрирует значительные улучшения по сравнению с SAM 2 и предшествующими современными технологиями в таких бенчмарках видео, как DAVIS 2017 и YouTube-VOS:

БенчмаркМетрикаSAM 3SAM 2.1 LУлучшение
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Адаптация на несколько кадров

SAM 3 отлично адаптируется к новым областям с минимальным количеством примеров, что актуально для рабочих процессов ИИ, ориентированных на данные:

Бенчмарк0-выстрел AP10 выстрелов APПредыдущий лучший (10 выстрелов)
ODinW1359.971.667,9 (gDino1.5-Pro)
RF100-VL14.335.733,7 (гДино-Т)

Эффективность интерактивной доработки

Концептуальные подсказки SAM 3 с примерами сходятся гораздо быстрее, чем визуальные подсказки:

Добавлены подсказкиCGF1 ScoreУсиление в сравнении с использованием только текстаУвеличение по сравнению с исходным уровнем PVS
Только текст46.4базовый уровеньбазовый уровень
+1 экземпляр57.6+11.2+6.7
+2 образца62.2+15.8+9.7
+3 образца65.0+18.6+11.2
+4 экземляра65.7+19.3+11,5 (плато)

Точность подсчета объектов

SAM 3 обеспечивает точный подсчет, сегментируя все экземпляры, что является общим требованием при подсчете объектов:

БенчмаркТочностьМАЭПротив лучшего МЛЛМ
CountBench95.6%0.1192,4% (Gemini 2.5)
PixMo-Count87.3%0.2288,8% (Molmo-72B)

Сравнение SAM 3 с SAM 2 с YOLO

Здесь мы сравниваем возможности SAM 3 с SAM 2 и YOLO11 моделями:

ВозможностиSAM 3SAM 2YOLO11n-seg
Сегментация понятий✅ Все экземпляры из текста/образцов❌ Не поддерживается❌ Не поддерживается
Визуальная сегментация✅ Один экземплярSAM совместимый сSAM 2)✅ Единственный экземпляр✅ Все экземпляры
Возможность нулевого выстрела✅ Открытый словарь✅ Геометрические подсказки❌ Закрытый набор
Интерактивное уточнение✅ Образцы + клики✅ Только клики❌ Не поддерживается
Отслеживание видео✅ Мультиобъект с идентичностью✅ Мультиобъект✅ Мультиобъект
LVIS Mask AP (нулевой выстрел)47.0Н/ДН/Д
MOSEv2 J&F60.147.9Н/Д
Скорость вывода (H200)30 мс (100+ объектов)~23 мс (на объект)2-3 мс (изображение)
Размер моделиБольшой (ожидается ~400+ МБ)162 МБ (базовый)5,9 МБ

Основные выводы:

  • SAM 3: Лучше всего подходит для сегментации понятий в открытом словаре, позволяя найти все случаи употребления понятия с помощью текста или примеров.
  • SAM 2: Лучшее решение для интерактивной сегментации одиночных объектов на изображениях и видео с геометрическими подсказками
  • YOLO11: Лучшее решение для высокоскоростной сегментации в реальном времени в условиях ограниченных ресурсов с использованием эффективных конвейеров экспорта, таких как ONNX и TensorRT

Метрики оценки

В SAM 3 представлены новые метрики, разработанные для задачи PCS, дополняющие такие привычные показатели, как F1 score, precision и recall.

Классификация - F1 (CGF1)

Основная метрика, объединяющая локализацию и классификацию:

CGF1 = 100 × pmF1 × IL_MCC

Где:

  • pmF1 (Positive Macro F1): Измеряет качество локализации на положительных примерах
  • IL_MCC (коэффициент корреляции Мэтьюса на уровне изображения): Измеряет точность бинарной классификации ("присутствует ли понятие?").

Почему именно эти показатели?

Традиционные метрики AP не учитывают калибровку, что затрудняет использование моделей на практике. Оценивая только прогнозы с достоверностью выше 0,5, метрики SAM 3 обеспечивают хорошую калибровку и имитируют реальные модели использования в интерактивном прогнозировании и track циклов.

Ключевые абляции и выводы

Влияние присутствия руководителя

Головка присутствия отделяет распознавание от локализации, обеспечивая значительные улучшения:

КонфигурацияCGF1IL_MCCpmF1
Без присутствия57.60.7774.7
С присутствием63.30.8277.1

Присутствующая голова дает прирост в +5,7 CGF1 (+9,9%), в первую очередь улучшая способность к распознаванию (IL_MCC +6,5%).

Эффект жесткого негатива

Жесткие негативы/изображенияCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Твердые отрицания играют решающую роль в распознавании открытой лексики, улучшая IL_MCC на 54,5% (0,44 → 0,68).

Масштабирование обучающих данных

Источники данныхCGF1IL_MCCpmF1
Только внешние30.90.4666.3
Внешний + синтетический39.70.5770.6
Внешний + штабной51.80.7173.2
Все три54.30.7473.5

Высококачественные человеческие аннотации дают значительный выигрыш по сравнению с синтетическими или внешними данными. О практике качества данных см. в разделе " Сбор и аннотирование данных".

Приложения

Возможность сегментации концепций в SAM 3 позволяет использовать новые возможности:

  • Модерация контента: Поиск всех экземпляров определенных типов контента в медиатеках
  • Электронная коммерция: Выделение всех товаров определенного типа в изображениях каталога с поддержкой автоаннотирования
  • Медицинская визуализация: Выявление всех случаев обнаружения определенных типов тканей или аномалий
  • Автономные системы: Отслеживайте все случаи появления дорожных знаков, пешеходов или транспортных средств по категориям
  • Видеоаналитика: Подсчет и track всех людей, носящих определенную одежду или выполняющих определенные действия
  • Аннотирование массивов данных: Быстрое аннотирование всех экземпляров редких категорий объектов
  • Научные исследования: Количественная оценка и анализ всех образцов, соответствующих определенным критериям

SAM 3 Агент: Расширенный язык рассуждений

SAM 3 может быть объединен с мультимодальными моделями больших языков (MLLM) для обработки сложных запросов, требующих рассуждений, по духу схожих с системами открытых словарей, такими как OWLv2 и T-Rex.

Результаты выполнения заданий на рассуждение

БенчмаркМетрикаSAM 3 Agent (Gemini 2.5 Pro)Предыдущий Лучший
ReasonSeg (проверка)gIoU76.065,0 (SoTA)
ReasonSeg (тест)gIoU73.861,3 (SoTA)
OmniLabel (валидация)AP46.736,5 (REAL)
RefCOCO+Acc91.289,3 (LISA)

Пример сложных запросов

SAM 3 Агент может обрабатывать запросы, требующие рассуждений:

  • "Люди сидят, но не держат в руках подарочную коробку".
  • "Ближайшая к камере собака, на которой нет ошейника".
  • "Красные предметы размером больше ладони человека".

MLLM предлагает простые запросы с фразами существительных к SAM 3, анализирует возвращенные маски и выполняет итерации до тех пор, пока не будет удовлетворена.

Ограничения

Хотя SAM 3 представляет собой значительное достижение, он имеет определенные ограничения:

  • Сложность фразы: Лучше всего подходит для простых именных фраз; длинные референтные выражения или сложные рассуждения могут потребовать интеграции MLLM
  • Работа с двусмысленностью: Некоторые понятия остаются неоднозначными по своей сути (например, "маленькое окно", "уютная комната")
  • Вычислительные требования: Больше и медленнее, чем специализированные модели обнаружения, такие как YOLO
  • Объем словарного запаса: Сосредоточен на атомарных визуальных концепциях; композиционные рассуждения ограничены без помощи МЛМ
  • Редкие понятия: Производительность может снизиться при работе с очень редкими или мелкими понятиями, не представленными в обучающих данных

Цитировать

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Часто задаваемые вопросы

Когда выйдет SAM 3?

SAM 3 был выпущен компанией Meta 20 ноября 2025 года. Поддержка Ultralytics находится в процессе разработки и будет представлена в ближайшем обновлении пакета с полной документацией для режима прогнозирования и режимаtrack .

Будет ли SAM 3 интегрирован в Ultralytics?

Да. После выхода пакета Ultralytics Python будет поддерживаться SAM 3, включая сегментацию концепций, визуальные подсказки в стиле SAM 2 и многообъектное отслеживание видео. Вы сможете экспортировать данные в такие форматы, как ONNX и TensorRT для развертывания, а также оптимизированный Python и CLI рабочие процессы.

Сроки реализации

Примеры кода в этой документации являются предварительными версиями, демонстрирующими предполагаемые модели использования. Реальная реализация будет доступна после завершения интеграции Ultralytics .

Что такое Promptable Concept Segmentation (PCS)?

PCS - это новая задача, представленная в SAM 3, которая сегментирует все случаи визуального понятия в изображении или видео. В отличие от традиционной сегментации, которая нацелена на конкретный экземпляр объекта, PCS находит каждое вхождение категории. Например:

  • Текстовая подсказка: "желтый школьный автобус" → сегменты всех желтых школьных автобусов в сцене
  • Образец изображения: Коробка вокруг одной собаки → сегменты всех собак на изображении
  • Комбинированный: "полосатая кошка" + блок примеров → сегменты всех полосатых кошек, соответствующих примеру

См. сопутствующую информацию об обнаружении объектов и сегментации экземпляров.

Чем SAM 3 отличается от SAM 2?

ХарактеристикаSAM 2SAM 3
ЗадачаОдин объект в подсказкеВсе экземпляры понятия
Типы подсказокТочки, коробки, маски+ Текстовые фразы, образцы изображений
Возможность обнаруженияТребуется внешний детекторВстроенный детектор открытой лексики
ПризнаниеТолько на основе геометрииТекстовое и визуальное распознавание
АрхитектураТолько трекерДетектор + трекер с головкой присутствия
Производительность при нулевом выстрелеН/Д (требуются визуальные подсказки)47,0 AP на LVIS, 2× лучше на SA-Co
Интерактивное уточнениеТолько кликиКлики + обобщение примеров

SAM 3 сохраняет обратную совместимость с визуальными подсказками SAM 2, добавляя при этом возможности, основанные на концепции.

Какие наборы данных используются для обучения SAM 3?

SAM 3 обучен на наборе данных Segment Anything with Concepts (SA-Co):

Учебные данные:

  • 5,2 млн изображений с 4 млн уникальных именных фраз (SA-Co/HQ) - высококачественные человеческие аннотации
  • 52,5 тыс. видеороликов с 24,8 тыс. уникальных именных фраз (SA-Co/VIDEO)
  • 1,4B синтетических масок в 38M фразах существительных (SA-Co/SYN)
  • 15 внешних наборов данных, обогащенных жесткими негативами (SA-Co/EXT)

Контрольные данные:

  • 214 000 уникальных концепций на 126 000 изображений/видео
  • В 50 раз больше концепций, чем в существующих эталонах (например, в LVIS ~4K концепций).
  • Тройная аннотация на SA-Co/Gold для измерения границ человеческой производительности

Такой масштаб и разнообразие позволяют SAM 3 добиться превосходного обобщения с нулевым результатом по всем понятиям открытого словаря.

Чем SAM 3 отличается от YOLO11 в плане сегментации?

SAM 3 и YOLO11 служат для разных целей:

SAM 3 Преимущества:

  • Открытый словарный запас: Сегментирует любые понятия с помощью текстовых подсказок без обучения
  • Нулевой выстрел: Сразу же работает с новыми категориями
  • Интерактив: Уточнение на основе образцов обобщается на похожие объекты
  • Концептуальный: Автоматически находит все экземпляры категории
  • Точность: 47,0 AP при сегментации экземпляров LVIS с нулевым снимком

YOLO11 Преимущества:

  • Скорость: 10-15× более быстрый вывод (2-3 мс против 30 мс на изображение)
  • Эффективность: 70× меньшие модели (5,9 МБ против ~400 МБ ожидаемых)
  • Удобство использования ресурсов: Работает на мобильных и стационарных устройствах
  • В режиме реального времени: Оптимизировано для производственных развертываний

Рекомендация:

  • Используйте SAM 3 для гибкой сегментации с открытым словарем, когда вам нужно найти все случаи концепций, описанных в тексте или примерах.
  • Используйте YOLO11 для высокоскоростных производственных развертываний, где категории известны заранее
  • Используйте SAM 2 для интерактивной сегментации одного объекта с геометрическими подсказками

Может ли SAM 3 обрабатывать сложные языковые запросы?

SAM 3 предназначен для простых именных фраз (например, "красное яблоко", "человек в шляпе"). Для сложных запросов, требующих рассуждений, объедините SAM 3 с MLLM в виде SAM 3 Agent:

Простые запросы (родной SAM 3):

  • "Желтый школьный автобус"
  • "Полосатый кот"
  • "человек в красной шляпе"

Сложные запросы (SAM 3 Agent с MLLM):

  • "Люди сидят, но не держат в руках подарочную коробку".
  • "Ближайшая к камере собака без ошейника".
  • "Красные предметы размером больше ладони человека".

SAM 3 Agent достигает 76,0 gIoU при проверке ReasonSeg (против 65,0 в предыдущем случае, улучшение +16,9%) благодаря сочетанию сегментации SAM 3 с возможностями рассуждений MLLM.

Насколько точен SAM 3 по сравнению с человеческими показателями?

На эталоне SA-Co/Gold с тройной человеческой аннотацией:

  • Нижняя граница для человека: 74,2 CGF1 (самый консервативный аннотатор)
  • ПроизводительностьSAM 3: 65,0 CGF1
  • Достижение: 88% от предполагаемой нижней границы человеческих возможностей
  • Верхняя граница для человека: 81,4 CGF1 (наиболее либеральный аннотатор)

При сегментации понятий в открытом словаре SAM 3 достигает высоких результатов, приближающихся к человеческому уровню точности, причем разрыв достигается в основном на неоднозначных или субъективных понятиях (например, "маленькое окно", "уютная комната").



📅 Создано 1 месяц назад ✏️ Обновлено 1 день назад
glenn-jocherY-T-G

Комментарии