Перейти к содержанию

SAM 3: Segment Anything with Concepts

Выпущено — интеграция Ultralytics в процессе

Meta выпустила SAM-3 20 ноября 2025 г.. Ultralytics сейчас интегрирует модели и скоро выпустит обновление пакета с собственной поддержкой. А пока вы можете выполнить шаги, описанные в официальном файле SAM 3 README ниже, чтобы опробовать upstream-релиз.

Обзор SAM 3

SAM 3 (Segment Anything Model 3) — это выпущенная Meta базовая модель для сегментации концепций с подсказками (Promptable Concept Segmentation, PCS). Основываясь на SAM 2, SAM 3 представляет принципиально новую возможность: обнаруживать, сегментировать и отслеживать все экземпляры визуальной концепции, заданной текстовыми подсказками, примерами изображений или и тем, и другим. В отличие от предыдущих версий SAM, которые сегментируют отдельные объекты по подсказке, SAM 3 может находить и сегментировать каждое появление концепции в любом месте изображений или видео, что соответствует целям открытого словаря в современной сегментации экземпляров.

Ultralytics активно интегрирует SAM-3 в ultralytics пакет. До выхода этого релиза вы можете экспериментировать с вышестоящей реализацией Meta, используя официальные шаги установки и использования, указанные ниже.

Обзор

SAM 3 обеспечивает 2-кратный прирост производительности по сравнению с существующими системами в сегментации концепций с подсказками, сохраняя и улучшая возможности SAM 2 для интерактивной визуальной сегментации. Модель превосходно справляется с сегментацией с открытым словарем, позволяя пользователям указывать концепции, используя простые именные фразы (например, «желтый школьный автобус», «полосатый кот») или предоставляя примеры изображений целевого объекта. Эти возможности дополняют готовые к производству конвейеры, которые полагаются на оптимизированные рабочие процессы predict и track.

Segment SAM 3

Что такое сегментация концепций с подсказками (Promptable Concept Segmentation, PCS)?

Задача PCS принимает concept prompt в качестве входных данных и возвращает маски segmentации с уникальными идентификаторами для всех совпадающих экземпляров объектов. Concept prompts могут быть:

  • Текст: Простые существительные фразы, такие как "красное яблоко" или "человек в шляпе", аналогичные обучению zero-shot
  • Образцы изображений: Ограничивающие рамки вокруг примеров объектов (положительных или отрицательных) для быстрой генерализации
  • Вместе: Текстовые и графические примеры вместе для точного управления

Это отличается от традиционных визуальных подсказок (точки, рамки, маски), которые сегментируют только один конкретный экземпляр объекта, как это было популяризировано оригинальным семейством SAM.

Ключевые показатели производительности

МетрикаДостижение SAM 3
LVIS Zero-Shot Mask AP47.0 (по сравнению с предыдущим лучшим результатом 38.5, улучшение на +22%)
Бенчмарк SA-CoВ 2 раза лучше существующих систем
Скорость инференса (H200 GPU)30 мс на изображение при 100+ обнаруженных объектах
Производительность видеоПочти в реальном времени для ~5 параллельных объектов
MOSEv2 VOS Benchmark60.1 J&F (+25.5% по сравнению с SAM 2.1, +17% по сравнению с предыдущим SOTA)
Интерактивное уточнениеУлучшение на +18.6 CGF1 после 3 образцовых подсказок
Разрыв в производительности между человеком и машинойДостигает 88% от оценочной нижней границы SA-Co/Gold

Для получения информации о метриках модели и компромиссах в производстве см. анализ оценки модели и метрики производительности YOLO.

Архитектура

SAM 3 состоит из детектора и трекера, которые используют общую основу Perception Encoder (PE). Такая разделенная конструкция позволяет избежать конфликтов задач, обеспечивая как обнаружение на уровне изображений, так и отслеживание на уровне видео, с интерфейсом, совместимым с Ultralytics использованием Python и использованием CLI.

Основные компоненты

  • Детектор: Архитектура на основе DETR для обнаружения концепций на уровне изображений

    • Текстовый энкодер для подсказок с именными группами
    • Кодировщик образцов для подсказок на основе изображений
    • Fusion encoder to condition image features on prompts
    • Новая голова присутствия, которая разделяет распознавание («что») от локализации («где»)
    • Mask head для генерации масок instance segmentation
  • Трекер: Сегментация видео на основе памяти, унаследованная от SAM 2

    • Кодировщик запросов, декодер масок, кодировщик памяти
    • Банк памяти для хранения внешнего вида объектов в разных кадрах
    • Разрешение временной неоднозначности с помощью таких методов, как фильтр Калмана в условиях работы с несколькими объектами
  • Жетон присутствия: Выученный глобальный маркер, который предсказывает, присутствует ли целевое понятие на изображении/кадре, улучшая обнаружение за счет разделения распознавания и локализации.

Архитектура SAM 3

Основные инновации

  1. Разделенное распознавание и локализация: Голова присутствия предсказывает наличие концепции глобально, в то время как запросы предложений фокусируются только на локализации, избегая противоречивых целей.
  2. Унифицированные концептуальные и визуальные подсказки: Поддерживает как PCS (концептуальные подсказки), так и PVS (визуальные подсказки, такие как клики/боксы SAM 2) в одной модели.
  3. Интерактивное уточнение экземпляров: Пользователи могут добавлять положительные или отрицательные примеры изображений для итеративного уточнения результатов, при этом модель обобщает похожие объекты, а не просто исправляет отдельные экземпляры.
  4. Временная дезабигуация: Использует оценки обнаружения masklet и периодическое повторное запрограммирование для обработки окклюзий, переполненных сцен и сбоев отслеживания в видео, что соответствует лучшим практикам сегментации и отслеживания экземпляров.

Набор данных SA-Co

SAM 3 обучен на Segment Anything with Concepts (SA-Co), самом большом и разнообразном наборе данных для segment от Meta на сегодняшний день, выходящем за рамки общих бенчмарков, таких как COCO и LVIS.

Данные для обучения

Компонент набора данныхОписаниеМасштаб
SA-Co/HQВысококачественные изображения, аннотированные вручную, из 4-фазного механизма данных5.2M изображений, 4M уникальных именных групп
SA-Co/SYNСинтетический набор данных, размеченный ИИ без участия человека38M именных групп, 1.4B масок
SA-Co/EXT15 внешних наборов данных, обогащенных сложными негативными примерамиЗависит от источника
SA-Co/VIDEOАннотации видео с отслеживанием времени52.5K видео, 24.8K уникальных именных групп

Эталонные данные

Бенчмарк оценки SA-Co содержит 214 тыс. уникальных фраз на 126 тыс. изображениях и видео, предоставляя более чем в 50 раз больше концепций, чем существующие бенчмарки. Он включает в себя:

  • SA-Co/Gold: 7 доменов, с тройной аннотацией для измерения границ производительности человека
  • SA-Co/Silver: 10 доменов, единичная человеческая аннотация
  • SA-Co/Bronze и SA-Co/Bio: 9 существующих наборов данных, адаптированных для концептуальной сегментации
  • SA-Co/VEval: Видео бенчмарк с 3 доменами (SA-V, YT-Temporal-1B, SmartGlasses)

Инновации в механизме обработки данных

Масштабируемый механизм данных SAM 3 с участием человека и модели обеспечивает 2-кратное увеличение пропускной способности аннотаций за счет:

  1. AI Annotators: Модели на основе Llama предлагают разнообразные именные группы, включая сложные негативы
  2. AI Verifiers: Точно настроенные мультимодальные LLM проверяют качество маски и исчерпывающий характер с почти человеческой производительностью
  3. Активный майнинг: Сосредоточение усилий человека на сложных случаях с ошибками, с которыми сталкивается ИИ
  4. Основанный на онтологии: Использует большую онтологию, основанную на Wikidata, для охвата концепций

Установка

SAM 3 будет доступен непосредственно в пакете Ultralytics после завершения интеграции. Установка останется:

pip install ultralytics

Модели будут загружены автоматически при первом использовании. Затем вы можете использовать стандартный режим predict и позже экспортировать модели в такие форматы, как ONNX и TensorRT для развертывания. Ожидайте обновления пакета с весами и конфигурациями SAM-3 в ближайшее время.

Как использовать SAM 3: Универсальность в концептуальной segmentации

Предварительный просмотр Ultralytics API

В следующих примерах показан предполагаемый Ultralytics API после выхода SAM 3 в пакете. До появления интеграции детали могут измениться.

Поддерживаемые задачи и модели

SAM 3 поддерживает задачи Promptable Concept Segmentation (PCS) и Promptable Visual Segmentation (PVS):

Тип задачиТипы запросовВывод
Сегментация концепций (PCS)Текст (именные группы), образцы изображенийВсе экземпляры, соответствующие концепции
Визуальная сегментация (PVS)Points, boxes, masksЕдиничный экземпляр объекта (стиль SAM 2)
Интерактивное уточнениеИтеративное добавление/удаление образцов или щелчковУлучшенная сегментация с повышенной точностью

Примеры сегментации концепций

Segment с использованием текстовых запросов

Сегментация концепций на основе текста

Находите и segment все экземпляры концепции, используя текстовое описание.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Предварительный просмотр API

В этом примере показано предполагаемое использование. Фактическая реализация ожидается после интеграции Ultralytics.

Segment с использованием образцов изображений

Сегментация на основе образцов изображений

Используйте один или несколько примеров объектов, чтобы найти все похожие экземпляры.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Предварительный просмотр API

В этом примере показано предполагаемое использование. Фактическая реализация ожидается после интеграции Ultralytics.

Интерактивное уточнение

Итеративное уточнение с помощью образцов

Постепенно улучшайте результаты, добавляя примеры запросов на основе первоначальных выходных данных.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Предварительный просмотр API

В этом примере показано предполагаемое использование. Фактическая реализация ожидается после интеграции Ultralytics.

Сегментация видео по концепциям

Отслеживание концепций в видео

Обнаружение и отслеживание всех экземпляров концепции на протяжении всего видео.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Предварительный просмотр API

В этом примере показано предполагаемое использование. Фактическая реализация ожидается после интеграции Ultralytics.

Для более широких потоковых и производственных настроек см. отслеживание объектов и просмотр результатов в терминале.

Визуальные подсказки (совместимость с SAM 2)

SAM 3 поддерживает полную обратную совместимость с визуальными подсказками SAM 2:

Визуальные подсказки в стиле SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Предварительный просмотр API

В этом примере показано предполагаемое использование. Фактическая реализация ожидается после интеграции Ultralytics.

Ориентиры производительности

Сегментация изображений

SAM 3 достигает самых современных результатов по нескольким бенчмаркам, включая наборы данных реального мира, такие как LVIS и COCO для сегментации:

БенчмаркМетрикаSAM 3Предыдущий лучший результатУлучшение
LVIS (zero-shot)Mask AP47.038.5+22.1%
SA-Co/GoldCGF165.034.3 (OWLv2)+89.5%
COCO (zero-shot)AP ограничивающей рамки53.552.2 (T-Rex2)+2.5%
ADE-847 (семантическая сегментация)mIoU14.79.2 (APE-D)+59.8%
PascalConcept-59mIoU59.458.5 (APE-D)+1.5%
Cityscapes (семантическая сегментация)mIoU65.144.2 (APE-D)+47.3%

Изучите варианты наборов данных для быстрого экспериментирования в наборах данных Ultralytics.

Производительность сегментации видео

SAM 3 показывает значительные улучшения по сравнению с SAM 2 и предыдущим уровнем техники в видео-бенчмарках, таких как DAVIS 2017 и YouTube-VOS:

БенчмаркМетрикаSAM 3SAM 2.1 LУлучшение
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Адаптация при малом количестве примеров

SAM 3 отлично адаптируется к новым доменам с минимальным количеством примеров, что актуально для рабочих процессов ориентированного на данные ИИ:

Бенчмарк0-shot AP10-shot APПредыдущий лучший результат (10 попыток)
ODinW1359.971.667.9 (gDino1.5-Pro)
RF100-VL14.335.733.7 (gDino-T)

Эффективность интерактивной доработки

Концептуальные подсказки с использованием образцов в SAM 3 сходятся гораздо быстрее, чем визуальные подсказки:

Добавлены запросыОценка CGF1Gain vs Text-OnlyGain vs PVS Baseline
Только текст46.4базовая линиябазовая линия
+1 образец57.6+11.2+6.7
+2 образца62.2+15.8+9.7
+3 образца65.0+18.6+11.2
+4 образца65.7+19.3+11.5 (плато)

Точность подсчета объектов

SAM 3 обеспечивает точный подсчет путем segment всех экземпляров, что является общим требованием при подсчете объектов:

БенчмаркТочностьMAEvs Best MLLM
CountBench95.6%0.1192.4% (Gemini 2.5)
PixMo-Count87.3%0.2288.8% (Molmo-72B)

Сравнение SAM 3, SAM 2 и YOLO

Здесь мы сравниваем возможности SAM 3 с моделями SAM 2 и YOLO11:

ВозможностьSAM 3SAM 2YOLO11n-seg
Сегментация концепций✅ Все экземпляры из текста/образцов❌ Не поддерживается❌ Не поддерживается
Визуальная сегментация✅ Единичный экземпляр (совместимо с SAM 2)✅ Единичный экземпляр✅ Все экземпляры
Zero-shot Capability✅ Открытый словарь✅ Геометрические подсказки❌ Закрытый набор
Интерактивное уточнение✅ Образцы + клики✅ Только клики❌ Не поддерживается
Video Tracking✅ Multi-object с идентификаторами✅ Multi-object✅ Multi-object
LVIS Mask AP (zero-shot)47.0Н/ДН/Д
MOSEv2 J&F60.147.9Н/Д
Скорость инференса (H200)30 мс (100+ объектов)~23 мс (на объект)2-3 мс (изображение)
Размер моделиБольшой (~400+ MB ожидается)162 MB (базовый)5.9 MB

Основные выводы:

  • SAM 3: Лучшее решение для сегментации концепций с открытым словарем, поиска всех экземпляров концепции с помощью текста или образцов подсказок
  • SAM 2: Лучшее решение для интерактивной сегментации отдельных объектов на изображениях и видео с геометрическими подсказками
  • YOLO11: Лучшее решение для высокоскоростной сегментации в реальном времени в условиях ограниченных ресурсов с использованием эффективных экспортных конвейеров, таких как ONNX и TensorRT.

Метрики оценки

SAM 3 представляет новые метрики, разработанные для задачи PCS, дополняющие знакомые меры, такие как F1 score, precision и recall.

Classification-Gated F1 (CGF1)

Основная метрика, объединяющая локализацию и классификацию:

CGF1 = 100 × pmF1 × IL_MCC

Где:

  • pmF1 (Positive Macro F1): Измеряет качество локализации на положительных примерах
  • IL_MCC (коэффициент корреляции Мэтьюза на уровне изображения): Измеряет точность бинарной классификации («присутствует ли концепция?»)

Почему именно эти метрики?

Традиционные метрики AP не учитывают калибровку, что затрудняет использование моделей на практике. Оценивая только прогнозы с уверенностью выше 0,5, метрики SAM 3 обеспечивают хорошую калибровку и имитируют реальные сценарии использования в интерактивных циклах predict и track.

Ключевые Анализы и Выводы

Влияние Presence Head

Голова присутствия отделяет распознавание от локализации, обеспечивая значительные улучшения:

КонфигурацияCGF1IL_MCCpmF1
Без присутствия57.60.7774.7
С присутствием63.30.8277.1

Голова присутствия обеспечивает увеличение CGF1 на +5,7 (+9,9%), в первую очередь улучшая способность распознавания (IL_MCC +6,5%).

Влияние сложных негативных примеров

Сложные негативные примеры / ИзображениеCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Сложные негативные примеры имеют решающее значение для распознавания с открытым словарем, улучшая IL_MCC на 54.5% (0.44 → 0.68).

Масштабирование данных для обучения

Источники данныхCGF1IL_MCCpmF1
Только внешние30.90.4666.3
Внешние + Синтетические39.70.5770.6
Внешние + HQ51.80.7173.2
Все три54.30.7473.5

Высококачественная ручная аннотация дает большой прирост по сравнению только с синтетическими или внешними данными. Для получения информации о методах обеспечения качества данных см. сбор и аннотацию данных.

Приложения

Возможность концептуальной segment-ции SAM 3 открывает новые варианты использования:

  • Модерация контента: Поиск всех экземпляров определенных типов контента в медиатеках
  • Электронная коммерция: Segment все продукты определенного типа на изображениях каталога, поддерживая автоматическую аннотацию.
  • Медицинская визуализация: Идентифицируйте все случаи конкретных типов тканей или аномалий
  • Автономные системы: Track всех экземпляров дорожных знаков, пешеходов или транспортных средств по категориям
  • Видеоаналитика: Подсчет и отслеживание всех людей, одетых в определенную одежду или выполняющих действия
  • Аннотация набора данных: Быстрая аннотация всех экземпляров редких категорий объектов
  • Научные исследования: Количественная оценка и анализ всех образцов, соответствующих определенным критериям

Агент SAM 3: Расширенное языковое рассуждение

SAM 3 можно комбинировать с большими мультимодальными языковыми моделями (MLLM) для обработки сложных запросов, требующих рассуждений, что похоже на системы с открытым словарем, такие как OWLv2 и T-Rex.

Производительность в задачах логического вывода

БенчмаркМетрикаАгент SAM 3 (Gemini 2.5 Pro)Предыдущий лучший результат
ReasonSeg (валидация)GIoU76.065.0 (SoTA)
ReasonSeg (тест)GIoU73.861.3 (SoTA)
OmniLabel (валидация)AP46.736.5 (REAL)
RefCOCO+Точ91.289.3 (LISA)

Примеры сложных запросов

Агент SAM 3 может обрабатывать запросы, требующие рассуждений:

  • "Люди сидят, но не держат подарочную коробку в руках"
  • "Собака, ближайшая к камере, на которой нет ошейника"
  • "Красные объекты больше руки человека"

MLLM предлагает простые запросы с существительными фразами к SAM 3, анализирует возвращенные маски и выполняет итерации до тех пор, пока не будет достигнут желаемый результат.

Ограничения

Хотя SAM 3 представляет собой крупный шаг вперед, у него есть определенные ограничения:

  • Сложность фраз: Лучше всего подходит для простых именных групп; длинные ссылочные выражения или сложные рассуждения могут потребовать интеграции MLLM
  • Обработка неоднозначности: Некоторые концепции остаются по своей сути неоднозначными (например, «маленькое окно», «уютная комната»)
  • Computational Requirements: Больше и медленнее, чем специализированные модели detect, такие как YOLO.
  • Область словаря: Сосредоточенность на атомарных визуальных концепциях; композиционное рассуждение ограничено без помощи MLLM
  • Редкие концепции: Производительность может ухудшиться на чрезвычайно редких или детализированных концепциях, недостаточно представленных в обучающих данных.

Цитата

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Часто задаваемые вопросы

Когда будет выпущен SAM 3?

SAM 3 был выпущен Meta 20 ноября 2025 года. Поддержка Ultralytics находится в процессе разработки и будет включена в предстоящее обновление пакета с полной документацией для predict mode и track mode.

Будет ли SAM 3 интегрирован в Ultralytics?

Да. SAM 3 будет поддерживаться в пакете Ultralytics python после выпуска, включая концептуальную сегментацию, визуальные подсказки в стиле SAM 2 и отслеживание видео с несколькими объектами. Вы сможете export в такие форматы, как ONNX и TensorRT для развертывания, с оптимизированными рабочими процессами Python и CLI.

Хронология реализации

Примеры кода в этой документации являются предварительными версиями, демонстрирующими предполагаемые варианты использования. Фактическая реализация будет доступна после того, как Ultralytics завершит интеграцию.

Что такое сегментация концепций с подсказками (Promptable Concept Segmentation, PCS)?

PCS — это новая задача, представленная в SAM 3, которая segment все экземпляры визуального концепта на изображении или видео. В отличие от традиционной segmentации, которая нацелена на конкретный экземпляр объекта, PCS находит каждое появление категории. Например:

  • Текстовый запрос: "желтый школьный автобус" → segment все желтые школьные автобусы в кадре
  • Образец изображения: Обведите одного пса → segment всех псов на изображении
  • Вместе: "полосатая кошка" + пример рамки → segment всех полосатых кошек, соответствующих примеру

См. соответствующую справочную информацию об обнаружении объектов и сегментации экземпляров.

Чем SAM 3 отличается от SAM 2?

ФункциональностьSAM 2SAM 3
ЗадачаОдин объект на запросВсе экземпляры концепции
Типы запросовPoints, boxes, masks+ Текстовые фразы, образцы изображений
Возможности обнаруженияТребуется внешний детекторВстроенный детектор с открытым словарем
РаспознаваниеGeometry-based onlyТекстовое и визуальное распознавание
АрхитектураТолько трекерДетектор + Трекер с головкой присутствия
Производительность Zero-ShotН/Д (требуются визуальные подсказки)47.0 AP на LVIS, в 2 раза лучше на SA-Co
Интерактивное уточнениеТолько кликиКлики + обобщение по образцу

SAM 3 поддерживает обратную совместимость с визуальными подсказками SAM 2, добавляя возможности на основе концепций.

Какие наборы данных используются для обучения SAM 3?

SAM 3 обучен на наборе данных Segment Anything with Concepts (SA-Co):

Обучающие данные:

  • 5,2 млн изображений с 4 млн уникальных имен существительных (SA-Co/HQ) - высококачественные аннотации, выполненные людьми
  • 52,5 тыс. видео с 24,8 тыс. уникальных имен существительных (SA-Co/VIDEO)
  • 1.4B синтетических масок по 38M имен существительных (SA-Co/SYN)
  • 15 внешних наборов данных, обогащенных сложными негативными примерами (SA-Co/EXT)

Эталонные данные:

  • 214 тыс. уникальных концепций на 126 тыс. изображениях/видео
  • В 50 раз больше концепций, чем в существующих бенчмарках (например, LVIS имеет ~4 тыс. концепций)
  • Тройная аннотация на SA-Co/Gold для измерения границ производительности человека

Этот огромный масштаб и разнообразие обеспечивают превосходное обобщение SAM 3 с нулевым выстрелом по концепциям с открытым словарем.

Как SAM 3 соотносится с YOLO11 для segment?

SAM 3 и YOLO11 служат для разных случаев использования:

SAM 3 Advantages:

  • Открытый словарь: Сегментирует любую концепцию с помощью текстовых подсказок без обучения
  • Zero-shot: Работает с новыми категориями немедленно
  • Интерактивное: Уточнение на основе экземпляров обобщается на похожие объекты
  • На основе концепций: Автоматически находит все экземпляры категории
  • Точность: 47.0 AP при zero-shot сегментации экземпляров LVIS

Преимущества YOLO11:

  • Скорость: в 10-15 раз более быстрое инференс (2-3 мс против 30 мс на изображение)
  • Эффективность: модели в 70 раз меньше (5,9 МБ против ~400 МБ ожидаемых)
  • Экономичность ресурсов: Работает на периферийных устройствах и мобильных устройствах
  • Реальное время: Оптимизировано для производственных развертываний

Рекомендация:

  • Используйте SAM 3 для гибкой segment-ации с открытым словарем, когда вам нужно найти все экземпляры концепций, описанных текстом или примерами
  • Используйте YOLO11 для высокоскоростных производственных развертываний, где категории известны заранее
  • Используйте SAM 2 для интерактивной segment-ации отдельных объектов с геометрическими подсказками

Может ли SAM 3 обрабатывать сложные языковые запросы?

SAM 3 предназначен для простых существительных фраз (например, «красное яблоко», «человек в шляпе»). Для сложных запросов, требующих рассуждений, объедините SAM 3 с MLLM как SAM 3 Agent:

Простые запросы (нативный SAM 3):

  • "желтый школьный автобус"
  • "полосатая кошка"
  • "человек в красной шляпе"

Сложные запросы (SAM 3 Agent с MLLM):

  • "Люди сидят, но не держат подарочную коробку"
  • "Собака, ближайшая к камере, без ошейника"
  • "Красные объекты больше руки человека"

Агент SAM 3 достигает 76,0 gIoU на валидации ReasonSeg (по сравнению с 65,0 предыдущим лучшим результатом, улучшение на +16,9%) за счет объединения сегментации SAM 3 с возможностями рассуждения MLLM.

Насколько точен SAM 3 по сравнению с производительностью человека?

На бенчмарке SA-Co/Gold с тройной аннотацией человека:

  • Нижняя граница для человека: 74.2 CGF1 (самый консервативный аннотатор)
  • SAM 3 performance: 65.0 CGF1
  • Достижение: 88% от оценочной нижней границы человеческих возможностей
  • Верхняя граница для человека: 81.4 CGF1 (самый либеральный аннотатор)

SAM 3 демонстрирует высокую производительность, приближающуюся к точности человеческого уровня в сегментации концепций с открытым словарем, при этом разрыв в основном приходится на неоднозначные или субъективные концепции (например, «маленькое окно», «уютная комната»).



📅 Создано 1 месяц назад ✏️ Обновлено 9 дней назад
glenn-jocherY-T-G

Комментарии