SAM 3: Сегментируйте что угодно с помощью концепций

Q: When Will SAM 3 Be Released?

SAM 3 был выпущен компанией Meta 20 ноября 2025 года. Поддержка Ultralytics находится в процессе разработки и будет представлена в ближайшем обновлении пакета с полной документацией для режима прогнозирования и режима track .

Q: What datasets are used to train SAM 3?

SAM 3 обучен на наборе данных Segment Anything with Concepts (SA-Co): Обучающие данные: Эталонные данные: Такой масштаб и разнообразие позволяет SAM 3 добиться превосходного обобщения с нулевым результатом по концептам с открытым словарным запасом.

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 и YOLO11 служат для разных целей: SAM 3 Преимущества: YOLO11 Преимущества: Рекомендация:

Q: How accurate is SAM 3 compared to human performance?

На эталоне SA-Co/Gold с тройной человеческой аннотацией: SAM 3 достигает высокой производительности, приближающейся к точности на уровне человека, при сегментации понятий в открытом словаре, причем разрыв наблюдается в основном на неоднозначных или субъективных понятиях (например, "маленькое окно", "уютная комната").

Выпущено - интеграция с Ultralytics продолжается

Мета выпустила SAM 20 ноября 2025 года. Сейчас Ultralytics занимается интеграцией моделей и вскоре выпустит обновление пакета с нативной поддержкой. А пока вы можете воспользоваться официальной инструкцией SAM 3 README, приведенной ниже, чтобы опробовать upstream-релиз.

Обзор SAM 3

SAM 3 (Segment Anything Model 3) - это выпущенная компанией Meta базовая модель для сегментации концептов с подсказками (PCS). Развивая SAM 2, SAM 3 представляет принципиально новую возможность: обнаружение, сегментирование и отслеживание всех случаев визуального понятия, заданного текстовыми подсказками, образцами изображений или тем и другим. В отличие от предыдущих версий SAM , которые segment отдельные объекты по подсказке, SAM 3 может находить и segment все случаи появления понятия в любом месте изображения или видео, что соответствует целям открытого словаря в современной сегментации экземпляров.

Ultralytics активно внедряет SAM в ultralytics пакет. Пока этот релиз не вышел, вы можете поэкспериментировать с реализацией Meta из восходящего потока, используя официальные шаги по установке и использованию, описанные ниже.

Обзор

SAM 3 обеспечивает прирост производительности в 2 раза по сравнению с существующими системами в сегментации понятий с помощью подсказок, сохраняя и улучшая возможности SAM 2 по интерактивной визуальной сегментации. Модель демонстрирует превосходство в сегментации с открытым словарем, позволяя пользователям задавать понятия с помощью простых именных фраз (например, "желтый школьный автобус", "полосатый кот") или предоставляя примеры изображений целевого объекта. Эти возможности дополняют готовые к производству конвейеры, которые полагаются на оптимизированное прогнозирование и track рабочие процессы.

SAM 3 Сегментация

Что такое Promptable Concept Segmentation (PCS)?

Задача PCS принимает на вход запрос концепции и возвращает маски сегментации с уникальными идентификаторами для всех совпадающих экземпляров объектов. Концептуальные подсказки могут быть:

Текст: Простые фразы существительных, такие как "красное яблоко" или "человек в шляпе", аналогично обучению с нулевым результатом
Образцы изображений: Ограничительные рамки вокруг объектов-образцов (положительных или отрицательных) для быстрого обобщения
Комбинированный: Экземпляры текста и изображения вместе для точного контроля

Это отличается от традиционных визуальных подсказок (точек, квадратиков, масок), которые segment только один конкретный экземпляр объекта, как это было принято в оригинальном семействеSAM .

Ключевые показатели эффективности

Метрика	SAM 3 Достижения
LVIS Zero-Shot Mask AP	47,0 (по сравнению с предыдущим лучшим результатом 38,5, +22% улучшения)
Контрольный показатель SA-Co	В 2 раза лучше, чем существующие системы
Скорость вывода (H200 GPU)	30 мс на изображение с 100+ обнаруженными объектами
Видеоспектакль	Почти в реальном времени для ~5 одновременно работающих объектов
Бенчмарк MOSEv2 VOS	60,1 J&F (+25,5% по сравнению с SAM 2.1, +17% по сравнению с предыдущей SOTA)
Интерактивное уточнение	+18,6 улучшение CGF1 после 3 образцовых подсказок
Разрыв в производительности человека	Достижение 88% расчетной нижней границы для SA-Co/Gold

О метриках модели и компромиссах в производстве читайте в разделах "Оценка модели" и "Метрики производительностиYOLO ".

Архитектура

SAM 3 состоит из детектора и трекера, которые совместно используют основу видения Perception Encoder (PE). Такая раздельная конструкция позволяет избежать конфликтов задач, обеспечивая как обнаружение на уровне изображения, так и отслеживание на уровне видео, с интерфейсом, совместимым сиспользованием Ultralytics Python и CLI .

Основные компоненты

Детектор: Архитектура на основе DETR для обнаружения концептов на уровне изображений
- Кодировщик текста для подсказок с фразами существительных
- Образцовый кодировщик для подсказок на основе изображений
- Кодировщик слияния для определения характеристик изображения по подсказкам
- Новая голова присутствия, которая отделяет распознавание ("что") от локализации ("где")
- Масочная головка для генерации масок сегментации экземпляров
Трекер: Сегментация видео на основе памяти, унаследованная от SAM 2
- Кодировщик подсказок, декодер масок, кодировщик памяти
- Банк памяти для хранения внешнего вида объектов в разных кадрах
- Темпоральная деамбигуация с помощью методов, подобных фильтру Калмана, в многообъектных условиях
Жетон присутствия: Выученный глобальный маркер, который предсказывает, присутствует ли целевое понятие на изображении/кадре, улучшая обнаружение за счет разделения распознавания и локализации.

Архитектура SAM 3

Ключевые инновации

Раздельное распознавание и локализация: Головка присутствия предсказывает присутствие концепта в глобальном масштабе, в то время как запросы предложений сосредоточены только на локализации, что позволяет избежать конфликтующих целей.
Унифицированные концептуальные и визуальные подсказки: Поддерживает как PCS (концептуальные подсказки), так и PVS (визуальные подсказки, такие как щелчки/коробки в SAM 2) в одной модели.
Интерактивное уточнение образцов: Пользователи могут добавлять положительные или отрицательные образцы изображений для итеративного уточнения результатов, при этом модель обобщается на похожие объекты, а не просто корректирует отдельные экземпляры.
Временная дискрипция: Использует оценки обнаружения маскетов и периодические повторные запросы для обработки окклюзий, переполненных сцен и сбоев отслеживания в видео, что соответствует лучшим практикам сегментации экземпляров и отслеживания.

Набор данных SA-Co

SAM 3 обучен на Segment Anything with Concepts (SA-Co)- самом большом и разнообразном наборе данных для сегментации, разработанном компанией Meta, который выходит за рамки таких распространенных эталонов, как COCO и LVIS.

Учебные данные

Компонент набора данных	Описание	Масштаб
SA-Co/HQ	Высококачественные аннотированные человеком данные изображений, полученные с помощью 4-фазной системы обработки данных	5,2 млн изображений, 4 млн уникальных именных фраз
SA-Co/SYN	Синтетический набор данных, помеченный ИИ без участия человека	38M именных фраз, 1.4B масок
SA-Co/EXT	15 внешних наборов данных, обогащенных жесткими негативами	Зависит от источника
SA-Co/VIDEO	Аннотации к видео с временным отслеживанием	52,5 тыс. видеороликов, 24,8 тыс. уникальных именных фраз

Контрольные данные

Эталон оценки SA-Co содержит 214 тыс. уникальных фраз на 126 тыс. изображений и видео, что позволяет получить более чем 50-кратное увеличение числа концепций по сравнению с существующими эталонами. Он включает в себя:

SA-Co/Gold: 7 доменов, трижды проаннотированных для измерения границ человеческой производительности
SA-Co/Silver: 10 доменов, одна аннотация человека
SA-Co/Bronze и SA-Co/Bio: 9 существующих наборов данных, адаптированных для сегментации концепций
SA-Co/VEval: Видеоэталон с 3 доменами (SA-V, YT-Temporal-1B, SmartGlasses)

Инновации в области Data Engine

Масштабируемая система обработки данных SAM 3, основанная на человеческих и модельных данных, обеспечивает производительность аннотирования в 2 раза выше:

Аннотаторы искусственного интеллекта: Модели на основе Llama предлагают различные фразы существительных, включая жесткие отрицания
ИИ-верификаторы: Тонко настроенные мультимодальные LLM проверяют качество и исчерпанность масок с производительностью, близкой к человеческой
Активный майнинг: Сосредоточение усилий человека на сложных случаях, когда ИИ не справляется.
Ориентирован на онтологию: Использует большую онтологию, основанную на Викиданных, для охвата концепций

Установка

SAM 3 будет доступен непосредственно в пакете Ultralytics после интеграции. Установка останется:

pip install ultralytics

Модели загружаются автоматически при первом использовании. Затем вы можете использовать стандартный режим прогнозирования и позже экспортировать модели в такие форматы, как ONNX и TensorRT для развертывания. Следите за обновлением пакета с весами и конфигурациями SAM в ближайшее время.

Как использовать SAM 3: универсальность в сегментации понятий

Предварительный просмотр API Ultralytics

В следующих примерах показан предполагаемый API Ultralytics , когда SAM 3 будет поставляться в комплекте. До момента интеграции детали могут измениться.

Поддерживаемые задачи и модели

SAM 3 поддерживает задачи Promptable Concept Segmentation (PCS) и Promptable Visual Segmentation (PVS):

Тип задачи	Типы подсказок	Выход
Сегментация концепции (PCS)	Текст (фразы существительных), образцы изображений	Все экземпляры, соответствующие понятию
Визуальная сегментация (PVS)	Точки, коробки, маски	Одиночный экземпляр объектаSAM стильSAM 2)
Интерактивное уточнение	Добавляйте/удаляйте образцы или клики итеративно	Уточненная сегментация с повышенной точностью

Примеры сегментации понятий

Сегмент с текстовыми подсказками

Сегментация понятий на основе текста

Найдите и segment все экземпляры понятия по текстовому описанию.

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Сегмент с образцами изображений

Сегментация на основе образцов изображений

Используйте один или несколько примеров объектов, чтобы найти все похожие экземпляры.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Итеративная доработка с помощью образцов

Постепенно улучшайте результаты, добавляя примерные подсказки на основе первоначального результата.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Сегментация видеоконцептов

Отслеживание концепций по видео

Обнаружение и track всех случаев использования концепции на протяжении всего видео.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Для более широких потоковых и производственных настроек см. раздел "Отслеживание объектов и просмотр результатов в терминале".

Визуальные подсказкиSAM совместимость сSAM 2)

SAM 3 сохраняет полную обратную совместимость с визуальными подсказками SAM 2:

Визуальные подсказки в стиле SAM 2

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Предварительный просмотр API

Данный пример показывает предполагаемое использование. Реальная реализация ожидает интеграции с Ultralytics .

Ориентиры производительности

Сегментация изображений

SAM 3 достигает лучших результатов в различных бенчмарках, включая такие реальные наборы данных, как LVIS и COCO для сегментации:

Бенчмарк	Метрика	SAM 3	Предыдущий Лучший	Улучшение
LVIS (нулевой выстрел)	Маска AP	47.0	38.5	+22.1%
SA-Co/золото	CGF1	65.0	34.3 (OWLv2)	+89.5%
COCO (нулевой выстрел)	Box AP	53.5	52,2 (T-Rex2)	+2.5%
ADE-847 (семантический сегмент)	mIoU	14.7	9.2 (APE-D)	+59.8%
ПаскальКонцепт-59	mIoU	59.4	58,5 (APE-D)	+1.5%
Городские пейзажи (семантический сегмент)	mIoU	65.1	44,2 (APE-D)	+47.3%

Изучите варианты наборов данных для быстрых экспериментов с наборами данныхUltralytics .

Производительность сегментации видео

SAM 3 демонстрирует значительные улучшения по сравнению с SAM 2 и предшествующими современными технологиями в таких бенчмарках видео, как DAVIS 2017 и YouTube-VOS:

Бенчмарк	Метрика	SAM 3	SAM 2.1 L	Улучшение
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Адаптация на несколько кадров

SAM 3 отлично адаптируется к новым областям с минимальным количеством примеров, что актуально для рабочих процессов ИИ, ориентированных на данные:

Бенчмарк	0-выстрел AP	10 выстрелов AP	Предыдущий лучший (10 выстрелов)
ODinW13	59.9	71.6	67,9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33,7 (гДино-Т)

Концептуальные подсказки SAM 3 с примерами сходятся гораздо быстрее, чем визуальные подсказки:

Добавлены подсказки	CGF1 Score	Усиление в сравнении с использованием только текста	Увеличение по сравнению с исходным уровнем PVS
Только текст	46.4	базовый уровень	базовый уровень
+1 экземпляр	57.6	+11.2	+6.7
+2 образца	62.2	+15.8	+9.7
+3 образца	65.0	+18.6	+11.2
+4 экземляра	65.7	+19.3	+11,5 (плато)

Точность подсчета объектов

SAM 3 обеспечивает точный подсчет, сегментируя все экземпляры, что является общим требованием при подсчете объектов:

Бенчмарк	Точность	МАЭ	Против лучшего МЛЛМ
CountBench	95.6%	0.11	92,4% (Gemini 2.5)
PixMo-Count	87.3%	0.22	88,8% (Molmo-72B)

Сравнение SAM 3 с SAM 2 с YOLO

Здесь мы сравниваем возможности SAM 3 с SAM 2 и YOLO11 моделями:

Возможности	SAM 3	SAM 2	YOLO11n-seg
Сегментация понятий	✅ Все экземпляры из текста/образцов	❌ Не поддерживается	❌ Не поддерживается
Визуальная сегментация	✅ Один экземплярSAM совместимый сSAM 2)	✅ Единственный экземпляр	✅ Все экземпляры
Возможность нулевого выстрела	✅ Открытый словарь	✅ Геометрические подсказки	❌ Закрытый набор
Интерактивное уточнение	✅ Образцы + клики	✅ Только клики	❌ Не поддерживается
Отслеживание видео	✅ Мультиобъект с идентичностью	✅ Мультиобъект	✅ Мультиобъект
LVIS Mask AP (нулевой выстрел)	47.0	Н/Д	Н/Д
MOSEv2 J&F	60.1	47.9	Н/Д
Скорость вывода (H200)	30 мс (100+ объектов)	~23 мс (на объект)	2-3 мс (изображение)
Размер модели	Большой (ожидается ~400+ МБ)	162 МБ (базовый)	5,9 МБ

Основные выводы:

SAM 3: Лучше всего подходит для сегментации понятий в открытом словаре, позволяя найти все случаи употребления понятия с помощью текста или примеров.
SAM 2: Лучшее решение для интерактивной сегментации одиночных объектов на изображениях и видео с геометрическими подсказками
YOLO11: Лучшее решение для высокоскоростной сегментации в реальном времени в условиях ограниченных ресурсов с использованием эффективных конвейеров экспорта, таких как ONNX и TensorRT

Метрики оценки

В SAM 3 представлены новые метрики, разработанные для задачи PCS, дополняющие такие привычные показатели, как F1 score, precision и recall.

Классификация - F1 (CGF1)

Основная метрика, объединяющая локализацию и классификацию:

CGF1 = 100 × pmF1 × IL_MCC

Где:

pmF1 (Positive Macro F1): Измеряет качество локализации на положительных примерах
IL_MCC (коэффициент корреляции Мэтьюса на уровне изображения): Измеряет точность бинарной классификации ("присутствует ли понятие?").

Почему именно эти показатели?

Традиционные метрики AP не учитывают калибровку, что затрудняет использование моделей на практике. Оценивая только прогнозы с достоверностью выше 0,5, метрики SAM 3 обеспечивают хорошую калибровку и имитируют реальные модели использования в интерактивном прогнозировании и track циклов.

Ключевые абляции и выводы

Влияние присутствия руководителя

Головка присутствия отделяет распознавание от локализации, обеспечивая значительные улучшения:

Конфигурация	CGF1	IL_MCC	pmF1
Без присутствия	57.6	0.77	74.7
С присутствием	63.3	0.82	77.1

Присутствующая голова дает прирост в +5,7 CGF1 (+9,9%), в первую очередь улучшая способность к распознаванию (IL_MCC +6,5%).

Эффект жесткого негатива

Жесткие негативы/изображения	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

Твердые отрицания играют решающую роль в распознавании открытой лексики, улучшая IL_MCC на 54,5% (0,44 → 0,68).

Масштабирование обучающих данных

Источники данных	CGF1	IL_MCC	pmF1
Только внешние	30.9	0.46	66.3
Внешний + синтетический	39.7	0.57	70.6
Внешний + штабной	51.8	0.71	73.2
Все три	54.3	0.74	73.5

Высококачественные человеческие аннотации дают значительный выигрыш по сравнению с синтетическими или внешними данными. О практике качества данных см. в разделе " Сбор и аннотирование данных".

Приложения

Возможность сегментации концепций в SAM 3 позволяет использовать новые возможности:

Модерация контента: Поиск всех экземпляров определенных типов контента в медиатеках
Электронная коммерция: Выделение всех товаров определенного типа в изображениях каталога с поддержкой автоаннотирования
Медицинская визуализация: Выявление всех случаев обнаружения определенных типов тканей или аномалий
Автономные системы: Отслеживайте все случаи появления дорожных знаков, пешеходов или транспортных средств по категориям
Видеоаналитика: Подсчет и track всех людей, носящих определенную одежду или выполняющих определенные действия
Аннотирование массивов данных: Быстрое аннотирование всех экземпляров редких категорий объектов
Научные исследования: Количественная оценка и анализ всех образцов, соответствующих определенным критериям

SAM 3 Агент: Расширенный язык рассуждений

SAM 3 может быть объединен с мультимодальными моделями больших языков (MLLM) для обработки сложных запросов, требующих рассуждений, по духу схожих с системами открытых словарей, такими как OWLv2 и T-Rex.

Результаты выполнения заданий на рассуждение

Бенчмарк	Метрика	SAM 3 Agent (Gemini 2.5 Pro)	Предыдущий Лучший
ReasonSeg (проверка)	gIoU	76.0	65,0 (SoTA)
ReasonSeg (тест)	gIoU	73.8	61,3 (SoTA)
OmniLabel (валидация)	AP	46.7	36,5 (REAL)
RefCOCO+	Acc	91.2	89,3 (LISA)

Пример сложных запросов

SAM 3 Агент может обрабатывать запросы, требующие рассуждений:

"Люди сидят, но не держат в руках подарочную коробку".
"Ближайшая к камере собака, на которой нет ошейника".
"Красные предметы размером больше ладони человека".

MLLM предлагает простые запросы с фразами существительных к SAM 3, анализирует возвращенные маски и выполняет итерации до тех пор, пока не будет удовлетворена.

Ограничения

Хотя SAM 3 представляет собой значительное достижение, он имеет определенные ограничения:

Сложность фразы: Лучше всего подходит для простых именных фраз; длинные референтные выражения или сложные рассуждения могут потребовать интеграции MLLM
Работа с двусмысленностью: Некоторые понятия остаются неоднозначными по своей сути (например, "маленькое окно", "уютная комната")
Вычислительные требования: Больше и медленнее, чем специализированные модели обнаружения, такие как YOLO
Объем словарного запаса: Сосредоточен на атомарных визуальных концепциях; композиционные рассуждения ограничены без помощи МЛМ
Редкие понятия: Производительность может снизиться при работе с очень редкими или мелкими понятиями, не представленными в обучающих данных

Цитировать

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Часто задаваемые вопросы

Когда выйдет SAM 3?

SAM 3 был выпущен компанией Meta 20 ноября 2025 года. Поддержка Ultralytics находится в процессе разработки и будет представлена в ближайшем обновлении пакета с полной документацией для режима прогнозирования и режимаtrack .

Будет ли SAM 3 интегрирован в Ultralytics?

Да. После выхода пакета Ultralytics Python будет поддерживаться SAM 3, включая сегментацию концепций, визуальные подсказки в стиле SAM 2 и многообъектное отслеживание видео. Вы сможете экспортировать данные в такие форматы, как ONNX и TensorRT для развертывания, а также оптимизированный Python и CLI рабочие процессы.

Сроки реализации

Примеры кода в этой документации являются предварительными версиями, демонстрирующими предполагаемые модели использования. Реальная реализация будет доступна после завершения интеграции Ultralytics .

Что такое Promptable Concept Segmentation (PCS)?

PCS - это новая задача, представленная в SAM 3, которая сегментирует все случаи визуального понятия в изображении или видео. В отличие от традиционной сегментации, которая нацелена на конкретный экземпляр объекта, PCS находит каждое вхождение категории. Например:

Текстовая подсказка: "желтый школьный автобус" → сегменты всех желтых школьных автобусов в сцене
Образец изображения: Коробка вокруг одной собаки → сегменты всех собак на изображении
Комбинированный: "полосатая кошка" + блок примеров → сегменты всех полосатых кошек, соответствующих примеру

См. сопутствующую информацию об обнаружении объектов и сегментации экземпляров.

Чем SAM 3 отличается от SAM 2?

Характеристика	SAM 2	SAM 3
Задача	Один объект в подсказке	Все экземпляры понятия
Типы подсказок	Точки, коробки, маски	+ Текстовые фразы, образцы изображений
Возможность обнаружения	Требуется внешний детектор	Встроенный детектор открытой лексики
Признание	Только на основе геометрии	Текстовое и визуальное распознавание
Архитектура	Только трекер	Детектор + трекер с головкой присутствия
Производительность при нулевом выстреле	Н/Д (требуются визуальные подсказки)	47,0 AP на LVIS, 2× лучше на SA-Co
Интерактивное уточнение	Только клики	Клики + обобщение примеров

SAM 3 сохраняет обратную совместимость с визуальными подсказками SAM 2, добавляя при этом возможности, основанные на концепции.

Какие наборы данных используются для обучения SAM 3?

SAM 3 обучен на наборе данных Segment Anything with Concepts (SA-Co):

Учебные данные:

5,2 млн изображений с 4 млн уникальных именных фраз (SA-Co/HQ) - высококачественные человеческие аннотации
52,5 тыс. видеороликов с 24,8 тыс. уникальных именных фраз (SA-Co/VIDEO)
1,4B синтетических масок в 38M фразах существительных (SA-Co/SYN)
15 внешних наборов данных, обогащенных жесткими негативами (SA-Co/EXT)

Контрольные данные:

214 000 уникальных концепций на 126 000 изображений/видео
В 50 раз больше концепций, чем в существующих эталонах (например, в LVIS ~4K концепций).
Тройная аннотация на SA-Co/Gold для измерения границ человеческой производительности

Такой масштаб и разнообразие позволяют SAM 3 добиться превосходного обобщения с нулевым результатом по всем понятиям открытого словаря.

Чем SAM 3 отличается от YOLO11 в плане сегментации?

SAM 3 и YOLO11 служат для разных целей:

SAM 3 Преимущества:

Открытый словарный запас: Сегментирует любые понятия с помощью текстовых подсказок без обучения
Нулевой выстрел: Сразу же работает с новыми категориями
Интерактив: Уточнение на основе образцов обобщается на похожие объекты
Концептуальный: Автоматически находит все экземпляры категории
Точность: 47,0 AP при сегментации экземпляров LVIS с нулевым снимком

YOLO11 Преимущества:

Скорость: 10-15× более быстрый вывод (2-3 мс против 30 мс на изображение)
Эффективность: 70× меньшие модели (5,9 МБ против ~400 МБ ожидаемых)
Удобство использования ресурсов: Работает на мобильных и стационарных устройствах
В режиме реального времени: Оптимизировано для производственных развертываний

Рекомендация:

Используйте SAM 3 для гибкой сегментации с открытым словарем, когда вам нужно найти все случаи концепций, описанных в тексте или примерах.
Используйте YOLO11 для высокоскоростных производственных развертываний, где категории известны заранее
Используйте SAM 2 для интерактивной сегментации одного объекта с геометрическими подсказками

Может ли SAM 3 обрабатывать сложные языковые запросы?

SAM 3 предназначен для простых именных фраз (например, "красное яблоко", "человек в шляпе"). Для сложных запросов, требующих рассуждений, объедините SAM 3 с MLLM в виде SAM 3 Agent:

Простые запросы (родной SAM 3):

"Желтый школьный автобус"
"Полосатый кот"
"человек в красной шляпе"

Сложные запросы (SAM 3 Agent с MLLM):

"Люди сидят, но не держат в руках подарочную коробку".
"Ближайшая к камере собака без ошейника".
"Красные предметы размером больше ладони человека".

SAM 3 Agent достигает 76,0 gIoU при проверке ReasonSeg (против 65,0 в предыдущем случае, улучшение +16,9%) благодаря сочетанию сегментации SAM 3 с возможностями рассуждений MLLM.

Насколько точен SAM 3 по сравнению с человеческими показателями?

На эталоне SA-Co/Gold с тройной человеческой аннотацией:

Нижняя граница для человека: 74,2 CGF1 (самый консервативный аннотатор)
ПроизводительностьSAM 3: 65,0 CGF1
Достижение: 88% от предполагаемой нижней границы человеческих возможностей
Верхняя граница для человека: 81,4 CGF1 (наиболее либеральный аннотатор)

При сегментации понятий в открытом словаре SAM 3 достигает высоких результатов, приближающихся к человеческому уровню точности, причем разрыв достигается в основном на неоднозначных или субъективных понятиях (например, "маленькое окно", "уютная комната").

📅 Создано 1 месяц назад ✏️ Обновлено 1 день назад

SAM 3: Сегментируйте что угодно с помощью концепций

Обзор

Что такое Promptable Concept Segmentation (PCS)?

Ключевые показатели эффективности

Архитектура

Основные компоненты

Ключевые инновации

Набор данных SA-Co

Учебные данные

Контрольные данные

Инновации в области Data Engine

Установка

Как использовать SAM 3: универсальность в сегментации понятий

Поддерживаемые задачи и модели

Примеры сегментации понятий

Сегмент с текстовыми подсказками

Сегмент с образцами изображений

Интерактивное уточнение

Сегментация видеоконцептов

Визуальные подсказкиSAM совместимость сSAM 2)

Ориентиры производительности

Сегментация изображений

Производительность сегментации видео

Адаптация на несколько кадров

Эффективность интерактивной доработки

Точность подсчета объектов

Сравнение SAM 3 с SAM 2 с YOLO

Метрики оценки

Классификация - F1 (CGF1)

Почему именно эти показатели?

Ключевые абляции и выводы

Влияние присутствия руководителя

Эффект жесткого негатива

Масштабирование обучающих данных

Приложения

SAM 3 Агент: Расширенный язык рассуждений

Результаты выполнения заданий на рассуждение

Пример сложных запросов

Ограничения

Цитировать

Часто задаваемые вопросы

Когда выйдет SAM 3?

Будет ли SAM 3 интегрирован в Ultralytics?

Что такое Promptable Concept Segmentation (PCS)?

Чем SAM 3 отличается от SAM 2?

Какие наборы данных используются для обучения SAM 3?

Чем SAM 3 отличается от YOLO11 в плане сегментации?

Может ли SAM 3 обрабатывать сложные языковые запросы?

Насколько точен SAM 3 по сравнению с человеческими показателями?

Комментарии