SAM 3: Сегментируйте что угодно с помощью концепций
Скоро будет ⚠️
SAM Модели SAM 3 еще не были опубликованы компанией Meta. Приведенная ниже информация основана на исследовательском документе, представленном на ICLR 2026. Загрузка моделей и финальные контрольные показатели будут доступны после официального релиза Meta.
SAM 3 (Segment Anything Model 3) представляет собой базовую модель нового поколения для Promptable Concept Segmentation (PCS) компании Meta. Развивая SAM 2, SAM 3 представляет принципиально новую возможность: обнаружение, сегментирование и отслеживание всех экземпляров визуальной концепции, заданной текстовыми подсказками, образцами изображений или тем и другим. В отличие от предыдущих версий SAM , которые сегментировали отдельные объекты по подсказке, SAM 3 может находить и сегментировать все случаи появления понятия в любом месте изображения или видео, что соответствует целям открытого словаря в современной сегментации экземпляров.
Обзор
SAM 3 обеспечивает прирост производительности в 2 раза по сравнению с существующими системами в сегментации понятий с помощью подсказок, сохраняя и улучшая возможности SAM 2 по интерактивной визуальной сегментации. Модель демонстрирует превосходство в сегментации с открытым словарем, позволяя пользователям задавать понятия с помощью простых именных фраз (например, "желтый школьный автобус", "полосатый кот") или предоставляя примеры изображений целевого объекта. Эти возможности дополняют готовые к производству конвейеры, основанные на оптимизированных рабочих процессах прогнозирования и отслеживания.
Что такое Promptable Concept Segmentation (PCS)?
Задача PCS принимает на вход запрос концепции и возвращает маски сегментации с уникальными идентификаторами для всех совпадающих экземпляров объектов. Концептуальные подсказки могут быть:
- Текст: Простые фразы существительных, такие как "красное яблоко" или "человек в шляпе", аналогично обучению с нулевым результатом
- Образцы изображений: Ограничительные рамки вокруг объектов-образцов (положительных или отрицательных) для быстрого обобщения
- Комбинированный: Экземпляры текста и изображения вместе для точного контроля
Это отличается от традиционных визуальных подсказок (точек, квадратиков, масок), которые сегментируют только один конкретный экземпляр объекта, как это было принято в оригинальном семействеSAM .
Ключевые показатели эффективности
Метрика | SAM 3 Достижения |
---|---|
LVIS Zero-Shot Mask AP | 47,0 (по сравнению с предыдущим лучшим результатом 38,5, +22% улучшения) |
Контрольный показатель SA-Co | В 2 раза лучше, чем существующие системы |
Скорость вывода (H200 GPU) | 30 мс на изображение с 100+ обнаруженными объектами |
Видеоспектакль | Почти в реальном времени для ~5 одновременно работающих объектов |
Бенчмарк MOSEv2 VOS | 60,1 J&F (+25,5% по сравнению с SAM 2.1, +17% по сравнению с предыдущей SOTA) |
Интерактивное уточнение | +18,6 улучшение CGF1 после 3 образцовых подсказок |
Разрыв в производительности человека | Достижение 88% расчетной нижней границы для SA-Co/Gold |
О метриках модели и компромиссах в производстве читайте в разделах "Оценка модели" и "Метрики производительностиYOLO ".
Архитектура
SAM 3 состоит из детектора и трекера, которые совместно используют основу видения Perception Encoder (PE). Такая раздельная конструкция позволяет избежать конфликтов задач, обеспечивая как обнаружение на уровне изображения, так и отслеживание на уровне видео, с интерфейсом, совместимым сиспользованием Ultralytics Python и CLI .
Основные компоненты
-
Детектор: Архитектура на основе DETR для обнаружения концептов на уровне изображений
- Кодировщик текста для подсказок с фразами существительных
- Образцовый кодировщик для подсказок на основе изображений
- Кодировщик слияния для определения характеристик изображения по подсказкам
- Новая голова присутствия, которая отделяет распознавание ("что") от локализации ("где")
- Масочная головка для генерации масок сегментации экземпляров
-
Трекер: Сегментация видео на основе памяти, унаследованная от SAM 2
- Кодировщик подсказок, декодер масок, кодировщик памяти
- Банк памяти для хранения внешнего вида объектов в разных кадрах
- Темпоральная деамбигуация с помощью методов, подобных фильтру Калмана, в многообъектных условиях
-
Жетон присутствия: Выученный глобальный маркер, который предсказывает, присутствует ли целевое понятие на изображении/кадре, улучшая обнаружение за счет разделения распознавания и локализации.
Ключевые инновации
- Раздельное распознавание и локализация: Головка присутствия предсказывает присутствие концепта в глобальном масштабе, в то время как запросы предложений сосредоточены только на локализации, что позволяет избежать конфликтующих целей.
- Унифицированные концептуальные и визуальные подсказки: Поддерживает как PCS (концептуальные подсказки), так и PVS (визуальные подсказки, такие как щелчки/коробки в SAM 2) в одной модели.
- Интерактивное уточнение образцов: Пользователи могут добавлять положительные или отрицательные образцы изображений для итеративного уточнения результатов, при этом модель обобщается на похожие объекты, а не просто корректирует отдельные экземпляры.
- Временная дискрипция: Использует оценки обнаружения маскетов и периодические повторные запросы для обработки окклюзий, переполненных сцен и сбоев отслеживания в видео, что соответствует лучшим практикам сегментации экземпляров и отслеживания.
Набор данных SA-Co
SAM 3 обучен на Segment Anything with Concepts (SA-Co), самом большом и разнообразном наборе данных сегментации, разработанном Meta на сегодняшний день и выходящем за рамки таких распространенных эталонов, как COCO и LVIS.
Учебные данные
Компонент набора данных | Описание | Масштаб |
---|---|---|
SA-Co/HQ | Высококачественные аннотированные человеком данные изображений, полученные с помощью 4-фазной системы обработки данных | 5,2 млн изображений, 4 млн уникальных именных фраз |
SA-Co/SYN | Синтетический набор данных, помеченный ИИ без участия человека | 38M именных фраз, 1.4B масок |
SA-Co/EXT | 15 внешних наборов данных, обогащенных жесткими негативами | Зависит от источника |
SA-Co/VIDEO | Аннотации к видео с временным отслеживанием | 52,5 тыс. видеороликов, 24,8 тыс. уникальных именных фраз |
Контрольные данные
Эталон оценки SA-Co содержит 214 тыс. уникальных фраз на 126 тыс. изображений и видео, что позволяет получить более чем 50-кратное увеличение числа концепций по сравнению с существующими эталонами. Он включает в себя:
- SA-Co/Gold: 7 доменов, трижды проаннотированных для измерения границ человеческой производительности
- SA-Co/Silver: 10 доменов, одна аннотация человека
- SA-Co/Bronze и SA-Co/Bio: 9 существующих наборов данных, адаптированных для сегментации концепций
- SA-Co/VEval: Видеоэталон с 3 доменами (SA-V, YT-Temporal-1B, SmartGlasses)
Инновации в области Data Engine
Масштабируемая система обработки данных SAM 3, основанная на человеческих и модельных данных, обеспечивает производительность аннотирования в 2 раза выше:
- Аннотаторы искусственного интеллекта: Модели на основе Llama предлагают различные фразы существительных, включая жесткие отрицания
- ИИ-верификаторы: Тонко настроенные мультимодальные LLM проверяют качество и исчерпанность масок с производительностью, близкой к человеческой
- Активный майнинг: Сосредоточение усилий человека на сложных случаях, когда ИИ не справляется.
- Ориентирован на онтологию: Использует большую онтологию, основанную на Викиданных, для охвата концепций
Установка
После выхода SAM 3 будет поддерживаться в пакете Ultralytics :
pip install ultralytics
Модели загружаются автоматически при первом использовании. Затем вы можете использовать стандартный режим прогнозирования и позже экспортировать модели в такие форматы, как ONNX и TensorRT для развертывания.
Как использовать SAM 3: универсальность в сегментации понятий
Предварительный просмотр API - возможны изменения
Приведенные ниже примеры кода демонстрируют предполагаемые модели использования, основанные на исследовательской работе. Фактический API будет доступен после:
- Мета-версия с открытыми исходными кодами весов модели SAM 3
- Ultralytics интегрирует SAM 3 в пакет
Синтаксис и параметры могут отличаться в окончательной реализации. Эти примеры служат для предварительного ознакомления с ожидаемой функциональностью.
Поддерживаемые задачи и модели
SAM 3 поддерживает задачи Promptable Concept Segmentation (PCS) и Promptable Visual Segmentation (PVS):
Тип задачи | Типы подсказок | Выход |
---|---|---|
Сегментация концепции (PCS) | Текст (фразы существительных), образцы изображений | Все экземпляры, соответствующие понятию |
Визуальная сегментация (PVS) | Точки, коробки, маски | Одиночный экземпляр объектаSAM стильSAM 2) |
Интерактивное уточнение | Добавляйте/удаляйте образцы или клики итеративно | Уточненная сегментация с повышенной точностью |
Примеры сегментации понятий
Сегмент с текстовыми подсказками
Сегментация понятий на основе текста
Найдите и сегментируйте все экземпляры понятия по текстовому описанию.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
Предварительный просмотр API
Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .
Сегмент с образцами изображений
Сегментация на основе образцов изображений
Используйте один или несколько примеров объектов, чтобы найти все похожие экземпляры.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
Предварительный просмотр API
Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .
Интерактивное уточнение
Итеративная доработка с помощью образцов
Постепенно улучшайте результаты, добавляя примерные подсказки на основе первоначального результата.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
Предварительный просмотр API
Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .
Сегментация видеоконцептов
Отслеживание концепций по видео
Обнаружение и отслеживание всех случаев использования концепции на протяжении всего видео.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
Предварительный просмотр API
Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .
Для более широких потоковых и производственных настроек см. раздел "Отслеживание объектов и просмотр результатов в терминале".
Визуальные подсказкиSAM совместимость сSAM 2)
SAM 3 сохраняет полную обратную совместимость с визуальными подсказками SAM 2:
Визуальные подсказки в стиле SAM 2
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
Предварительный просмотр API
Этот пример показывает предполагаемое использование. Реальная реализация ожидает выхода Meta и интеграции Ultralytics .
Ориентиры производительности
Сегментация изображений
SAM 3 достигает лучших результатов в различных бенчмарках, включая такие реальные наборы данных, как LVIS и COCO для сегментации:
Бенчмарк | Метрика | SAM 3 | Предыдущий Лучший | Улучшение |
---|---|---|---|---|
LVIS (нулевой выстрел) | Маска AP | 47.0 | 38.5 | +22.1% |
SA-Co/золото | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
КОКО (нулевой выстрел) | Box AP | 53.5 | 52,2 (T-Rex2) | +2.5% |
ADE-847 (семантический сегмент) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
ПаскальКонцепт-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
Городские пейзажи (семантический сегмент) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Изучите варианты наборов данных для быстрых экспериментов с наборами данныхUltralytics .
Производительность сегментации видео
SAM 3 демонстрирует значительные улучшения по сравнению с SAM 2 и предшествующими современными технологиями в таких бенчмарках видео, как DAVIS 2017 и YouTube-VOS:
Бенчмарк | Метрика | SAM 3 | SAM 2.1 L | Улучшение |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Адаптация на несколько кадров
SAM 3 отлично адаптируется к новым областям с минимальным количеством примеров, что актуально для рабочих процессов ИИ, ориентированных на данные:
Бенчмарк | 0-выстрел AP | 10 выстрелов AP | Предыдущий лучший (10 выстрелов) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33,7 (гДино-Т) |
Эффективность интерактивной доработки
Концептуальные подсказки SAM 3 с примерами сходятся гораздо быстрее, чем визуальные подсказки:
Добавлены подсказки | CGF1 Score | Усиление в сравнении с использованием только текста | Увеличение по сравнению с исходным уровнем PVS |
---|---|---|---|
Только текст | 46.4 | базовый уровень | базовый уровень |
+1 экземпляр | 57.6 | +11.2 | +6.7 |
+2 образца | 62.2 | +15.8 | +9.7 |
+3 образца | 65.0 | +18.6 | +11.2 |
+4 экземляра | 65.7 | +19.3 | +11,5 (плато) |
Точность подсчета объектов
SAM 3 обеспечивает точный подсчет, сегментируя все экземпляры, что является общим требованием при подсчете объектов:
Бенчмарк | Точность | МАЭ | Против лучшего МЛЛМ |
---|---|---|---|
CountBench | 95.6% | 0.11 | 92,4% (Gemini 2.5) |
PixMo-Count | 87.3% | 0.22 | 88,8% (Molmo-72B) |
Сравнение SAM 3 с SAM 2 с YOLO
Здесь мы сравниваем возможности SAM 3 с SAM 2 и YOLO11 моделями:
Возможности | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
Сегментация понятий | ✅ Все экземпляры из текста/образцов | ❌ Не поддерживается | ❌ Не поддерживается |
Визуальная сегментация | ✅ Один экземплярSAM совместимый сSAM 2) | ✅ Единственный экземпляр | ✅ Все экземпляры |
Возможность нулевого выстрела | ✅ Открытый словарь | ✅ Геометрические подсказки | ❌ Закрытый набор |
Интерактивное уточнение | ✅ Образцы + клики | ✅ Только клики | ❌ Не поддерживается |
Отслеживание видео | ✅ Мультиобъект с идентичностью | ✅ Мультиобъект | ✅ Мультиобъект |
LVIS Mask AP (нулевой выстрел) | 47.0 | Н/Д | Н/Д |
MOSEv2 J&F | 60.1 | 47.9 | Н/Д |
Скорость вывода (H200) | 30 мс (100+ объектов) | ~23 мс (на объект) | 2-3 мс (изображение) |
Размер модели | Большой (ожидается ~400+ МБ) | 162 МБ (базовый) | 5,9 МБ |
Основные выводы:
- SAM 3: Лучше всего подходит для сегментации понятий в открытом словаре, позволяя найти все случаи употребления понятия с помощью текста или примеров.
- SAM 2: Лучшее решение для интерактивной сегментации одиночных объектов на изображениях и видео с геометрическими подсказками
- YOLO11: Лучшее решение для высокоскоростной сегментации в реальном времени в условиях ограниченных ресурсов с использованием эффективных конвейеров экспорта, таких как ONNX и TensorRT
Метрики оценки
В SAM 3 представлены новые метрики, разработанные для задачи PCS, дополняющие такие привычные показатели, как F1 score, precision и recall.
Классификация - F1 (CGF1)
Основная метрика, объединяющая локализацию и классификацию:
CGF1 = 100 × pmF1 × IL_MCC
Где:
- pmF1 (Positive Macro F1): Измеряет качество локализации на положительных примерах
- IL_MCC (коэффициент корреляции Мэтьюса на уровне изображения): Измеряет точность бинарной классификации ("присутствует ли понятие?").
Почему именно эти показатели?
Традиционные метрики AP не учитывают калибровку, что затрудняет использование моделей на практике. Оценивая только прогнозы с достоверностью выше 0,5, метрики SAM 3 обеспечивают хорошую калибровку и имитируют реальные шаблоны использования в интерактивных циклах прогнозирования и отслеживания.
Ключевые абляции и выводы
Влияние присутствия руководителя
Головка присутствия отделяет распознавание от локализации, обеспечивая значительные улучшения:
Конфигурация | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Без присутствия | 57.6 | 0.77 | 74.7 |
С присутствием | 63.3 | 0.82 | 77.1 |
Присутствующая голова дает прирост в +5,7 CGF1 (+9,9%), в первую очередь улучшая способность к распознаванию (IL_MCC +6,5%).
Эффект жесткого негатива
Жесткие негативы/изображения | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
Твердые отрицания играют решающую роль в распознавании открытой лексики, улучшая IL_MCC на 54,5% (0,44 → 0,68).
Масштабирование обучающих данных
Источники данных | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Только внешние | 30.9 | 0.46 | 66.3 |
Внешний + синтетический | 39.7 | 0.57 | 70.6 |
Внешний + штабной | 51.8 | 0.71 | 73.2 |
Все три | 54.3 | 0.74 | 73.5 |
Высококачественные человеческие аннотации дают значительный выигрыш по сравнению с синтетическими или внешними данными. О практике качества данных см. в разделе " Сбор и аннотирование данных".
Приложения
Возможность сегментации концепций в SAM 3 позволяет использовать новые возможности:
- Модерация контента: Поиск всех экземпляров определенных типов контента в медиатеках
- Электронная коммерция: Выделение всех товаров определенного типа в изображениях каталога с поддержкой автоаннотирования
- Медицинская визуализация: Выявление всех случаев обнаружения определенных типов тканей или аномалий
- Автономные системы: Отслеживайте все случаи появления дорожных знаков, пешеходов или транспортных средств по категориям
- Видеоаналитика: Подсчет и отслеживание всех людей, носящих определенную одежду или выполняющих определенные действия
- Аннотирование массивов данных: Быстрое аннотирование всех экземпляров редких категорий объектов
- Научные исследования: Количественная оценка и анализ всех образцов, соответствующих определенным критериям
SAM 3 Агент: Расширенный язык рассуждений
SAM 3 может быть объединен с мультимодальными моделями больших языков (MLLM) для обработки сложных запросов, требующих рассуждений, по духу схожих с системами открытых словарей, такими как OWLv2 и T-Rex.
Результаты выполнения заданий на рассуждение
Бенчмарк | Метрика | SAM 3 Agent (Gemini 2.5 Pro) | Предыдущий Лучший |
---|---|---|---|
ReasonSeg (проверка) | gIoU | 76.0 | 65,0 (SoTA) |
ReasonSeg (тест) | gIoU | 73.8 | 61,3 (SoTA) |
OmniLabel (валидация) | AP | 46.7 | 36,5 (REAL) |
RefCOCO+ | Acc | 91.2 | 89,3 (LISA) |
Пример сложных запросов
SAM 3 Агент может обрабатывать запросы, требующие рассуждений:
- "Люди сидят, но не держат в руках подарочную коробку".
- "Ближайшая к камере собака, на которой нет ошейника".
- "Красные предметы размером больше ладони человека".
MLLM предлагает простые запросы с фразами существительных к SAM 3, анализирует возвращенные маски и выполняет итерации до тех пор, пока не будет удовлетворена.
Ограничения
Хотя SAM 3 представляет собой значительное достижение, он имеет определенные ограничения:
- Сложность фразы: Лучше всего подходит для простых именных фраз; длинные референтные выражения или сложные рассуждения могут потребовать интеграции MLLM
- Работа с двусмысленностью: Некоторые понятия остаются неоднозначными по своей сути (например, "маленькое окно", "уютная комната")
- Вычислительные требования: Больше и медленнее, чем специализированные модели обнаружения, такие как YOLO
- Объем словарного запаса: Сосредоточен на атомарных визуальных концепциях; композиционные рассуждения ограничены без помощи МЛМ
- Редкие понятия: Производительность может снизиться при работе с очень редкими или мелкими понятиями, не представленными в обучающих данных
Цитировать
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
Часто задаваемые вопросы
Когда выйдет SAM 3?
В настоящее время SAM 3 находится на рассмотрении в ICLR 2026 (конференция в 2026 году, рассмотрение в 2025 году). Официальные модели, веса и бенчмарки будут опубликованы после завершения процесса рассмотрения, скорее всего, в 2026 году. Ultralytics обеспечит немедленную поддержку интеграции SAM 3 после выхода Meta и документирует использование в режиме прогнозирования и отслеживания.
Будет ли SAM 3 интегрирован в Ultralytics?
Да. После выхода пакета Ultralytics Python будет поддерживаться SAM 3, включая сегментацию концепций, визуальные подсказки в стиле SAM 2 и многообъектное отслеживание видео. Вы сможете экспортировать данные в такие форматы, как ONNX и TensorRT для развертывания, а также оптимизированный Python и CLI рабочие процессы.
Сроки реализации
Примеры кода в этой документации являются предварительными версиями, демонстрирующими предполагаемые модели использования. Реальная реализация будет доступна после того, как Meta выпустит SAM 3 weight и Ultralytics завершит интеграцию.
Что такое Promptable Concept Segmentation (PCS)?
PCS - это новая задача, представленная в SAM 3, которая сегментирует все случаи визуального понятия в изображении или видео. В отличие от традиционной сегментации, которая нацелена на конкретный экземпляр объекта, PCS находит каждое вхождение категории. Например:
- Текстовая подсказка: "желтый школьный автобус" → сегменты всех желтых школьных автобусов в сцене
- Образец изображения: Коробка вокруг одной собаки → сегменты всех собак на изображении
- Комбинированный: "полосатая кошка" + блок примеров → сегменты всех полосатых кошек, соответствующих примеру
См. сопутствующую информацию об обнаружении объектов и сегментации экземпляров.
Чем SAM 3 отличается от SAM 2?
Характеристика | SAM 2 | SAM 3 |
---|---|---|
Задача | Один объект в подсказке | Все экземпляры понятия |
Типы подсказок | Точки, коробки, маски | + Текстовые фразы, образцы изображений |
Возможность обнаружения | Требуется внешний детектор | Встроенный детектор открытой лексики |
Признание | Только на основе геометрии | Текстовое и визуальное распознавание |
Архитектура | Только трекер | Детектор + трекер с головкой присутствия |
Производительность при нулевом выстреле | Н/Д (требуются визуальные подсказки) | 47,0 AP на LVIS, 2× лучше на SA-Co |
Интерактивное уточнение | Только клики | Клики + обобщение примеров |
SAM 3 сохраняет обратную совместимость с визуальными подсказками SAM 2, добавляя при этом возможности, основанные на концепции.
Какие наборы данных используются для обучения SAM 3?
SAM 3 обучен на наборе данных Segment Anything with Concepts (SA-Co):
Учебные данные:
- 5,2 млн изображений с 4 млн уникальных именных фраз (SA-Co/HQ) - высококачественные человеческие аннотации
- 52,5 тыс. видеороликов с 24,8 тыс. уникальных именных фраз (SA-Co/VIDEO)
- 1,4B синтетических масок в 38M фразах существительных (SA-Co/SYN)
- 15 внешних наборов данных, обогащенных жесткими негативами (SA-Co/EXT)
Контрольные данные:
- 214 000 уникальных концепций на 126 000 изображений/видео
- В 50 раз больше концепций, чем в существующих эталонах (например, в LVIS ~4K концепций).
- Тройная аннотация на SA-Co/Gold для измерения границ человеческой производительности
Такой масштаб и разнообразие позволяют SAM 3 добиться превосходного обобщения с нулевым результатом по всем понятиям открытого словаря.
Чем SAM 3 отличается от YOLO11 в плане сегментации?
SAM 3 и YOLO11 служат для разных целей:
SAM 3 Преимущества:
- Открытый словарный запас: Сегментирует любые понятия с помощью текстовых подсказок без обучения
- Нулевой выстрел: Сразу же работает с новыми категориями
- Интерактив: Уточнение на основе образцов обобщается на похожие объекты
- Концептуальный: Автоматически находит все экземпляры категории
- Точность: 47,0 AP при сегментации экземпляров LVIS с нулевым снимком
YOLO11 Преимущества:
- Скорость: 10-15× более быстрый вывод (2-3 мс против 30 мс на изображение)
- Эффективность: 70× меньшие модели (5,9 МБ против ~400 МБ ожидаемых)
- Удобство использования ресурсов: Работает на мобильных и стационарных устройствах
- В режиме реального времени: Оптимизировано для производственных развертываний
Рекомендация:
- Используйте SAM 3 для гибкой сегментации с открытым словарем, когда вам нужно найти все случаи концепций, описанных в тексте или примерах.
- Используйте YOLO11 для высокоскоростных производственных развертываний, где категории известны заранее
- Используйте SAM 2 для интерактивной сегментации одного объекта с геометрическими подсказками
Может ли SAM 3 обрабатывать сложные языковые запросы?
SAM 3 предназначен для простых именных фраз (например, "красное яблоко", "человек в шляпе"). Для сложных запросов, требующих рассуждений, объедините SAM 3 с MLLM в виде SAM 3 Agent:
Простые запросы (родной SAM 3):
- "Желтый школьный автобус"
- "Полосатый кот"
- "человек в красной шляпе"
Сложные запросы (SAM 3 Agent с MLLM):
- "Люди сидят, но не держат в руках подарочную коробку".
- "Ближайшая к камере собака без ошейника".
- "Красные предметы размером больше ладони человека".
SAM 3 Agent достигает 76,0 gIoU при проверке ReasonSeg (против 65,0 в предыдущем случае, улучшение +16,9%) благодаря сочетанию сегментации SAM 3 с возможностями рассуждений MLLM.
Насколько точен SAM 3 по сравнению с человеческими показателями?
На эталоне SA-Co/Gold с тройной человеческой аннотацией:
- Нижняя граница для человека: 74,2 CGF1 (самый консервативный аннотатор)
- ПроизводительностьSAM 3: 65,0 CGF1
- Достижение: 88% от предполагаемой нижней границы человеческих возможностей
- Верхняя граница для человека: 81,4 CGF1 (наиболее либеральный аннотатор)
При сегментации понятий в открытом словаре SAM 3 достигает высоких результатов, приближающихся к человеческому уровню точности, причем разрыв достигается в основном на неоднозначных или субъективных понятиях (например, "маленькое окно", "уютная комната").