Подготовка данных
Подготовка данных — основа успешных моделей computer vision. Ultralytics Platform предоставляет комплексные инструменты для управления твоими обучающими данными: от загрузки до разметки и анализа.
Watch: Get Started with Ultralytics Platform - Data
Обзор
Раздел Data в Ultralytics Platform помогает тебе:
- Загружать изображения, видео и файлы датасетов (ZIP, TAR, включая
.tar.gz/.tgz, NDJSON) - Размечать данные с помощью инструментов ручного рисования и умной разметки на базе SAM — выбирай между SAM 2.1 или новым SAM 3
- Анализировать свои данные с помощью статистики и визуализаций
- Экспортировать данные в формате NDJSON для локального обучения

Рабочий процесс
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Этап | Описание |
|---|---|
| Загрузка | Импортируй изображения, видео или архивы с автоматической обработкой |
| Аннотирование | Размечай данные с помощью ручных инструментов для всех 5 типов задач или используй аннотации SAM для задач детектирования, сегментации и OBB |
| Анализ | Просматривай распределение классов, пространственные тепловые карты и статистику размеров |
| Экспорт | Скачивай в формате NDJSON для автономного использования |
Поддерживаемые задачи
Ultralytics Platform поддерживает все 5 типов задач YOLO:
| Задача | Описание | Инструмент разметки |
|---|---|---|
| Detect | Детектирование объектов с помощью ограничивающих рамок | Инструмент «Прямоугольник» |
| Segment | Сегментация экземпляров с помощью пиксельных масок | Инструмент «Многоугольник» |
| Pose | Оценка ключевых точек с использованием встроенных и пользовательских шаблонов скелета | Инструмент «Ключевые точки» |
| OBB | Ориентированные ограничивающие рамки для повернутых объектов | Инструмент «Повернутый прямоугольник» |
| Classify | Классификация на уровне изображений | Выбор класса |
Тип задачи задается при создании датасета и определяет, какие инструменты разметки будут доступны. Ты можешь изменить его позже в заголовке датасета, но несовместимые аннотации не будут отображаться после переключения.
Основные характеристики
Умное хранилище
Ultralytics Platform использует контентно-адресуемое хранилище (CAS) для эффективного управления данными:
- Дедупликация: Идентичные изображения хранятся только один раз благодаря хешированию XXH3-128
- Целостность: Адресация на основе хешей гарантирует целостность данных
- Эффективность: Оптимизированное хранение и быстрая обработка
URI датасетов
Ссылайся на датасеты, используя формат URI ul:// (см. Использование датасетов платформы):
yolo train data=ul://username/datasets/my-datasetЭто позволяет запускать обучение на датасетах платформы с любой машины, где настроен твой API ключ.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)Версионирование датасетов
Создавай неизменяемые снимки NDJSON своего датасета для воспроизводимого обучения. Каждая версия фиксирует количество изображений, классов и аннотаций на момент создания. Подробности см. на вкладке Версии.
Вкладки датасета
Страницы датасетов могут содержать до шести вкладок в зависимости от состояния датасета и твоих прав доступа:
| Вкладка | Описание |
|---|---|
| Изображения | Просматривай изображения в режиме сетки, компактном или табличном виде с наложенной разметкой |
| Классы | Просматривай и редактируй названия классов, цвета и количество меток для каждого класса |
| Графики (Charts) | Автоматическая статистика: распределение по выборкам, количество классов, тепловые карты |
| Модели | Модели, обученные на этом датасете, с метриками и статусом |
| Версии | Создавай и скачивай неизменяемые снимки NDJSON для воспроизводимого обучения |
| Ошибки | Изображения, обработка которых завершилась с ошибкой, с деталями ошибки и рекомендациями по исправлению |
Вкладки Classes и Charts появляются, когда в датасете есть изображения. Errors появляется только при наличии ошибок обработки. Versions отображается для владельцев или, если версии уже существуют, для других пользователей.
Кластеризация
Исследуй свой датасет как интерактивную 2D-диаграмму рассеяния, где визуально похожие изображения находятся рядом. Это полезно для выявления кластеров, дубликатов и выбросов, а также для проверки того, как выборки или классы распределены по твоим данным. Выдели область на графике с помощью лассо, чтобы отфильтровать галерею до этих изображений. Подробности см. в разделе Кластеризация.
Статистика и визуализация
Вкладка Charts предоставляет автоматический анализ, включая:
- Распределение выборок: Кольцевая диаграмма количества изображений для обучения/валидации/тестирования
- Популярные классы: Кольцевая диаграмма наиболее часто встречающихся классов аннотаций
- Ширина изображений: Гистограмма распределения ширины изображений
- Высота изображений: Гистограмма распределения высоты изображений
- Точки на экземпляр: Распределение количества вершин многоугольника или ключевых точек (для датасетов сегментации/поз)
- Расположение аннотаций: 2D тепловая карта центров ограничивающих рамок
- Размеры изображений: 2D тепловая карта ширины относительно высоты с направляющими линиями соотношения сторон
Быстрые ссылки
- Датасеты: Загружай, управляй и экспортируй свои обучающие данные
- Разметка: Размечай данные с помощью ручных и ИИ-инструментов
- Облачное обучение: Обучай модели на своих размеченных датасетах
- URI датасета: Используй URI
ul://для запуска обучения откуда угодно
Часто задаваемые вопросы (FAQ)
Какие форматы файлов поддерживаются для загрузки?
Ultralytics Platform поддерживает:
Изображения: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (макс. 50 МБ каждое)
Видео: MP4, WebM, MOV, AVI, MKV, M4V (макс. 1 ГБ, кадры извлекаются с частотой 1 FPS, макс. 100 кадров)
Файлы датасетов: Архивы ZIP или TAR, включая .tar.gz и .tgz (макс. 10 ГБ на тарифе Free, 20 ГБ на Pro, 50 ГБ на Enterprise), содержащие изображения с опциональными метками в формате YOLO, а также экспорты NDJSON
Каков максимальный размер датасета?
Лимиты хранилища зависят от твоего тарифного плана:
| Тарифный план | Лимит хранилища |
|---|---|
| Free | 100 ГБ |
| Pro | 500 ГБ |
| Enterprise | Безлимитно |
Лимиты на файлы: Изображения 50 МБ, Видео 1 ГБ, датасеты 10 ГБ на Free / 20 ГБ на Pro / 50 ГБ на Enterprise
Могу ли я использовать датасеты платформы для локального обучения?
Да! Используй формат URI датасета для локального обучения:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100Или экспортируй свой датасет в формате NDJSON для полностью автономного обучения.