Подготовка данных

Подготовка данных — основа успешных моделей computer vision. Ultralytics Platform предоставляет комплексные инструменты для управления твоими обучающими данными: от загрузки до разметки и анализа.



Watch: Get Started with Ultralytics Platform - Data

Обзор

Раздел Data в Ultralytics Platform помогает тебе:

  • Загружать изображения, видео и файлы датасетов (ZIP, TAR, включая .tar.gz/.tgz, NDJSON)
  • Размечать данные с помощью инструментов ручного рисования и умной разметки на базе SAM — выбирай между SAM 2.1 или новым SAM 3
  • Анализировать свои данные с помощью статистики и визуализаций
  • Экспортировать данные в формате NDJSON для локального обучения

Обзор боковой панели Datasets в Ultralytics Platform

Рабочий процесс

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ЭтапОписание
ЗагрузкаИмпортируй изображения, видео или архивы с автоматической обработкой
АннотированиеРазмечай данные с помощью ручных инструментов для всех 5 типов задач или используй аннотации SAM для задач детектирования, сегментации и OBB
АнализПросматривай распределение классов, пространственные тепловые карты и статистику размеров
ЭкспортСкачивай в формате NDJSON для автономного использования

Поддерживаемые задачи

Ultralytics Platform поддерживает все 5 типов задач YOLO:

ЗадачаОписаниеИнструмент разметки
DetectДетектирование объектов с помощью ограничивающих рамокИнструмент «Прямоугольник»
SegmentСегментация экземпляров с помощью пиксельных масокИнструмент «Многоугольник»
PoseОценка ключевых точек с использованием встроенных и пользовательских шаблонов скелетаИнструмент «Ключевые точки»
OBBОриентированные ограничивающие рамки для повернутых объектовИнструмент «Повернутый прямоугольник»
ClassifyКлассификация на уровне изображенийВыбор класса
Выбор типа задачи

Тип задачи задается при создании датасета и определяет, какие инструменты разметки будут доступны. Ты можешь изменить его позже в заголовке датасета, но несовместимые аннотации не будут отображаться после переключения.

Основные характеристики

Умное хранилище

Ultralytics Platform использует контентно-адресуемое хранилище (CAS) для эффективного управления данными:

  • Дедупликация: Идентичные изображения хранятся только один раз благодаря хешированию XXH3-128
  • Целостность: Адресация на основе хешей гарантирует целостность данных
  • Эффективность: Оптимизированное хранение и быстрая обработка

URI датасетов

Ссылайся на датасеты, используя формат URI ul:// (см. Использование датасетов платформы):

yolo train data=ul://username/datasets/my-dataset

Это позволяет запускать обучение на датасетах платформы с любой машины, где настроен твой API ключ.

Использование данных платформы из Python
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Версионирование датасетов

Создавай неизменяемые снимки NDJSON своего датасета для воспроизводимого обучения. Каждая версия фиксирует количество изображений, классов и аннотаций на момент создания. Подробности см. на вкладке Версии.

Вкладки датасета

Страницы датасетов могут содержать до шести вкладок в зависимости от состояния датасета и твоих прав доступа:

ВкладкаОписание
ИзображенияПросматривай изображения в режиме сетки, компактном или табличном виде с наложенной разметкой
КлассыПросматривай и редактируй названия классов, цвета и количество меток для каждого класса
Графики (Charts)Автоматическая статистика: распределение по выборкам, количество классов, тепловые карты
МоделиМодели, обученные на этом датасете, с метриками и статусом
ВерсииСоздавай и скачивай неизменяемые снимки NDJSON для воспроизводимого обучения
ОшибкиИзображения, обработка которых завершилась с ошибкой, с деталями ошибки и рекомендациями по исправлению

Вкладки Classes и Charts появляются, когда в датасете есть изображения. Errors появляется только при наличии ошибок обработки. Versions отображается для владельцев или, если версии уже существуют, для других пользователей.

Кластеризация

Исследуй свой датасет как интерактивную 2D-диаграмму рассеяния, где визуально похожие изображения находятся рядом. Это полезно для выявления кластеров, дубликатов и выбросов, а также для проверки того, как выборки или классы распределены по твоим данным. Выдели область на графике с помощью лассо, чтобы отфильтровать галерею до этих изображений. Подробности см. в разделе Кластеризация.

Статистика и визуализация

Вкладка Charts предоставляет автоматический анализ, включая:

  • Распределение выборок: Кольцевая диаграмма количества изображений для обучения/валидации/тестирования
  • Популярные классы: Кольцевая диаграмма наиболее часто встречающихся классов аннотаций
  • Ширина изображений: Гистограмма распределения ширины изображений
  • Высота изображений: Гистограмма распределения высоты изображений
  • Точки на экземпляр: Распределение количества вершин многоугольника или ключевых точек (для датасетов сегментации/поз)
  • Расположение аннотаций: 2D тепловая карта центров ограничивающих рамок
  • Размеры изображений: 2D тепловая карта ширины относительно высоты с направляющими линиями соотношения сторон

Быстрые ссылки

  • Датасеты: Загружай, управляй и экспортируй свои обучающие данные
  • Разметка: Размечай данные с помощью ручных и ИИ-инструментов
  • Облачное обучение: Обучай модели на своих размеченных датасетах
  • URI датасета: Используй URI ul:// для запуска обучения откуда угодно

Часто задаваемые вопросы (FAQ)

Какие форматы файлов поддерживаются для загрузки?

Ultralytics Platform поддерживает:

Изображения: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (макс. 50 МБ каждое)

Видео: MP4, WebM, MOV, AVI, MKV, M4V (макс. 1 ГБ, кадры извлекаются с частотой 1 FPS, макс. 100 кадров)

Файлы датасетов: Архивы ZIP или TAR, включая .tar.gz и .tgz (макс. 10 ГБ на тарифе Free, 20 ГБ на Pro, 50 ГБ на Enterprise), содержащие изображения с опциональными метками в формате YOLO, а также экспорты NDJSON

Каков максимальный размер датасета?

Лимиты хранилища зависят от твоего тарифного плана:

Тарифный планЛимит хранилища
Free100 ГБ
Pro500 ГБ
EnterpriseБезлимитно

Лимиты на файлы: Изображения 50 МБ, Видео 1 ГБ, датасеты 10 ГБ на Free / 20 ГБ на Pro / 50 ГБ на Enterprise

Могу ли я использовать датасеты платформы для локального обучения?

Да! Используй формат URI датасета для локального обучения:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Или экспортируй свой датасет в формате NDJSON для полностью автономного обучения.

Комментарии