Наборы данных

Наборы данных Ultralytics Platform предоставляют удобное решение для управления твоими обучающими данными. После загрузки платформа автоматически обрабатывает изображения, разметку и статистику. Набор данных готов к обучению, как только обработка завершена, а в нем есть как минимум одно изображение в разделе train, как минимум одно изображение в разделе val или test, как минимум одно размеченное изображение и в общей сложности не менее двух изображений.

Загрузить набор данных

Ultralytics Platform для гибкости принимает множество форматов загрузки.

Поддерживаемые форматы

ФорматРасширенияПримечанияМакс. размер
JPEG.jpg, .jpegНаиболее распространенные, рекомендуемые50 МБ
PNG.pngПоддержка прозрачности50 МБ
WebP.webpСовременный, хорошее сжатие50 МБ
BMP.bmpБез сжатия50 МБ
TIFF.tiff, .tifВысокое качество50 МБ
HEIC.heicФотографии с iPhone50 МБ
AVIF.avifФормат следующего поколения50 МБ
JP2.jp2JPEG 200050 МБ
DNG.dngRaw (сырые) с камер50 МБ
MPO.mpoMulti-picture object50 МБ

Подготовка твоего набора данных

Платформа поддерживает Ultralytics YOLO, COCO, Ultralytics NDJSON и загрузку raw-данных (без разметки):

Используй стандартную структуру директорий YOLO с файлом data.yaml:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

YAML-файл определяет конфигурацию твоего набора данных:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog
Raw-загрузки

Raw: Загрузка изображений без разметки (без меток). Полезно, если ты планируешь размечать данные прямо на платформе, используя редактор разметки.

Плоская структура директорий

Ты также можешь загружать изображения без явных папок разделения (split). Платформа учитывает целевое разделение при загрузке, и для наборов данных, не связанных с классификацией, она может автоматически создать валидационное разделение из части обучающего набора, если информация о разделении не предоставлена. Ты всегда можешь переназначить изображения позже с помощью массового перемещения в разделы или перераспределения разделений.

Автоматическое определение формата

Формат определяется автоматически: наборы данных с файлом data.yaml, содержащим ключи names, train или val, считаются YOLO. Наборы данных с файлами COCO JSON (содержащие массивы images, annotations и categories) считаются COCO. Экспорты .ndjson импортируются как Ultralytics NDJSON. Наборы данных, содержащие только изображения без разметки, считаются raw-данными.

Подробности о форматах для конкретных задач см. в разделе поддерживаемые задачи и Обзор наборов данных.

Процесс загрузки

  1. Перейди к Datasets в боковой панели
  2. Нажми New Dataset или перетащи файлы в зону загрузки
  3. Выбери тип задачи (см. поддерживаемые задачи)
  4. Добавь имя и необязательное описание
  5. Установи видимость (публичная или приватная) и необязательную лицензию (см. доступные лицензии)
  6. Нажми Create

Диалоговое окно выбора задачи для загрузки наборов данных Ultralytics Platform

После загрузки платформа обрабатывает твои данные через многоэтапный конвейер:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Валидация: проверка формата и размера
  2. Нормализация: изменение размера больших изображений (макс. 4096 пикс., мин. сторона 28 пикс.)
  3. Миниатюры: генерация превью в формате WebP размером 256 пикс.
  4. Парсинг разметки: извлечение разметки в форматах YOLO и COCO
  5. Статистика: вычисление распределения классов и размеров изображений

Индикатор выполнения загрузки наборов данных Ultralytics Platform

Валидация перед загрузкой

Ты можешь проверить свой набор данных локально перед загрузкой:

from ultralytics.data.utils import check_det_dataset

check_det_dataset("path/to/data.yaml")
Требования к размеру изображений

Изображения должны быть не менее 28 пикселей по своей кратчайшей стороне. Изображения меньше этого размера отклоняются при обработке. Изображения, превышающие 4096 пикселей по своей длинной стороне, автоматически изменяются в размере с сохранением соотношения сторон.

Просмотр изображений

Просматривай изображения своего набора данных в различных макетах.

Открой панель Кластеризация на панели инструментов галереи, чтобы исследовать свой набор данных как интерактивную 2D-диаграмму рассеяния.

ВидОписание
СеткаСетка миниатюр с наложенной разметкой (по умолчанию)
КомпактныйМиниатюры меньшего размера для быстрого сканирования
ТаблицаСписок с миниатюрой, именем файла, размерами, объемом, разделением, классами и количеством меток

Сетчатый вид галереи наборов данных Ultralytics Platform с разметкой

Сортировка и фильтрация

Изображения можно сортировать и фильтровать для эффективного поиска:

СортироватьОписание
Новые / СтарыеПорядок загрузки / создания
Имя А-Я / Я-АИмя файла по алфавиту
Высота ↑/↓Высота изображения в пикселях
Ширина ↑/↓Ширина изображения в пикселях
Размер ↑/↓Размер файла на диске
Аннотации ↑/↓Количество аннотаций на изображение
Большие наборы данных

Для наборов данных объемом более 100 000 изображений сортировка по имени / размеру / ширине / высоте отключена для поддержания отзывчивости галереи. Сортировка по новизне, дате создания и количеству аннотаций по-прежнему доступна.

Поиск неразмеченных изображений

Используй фильтр разметки Unlabeled, чтобы быстро находить изображения, которые еще нуждаются в аннотировании. Это особенно полезно для больших наборов данных, если ты хочешь отслеживать прогресс разметки.

Полноэкранный просмотрщик

Кликни на любое изображение, чтобы открыть полноэкранный просмотрщик с помощью:

  • Навигация: Клавиши со стрелками или миниатюры для просмотра
  • Метаданные: Имя файла, размеры, значок выборки, количество аннотаций
  • Аннотации: Переключение видимости наложения аннотаций
  • Разбивка по классам: Количество меток по каждому классу с цветовыми индикаторами
  • Редактирование: Вход в режим аннотирования для добавления или изменения меток
  • Скачивание: Скачивание исходного файла изображения
  • Удаление: Удаление изображения из набора данных
  • Масштаб: Cmd/Ctrl+Scroll, Cmd/Ctrl++ или Cmd/Ctrl+= для увеличения, и Cmd/Ctrl+- для уменьшения
  • Сброс вида: Cmd/Ctrl + 0 или кнопка сброса для подгонки изображения под окно просмотрщика
  • Панорамирование: Удерживай Space и перетаскивай, чтобы перемещать холст при увеличении
  • Пиксельный вид: Включение попиксельного отображения для детального осмотра

Полноэкранный просмотрщик наборов данных Ultralytics Platform с панелью метаданных

Фильтр по выборке

Фильтруй изображения по их принадлежности к выборке набора данных:

SplitЦель
ОбучениеИспользуется для обучения модели
ValИспользуется для валидации во время обучения
TestИспользуется для финальной оценки

Кластеризация

Панель Clustering проецирует твой набор данных на интерактивную 2D-диаграмму рассеяния, где визуально похожие изображения располагаются рядом. Используй её для обнаружения кластеров, поиска дубликатов и аномалий, а также для проверки распределения выборок или классов по твоим данным — не покидая галерею. Открой её с помощью значка диаграммы рассеяния на панели инструментов галереи на любой странице набора данных.

Состояние пустой панели кластеризации наборов данных Ultralytics Platform

Запуск анализа

Запусти анализ:

  1. Открой набор данных и кликни на значок диаграммы рассеяния на панели инструментов галереи
  2. Кликни Analyze Dataset
  3. Подожди, пока завершится индикатор выполнения — результаты появятся на той же панели

Анализ выполняется в фоновом режиме и может занять несколько минут в зависимости от размера твоего набора данных. Ты можешь закрыть панель или покинуть страницу и вернуться позже.

Визуализация

После завершения анализа панель отображает 2D-диаграмму рассеяния всех проанализированных изображений. Фильтры галереи (выборка, класс, размеченные/неразмеченные) затемняют точки вне фильтра, чтобы ты мог сосредоточиться на интересующем тебя подмножестве.

Диаграмма рассеяния кластеризации наборов данных Ultralytics Platform

Цвет по

Изменяй раскраску точек данных с помощью выпадающего меню Color by на панели инструментов. Переключай режимы просмотра в любое время — диаграмма мгновенно перекрашивается, чтобы ты видел, как выборки, классы или свойства изображений распределены по твоим кластерам:

ПараметрЗаливка
SplitsTrain / Val / Test
ClassesПервый класс аннотации на каждом изображении
WidthШирина изображения
HeightВысота изображения
SizeРазмер файла
АннотацииКоличество аннотаций на изображение

Режимы цвета кластеризации наборов данных Ultralytics Platform

Лассо-выделение

Нарисуй произвольную область, чтобы выделить точки на диаграмме. Галерея отфильтрует соответствующие изображения, чтобы ты мог просмотреть, переразметить, переместить или удалить их, используя стандартные операции с изображениями.

Сброс выделения

Чип над диаграммой показывает, сколько точек выбрано — кликни на ×, чтобы сбросить лассо и вернуться к полному просмотру галереи.

Панорамирование и масштаб

Навигируй по большим диаграммам рассеяния с помощью мыши и клавиатуры:

ВводДействие
ПрокруткаПанорамирование диаграммы в 2D
Cmd/Ctrl+ПрокруткаМасштабирование с привязкой к курсору
Удержание SpaceПереключение в режим перетаскивания

Повторный анализ

Если твой набор данных изменился после анализа, для владельцев и редакторов появится кнопка Re-analyze в верхней части панели.

Кликни Re-analyze, чтобы заново вычислить эмбеддинги и 2D-проекцию с нуля.

Вкладки набора данных

Каждая страница набора данных может отображать до шести вкладок в зависимости от состояния данных и твоих прав доступа:

Вкладка Images

Вид по умолчанию, отображающий галерею изображений с наложенными аннотациями. Поддерживает режимы сетки, компактный и табличный. Перетаскивай файлы сюда, чтобы добавить больше изображений.

Вкладка Classes

Эта вкладка появляется, когда в наборе данных есть изображения.

Управляй классами аннотаций твоего набора данных:

  • Гистограмма классов: Столбчатая диаграмма, показывающая количество аннотаций по классам с переключением линейной/логарифмической шкалы
  • Таблица классов: Сортируемая и доступная для поиска таблица с именем класса, количеством меток и количеством изображений
  • Редактирование имен классов: Кликни на любое имя класса, чтобы переименовать его прямо в строке
  • Редактирование цветов классов: Кликни на образец цвета, чтобы изменить цвет класса
  • Добавить новый класс: используй поле ввода внизу, чтобы добавить классы

Вкладка классов набора данных платформы Ultralytics с гистограммой и таблицей

Логарифмическая шкала для несбалансированных наборов данных

Если в твоем наборе данных есть дисбаланс классов (например, 10 000 аннотаций «person», но всего 50 «bicycle»), используй переключатель Log Scale на гистограмме классов, чтобы четко визуализировать все классы.

Вкладка «Диаграммы»

Эта вкладка появляется, когда в наборе данных есть изображения.

Автоматическая статистика, вычисленная по твоему набору данных:

ДиаграммаОписание
Распределение по выборкамКольцевая диаграмма количества изображений для обучения/проверки/тестирования и процент размеченных данных
Популярные классыКольцевая диаграмма 10 наиболее частых классов аннотаций
Ширина изображенийГистограмма распределения ширины изображений со средним значением
Высота изображенийГистограмма распределения высоты изображений со средним значением
Точки на экземплярКоличество вершин многоугольника или ключевых точек на аннотацию (сегментация/поза)
Расположение аннотаций2D-тепловая карта центральных положений BBox
Размеры изображений2D-тепловая карта ширины относительно высоты с направляющими линиями соотношения сторон

Сетка статистики на вкладке диаграмм платформы Ultralytics

Кеширование статистики

Статистика кешируется на 5 минут. Изменения в аннотациях отразятся после истечения срока действия кеша.

Полноэкранные тепловые карты

Нажми кнопку развертывания на любой тепловой карте, чтобы просмотреть ее в полноэкранном режиме. Это дает более крупный и детальный обзор, что полезно для понимания пространственных паттернов в больших наборах данных.

Вкладка «Модели»

Просматривай все модели, обученные на этом наборе данных, в таблице с функцией поиска:

СтолбецОписание
ИмяНазвание модели со ссылкой
ПроектРодительский проект со значком
СтатусСтатус обучения
ЗадачаТип задачи YOLO
ЭпохиЛучшая эпоха / всего эпох
mAP50-95Средняя точность (mAP)
mAP50mAP при IoU 0.50
СозданоДата создания

Таблица обученных моделей на вкладке моделей платформы Ultralytics

Вкладка «Ошибки»

Эта вкладка появляется только тогда, когда обработка одного или нескольких файлов завершилась неудачно.

Изображения, обработка которых не удалась, перечислены здесь с указанием:

  • Баннер с ошибкой: общее количество неудачных изображений и рекомендации
  • Таблица ошибок: имя файла, понятное описание ошибки, подсказки по исправлению и миниатюра для предварительного просмотра
  • Распространенные ошибки включают поврежденные файлы, неподдерживаемые форматы, слишком маленькие изображения (минимум 28px) и неподдерживаемые цветовые режимы

Сбои при обработке на вкладке ошибок платформы Ultralytics

Распространенные ошибки обработки
ОшибкаПричинаИсправление
Не удается прочитать файл изображенияПоврежденный или неподдерживаемый форматЭкспортируй заново из графического редактора
Неполный или поврежденный файлФайл был усечен во время передачиСкачай исходный файл заново
Изображение слишком маленькоеМинимальный размер менее 28pxИспользуй исходные изображения более высокого разрешения
Неподдерживаемый цветовой режимЦветовой режим CMYK или индексированныйПреобразуй в режим RGB

Вкладка «Версии»

Создавай неизменяемые снимки (снапшоты) твоего набора данных в формате NDJSON для воспроизводимого обучения. Каждая версия фиксирует количество изображений, количество классов, количество аннотаций и размер файла на момент создания.

СтолбецОписание
ВерсияНомер версии (v1, v2, ...)
ОписаниеОписание от пользователя (редактируемое)
ИзображенияКоличество изображений на момент создания снимка
КлассыКоличество классов на момент создания снимка
АннотацииКоличество аннотаций на момент создания снимка
РазмерРазмер файла экспорта NDJSON
СозданоВремя создания версии

Чтобы создать версию:

  1. Открой вкладку Versions
  2. При желании введи описание (например, «Added 500 training images» или «Fixed mislabeled classes»)
  3. Нажми + New Version
  4. Новая версия появится в таблице
  5. При необходимости скачай версию отдельно из таблицы

Каждая версия нумеруется последовательно (v1, v2, v3...) и хранится постоянно. Ты можешь загрузить любую предыдущую версию в любое время из таблицы версий.

Только готовые наборы данных

Создание версии доступно после того, как набор данных перейдет в статус ready.

Когда создавать версии

Создавай версию до и после внесения серьезных изменений в набор данных — добавления изображений, исправления аннотаций или изменения баланса выборок. Это позволит тебе сравнивать производительность модели для разных состояний набора данных.

Размер файла NDJSON

Отображаемый размер — это размер файла экспорта NDJSON, который содержит URL-адреса изображений и аннотации, а не сами изображения. Фактические данные изображений хранятся отдельно и доступны через подписанные URL-адреса.

Экспорт набора данных

Экспортируй набор данных для автономного использования с помощью загрузки NDJSON из заголовка набора данных или вкладки «Версии».

Для экспорта:

  1. Нажми кнопку Export в заголовке набора данных
  2. Скачай текущий снимок NDJSON напрямую
  3. Используй вкладку Versions, если тебе нужен неизменяемый пронумерованный снимок, который можно будет скачать позже

Экспорт NDJSON на платформе Ultralytics

Формат NDJSON хранит один объект JSON на строку. Первая строка содержит метаданные набора данных, за которыми следует по одной строке на каждое изображение:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
Подписанные URL-адреса

URL-адреса изображений в экспортированном NDJSON являются подписанными и действительны в течение 7 дней. Если тебе нужны свежие URL-адреса, повторно экспортируй набор данных или создай новую версию.

Полную спецификацию см. в документации по формату Ultralytics NDJSON.

Операции с изображениями

Быстрые действия

Нажми правой кнопкой мыши на любое изображение в представлении Сетка (Grid) или Компактное (Compact), чтобы получить доступ к быстрым действиям:

ДействиеОписание
Переместить в разбиениеПереназначь изображение для разбиения Train (обучение), Val (валидация) или Test (тестирование)
СкачатьСкачай оригинальный файл изображения
УдалитьУдали изображение из набора данных

Контекстное меню карточки изображения наборов данных Ultralytics Platform

Одиночные и массовые операции

Контекстное меню изображения работает с одним изображением. Для массовых операций с несколькими изображениями используй представление Таблица (Table) с выбором через флажки.

Массовое перемещение в разбиение

Переназначь выбранные изображения в другое разбиение в рамках того же набора данных:

  1. Переключись в представление Таблица
  2. Выбери изображения с помощью флажков
  3. Нажми правой кнопкой мыши, чтобы открыть контекстное меню
  4. Выбери Move to split > Train, Validation или Test

Ты также можешь перетаскивать изображения на вкладки фильтров разбиения в режиме сетки.

Организация разбиений Train/Val

Загрузи все изображения в один набор данных, а затем используй массовое перемещение в разбиение, чтобы организовать подмножества в наборы для обучения, валидации и тестирования.

Перераспределение разбиений

Перераспредели все изображения между наборами обучения, валидации и тестирования с использованием пользовательских коэффициентов:

  1. Нажми на полосу разбиения на панели инструментов набора данных, чтобы открыть диалоговое окно Перераспределить разбиения (Redistribute Splits)
  2. Настрой процентные доли разбиения, используя любой из методов ниже
  3. Проверь предварительный просмотр количества изображений в реальном времени, чтобы подтвердить распределение
  4. Нажми Применить (Apply), чтобы случайным образом переназначить все изображения в соответствии с твоими процентами

Диалоговое окно перераспределения разбиений наборов данных Ultralytics Platform

Диалоговое окно предоставляет три способа установки целевых коэффициентов разбиения:

МетодОписание
Перетаскивание (Drag)Перетаскивай маркеры между цветными сегментами, чтобы визуально настроить границы разбиения
Ввод (Type)Отредактируй процентный ввод для любого разбиения (остальные два разбиения автоматически пересчитываются пропорционально)
Авто (Auto)Один клик для мгновенной установки разбиения 80/20 для обучения/валидации, при этом тестовое разбиение устанавливается на 0%

Предварительный просмотр в реальном времени показывает, сколько именно изображений попадет в каждое разбиение до того, как ты применишь изменения.

Быстрое разбиение 80/20

Нажми кнопку Авто (Auto), чтобы мгновенно установить рекомендуемое разбиение 80/20 для обучения и валидации. Это наиболее распространенное соотношение для обучения.

Массовое удаление

Удали несколько изображений за один раз:

  1. Выбери изображения в представлении таблицы
  2. Нажми правой кнопкой мыши и выбери Delete
  3. Подтверди удаление

URI набора данных

Ссылайся на наборы данных Platform, используя формат URI ul:// (см. Использование наборов данных Platform):

ul://username/datasets/dataset-slug

Используй этот URI для обучения моделей из любого места:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Обучай где угодно с данными Platform

URI ul:// работает в любой среде:

  • Локальный компьютер: Обучай на своем оборудовании, данные скачиваются автоматически
  • Google Colab: Получай доступ к своим наборам данных Platform в блокнотах
  • Удаленные серверы: Обучай на облачных виртуальных машинах с полным доступом к набору данных

Доступные лицензии

Platform поддерживает следующие лицензии для наборов данных:

ЛицензияТип
НетЛицензия не выбрана
CC0-1.0Общественное достояние
CC-BY-2.5Разрешительная
CC-BY-4.0Разрешительная
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Некоммерческая
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Без производных произведений
CC-BY-NC-ND-4.0Некоммерческая
Apache-2.0Разрешительная
MITРазрешительная
AGPL-3.0Copyleft
GPL-3.0Copyleft
Только для исследованийОграниченная
ДругоеПользовательские
Лицензии Copyleft

При клонировании набора данных с лицензией copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0) клон наследует лицензию, а переключатель лицензий блокируется.

Настройки видимости

Управляй тем, кто может видеть твой набор данных:

НастройкаОписание
Приватный (Private)Доступ только у тебя
Публичный (Public)Любой может просматривать на странице Explore

Видимость устанавливается при создании набора данных в диалоговом окне New Dataset с помощью переключателя. Публичные наборы данных видны на странице Explore.

Редактировать набор данных

Метаданные набора данных редактируются внутри строки прямо на странице набора данных — диалоговое окно не требуется:

  • Имя (Name): Нажми на имя набора данных, чтобы отредактировать его. Изменения сохраняются автоматически при потере фокуса или нажатии Enter.
  • Описание (Description): Нажми на описание (или текст-заполнитель "Add a description..."), чтобы отредактировать его. Изменения сохраняются автоматически.
  • Тип задачи (Task type): Нажми на значок задачи, чтобы выбрать другой тип задачи.
  • Лицензия (License): Нажми на переключатель лицензии, чтобы изменить лицензию набора данных.
Изменение типа задачи

Каждое изображение хранит аннотации для всех типов задач вместе. Изменение типа задачи набора данных определяет, какие аннотации видны в редакторе и включены в экспорт и обучение. Аннотации для других типов задач сохраняются в базе данных и появляются снова, когда ты переключаешься обратно.

Клонировать набор данных

При просмотре публичного набора данных, который тебе не принадлежит, нажми Clone Dataset, чтобы создать копию в своей рабочей области. Клон включает все изображения, аннотации и определения классов. Если у исходного набора данных есть лицензия copyleft, клон наследует её, и переключатель лицензий блокируется.

Отметить звездой и поделиться

  • Звезда (Star): Нажми кнопку со звездой, чтобы добавить набор данных в избранное. Количество звезд видно всем пользователям.
  • Поделиться (Share): Для публичных наборов данных нажми кнопку поделиться, чтобы скопировать ссылку или поделиться в социальных сетях.

Удалить набор данных

Удали набор данных, который тебе больше не нужен:

  1. Открыть меню действий с датасетом
  2. Нажми Delete
  3. Подтверди действие в диалоговом окне: "Это переместит [name] в корзину. Вы сможете восстановить его в течение 30 дней."
Корзина и восстановление

Удаленные датасеты перемещаются в корзину, а не удаляются навсегда. Ты можешь восстановить их в течение 30 дней в разделе Settings > Trash.

Обучение на датасете

Запусти обучение прямо из своего датасета:

  1. Нажми New Model на странице датасета
  2. Выбери проект или создай новый
  3. Настрой параметры обучения
  4. Запусти обучение
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Подробности см. в разделе Cloud Training.

Часто задаваемые вопросы (FAQ)

Что происходит с моими данными после загрузки?

Твои данные обрабатываются и хранятся в выбранном регионе (US, EU или AP). Изображения:

  1. Проверяются на соответствие формату и размеру
  2. Отклоняются, если минимальный размер меньше 28px
  3. Нормализуются, если размер превышает 4096px (с сохранением соотношения сторон; кодируются для оптимизированного хранения)
  4. Хранятся с использованием контентно-адресуемого хранилища (CAS) с хешированием XXH3-128
  5. Создаются миниатюры в формате WebP размером 256px для быстрого просмотра

Как работает хранилище?

Ultralytics Platform использует Content-Addressable Storage (CAS) для эффективного хранения:

  • Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
  • Целостность: Хеширование XXH3-128 гарантирует целостность данных
  • Эффективность: Снижает затраты на хранение и ускоряет обработку
  • Региональность: Данные остаются в выбранном тобой регионе (US, EU или AP)

Могу ли я добавить изображения в существующий датасет?

Да, перетащи файлы на страницу датасета или используй кнопку загрузки, чтобы добавить дополнительные изображения. Новая статистика будет рассчитана автоматически.

Как переместить изображения между выборками (splits)?

Используй функцию массового перемещения в выборку:

  1. Выбери изображения в представлении таблицы
  2. Нажми правой кнопкой мыши и выбери Move to split
  3. Выбери целевую выборку (Train, Validation или Test)

Какие форматы разметки поддерживаются?

Ultralytics Platform поддерживает разметку YOLO, COCO JSON, Ultralytics NDJSON и загрузку исходных изображений:

Один файл .txt на изображение с нормализованными координатами (диапазон 0-1):

ЗадачаФорматПример
Detectclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassifyСтруктура каталоговtrain/cats/, train/dogs/

Флаги видимости для Pose: 0=не размечено, 1=размечено, но перекрыто, 2=размечено и видно.

Могу ли я разметить один и тот же датасет для нескольких типов задач?

Да. Каждое изображение хранит аннотации для всех 5 типов задач (detect, segment, pose, OBB, classify) вместе. Ты можешь в любое время переключить активный тип задачи для датасета, не теряя существующих аннотаций. В редакторе отображаются, а также включаются в экспорт и обучение, только аннотации, соответствующие активному типу задачи — аннотации для других задач сохраняются и появляются снова, когда ты переключаешься обратно.

Комментарии