Перейти к содержанию

Наборы данных

Наборы данных Ultralytics Platform предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения моделей с автоматической обработкой и генерацией статистики.

Загрузить набор данных

Платформа Ultralytics поддерживает различные форматы загрузки для обеспечения гибкости.

Поддерживаемые форматы

ФорматРасширенияПримечанияМаксимальный размер
JPEG.jpg, .jpegНаиболее распространенный, рекомендуемый50 МБ
PNG.pngПоддерживает прозрачность50 МБ
WebP.webpСовременный, хорошее сжатие50 МБ
BMP.bmpБез сжатия50 МБ
TIFF.tiff, .tifВысокое качество50 МБ
HEIC.heicФотографии iPhone50 МБ
AVIF.avifФормат нового поколения50 МБ
JP2.jp2JPEG 200050 МБ
DNG.dngRAW-камера50 МБ
MPO.mpoМногокадровый объект50 МБ

Видео автоматически извлекаются в кадры на стороне клиента со скоростью 1 FPS (максимум 100 кадров на видео).

ФорматРасширенияИзвлечениеМаксимальный размер
MP4.mp41 кадр/с, макс. 100 кадров1 ГБ
WebM.webm1 кадр/с, макс. 100 кадров1 ГБ
MOV.mov1 кадр/с, макс. 100 кадров1 ГБ
AVI.avi1 кадр/с, макс. 100 кадров1 ГБ
MKV.mkv1 кадр/с, макс. 100 кадров1 ГБ
M4V.m4v1 кадр/с, макс. 100 кадров1 ГБ

Извлечение кадров видео

Видеокадры извлекаются в браузере со скоростью 1 кадр в секунду перед загрузкой. 60-секундное видео дает 60 кадров. Максимальное количество кадров на видео — 100, поэтому видео продолжительностью более ~100 секунд будут подвергаться выборке.

Архивы извлекаются и обрабатываются автоматически.

ФорматРасширенияПримечанияМаксимальный размер
ZIP.zipНаиболее распространенные10 ГБ
TAR.tarРаспакованный архив10 ГБ
TAR.GZ.tar.gz, .tgzСжатый архив10 ГБ
GZ.gzСжатый Gzip10 ГБ

Подготовка вашего набора данных

Платформа поддерживает два формата аннотаций, а также загрузку необработанных данных: Ultralytics YOLO, COCO и необработанные (изображения без аннотаций):

Используйте стандартную структуру каталогов YOLO с data.yaml файл:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Файл yaml определяет конфигурацию вашего набора данных:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Используйте файлы аннотаций JSON со стандартной структурой COCO:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

JSON-файл содержит images, annotationsи categories массивы:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

Аннотации COCO автоматически конвертируются при загрузке. Обнаружение (bbox), segmentation (segmentation полигонов), и pose (keypoints) задачи поддерживаются. Идентификаторы категорий переназначаются в плотную последовательность с 0-индексом по всем файлам аннотаций. Для преобразования между форматами см. инструменты преобразования формата.

Исходные загрузки

Исходные: Загружайте неаннотированные изображения (без меток). Полезно, если вы планируете аннотировать непосредственно на платформе с помощью редактора аннотаций.

Плоская структура каталогов

Вы также можете загружать изображения без структуры папок train/val. Изображения, загруженные без разделенных папок, назначаются в train разделены по умолчанию. Вы можете переназначить их позже, используя функцию массового перемещения в разделение.

Автоматическое определение формата

Формат определяется автоматически: наборы данных с data.yaml содержащий names, train, или val ключи обрабатываются как YOLO. Наборы данных с COCO JSON файлами (содержащими images, annotationsи categories массивы) обрабатываются как COCO. Наборы данных, содержащие только изображения и не имеющие аннотаций, обрабатываются как необработанные.

Подробности формата для конкретных задач см. в поддерживаемых задачах и обзоре наборов данных.

Процесс загрузки

  1. Перейдите к Datasets на боковой панели
  2. Нажмите New Dataset или перетащите файлы в зону загрузки
  3. Выберите тип задачи (см. поддерживаемые задачи)
  4. Добавьте имя и необязательное описание
  5. Установите видимость (публичная или частная) и необязательную лицензию (см. доступные лицензии)
  6. Нажмите Create

Платформа Ultralytics: Наборы данных, диалоговое окно загрузки, выбор задачи

После загрузки платформа обрабатывает ваши данные с помощью многоэтапного конвейера:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Валидация: Проверки формата и размера.
  2. Нормализация: Большие изображения масштабируются (макс. 4096 пикселей, мин. размер 28 пикселей)
  3. Миниатюры: генерируются превью WebP размером 256px
  4. Разбор меток: Извлечены метки форматов YOLO и COCO.
  5. Статистика: Рассчитаны распределения классов и размеры изображений.

Платформа Ultralytics: наборы данных, индикатор выполнения загрузки

Проверка перед загрузкой

Вы можете проверить свой набор данных локально перед загрузкой:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Требования к размеру изображений

Изображения должны быть не менее 28 пикселей по их кратчайшей стороне. Изображения меньшего размера отклоняются во время обработки. Изображения размером более 4096 пикселей по их самой длинной стороне автоматически изменяются в размере с сохранением соотношения сторон.

Просмотр изображений

Просматривайте изображения вашего набора данных в нескольких макетах:

ВидОписание
СеткаСетка миниатюр с наложениями аннотаций (по умолчанию)
КомпактныйУменьшенные миниатюры для быстрого просмотра
ТаблицаСписок с миниатюрой, именем файла, размерами, размером, разделением, классами и количеством меток

Платформа Ultralytics: Наборы данных, галерея, вид сетки с аннотациями

Сортировка и фильтрация

Изображения можно сортировать и фильтровать для эффективного просмотра:

СортировкаОписание
НовейшиеНедавно добавленные
Самые старыеСамые ранние добавленные
Имя А-ЯАлфавитный
Имя Я-АВ обратном алфавитном порядке
Размер (наименьший)Сначала наименьшие файлы
Размер (наибольший)Сначала самые большие файлы
Большинство метокБольшинство аннотаций
Наименьшее количество метокНаименьшее количество аннотаций
ФильтрОпции
Фильтр разделенияОбучение, Вал., Тест или Все
Фильтр метокВсе изображения, аннотированные или неаннотированные
ПоискФильтровать изображения по имени файла

Поиск неразмеченных изображений

Используйте фильтр меток, установленный на Unannotated чтобы быстро найти изображения, которые все еще нуждаются в аннотации. Это особенно полезно для больших наборов данных, где вы хотите track прогресс разметки.

Полноэкранный просмотрщик

Нажмите на любое изображение, чтобы открыть полноэкранный просмотрщик с:

  • Навигация: Клавиши со стрелками или миниатюры для просмотра
  • Метаданные: Имя файла, размеры, метка разделения, количество аннотаций
  • Аннотации: Переключение видимости наложения аннотаций.
  • Разбивка по классам: Количество меток по классам с цветовыми индикаторами
  • Редактировать: Войдите в режим аннотирования, чтобы добавить или изменить метки
  • Загрузка: Загрузите исходный файл изображения
  • Удалить: Удалить изображение из набора данных
  • Zoom: Cmd/Ctrl+Scroll для увеличения/уменьшения масштаба
  • Пиксельный вид: Переключить пикселизированный рендеринг для детального осмотра

Платформа Ultralytics: Наборы данных, полноэкранный просмотрщик с панелью метаданных

Фильтр по разбиению

Фильтрация изображений по разделению набора данных:

РазделениеЦель
ОбучениеИспользуется для обучения модели
ВалидацияИспользуется для валидации во время обучения
ТестИспользуется для финальной оценки

Вкладки датасета

Каждая страница набора данных имеет шесть вкладок, доступных на панели вкладок:

Вкладка "Изображения"

Представление по умолчанию, отображающее галерею изображений с наложенными аннотациями. Поддерживает режимы просмотра сеткой, компактный и табличный. Перетащите файлы сюда, чтобы добавить больше изображений.

Вкладка "Классы"

Управление классами аннотаций для вашего набора данных:

  • Гистограмма классов: Столбчатая диаграмма, показывающая количество аннотаций для каждого класса, с переключением линейного/логарифмического масштаба
  • Таблица классов: Таблица с возможностью сортировки и поиска, содержащая имя класса, количество меток и количество изображений
  • Редактировать имена классов: Нажмите на любое имя класса, чтобы переименовать его на месте
  • Редактировать цвета классов: Нажмите на образец цвета, чтобы изменить цвет класса
  • Добавить новый класс: Используйте поле ввода внизу, чтобы добавить классы

Платформа Ultralytics: Наборы данных, вкладка «Классы», гистограмма и таблица

Логарифмическая шкала для несбалансированных наборов данных

Если ваш набор данных имеет дисбаланс классов (например, 10 000 аннотаций "человек", но только 50 "велосипед"), используйте Log Scale включите гистограмму классов для наглядной визуализации всех классов.

Вкладка диаграмм

Автоматическая статистика, рассчитанная на основе вашего набора данных:

ДиаграммаОписание
Распределение разделенийКольцевая диаграмма количества изображений для обучения/валидации/тестирования и процента размеченных
Ведущие классыКольцевая диаграмма 10 наиболее часто встречающихся классов аннотаций
Ширина изображенийГистограмма распределения ширины изображений со средним значением
Высота изображенийГистограмма распределения высоты изображений со средним значением
Точек на экземплярКоличество вершин полигона или ключевых точек на аннотацию (segment/pose)
Местоположения аннотаций2D тепловая карта позиций центров ограничивающих рамок
Размеры изображений2D тепловая карта ширины против высоты с направляющими линиями соотношения сторон

Платформа Ultralytics: Наборы данных, вкладка «Диаграммы», сетка статистики

Кэширование статистики

Статистика кэшируется на 5 минут. Изменения в аннотациях будут отражены после истечения срока действия кэша.

Полноэкранные тепловые карты

Нажмите кнопку развертывания на любой тепловой карте, чтобы просмотреть ее в полноэкранном режиме. Это обеспечивает более крупный и детализированный вид, что полезно для понимания пространственных закономерностей в больших наборах данных.

Вкладка «Модели»

Просмотреть все модели, обученные на этом наборе данных, в таблице с возможностью поиска:

СтолбецОписание
ИмяНазвание модели со ссылкой
ПроектРодительский проект со значком
СтатусЗначок статуса обучения
ЗадачаТип задачи YOLO
ЭпохиЛучшая эпоха / всего эпох
mAP50-95Средняя средняя точность
mAP50mAP при IoU 0.50
СозданДата создания

Платформа Ultralytics: Наборы данных, вкладка «Модели», таблица обученных моделей

Вкладка «Ошибки»

Изображения, обработка которых не удалась, перечислены здесь с:

  • Баннер ошибок: Общее количество неудачных изображений и рекомендации
  • Таблица ошибок: Имя файла, понятное описание ошибки, подсказки по исправлению и миниатюра предварительного просмотра
  • Распространенные ошибки включают поврежденные файлы, неподдерживаемые форматы, слишком маленькие изображения (мин. 28 пикселей) и неподдерживаемые цветовые режимы

Ошибки на вкладке «Ошибки» в наборах данных Ultralytics

Типичные ошибки обработки
ОшибкаПричинаИсправить
Не удалось прочитать файл изображенияПоврежденный или неподдерживаемый форматПовторно экспортировать из редактора изображений
Неполный или поврежденныйФайл был усечен во время передачиПовторно загрузить исходный файл
Изображение слишком маленькоеМинимальный размер менее 28 пикселейИспользуйте исходные изображения более высокого разрешения
Неподдерживаемый цветовой режимЦветовой режим CMYK или индексированныйПреобразование в режим RGB

Вкладка «Версии»

Создавайте неизменяемые снимки NDJSON вашего набора данных для воспроизводимого обучения. Каждая версия фиксирует количество изображений, количество классов, количество аннотаций и размер файла на момент создания.

СтолбецОписание
ВерсияНомер версии (v1, v2, ...)
ОписаниеПредоставленное пользователем описание (редактируемое)
ИзображенияКоличество изображений на момент создания снимка
КлассыКоличество классов на момент снимка
АннотацииКоличество аннотаций на момент снимка
РазмерРазмер файла экспорта NDJSON
СозданКогда была создана версия

Для создания версии:

  1. Откройте вкладку Версии
  2. При желании введите описание (например, «Добавлено 500 обучающих изображений» или «Исправлены неверно размеченные классы»)
  3. Нажмите + Новая версия
  4. Снимок NDJSON генерируется и загружается автоматически

Каждая версия нумеруется последовательно (v1, v2, v3...) и хранится постоянно. Вы можете скачать любую предыдущую версию в любое время из таблицы версий.

Когда создавать версии

Создавайте версию до и после внесения существенных изменений в ваш набор данных — добавления изображений, исправления аннотаций или перебалансировки разбиений. Это позволяет сравнивать производительность модели в различных состояниях набора данных.

Размер файла NDJSON

Указанный размер — это размер файла экспорта NDJSON, который содержит URL-адреса изображений и аннотации — не сами изображения. Фактические данные изображений хранятся отдельно и доступны по подписанным URL-адресам.

Экспорт набора данных

Экспортируйте ваш набор данных в формате NDJSON для автономного использования:

  1. Нажмите значок загрузки в заголовке набора данных.
  2. Файл NDJSON загружается автоматически

Платформа Ultralytics: Наборы данных, экспорт и загрузка Ndjson

Формат NDJSON хранит один JSON-объект на строку. Первая строка содержит метаданные набора данных, за которой следует одна строка на изображение:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

Подписанные URL-адреса

URL-адреса изображений в экспортированном NDJSON подписаны и действительны в течение 7 дней. Если вам нужны новые URL-адреса, повторно экспортируйте набор данных или создайте новую версию.

Полную спецификацию см. в документации Ultralytics по формату NDJSON.

Обработка изображений

Быстрые действия

Щелкните правой кнопкой мыши любое изображение в режиме «Сетка» или «Компактный просмотр», чтобы открыть панель быстрых действий:

ДействиеОписание
Переместить в разделПеренести изображение в раздел «Обучение», «Оценка» или «Тестирование»
СкачатьСкачать исходный файл изображения
УдалитьУдалить изображение из набора данных

Контекстное меню карточки изображения наборов данных Ultralytics

Поштучно или оптом

Контекстное меню изображения работает с одним изображением. Для массовых операций с несколькими изображениями используйте режим просмотра в виде таблицы с возможностью выбора с помощью флажков.

Массовый перенос в «Разделить»

Переназначить выбранные изображения другому разделу в рамках того же набора данных:

  1. Переключиться на представление Таблица
  2. Выберите изображения с помощью флажков
  3. Нажмите правой кнопкой мыши, чтобы открыть контекстное меню
  4. Выбрать Move to split > Обучение, Валидация, или Тест

Вы также можете перетаскивать изображения на вкладки разделенного фильтра в режиме сетки.

Организация разделения на обучающую/валидационную выборки

Загрузите все изображения в один набор данных, затем используйте массовое перемещение для разделения подмножеств на обучающую, валидационную и тестовую выборки.

Массовое удаление

Удалить несколько изображений одновременно:

  1. Выберите изображения в табличном представлении
  2. Нажмите правой кнопкой мыши и выберите Delete
  3. Подтвердите удаление

URI набора данных

Ссылайтесь на наборы данных платформы, используя ul:// Формат URI (см. Использование наборов данных платформы):

ul://username/datasets/dataset-slug

Используйте этот URI для обучения моделей из любого места:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Обучайте где угодно с данными платформы

Параметр ul:// URI работает в любой среде:

  • Локальная машина: Обучайте на своем оборудовании, данные загружаются автоматически
  • Google Colab: Доступ к наборам данных вашей платформы в ноутбуках
  • Удаленные серверы: Обучайте на облачных виртуальных машинах с полным доступом к набору данных

Доступные лицензии

Платформа поддерживает следующие лицензии для наборов данных:

ЛицензияТип
ОтсутствуетЛицензия не выбрана
CC0-1.0Общественное достояние
CC-BY-2.5Разрешительный
CC-BY-4.0Разрешительный
CC-BY-SA-4.0Копилефт
CC-BY-NC-4.0Некоммерческое
CC-BY-NC-SA-4.0Копилефт
CC-BY-ND-4.0Без производных
CC-BY-NC-ND-4.0Некоммерческое
Apache-2.0Разрешительный
MITРазрешительный
AGPL-3.0Копилефт
GPL-3.0Копилефт
Только для исследованийОграничено
ДругоеПользовательский

Лицензии копилефт

При клонировании набора данных с копилефт-лицензией (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0) клон наследует лицензию, и селектор лицензий блокируется.

Настройки видимости

Контролируйте, кто может видеть ваш набор данных:

НастройкаОписание
ПриватныйДоступен только вам
ПубличныйЛюбой может просмотреть на странице «Обзор»

Видимость устанавливается при создании набора данных в New Dataset диалог с помощью переключателя. Общедоступные наборы данных видны на Обзор странице.

Редактировать набор данных

Метаданные датасета редактируются непосредственно на странице датасета — диалоговое окно не требуется:

  • Имя: Нажмите на имя набора данных, чтобы отредактировать его. Изменения автоматически сохраняются при потере фокуса или Enter.
  • Описание: Нажмите на описание (или на заполнитель «Добавить описание...») для редактирования. Изменения сохраняются автоматически.
  • Тип задачи: Нажмите на значок задачи, чтобы выбрать другой тип задачи.
  • Лицензия: Нажмите на селектор лицензий, чтобы изменить лицензию набора данных.

Изменение типа задачи

Изменение типа задачи может повлиять на отображение существующих аннотаций. Несовместимые аннотации не будут показаны.

Клонировать набор данных

При просмотре общедоступного набора данных, которым вы не владеете, нажмите Clone Dataset для создания копии в вашем рабочем пространстве. Клон включает все изображения, аннотации и определения классов. Если исходный набор данных имеет лицензию copyleft, клон наследует ее, и селектор лицензий блокируется.

Отметить звездой и поделиться

  • Звезда: Нажмите кнопку со звездой, чтобы добавить набор данных в закладки. Количество звезд видно всем пользователям.
  • Поделиться: Для общедоступных наборов данных нажмите кнопку "Поделиться", чтобы скопировать ссылку или поделиться в социальных сетях.

Удалить набор данных

Удалить ненужный набор данных:

  1. Откройте меню действий с набором данных
  2. Нажмите Delete
  3. Подтвердите в диалоговом окне: "Это переместит [name] в корзину. Вы сможете восстановить его в течение 30 дней."

Корзина и восстановление

Удаленные наборы данных перемещаются в Корзину — не удаляются безвозвратно. Вы можете восстановить их в течение 30 дней из Settings > Trash.

Обучение на наборе данных

Начать обучение непосредственно из вашего набора данных:

  1. Нажмите New Model на странице набора данных
  2. Выберите проект или создайте новый
  3. Настройте параметры обучения
  4. Начать обучение
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Подробности см. в разделе Облачное обучение.

Часто задаваемые вопросы

Что происходит с моими данными после загрузки?

Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:

  1. Проверены на соответствие формату и размеру
  2. Отклонено, если минимальный размер меньше 28px
  3. Нормализовано, если размер превышает 4096 пикселей (с сохранением соотношения сторон; закодировано для оптимизированного хранения)
  4. Хранится с использованием контентно-адресуемого хранилища (CAS) с хешированием XXH3-128
  5. Миниатюры, сгенерированные в формате WebP размером 256px для быстрого просмотра

Как работает хранение данных?

Платформа Ultralytics использует контентно-адресуемое хранилище (CAS) для эффективного хранения:

  • Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
  • Целостность: Хеширование XXH3-128 обеспечивает целостность данных
  • Эффективность: Снижает затраты на хранение и ускоряет обработку
  • Региональность: Данные остаются в выбранном вами регионе (США, ЕС или AP)

Могу ли я добавить изображения в существующий набор данных?

Да, перетащите файлы на страницу набора данных или используйте кнопку загрузки, чтобы добавить дополнительные изображения. Новая статистика будет рассчитана автоматически.

Как мне переместить изображения между разбиениями?

Используйте функцию массового перемещения для разделения:

  1. Выберите изображения в табличном представлении
  2. Нажмите правой кнопкой мыши и выберите Move to split
  3. Выберите целевое разбиение (обучение, валидация или тест)

Какие форматы меток поддерживаются?

Ultralytics Platform поддерживает два формата аннотаций для загрузки:

Один .txt файл на изображение с нормализованными координатами (диапазон 0-1):

ЗадачаФорматПример
Обнаружениеclass cx cy w h0 0.5 0.5 0.2 0.3
Сегментацияclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Позаclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
КлассификацияСтруктура каталоговtrain/cats/, train/dogs/

Флаги видимости pose: 0=не размечено, 1=размечено, но перекрыто, 2=размечено и видимо.

JSON-файлы с images, annotationsи categories массивы. Поддерживает detect (bbox), segmentation (полигон) и позы (keypoints) задачи. COCO использует абсолютные пиксельные координаты, которые автоматически преобразуются в нормализованный формат во время загрузки.



📅 Создано 2 месяцев назад ✍️ Обновлено 1 день назад
glenn-jocherТ.-АкопянmykolaxboikosergiuwaxmannLaughing-q

Комментарии