Перейти к содержанию

Наборы данных

Наборы данных Ultralytics Platform предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения моделей с автоматической обработкой и генерацией статистики.

Загрузить набор данных

Ultralytics поддерживает несколько форматов загрузки для обеспечения гибкости.

Поддерживаемые форматы

ФорматРасширенияПримечанияМаксимальный размер
JPEG.jpg, .jpegНаиболее распространенные, рекомендуемые50 МБ
PNG.pngПоддерживает прозрачность50 МБ
WebP.webpСовременный, хорошая компрессия50 МБ
BMP.bmpНесжатый50 МБ
TIFF.tiff, .tifВысокое качество50 МБ
HEIC.heicфотографии с iPhone50 МБ
AVIF.avifФормат следующего поколения50 МБ
JP2.jp2JPEG 200050 МБ
DNG.dngСырая камера50 МБ
MPO.mpoОбъект с несколькими изображениями50 МБ

Видео автоматически разбиваются на кадры на стороне клиента со скоростью 1 кадр в секунду (максимум 100 кадров на видео).

ФорматРасширенияЭкстракцияМаксимальный размер
MP4.mp41 FPS, максимум 100 кадров1 ГБ
WebM.webm1 FPS, максимум 100 кадров1 ГБ
MOV.mov1 FPS, максимум 100 кадров1 ГБ
AVI.avi1 FPS, максимум 100 кадров1 ГБ
MKV.mkv1 FPS, максимум 100 кадров1 ГБ
M4V.m4v1 FPS, максимум 100 кадров1 ГБ

Извлечение кадров видео

Кадры видео извлекаются со скоростью 1 кадр в секунду в браузере перед загрузкой. 60-секундное видео дает 60 кадров. Максимальное количество кадров на видео составляет 100, поэтому видео длительностью более 100 секунд будут подвергаться выборочной обработке.

Архивы извлекаются и обрабатываются автоматически.

ФорматРасширенияПримечанияМаксимальный размер
ZIP.zipНаиболее распространенные10 ГБ
TAR.tarНесжатый архив10 ГБ
TAR.GZ.tar.gz, .tgzСжатый архив10 ГБ
GZ.gzСжатие Gzip10 ГБ

Подготовка вашего набора данных

Платформа поддерживает два формата аннотаций, а также загрузку необработанных данных: Ultralytics YOLO, COCOи необработанные (изображения без аннотаций):

Используйте стандартную структуру YOLO с data.yaml файл:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Файл yaml определяет конфигурацию вашего набора данных:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Используйте файлы аннотаций JSON со стандартной COCO :

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

Файл JSON содержит images, annotationsи categories массивы:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO автоматически конвертируются во время загрузки. Обнаружение (bbox), сегментация (segmentation многоугольники) и поза (keypoints) поддерживаются. Идентификаторы категорий переопределяются в плотную последовательность с индексацией от 0 во всех файлах аннотаций. Для преобразования между форматами см. инструменты для преобразования форматов.

Необработанные загрузки

Raw: Загрузка изображений без аннотаций (без меток). Полезно, если вы планируете добавлять аннотации непосредственно на платформе с помощью редактора аннотаций.

Плоская структура каталогов

Вы также можете загружать изображения без структуры папок train/val. Изображения, загруженные без разделенных папок, назначаются train разделены по умолчанию. Вы можете переназначить их позже, используя функцию массового перемещения для разделения.

Автоматическое определение формата

Формат определяется автоматически: наборы данных с расширением data.yaml содержащий names, train, или val ключи обрабатываются как YOLO. Наборы данных с файлами COCO (содержащими images, annotationsи categories массивы) рассматриваются как COCO. Наборы данных, содержащие только изображения и не имеющие аннотаций, рассматриваются как необработанные.

Подробные сведения о форматах для конкретных задач см. в разделе «Поддерживаемые задачи » и «Обзор наборов данных».

Процесс загрузки

  1. Перейдите к Datasets в боковой панели
  2. Нажмите New Dataset или перетащите файлы в зону загрузки
  3. Выберите тип задачи (см. поддерживаемые задачи)
  4. Добавьте имя и необязательное описание
  5. Установите видимость (публичная или частная) и дополнительную лицензию (см. доступные лицензии)
  6. Нажмите Create

Ultralytics Диалоговое окно загрузки наборов данных Селектор задач

После загрузки платформа обрабатывает ваши данные с помощью многоступенчатого конвейера:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Проверка: проверка формата и размера
  2. Нормализация: большие изображения изменяются в размере (максимум 4096 пикселей, минимальный размер 28 пикселей)
  3. Миниатюры: 256px, сгенерированные предварительные просмотры WebP
  4. Анализ метки: YOLO и извлеченные метки COCO
  5. Статистика: распределение классов и вычисленные размеры изображений

Ultralytics Набор данных Индикатор загрузки

Проверка перед загрузкой

Вы можете проверить свой набор данных локально перед загрузкой:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Требования к размеру изображения

Изображения должны иметь минимальный размер 28 пикселей по самой короткой стороне. Изображения меньшего размера отклоняются во время обработки. Изображения, размер которых превышает 4096 пикселей по самой длинной стороне, автоматически изменяются с сохранением соотношения сторон.

Просмотр изображений

Просматривайте изображения вашего набора данных в нескольких макетах:

ВидОписание
СеткаСетка миниатюр с наложением аннотаций (по умолчанию)
КомпактныйУменьшенные миниатюры для быстрого просмотра
ТаблицаСписок с миниатюрами, именами файлов, размерами, объемом, разделением, классами и количеством меток

Галерея наборов данных Ultralytics в виде сетки с аннотациями

Сортировка и фильтрация

Изображения можно сортировать и фильтровать для удобного просмотра:

СортировкаОписание
НовейшийПоследние добавленные
Самый старыйСамое раннее добавление
Имя A-ZПо алфавиту
Название Z-AОбратный алфавитный порядок
Размер (наименьший)Сначала самые маленькие файлы
Размер (самый большой)Сначала самые большие файлы
Большинство этикетокБольшинство аннотаций
Наименьшее количество этикетокНаименьшее количество аннотаций
ФильтрОпции
Раздельный фильтрТренировка, оценка, тестирование или все
Фильтр метокВсе изображения, с аннотациями или без аннотаций
ПоискФильтрация изображений по имени файла

Поиск изображений без меток

Используйте набор фильтров этикеток, установленный на Unannotated быстро находить изображения, которые еще нуждаются в аннотации. Это особенно полезно для больших наборов данных, где необходимо track ход track .

Полноэкранный просмотрщик

Нажмите на любое изображение, чтобы открыть полноэкранный просмотрщик с:

  • Навигация: клавиши со стрелками или миниатюры для просмотра
  • Метаданные: имя файла, размеры, разделённый значок, количество аннотаций
  • Аннотации: Включение/выключение отображения аннотаций
  • Разбивка по классам: количество меток в каждом классе с цветовыми индикаторами
  • Редактирование: перейдите в режим аннотаций, чтобы добавить или изменить метки.
  • Скачать: Скачать исходный файл изображения
  • Удалить: удалить изображение из набора данных
  • Увеличить: Cmd/Ctrl+Scroll увеличить/уменьшить
  • Просмотр пикселей: включение/выключение пиксельного рендеринга для тщательного осмотра

Ultralytics Наборы данных Полноэкранный просмотрщик с панелью метаданных

Фильтр по разбиению

Фильтрация изображений по разделению набора данных:

РазделениеЦель
ОбучениеИспользуется для обучения модели
ВалидацияИспользуется для валидации во время обучения
ТестИспользуется для финальной оценки

Вкладки набора данных

Каждая страница набора данных имеет пять вкладок, доступных из панели вкладок:

Вкладка «Изображения»

Стандартный вид, отображающий галерею изображений с наложенными аннотациями. Поддерживает режимы просмотра в виде сетки, компактного и табличного. Перетащите файлы сюда, чтобы добавить больше изображений.

Вкладка «Занятия»

Управляйте классами аннотаций для вашего набора данных:

  • Гистограмма классов: гистограмма, показывающая количество аннотаций по классам с переключением между линейной и логарифмической шкалой.
  • Таблица классов: сортируемая таблица с возможностью поиска, содержащая названия классов, количество меток и количество изображений.
  • Редактирование имен классов: щелкните любое имя класса, чтобы переименовать его в строке.
  • Изменить цвета классов: щелкните по образцу цвета, чтобы изменить цвет класса.
  • Добавить новый класс: используйте поле ввода внизу, чтобы добавить классы

Ultralytics Наборы данных Классы Вкладка Гистограмма и таблица

Логарифмическая шкала для несбалансированных наборов данных

Если в вашем наборе данных наблюдается дисбаланс классов (например, 10 000 аннотаций «человек», но только 50 «велосипед»), используйте Log Scale включите гистограмму классов, чтобы четко визуализировать все классы.

Вкладка «Графики»

Автоматическая статистика, рассчитанная на основе вашего набора данных:

ГрафикОписание
Раздельное распределениеКольцевая диаграмма количества изображений train/val/test и процента помеченных изображений
Лучшие классыКольцевая диаграмма 10 наиболее частых классов аннотаций
Ширина изображенияГистограмма распределения ширины изображения со средним значением
Высота изображенияГистограмма распределения высоты изображения со средним значением
Очки за каждый случайКоличество вершин многоугольника или ключевых точек на одну аннотацию (segment)
Местоположение аннотаций2D тепловая карта положений центров ограничительных рамок
Размеры изображения2D-тепловая карта ширины и высоты с линиями ориентира соотношения сторон

Ultralytics Наборы данных Вкладка «Графики» Статистика Сетка

Кэширование статистики

Статистика кэшируется на 5 минут. Изменения в аннотациях будут отражены после истечения срока действия кэша.

Полноэкранные тепловые карты

Нажмите кнопку «Развернуть» на любой тепловой карте, чтобы просмотреть ее в полноэкранном режиме. Это обеспечит более крупный и подробный вид, что полезно для понимания пространственных закономерностей в больших наборах данных.

Вкладка «Модели»

Просмотреть все модели, обученные на этом наборе данных, в таблице с возможностью поиска:

СтолбецОписание
ИмяНазвание модели со ссылкой
ПроектРодительский проект с иконкой
СтатусЗначок статуса обучения
ЗадачаТип YOLO
ЭпохиЛучшая эпоха / общее количество эпох
mAP50-95Средняя средняя точность
mAP50mAP IoU ,50
СозданДата создания

Ultralytics Наборы данных Вкладка «Модели» Таблица обученных моделей

Вкладка «Ошибки»

Здесь перечислены изображения, обработка которых не удалась:

  • Баннер ошибки: общее количество не удалившихся изображений и инструкции
  • Таблица ошибок: имя файла, понятное описание ошибки, подсказки по исправлению и миниатюра для предварительного просмотра
  • Распространенные ошибки включают поврежденные файлы, неподдерживаемые форматы, слишком маленькие изображения (мин. 28 пикселей) и неподдерживаемые цветовые режимы.
Распространенные ошибки обработки
ОшибкаПричинаИсправить
Невозможно прочитать файл изображенияПоврежденный или неподдерживаемый форматРеэкспорт из редактора изображений
Неполный или поврежденныйФайл был обрезан во время передачиЗагрузите исходный файл заново
Изображение слишком маленькоеМинимальный размер менее 28 пикселейИспользуйте исходные изображения с более высоким разрешением
Неподдерживаемый цветовой режимCMYK или индексированный цветовой режимПреобразовать в режим RGB

Экспорт набора данных

Экспортируйте набор данных в формате NDJSON для использования в автономном режиме:

  1. Нажмите на значок загрузки в заголовке набора данных.
  2. Файл NDJSON загружается автоматически.

Экспорт наборов данных Ultralytics Скачать Ndjson

Формат NDJSON хранит один объект JSON в каждой строке. Первая строка содержит метаданные набора данных, за которой следует по одной строке на каждое изображение:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

Подписанные URL-адреса

URL-адреса изображений в экспортированном NDJSON подписаны и действительны в течение 7 дней. Если вам нужны новые URL-адреса, повторно экспортируйте набор данных.

Полную спецификацию см. в документации Ultralytics по формату NDJSON.

Массовые операции

Управляйте изображениями в массовом порядке с помощью контекстного меню табличного представления:

Переезд в Сплит

Переназначить выбранные изображения в другой раздел в пределах того же набора данных:

  1. Перейти к просмотру таблицы
  2. Выберите изображения с помощью флажков
  3. Щелкните правой кнопкой мыши, чтобы открыть контекстное меню.
  4. Выбрать Move to split > Обучение, Валидация, или Тест

Вы также можете перетаскивать изображения на вкладки с фильтром разделения в режиме просмотра сетки.

Организация разделения поездов/валов

Загрузите все изображения в один набор данных, затем используйте массовое перемещение для разделения на поднаборы для обучения, валидации и тестирования.

Массовое удаление

Удаление нескольких изображений одновременно:

  1. Выберите изображения в табличном представлении
  2. Щелкните правой кнопкой мыши и выберите Delete
  3. Подтвердите удаление

URI набора данных

Ссылайтесь на наборы данных платформы, используя ul:// Формат URI (см. Использование наборов данных платформы):

ul://username/datasets/dataset-slug

Используйте этот URI для обучения моделей из любого места:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Обучайте где угодно с данными платформы

Параметр ul:// URI работает в любой среде:

  • Локальная машина: Обучайте на своем оборудовании, данные загружаются автоматически
  • Google Colab: Доступ к наборам данных вашей платформы в ноутбуках
  • Удаленные серверы: Обучайте на облачных виртуальных машинах с полным доступом к набору данных

Доступные лицензии

Платформа поддерживает следующие лицензии для наборов данных:

ЛицензияТип
НетЛицензия не выбрана
CC0-1.0Общественное достояние
CC-BY-2.5Разрешительный
CC-BY-4.0Разрешительный
CC-BY-SA-4.0Копилефт
CC-BY-NC-4.0Некоммерческий
CC-BY-NC-SA-4.0Копилефт
CC-BY-ND-4.0Без производных
CC-BY-NC-ND-4.0Некоммерческий
Apache-2.0Разрешительный
Массачусетский технологический институтРазрешительный
AGPL-3.0Копилефт
GPL-3.0Копилефт
Только для исследованийОграниченный
ДругоеПользовательский

Лицензии с копилефтом

При клонировании набора данных с лицензией copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0) клон наследует лицензию, и селектор лицензии блокируется.

Настройки видимости

Контролируйте, кто может видеть ваш набор данных:

НастройкаОписание
ПриватныйДоступен только вам
ПубличныйЛюбой может просмотреть на странице «Обзор»

Видимость устанавливается при создании набора данных в New Dataset диалог с помощью переключателя. Общедоступные наборы данных отображаются на Обзор странице.

Редактировать набор данных

Метаданные набора данных редактируются непосредственно на странице набора данных — диалоговое окно не требуется:

  • Имя: Щелкните название набора данных, чтобы отредактировать его. Изменения автоматически сохраняются при размытии или Enter.
  • Описание: Нажмите на описание (или на местозаполнитель «Добавить описание...»), чтобы отредактировать. Изменения сохраняются автоматически.
  • Тип задачи: щелкните значок задачи, чтобы выбрать другой тип задачи.
  • Лицензия: Нажмите на селектор лицензии, чтобы изменить лицензию на набор данных.

Изменение типа задачи

Изменение типа задачи может повлиять на отображение существующих аннотаций. Несовместимые аннотации не будут отображаться.

Клонировать набор данных

При просмотре общедоступного набора данных, который вам не принадлежит, нажмите Clone Dataset чтобы создать копию в рабочей области. Клон включает все изображения, аннотации и определения классов. Если исходный набор данных имеет лицензию copyleft, клон наследует ее, и селектор лицензии блокируется.

Звезда и поделиться

  • Звездочка: нажмите кнопку со звездочкой, чтобы добавить набор данных в закладки. Количество звездочек видно всем пользователям.
  • Поделиться: для общедоступных наборов данных нажмите кнопку «Поделиться», чтобы скопировать ссылку или поделиться в социальных сетях.

Удалить набор данных

Удалить ненужный набор данных:

  1. Откройте меню действий с набором данных
  2. Нажмите Delete
  3. Подтвердите в диалоговом окне: «Это переместит [имя] в корзину. Вы можете восстановить его в течение 30 дней».

Корзина и восстановление

Удаленные наборы данных перемещаются в корзину — они не удаляются окончательно. Вы можете восстановить их в течение 30 дней с момента удаления. Settings > Trash.

Обучение на наборе данных

Начать обучение непосредственно из вашего набора данных:

  1. Нажмите New Model на странице набора данных
  2. Выберите проект или создайте новый
  3. Настройте параметры обучения
  4. Начать обучение
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Подробности см. в разделе Облачное обучение.

Часто задаваемые вопросы

Что происходит с моими данными после загрузки?

Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:

  1. Проверены на соответствие формату и размеру
  2. Отклонено, если минимальный размер меньше 28 пикселей
  3. Нормализуется, если размер превышает 4096 пикселей (с сохранением соотношения сторон; кодируется для оптимизации хранения)
  4. Хранение с использованием хэширования Content-Addressable Storage (CAS) с XXH3-128
  5. Миниатюры, сгенерированные в формате WebP с разрешением 256 пикселей для быстрого просмотра

Как работает хранение данных?

Платформа Ultralytics использует контентно-адресуемое хранилище (CAS) для эффективного хранения:

  • Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
  • Целостность: хеширование XXH3-128 обеспечивает целостность данных
  • Эффективность: Снижает затраты на хранение и ускоряет обработку
  • Региональность: Данные остаются в выбранном вами регионе (США, ЕС или AP)

Могу ли я добавить изображения в существующий набор данных?

Да, перетащите файлы на страницу набора данных или воспользуйтесь кнопкой загрузки, чтобы добавить дополнительные изображения. Новые статистические данные будут рассчитаны автоматически.

Как перемещать изображения между разделами?

Используйте функцию массового перемещения и разделения:

  1. Выберите изображения в табличном представлении
  2. Щелкните правой кнопкой мыши и выберите Move to split
  3. Выберите целевое разделение (обучение, валидация или тестирование)

Какие форматы меток поддерживаются?

Ultralytics поддерживает два формата аннотаций для загрузки:

Один .txt файл на изображение с нормализованными координатами (диапазон 0-1):

ЗадачаФорматПример
Обнаружениеclass cx cy w h0 0.5 0.5 0.2 0.3
Сегментацияclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Позаclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
КлассификацияСтруктура каталогаtrain/cats/, train/dogs/

Флаги видимости позы: 0 = без метки, 1 = с меткой, но закрыта, 2 = с меткой и видна.

JSON-файлы с images, annotationsи categories массивы. Поддерживает обнаружение (bbox), сегментация (многоугольник) и поза (keypoints). COCO абсолютные пиксельные координаты, которые автоматически преобразуются в нормализованный формат во время загрузки.



📅 Создано 1 месяц назад ✏️ Обновлено 4 дней назад
glenn-jochersergiuwaxmannLaughing-q

Комментарии