Наборы данных
Наборы данных Ultralytics Platform предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения моделей с автоматической обработкой и генерацией статистики.
Загрузить набор данных
Ultralytics поддерживает несколько форматов загрузки для обеспечения гибкости.
Поддерживаемые форматы
| Формат | Расширения | Примечания | Максимальный размер |
|---|---|---|---|
| JPEG | .jpg, .jpeg | Наиболее распространенные, рекомендуемые | 50 МБ |
| PNG | .png | Поддерживает прозрачность | 50 МБ |
| WebP | .webp | Современный, хорошая компрессия | 50 МБ |
| BMP | .bmp | Несжатый | 50 МБ |
| TIFF | .tiff, .tif | Высокое качество | 50 МБ |
| HEIC | .heic | фотографии с iPhone | 50 МБ |
| AVIF | .avif | Формат следующего поколения | 50 МБ |
| JP2 | .jp2 | JPEG 2000 | 50 МБ |
| DNG | .dng | Сырая камера | 50 МБ |
| MPO | .mpo | Объект с несколькими изображениями | 50 МБ |
Видео автоматически разбиваются на кадры на стороне клиента со скоростью 1 кадр в секунду (максимум 100 кадров на видео).
| Формат | Расширения | Экстракция | Максимальный размер |
|---|---|---|---|
| MP4 | .mp4 | 1 FPS, максимум 100 кадров | 1 ГБ |
| WebM | .webm | 1 FPS, максимум 100 кадров | 1 ГБ |
| MOV | .mov | 1 FPS, максимум 100 кадров | 1 ГБ |
| AVI | .avi | 1 FPS, максимум 100 кадров | 1 ГБ |
| MKV | .mkv | 1 FPS, максимум 100 кадров | 1 ГБ |
| M4V | .m4v | 1 FPS, максимум 100 кадров | 1 ГБ |
Извлечение кадров видео
Кадры видео извлекаются со скоростью 1 кадр в секунду в браузере перед загрузкой. 60-секундное видео дает 60 кадров. Максимальное количество кадров на видео составляет 100, поэтому видео длительностью более 100 секунд будут подвергаться выборочной обработке.
Архивы извлекаются и обрабатываются автоматически.
| Формат | Расширения | Примечания | Максимальный размер |
|---|---|---|---|
| ZIP | .zip | Наиболее распространенные | 10 ГБ |
| TAR | .tar | Несжатый архив | 10 ГБ |
| TAR.GZ | .tar.gz, .tgz | Сжатый архив | 10 ГБ |
| GZ | .gz | Сжатие Gzip | 10 ГБ |
Подготовка вашего набора данных
Платформа поддерживает два формата аннотаций, а также загрузку необработанных данных: Ultralytics YOLO, COCOи необработанные (изображения без аннотаций):
Используйте стандартную структуру YOLO с data.yaml файл:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Файл yaml определяет конфигурацию вашего набора данных:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Используйте файлы аннотаций JSON со стандартной COCO :
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
Файл JSON содержит images, annotationsи categories массивы:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO автоматически конвертируются во время загрузки. Обнаружение (bbox), сегментация (segmentation многоугольники) и поза (keypoints) поддерживаются. Идентификаторы категорий переопределяются в плотную последовательность с индексацией от 0 во всех файлах аннотаций. Для преобразования между форматами см. инструменты для преобразования форматов.
Необработанные загрузки
Raw: Загрузка изображений без аннотаций (без меток). Полезно, если вы планируете добавлять аннотации непосредственно на платформе с помощью редактора аннотаций.
Плоская структура каталогов
Вы также можете загружать изображения без структуры папок train/val. Изображения, загруженные без разделенных папок, назначаются train разделены по умолчанию. Вы можете переназначить их позже, используя функцию массового перемещения для разделения.
Автоматическое определение формата
Формат определяется автоматически: наборы данных с расширением data.yaml содержащий names, train, или val ключи обрабатываются как YOLO. Наборы данных с файлами COCO (содержащими images, annotationsи categories массивы) рассматриваются как COCO. Наборы данных, содержащие только изображения и не имеющие аннотаций, рассматриваются как необработанные.
Подробные сведения о форматах для конкретных задач см. в разделе «Поддерживаемые задачи » и «Обзор наборов данных».
Процесс загрузки
- Перейдите к
Datasetsв боковой панели - Нажмите
New Datasetили перетащите файлы в зону загрузки - Выберите тип задачи (см. поддерживаемые задачи)
- Добавьте имя и необязательное описание
- Установите видимость (публичная или частная) и дополнительную лицензию (см. доступные лицензии)
- Нажмите
Create

После загрузки платформа обрабатывает ваши данные с помощью многоступенчатого конвейера:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- Проверка: проверка формата и размера
- Нормализация: большие изображения изменяются в размере (максимум 4096 пикселей, минимальный размер 28 пикселей)
- Миниатюры: 256px, сгенерированные предварительные просмотры WebP
- Анализ метки: YOLO и извлеченные метки COCO
- Статистика: распределение классов и вычисленные размеры изображений

Проверка перед загрузкой
Вы можете проверить свой набор данных локально перед загрузкой:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Требования к размеру изображения
Изображения должны иметь минимальный размер 28 пикселей по самой короткой стороне. Изображения меньшего размера отклоняются во время обработки. Изображения, размер которых превышает 4096 пикселей по самой длинной стороне, автоматически изменяются с сохранением соотношения сторон.
Просмотр изображений
Просматривайте изображения вашего набора данных в нескольких макетах:
| Вид | Описание |
|---|---|
| Сетка | Сетка миниатюр с наложением аннотаций (по умолчанию) |
| Компактный | Уменьшенные миниатюры для быстрого просмотра |
| Таблица | Список с миниатюрами, именами файлов, размерами, объемом, разделением, классами и количеством меток |

Сортировка и фильтрация
Изображения можно сортировать и фильтровать для удобного просмотра:
| Сортировка | Описание |
|---|---|
| Новейший | Последние добавленные |
| Самый старый | Самое раннее добавление |
| Имя A-Z | По алфавиту |
| Название Z-A | Обратный алфавитный порядок |
| Размер (наименьший) | Сначала самые маленькие файлы |
| Размер (самый большой) | Сначала самые большие файлы |
| Большинство этикеток | Большинство аннотаций |
| Наименьшее количество этикеток | Наименьшее количество аннотаций |
| Фильтр | Опции |
|---|---|
| Раздельный фильтр | Тренировка, оценка, тестирование или все |
| Фильтр меток | Все изображения, с аннотациями или без аннотаций |
| Поиск | Фильтрация изображений по имени файла |
Поиск изображений без меток
Используйте набор фильтров этикеток, установленный на Unannotated быстро находить изображения, которые еще нуждаются в аннотации. Это особенно полезно для больших наборов данных, где необходимо track ход track .
Полноэкранный просмотрщик
Нажмите на любое изображение, чтобы открыть полноэкранный просмотрщик с:
- Навигация: клавиши со стрелками или миниатюры для просмотра
- Метаданные: имя файла, размеры, разделённый значок, количество аннотаций
- Аннотации: Включение/выключение отображения аннотаций
- Разбивка по классам: количество меток в каждом классе с цветовыми индикаторами
- Редактирование: перейдите в режим аннотаций, чтобы добавить или изменить метки.
- Скачать: Скачать исходный файл изображения
- Удалить: удалить изображение из набора данных
- Увеличить:
Cmd/Ctrl+Scrollувеличить/уменьшить - Просмотр пикселей: включение/выключение пиксельного рендеринга для тщательного осмотра

Фильтр по разбиению
Фильтрация изображений по разделению набора данных:
| Разделение | Цель |
|---|---|
| Обучение | Используется для обучения модели |
| Валидация | Используется для валидации во время обучения |
| Тест | Используется для финальной оценки |
Вкладки набора данных
Каждая страница набора данных имеет пять вкладок, доступных из панели вкладок:
Вкладка «Изображения»
Стандартный вид, отображающий галерею изображений с наложенными аннотациями. Поддерживает режимы просмотра в виде сетки, компактного и табличного. Перетащите файлы сюда, чтобы добавить больше изображений.
Вкладка «Занятия»
Управляйте классами аннотаций для вашего набора данных:
- Гистограмма классов: гистограмма, показывающая количество аннотаций по классам с переключением между линейной и логарифмической шкалой.
- Таблица классов: сортируемая таблица с возможностью поиска, содержащая названия классов, количество меток и количество изображений.
- Редактирование имен классов: щелкните любое имя класса, чтобы переименовать его в строке.
- Изменить цвета классов: щелкните по образцу цвета, чтобы изменить цвет класса.
- Добавить новый класс: используйте поле ввода внизу, чтобы добавить классы

Логарифмическая шкала для несбалансированных наборов данных
Если в вашем наборе данных наблюдается дисбаланс классов (например, 10 000 аннотаций «человек», но только 50 «велосипед»), используйте Log Scale включите гистограмму классов, чтобы четко визуализировать все классы.
Вкладка «Графики»
Автоматическая статистика, рассчитанная на основе вашего набора данных:
| График | Описание |
|---|---|
| Раздельное распределение | Кольцевая диаграмма количества изображений train/val/test и процента помеченных изображений |
| Лучшие классы | Кольцевая диаграмма 10 наиболее частых классов аннотаций |
| Ширина изображения | Гистограмма распределения ширины изображения со средним значением |
| Высота изображения | Гистограмма распределения высоты изображения со средним значением |
| Очки за каждый случай | Количество вершин многоугольника или ключевых точек на одну аннотацию (segment) |
| Местоположение аннотаций | 2D тепловая карта положений центров ограничительных рамок |
| Размеры изображения | 2D-тепловая карта ширины и высоты с линиями ориентира соотношения сторон |

Кэширование статистики
Статистика кэшируется на 5 минут. Изменения в аннотациях будут отражены после истечения срока действия кэша.
Полноэкранные тепловые карты
Нажмите кнопку «Развернуть» на любой тепловой карте, чтобы просмотреть ее в полноэкранном режиме. Это обеспечит более крупный и подробный вид, что полезно для понимания пространственных закономерностей в больших наборах данных.
Вкладка «Модели»
Просмотреть все модели, обученные на этом наборе данных, в таблице с возможностью поиска:
| Столбец | Описание |
|---|---|
| Имя | Название модели со ссылкой |
| Проект | Родительский проект с иконкой |
| Статус | Значок статуса обучения |
| Задача | Тип YOLO |
| Эпохи | Лучшая эпоха / общее количество эпох |
| mAP50-95 | Средняя средняя точность |
| mAP50 | mAP IoU ,50 |
| Создан | Дата создания |

Вкладка «Ошибки»
Здесь перечислены изображения, обработка которых не удалась:
- Баннер ошибки: общее количество не удалившихся изображений и инструкции
- Таблица ошибок: имя файла, понятное описание ошибки, подсказки по исправлению и миниатюра для предварительного просмотра
- Распространенные ошибки включают поврежденные файлы, неподдерживаемые форматы, слишком маленькие изображения (мин. 28 пикселей) и неподдерживаемые цветовые режимы.
Распространенные ошибки обработки
| Ошибка | Причина | Исправить |
|---|---|---|
| Невозможно прочитать файл изображения | Поврежденный или неподдерживаемый формат | Реэкспорт из редактора изображений |
| Неполный или поврежденный | Файл был обрезан во время передачи | Загрузите исходный файл заново |
| Изображение слишком маленькое | Минимальный размер менее 28 пикселей | Используйте исходные изображения с более высоким разрешением |
| Неподдерживаемый цветовой режим | CMYK или индексированный цветовой режим | Преобразовать в режим RGB |
Экспорт набора данных
Экспортируйте набор данных в формате NDJSON для использования в автономном режиме:
- Нажмите на значок загрузки в заголовке набора данных.
- Файл NDJSON загружается автоматически.

Формат NDJSON хранит один объект JSON в каждой строке. Первая строка содержит метаданные набора данных, за которой следует по одной строке на каждое изображение:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
Подписанные URL-адреса
URL-адреса изображений в экспортированном NDJSON подписаны и действительны в течение 7 дней. Если вам нужны новые URL-адреса, повторно экспортируйте набор данных.
Полную спецификацию см. в документации Ultralytics по формату NDJSON.
Массовые операции
Управляйте изображениями в массовом порядке с помощью контекстного меню табличного представления:
Переезд в Сплит
Переназначить выбранные изображения в другой раздел в пределах того же набора данных:
- Перейти к просмотру таблицы
- Выберите изображения с помощью флажков
- Щелкните правой кнопкой мыши, чтобы открыть контекстное меню.
- Выбрать
Move to split> Обучение, Валидация, или Тест
Вы также можете перетаскивать изображения на вкладки с фильтром разделения в режиме просмотра сетки.
Организация разделения поездов/валов
Загрузите все изображения в один набор данных, затем используйте массовое перемещение для разделения на поднаборы для обучения, валидации и тестирования.
Массовое удаление
Удаление нескольких изображений одновременно:
- Выберите изображения в табличном представлении
- Щелкните правой кнопкой мыши и выберите
Delete - Подтвердите удаление
URI набора данных
Ссылайтесь на наборы данных платформы, используя ul:// Формат URI (см. Использование наборов данных платформы):
ul://username/datasets/dataset-slug
Используйте этот URI для обучения моделей из любого места:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Обучайте где угодно с данными платформы
Параметр ul:// URI работает в любой среде:
- Локальная машина: Обучайте на своем оборудовании, данные загружаются автоматически
- Google Colab: Доступ к наборам данных вашей платформы в ноутбуках
- Удаленные серверы: Обучайте на облачных виртуальных машинах с полным доступом к набору данных
Доступные лицензии
Платформа поддерживает следующие лицензии для наборов данных:
| Лицензия | Тип |
|---|---|
| Нет | Лицензия не выбрана |
| CC0-1.0 | Общественное достояние |
| CC-BY-2.5 | Разрешительный |
| CC-BY-4.0 | Разрешительный |
| CC-BY-SA-4.0 | Копилефт |
| CC-BY-NC-4.0 | Некоммерческий |
| CC-BY-NC-SA-4.0 | Копилефт |
| CC-BY-ND-4.0 | Без производных |
| CC-BY-NC-ND-4.0 | Некоммерческий |
| Apache-2.0 | Разрешительный |
| Массачусетский технологический институт | Разрешительный |
| AGPL-3.0 | Копилефт |
| GPL-3.0 | Копилефт |
| Только для исследований | Ограниченный |
| Другое | Пользовательский |
Лицензии с копилефтом
При клонировании набора данных с лицензией copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0) клон наследует лицензию, и селектор лицензии блокируется.
Настройки видимости
Контролируйте, кто может видеть ваш набор данных:
| Настройка | Описание |
|---|---|
| Приватный | Доступен только вам |
| Публичный | Любой может просмотреть на странице «Обзор» |
Видимость устанавливается при создании набора данных в New Dataset диалог с помощью переключателя. Общедоступные наборы данных отображаются на Обзор странице.
Редактировать набор данных
Метаданные набора данных редактируются непосредственно на странице набора данных — диалоговое окно не требуется:
- Имя: Щелкните название набора данных, чтобы отредактировать его. Изменения автоматически сохраняются при размытии или
Enter. - Описание: Нажмите на описание (или на местозаполнитель «Добавить описание...»), чтобы отредактировать. Изменения сохраняются автоматически.
- Тип задачи: щелкните значок задачи, чтобы выбрать другой тип задачи.
- Лицензия: Нажмите на селектор лицензии, чтобы изменить лицензию на набор данных.
Изменение типа задачи
Изменение типа задачи может повлиять на отображение существующих аннотаций. Несовместимые аннотации не будут отображаться.
Клонировать набор данных
При просмотре общедоступного набора данных, который вам не принадлежит, нажмите Clone Dataset чтобы создать копию в рабочей области. Клон включает все изображения, аннотации и определения классов. Если исходный набор данных имеет лицензию copyleft, клон наследует ее, и селектор лицензии блокируется.
Звезда и поделиться
- Звездочка: нажмите кнопку со звездочкой, чтобы добавить набор данных в закладки. Количество звездочек видно всем пользователям.
- Поделиться: для общедоступных наборов данных нажмите кнопку «Поделиться», чтобы скопировать ссылку или поделиться в социальных сетях.
Удалить набор данных
Удалить ненужный набор данных:
- Откройте меню действий с набором данных
- Нажмите
Delete - Подтвердите в диалоговом окне: «Это переместит [имя] в корзину. Вы можете восстановить его в течение 30 дней».
Корзина и восстановление
Удаленные наборы данных перемещаются в корзину — они не удаляются окончательно. Вы можете восстановить их в течение 30 дней с момента удаления. Settings > Trash.
Обучение на наборе данных
Начать обучение непосредственно из вашего набора данных:
- Нажмите
New Modelна странице набора данных - Выберите проект или создайте новый
- Настройте параметры обучения
- Начать обучение
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
Подробности см. в разделе Облачное обучение.
Часто задаваемые вопросы
Что происходит с моими данными после загрузки?
Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:
- Проверены на соответствие формату и размеру
- Отклонено, если минимальный размер меньше 28 пикселей
- Нормализуется, если размер превышает 4096 пикселей (с сохранением соотношения сторон; кодируется для оптимизации хранения)
- Хранение с использованием хэширования Content-Addressable Storage (CAS) с XXH3-128
- Миниатюры, сгенерированные в формате WebP с разрешением 256 пикселей для быстрого просмотра
Как работает хранение данных?
Платформа Ultralytics использует контентно-адресуемое хранилище (CAS) для эффективного хранения:
- Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
- Целостность: хеширование XXH3-128 обеспечивает целостность данных
- Эффективность: Снижает затраты на хранение и ускоряет обработку
- Региональность: Данные остаются в выбранном вами регионе (США, ЕС или AP)
Могу ли я добавить изображения в существующий набор данных?
Да, перетащите файлы на страницу набора данных или воспользуйтесь кнопкой загрузки, чтобы добавить дополнительные изображения. Новые статистические данные будут рассчитаны автоматически.
Как перемещать изображения между разделами?
Используйте функцию массового перемещения и разделения:
- Выберите изображения в табличном представлении
- Щелкните правой кнопкой мыши и выберите
Move to split - Выберите целевое разделение (обучение, валидация или тестирование)
Какие форматы меток поддерживаются?
Ultralytics поддерживает два формата аннотаций для загрузки:
Один .txt файл на изображение с нормализованными координатами (диапазон 0-1):
| Задача | Формат | Пример |
|---|---|---|
| Обнаружение | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Сегментация | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Поза | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Классификация | Структура каталога | train/cats/, train/dogs/ |
Флаги видимости позы: 0 = без метки, 1 = с меткой, но закрыта, 2 = с меткой и видна.
JSON-файлы с images, annotationsи categories массивы. Поддерживает обнаружение (bbox), сегментация (многоугольник) и поза (keypoints). COCO абсолютные пиксельные координаты, которые автоматически преобразуются в нормализованный формат во время загрузки.