Наборы данных
Наборы данных Ultralytics Platform предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения моделей с автоматической обработкой и генерацией статистики.
Загрузить набор данных
Платформа Ultralytics поддерживает различные форматы загрузки для обеспечения гибкости.
Поддерживаемые форматы
| Формат | Расширения | Примечания | Максимальный размер |
|---|---|---|---|
| JPEG | .jpg, .jpeg | Наиболее распространенный, рекомендуемый | 50 МБ |
| PNG | .png | Поддерживает прозрачность | 50 МБ |
| WebP | .webp | Современный, хорошее сжатие | 50 МБ |
| BMP | .bmp | Без сжатия | 50 МБ |
| TIFF | .tiff, .tif | Высокое качество | 50 МБ |
| HEIC | .heic | Фотографии iPhone | 50 МБ |
| AVIF | .avif | Формат нового поколения | 50 МБ |
| JP2 | .jp2 | JPEG 2000 | 50 МБ |
| DNG | .dng | RAW-камера | 50 МБ |
| MPO | .mpo | Многокадровый объект | 50 МБ |
Видео автоматически извлекаются в кадры на стороне клиента со скоростью 1 FPS (максимум 100 кадров на видео).
| Формат | Расширения | Извлечение | Максимальный размер |
|---|---|---|---|
| MP4 | .mp4 | 1 кадр/с, макс. 100 кадров | 1 ГБ |
| WebM | .webm | 1 кадр/с, макс. 100 кадров | 1 ГБ |
| MOV | .mov | 1 кадр/с, макс. 100 кадров | 1 ГБ |
| AVI | .avi | 1 кадр/с, макс. 100 кадров | 1 ГБ |
| MKV | .mkv | 1 кадр/с, макс. 100 кадров | 1 ГБ |
| M4V | .m4v | 1 кадр/с, макс. 100 кадров | 1 ГБ |
Извлечение кадров видео
Видеокадры извлекаются в браузере со скоростью 1 кадр в секунду перед загрузкой. 60-секундное видео дает 60 кадров. Максимальное количество кадров на видео — 100, поэтому видео продолжительностью более ~100 секунд будут подвергаться выборке.
Архивы извлекаются и обрабатываются автоматически.
| Формат | Расширения | Примечания | Максимальный размер |
|---|---|---|---|
| ZIP | .zip | Наиболее распространенные | 10 ГБ |
| TAR | .tar | Распакованный архив | 10 ГБ |
| TAR.GZ | .tar.gz, .tgz | Сжатый архив | 10 ГБ |
| GZ | .gz | Сжатый Gzip | 10 ГБ |
Подготовка вашего набора данных
Платформа поддерживает два формата аннотаций, а также загрузку необработанных данных: Ultralytics YOLO, COCO и необработанные (изображения без аннотаций):
Используйте стандартную структуру каталогов YOLO с data.yaml файл:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Файл yaml определяет конфигурацию вашего набора данных:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Используйте файлы аннотаций JSON со стандартной структурой COCO:
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
JSON-файл содержит images, annotationsи categories массивы:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
Аннотации COCO автоматически конвертируются при загрузке. Обнаружение (bbox), segmentation (segmentation полигонов), и pose (keypoints) задачи поддерживаются. Идентификаторы категорий переназначаются в плотную последовательность с 0-индексом по всем файлам аннотаций. Для преобразования между форматами см. инструменты преобразования формата.
Исходные загрузки
Исходные: Загружайте неаннотированные изображения (без меток). Полезно, если вы планируете аннотировать непосредственно на платформе с помощью редактора аннотаций.
Плоская структура каталогов
Вы также можете загружать изображения без структуры папок train/val. Изображения, загруженные без разделенных папок, назначаются в train разделены по умолчанию. Вы можете переназначить их позже, используя функцию массового перемещения в разделение.
Автоматическое определение формата
Формат определяется автоматически: наборы данных с data.yaml содержащий names, train, или val ключи обрабатываются как YOLO. Наборы данных с COCO JSON файлами (содержащими images, annotationsи categories массивы) обрабатываются как COCO. Наборы данных, содержащие только изображения и не имеющие аннотаций, обрабатываются как необработанные.
Подробности формата для конкретных задач см. в поддерживаемых задачах и обзоре наборов данных.
Процесс загрузки
- Перейдите к
Datasetsна боковой панели - Нажмите
New Datasetили перетащите файлы в зону загрузки - Выберите тип задачи (см. поддерживаемые задачи)
- Добавьте имя и необязательное описание
- Установите видимость (публичная или частная) и необязательную лицензию (см. доступные лицензии)
- Нажмите
Create

После загрузки платформа обрабатывает ваши данные с помощью многоэтапного конвейера:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- Валидация: Проверки формата и размера.
- Нормализация: Большие изображения масштабируются (макс. 4096 пикселей, мин. размер 28 пикселей)
- Миниатюры: генерируются превью WebP размером 256px
- Разбор меток: Извлечены метки форматов YOLO и COCO.
- Статистика: Рассчитаны распределения классов и размеры изображений.

Проверка перед загрузкой
Вы можете проверить свой набор данных локально перед загрузкой:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Требования к размеру изображений
Изображения должны быть не менее 28 пикселей по их кратчайшей стороне. Изображения меньшего размера отклоняются во время обработки. Изображения размером более 4096 пикселей по их самой длинной стороне автоматически изменяются в размере с сохранением соотношения сторон.
Просмотр изображений
Просматривайте изображения вашего набора данных в нескольких макетах:
| Вид | Описание |
|---|---|
| Сетка | Сетка миниатюр с наложениями аннотаций (по умолчанию) |
| Компактный | Уменьшенные миниатюры для быстрого просмотра |
| Таблица | Список с миниатюрой, именем файла, размерами, размером, разделением, классами и количеством меток |

Сортировка и фильтрация
Изображения можно сортировать и фильтровать для эффективного просмотра:
| Сортировка | Описание |
|---|---|
| Новейшие | Недавно добавленные |
| Самые старые | Самые ранние добавленные |
| Имя А-Я | Алфавитный |
| Имя Я-А | В обратном алфавитном порядке |
| Размер (наименьший) | Сначала наименьшие файлы |
| Размер (наибольший) | Сначала самые большие файлы |
| Большинство меток | Большинство аннотаций |
| Наименьшее количество меток | Наименьшее количество аннотаций |
| Фильтр | Опции |
|---|---|
| Фильтр разделения | Обучение, Вал., Тест или Все |
| Фильтр меток | Все изображения, аннотированные или неаннотированные |
| Поиск | Фильтровать изображения по имени файла |
Поиск неразмеченных изображений
Используйте фильтр меток, установленный на Unannotated чтобы быстро найти изображения, которые все еще нуждаются в аннотации. Это особенно полезно для больших наборов данных, где вы хотите track прогресс разметки.
Полноэкранный просмотрщик
Нажмите на любое изображение, чтобы открыть полноэкранный просмотрщик с:
- Навигация: Клавиши со стрелками или миниатюры для просмотра
- Метаданные: Имя файла, размеры, метка разделения, количество аннотаций
- Аннотации: Переключение видимости наложения аннотаций.
- Разбивка по классам: Количество меток по классам с цветовыми индикаторами
- Редактировать: Войдите в режим аннотирования, чтобы добавить или изменить метки
- Загрузка: Загрузите исходный файл изображения
- Удалить: Удалить изображение из набора данных
- Zoom:
Cmd/Ctrl+Scrollдля увеличения/уменьшения масштаба - Пиксельный вид: Переключить пикселизированный рендеринг для детального осмотра

Фильтр по разбиению
Фильтрация изображений по разделению набора данных:
| Разделение | Цель |
|---|---|
| Обучение | Используется для обучения модели |
| Валидация | Используется для валидации во время обучения |
| Тест | Используется для финальной оценки |
Вкладки датасета
Каждая страница набора данных имеет шесть вкладок, доступных на панели вкладок:
Вкладка "Изображения"
Представление по умолчанию, отображающее галерею изображений с наложенными аннотациями. Поддерживает режимы просмотра сеткой, компактный и табличный. Перетащите файлы сюда, чтобы добавить больше изображений.
Вкладка "Классы"
Управление классами аннотаций для вашего набора данных:
- Гистограмма классов: Столбчатая диаграмма, показывающая количество аннотаций для каждого класса, с переключением линейного/логарифмического масштаба
- Таблица классов: Таблица с возможностью сортировки и поиска, содержащая имя класса, количество меток и количество изображений
- Редактировать имена классов: Нажмите на любое имя класса, чтобы переименовать его на месте
- Редактировать цвета классов: Нажмите на образец цвета, чтобы изменить цвет класса
- Добавить новый класс: Используйте поле ввода внизу, чтобы добавить классы

Логарифмическая шкала для несбалансированных наборов данных
Если ваш набор данных имеет дисбаланс классов (например, 10 000 аннотаций "человек", но только 50 "велосипед"), используйте Log Scale включите гистограмму классов для наглядной визуализации всех классов.
Вкладка диаграмм
Автоматическая статистика, рассчитанная на основе вашего набора данных:
| Диаграмма | Описание |
|---|---|
| Распределение разделений | Кольцевая диаграмма количества изображений для обучения/валидации/тестирования и процента размеченных |
| Ведущие классы | Кольцевая диаграмма 10 наиболее часто встречающихся классов аннотаций |
| Ширина изображений | Гистограмма распределения ширины изображений со средним значением |
| Высота изображений | Гистограмма распределения высоты изображений со средним значением |
| Точек на экземпляр | Количество вершин полигона или ключевых точек на аннотацию (segment/pose) |
| Местоположения аннотаций | 2D тепловая карта позиций центров ограничивающих рамок |
| Размеры изображений | 2D тепловая карта ширины против высоты с направляющими линиями соотношения сторон |

Кэширование статистики
Статистика кэшируется на 5 минут. Изменения в аннотациях будут отражены после истечения срока действия кэша.
Полноэкранные тепловые карты
Нажмите кнопку развертывания на любой тепловой карте, чтобы просмотреть ее в полноэкранном режиме. Это обеспечивает более крупный и детализированный вид, что полезно для понимания пространственных закономерностей в больших наборах данных.
Вкладка «Модели»
Просмотреть все модели, обученные на этом наборе данных, в таблице с возможностью поиска:
| Столбец | Описание |
|---|---|
| Имя | Название модели со ссылкой |
| Проект | Родительский проект со значком |
| Статус | Значок статуса обучения |
| Задача | Тип задачи YOLO |
| Эпохи | Лучшая эпоха / всего эпох |
| mAP50-95 | Средняя средняя точность |
| mAP50 | mAP при IoU 0.50 |
| Создан | Дата создания |

Вкладка «Ошибки»
Изображения, обработка которых не удалась, перечислены здесь с:
- Баннер ошибок: Общее количество неудачных изображений и рекомендации
- Таблица ошибок: Имя файла, понятное описание ошибки, подсказки по исправлению и миниатюра предварительного просмотра
- Распространенные ошибки включают поврежденные файлы, неподдерживаемые форматы, слишком маленькие изображения (мин. 28 пикселей) и неподдерживаемые цветовые режимы

Типичные ошибки обработки
| Ошибка | Причина | Исправить |
|---|---|---|
| Не удалось прочитать файл изображения | Поврежденный или неподдерживаемый формат | Повторно экспортировать из редактора изображений |
| Неполный или поврежденный | Файл был усечен во время передачи | Повторно загрузить исходный файл |
| Изображение слишком маленькое | Минимальный размер менее 28 пикселей | Используйте исходные изображения более высокого разрешения |
| Неподдерживаемый цветовой режим | Цветовой режим CMYK или индексированный | Преобразование в режим RGB |
Вкладка «Версии»
Создавайте неизменяемые снимки NDJSON вашего набора данных для воспроизводимого обучения. Каждая версия фиксирует количество изображений, количество классов, количество аннотаций и размер файла на момент создания.
| Столбец | Описание |
|---|---|
| Версия | Номер версии (v1, v2, ...) |
| Описание | Предоставленное пользователем описание (редактируемое) |
| Изображения | Количество изображений на момент создания снимка |
| Классы | Количество классов на момент снимка |
| Аннотации | Количество аннотаций на момент снимка |
| Размер | Размер файла экспорта NDJSON |
| Создан | Когда была создана версия |
Для создания версии:
- Откройте вкладку Версии
- При желании введите описание (например, «Добавлено 500 обучающих изображений» или «Исправлены неверно размеченные классы»)
- Нажмите + Новая версия
- Снимок NDJSON генерируется и загружается автоматически
Каждая версия нумеруется последовательно (v1, v2, v3...) и хранится постоянно. Вы можете скачать любую предыдущую версию в любое время из таблицы версий.
Когда создавать версии
Создавайте версию до и после внесения существенных изменений в ваш набор данных — добавления изображений, исправления аннотаций или перебалансировки разбиений. Это позволяет сравнивать производительность модели в различных состояниях набора данных.
Размер файла NDJSON
Указанный размер — это размер файла экспорта NDJSON, который содержит URL-адреса изображений и аннотации — не сами изображения. Фактические данные изображений хранятся отдельно и доступны по подписанным URL-адресам.
Экспорт набора данных
Экспортируйте ваш набор данных в формате NDJSON для автономного использования:
- Нажмите значок загрузки в заголовке набора данных.
- Файл NDJSON загружается автоматически

Формат NDJSON хранит один JSON-объект на строку. Первая строка содержит метаданные набора данных, за которой следует одна строка на изображение:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
Подписанные URL-адреса
URL-адреса изображений в экспортированном NDJSON подписаны и действительны в течение 7 дней. Если вам нужны новые URL-адреса, повторно экспортируйте набор данных или создайте новую версию.
Полную спецификацию см. в документации Ultralytics по формату NDJSON.
Обработка изображений
Быстрые действия
Щелкните правой кнопкой мыши любое изображение в режиме «Сетка» или «Компактный просмотр», чтобы открыть панель быстрых действий:
| Действие | Описание |
|---|---|
| Переместить в раздел | Перенести изображение в раздел «Обучение», «Оценка» или «Тестирование» |
| Скачать | Скачать исходный файл изображения |
| Удалить | Удалить изображение из набора данных |

Поштучно или оптом
Контекстное меню изображения работает с одним изображением. Для массовых операций с несколькими изображениями используйте режим просмотра в виде таблицы с возможностью выбора с помощью флажков.
Массовый перенос в «Разделить»
Переназначить выбранные изображения другому разделу в рамках того же набора данных:
- Переключиться на представление Таблица
- Выберите изображения с помощью флажков
- Нажмите правой кнопкой мыши, чтобы открыть контекстное меню
- Выбрать
Move to split> Обучение, Валидация, или Тест
Вы также можете перетаскивать изображения на вкладки разделенного фильтра в режиме сетки.
Организация разделения на обучающую/валидационную выборки
Загрузите все изображения в один набор данных, затем используйте массовое перемещение для разделения подмножеств на обучающую, валидационную и тестовую выборки.
Массовое удаление
Удалить несколько изображений одновременно:
- Выберите изображения в табличном представлении
- Нажмите правой кнопкой мыши и выберите
Delete - Подтвердите удаление
URI набора данных
Ссылайтесь на наборы данных платформы, используя ul:// Формат URI (см. Использование наборов данных платформы):
ul://username/datasets/dataset-slug
Используйте этот URI для обучения моделей из любого места:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Обучайте где угодно с данными платформы
Параметр ul:// URI работает в любой среде:
- Локальная машина: Обучайте на своем оборудовании, данные загружаются автоматически
- Google Colab: Доступ к наборам данных вашей платформы в ноутбуках
- Удаленные серверы: Обучайте на облачных виртуальных машинах с полным доступом к набору данных
Доступные лицензии
Платформа поддерживает следующие лицензии для наборов данных:
| Лицензия | Тип |
|---|---|
| Отсутствует | Лицензия не выбрана |
| CC0-1.0 | Общественное достояние |
| CC-BY-2.5 | Разрешительный |
| CC-BY-4.0 | Разрешительный |
| CC-BY-SA-4.0 | Копилефт |
| CC-BY-NC-4.0 | Некоммерческое |
| CC-BY-NC-SA-4.0 | Копилефт |
| CC-BY-ND-4.0 | Без производных |
| CC-BY-NC-ND-4.0 | Некоммерческое |
| Apache-2.0 | Разрешительный |
| MIT | Разрешительный |
| AGPL-3.0 | Копилефт |
| GPL-3.0 | Копилефт |
| Только для исследований | Ограничено |
| Другое | Пользовательский |
Лицензии копилефт
При клонировании набора данных с копилефт-лицензией (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0) клон наследует лицензию, и селектор лицензий блокируется.
Настройки видимости
Контролируйте, кто может видеть ваш набор данных:
| Настройка | Описание |
|---|---|
| Приватный | Доступен только вам |
| Публичный | Любой может просмотреть на странице «Обзор» |
Видимость устанавливается при создании набора данных в New Dataset диалог с помощью переключателя. Общедоступные наборы данных видны на Обзор странице.
Редактировать набор данных
Метаданные датасета редактируются непосредственно на странице датасета — диалоговое окно не требуется:
- Имя: Нажмите на имя набора данных, чтобы отредактировать его. Изменения автоматически сохраняются при потере фокуса или
Enter. - Описание: Нажмите на описание (или на заполнитель «Добавить описание...») для редактирования. Изменения сохраняются автоматически.
- Тип задачи: Нажмите на значок задачи, чтобы выбрать другой тип задачи.
- Лицензия: Нажмите на селектор лицензий, чтобы изменить лицензию набора данных.
Изменение типа задачи
Изменение типа задачи может повлиять на отображение существующих аннотаций. Несовместимые аннотации не будут показаны.
Клонировать набор данных
При просмотре общедоступного набора данных, которым вы не владеете, нажмите Clone Dataset для создания копии в вашем рабочем пространстве. Клон включает все изображения, аннотации и определения классов. Если исходный набор данных имеет лицензию copyleft, клон наследует ее, и селектор лицензий блокируется.
Отметить звездой и поделиться
- Звезда: Нажмите кнопку со звездой, чтобы добавить набор данных в закладки. Количество звезд видно всем пользователям.
- Поделиться: Для общедоступных наборов данных нажмите кнопку "Поделиться", чтобы скопировать ссылку или поделиться в социальных сетях.
Удалить набор данных
Удалить ненужный набор данных:
- Откройте меню действий с набором данных
- Нажмите
Delete - Подтвердите в диалоговом окне: "Это переместит [name] в корзину. Вы сможете восстановить его в течение 30 дней."
Корзина и восстановление
Удаленные наборы данных перемещаются в Корзину — не удаляются безвозвратно. Вы можете восстановить их в течение 30 дней из Settings > Trash.
Обучение на наборе данных
Начать обучение непосредственно из вашего набора данных:
- Нажмите
New Modelна странице набора данных - Выберите проект или создайте новый
- Настройте параметры обучения
- Начать обучение
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
Подробности см. в разделе Облачное обучение.
Часто задаваемые вопросы
Что происходит с моими данными после загрузки?
Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:
- Проверены на соответствие формату и размеру
- Отклонено, если минимальный размер меньше 28px
- Нормализовано, если размер превышает 4096 пикселей (с сохранением соотношения сторон; закодировано для оптимизированного хранения)
- Хранится с использованием контентно-адресуемого хранилища (CAS) с хешированием XXH3-128
- Миниатюры, сгенерированные в формате WebP размером 256px для быстрого просмотра
Как работает хранение данных?
Платформа Ultralytics использует контентно-адресуемое хранилище (CAS) для эффективного хранения:
- Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
- Целостность: Хеширование XXH3-128 обеспечивает целостность данных
- Эффективность: Снижает затраты на хранение и ускоряет обработку
- Региональность: Данные остаются в выбранном вами регионе (США, ЕС или AP)
Могу ли я добавить изображения в существующий набор данных?
Да, перетащите файлы на страницу набора данных или используйте кнопку загрузки, чтобы добавить дополнительные изображения. Новая статистика будет рассчитана автоматически.
Как мне переместить изображения между разбиениями?
Используйте функцию массового перемещения для разделения:
- Выберите изображения в табличном представлении
- Нажмите правой кнопкой мыши и выберите
Move to split - Выберите целевое разбиение (обучение, валидация или тест)
Какие форматы меток поддерживаются?
Ultralytics Platform поддерживает два формата аннотаций для загрузки:
Один .txt файл на изображение с нормализованными координатами (диапазон 0-1):
| Задача | Формат | Пример |
|---|---|---|
| Обнаружение | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Сегментация | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Поза | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Классификация | Структура каталогов | train/cats/, train/dogs/ |
Флаги видимости pose: 0=не размечено, 1=размечено, но перекрыто, 2=размечено и видимо.
JSON-файлы с images, annotationsи categories массивы. Поддерживает detect (bbox), segmentation (полигон) и позы (keypoints) задачи. COCO использует абсолютные пиксельные координаты, которые автоматически преобразуются в нормализованный формат во время загрузки.