Наборы данных
Наборы данных Ultralytics Platform предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения моделей с автоматической обработкой и генерацией статистики.
Загрузить набор данных
Ultralytics поддерживает несколько форматов загрузки для обеспечения гибкости.
Поддерживаемые форматы изображений
| Формат | Расширения | Примечания |
|---|---|---|
| JPEG | .jpg, .jpeg | Наиболее распространенные, рекомендуемые |
| PNG | .png | Поддерживает прозрачность |
| WebP | .webp | Современный, хорошая компрессия |
| BMP | .bmp | Несжатый |
| GIF | .gif | Первый извлеченный кадр |
| TIFF | .tiff, .tif | Высокое качество |
| HEIC | .heic | фотографии с iPhone |
| AVIF | .avif | Формат следующего поколения |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Сырая камера |
Поддерживаемые форматы видео
Видео автоматически разбивается на кадры:
| Формат | Расширения | Экстракция |
|---|---|---|
| MP4 | .mp4 | 1 FPS, максимум 100 кадров |
| WebM | .webm | 1 FPS, максимум 100 кадров |
| MOV | .mov | 1 FPS, максимум 100 кадров |
| AVI | .avi | 1 FPS, максимум 100 кадров |
| MKV | .mkv | 1 FPS, максимум 100 кадров |
| M4V | .m4v | 1 FPS, максимум 100 кадров |
Ограничения по размеру файла
| Тип | Максимальный размер |
|---|---|
| Изображения | 50 МБ каждый |
| Видео | 1 ГБ каждый |
| ZIP-файлы | 50 ГБ |
Архивы
Поддерживаются ZIP-файлы размером до 50 ГБ с сохранением структуры папок и автоматической извлечением и обработкой.
Подготовка вашего набора данных
Для размеченных наборов данных используйте стандартный формат YOLO:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Файл yaml определяет конфигурацию вашего набора данных:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Процесс загрузки
- Перейдите в раздел Наборы данных на боковой панели
- Нажмите Загрузить набор данных или перетащите файлы в область загрузки
- Выберите тип задачи (detect, segment, pose, obb, classify)
- Добавьте имя и необязательное описание
- Нажмите Загрузить
После загрузки Платформа обрабатывает ваши данные:
- Нормализация: Большие изображения изменяются в размере (макс. 4096px)
- Миниатюры: Генерируются предварительные просмотры размером 256px
- Разбор меток: Извлекаются метки формата YOLO
- Статистика: Вычисляются распределения классов
Проверка перед загрузкой
Вы можете проверить свой набор данных локально перед загрузкой:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Просмотр изображений
Просматривайте изображения вашего набора данных в нескольких макетах:
| Вид | Описание |
|---|---|
| Сетка | Сетка миниатюр с наложениями аннотаций |
| Компактный | Уменьшенные миниатюры для быстрого просмотра |
| Таблица | Список с именем файла, размерами и количеством меток |
Полноэкранный просмотрщик
Нажмите на любое изображение, чтобы открыть полноэкранный просмотрщик с:
- Навигация: Клавиши со стрелками или щелчок для просмотра
- Метаданные: Имя файла, размеры, разделение, количество меток
- Аннотации: Переключение видимости аннотаций
- Разбивка по классам: Количество меток по классам
Фильтр по разбиению
Фильтрация изображений по разделению набора данных:
| Разделение | Цель |
|---|---|
| Обучение | Используется для обучения модели |
| Валидация | Используется для валидации во время обучения |
| Тест | Используется для финальной оценки |
| Неизвестно | Разделение не назначено |
Статистика набора данных
Вкладка Статистика предоставляет автоматический анализ вашего набора данных:
Распределение классов
Гистограмма, показывающая количество аннотаций по классам:
Тепловая карта местоположений
Визуализация мест появления аннотаций на изображениях:
Анализ размерностей
Диаграмма рассеяния размеров изображений (ширина против высоты):
Кэширование статистики
Статистика кэшируется на 5 минут. Изменения в аннотациях будут отражены после истечения срока действия кэша.
Экспорт набора данных
Экспортируйте ваш набор данных в формате NDJSON для использования в автономном режиме:
- Откройте меню действий с набором данных
- Нажмите Экспорт
- Загрузите файл NDJSON
Формат NDJSON хранит один объект JSON в каждой строке:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Полную спецификацию см. в документации Ultralytics по формату NDJSON.
URI набора данных
Ссылайтесь на наборы данных платформы, используя ul:// формат URI:
ul://username/datasets/dataset-slug
Используйте этот URI для обучения моделей из любого места:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Обучайте где угодно с данными платформы
Параметр ul:// URI работает в любой среде:
- Локальная машина: Обучайте на своем оборудовании, данные загружаются автоматически
- Google Colab: Доступ к наборам данных вашей платформы в ноутбуках
- Удаленные серверы: Обучайте на облачных виртуальных машинах с полным доступом к набору данных
Настройки видимости
Контролируйте, кто может видеть ваш набор данных:
| Настройка | Описание |
|---|---|
| Приватный | Доступен только вам |
| Публичный | Любой может просмотреть на странице «Обзор» |
Чтобы изменить видимость:
- Откройте меню действий с набором данных
- Нажмите Изменить
- Переключите настройку видимости
- Нажмите Сохранить
Редактировать набор данных
Обновите имя, описание или видимость набора данных:
- Откройте меню действий с набором данных
- Нажмите Изменить
- Внесите изменения
- Нажмите Сохранить
Удалить набор данных
Удалить ненужный набор данных:
- Откройте меню действий с набором данных
- Нажмите Удалить
- Подтвердите удаление
Корзина и восстановление
Удаленные наборы данных перемещаются в Корзину на 30 дней. Вы можете восстановить их со страницы Корзины в Настройках.
Обучение на наборе данных
Начать обучение непосредственно из вашего набора данных:
- Нажмите Обучить модель на странице набора данных
- Выберите проект или создайте новый
- Настройте параметры обучения
- Начать обучение
Подробности см. в разделе Облачное обучение.
Часто задаваемые вопросы
Что происходит с моими данными после загрузки?
Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:
- Проверены на соответствие формату и размеру
- Нормализованы, если размер превышает 4096 пикселей (с сохранением соотношения сторон)
- Хранятся с использованием контентно-адресуемого хранилища (CAS) с хешированием SHA-256
- Миниатюры генерируются размером 256 пикселей для быстрого просмотра
Как работает хранение данных?
Платформа Ultralytics использует контентно-адресуемое хранилище (CAS) для эффективного хранения:
- Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
- Целостность: Хеширование SHA-256 обеспечивает целостность данных
- Эффективность: Снижает затраты на хранение и ускоряет обработку
- Региональность: Данные остаются в выбранном вами регионе (США, ЕС или AP)
Могу ли я добавить изображения в существующий набор данных?
Да, используйте кнопку Добавить изображения на странице набора данных для загрузки дополнительных изображений. Новая статистика будет вычислена автоматически.
Как перемещать изображения между наборами данных?
Используйте функцию массового выбора:
- Выберите изображения в галерее
- Нажмите Переместить или Копировать
- Выберите целевой набор данных
Какие форматы меток поддерживаются?
Платформа Ultralytics поддерживает метки формата YOLO:
| Задача | Формат | Пример |
|---|---|---|
| Обнаружение | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Сегментация | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Поза | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Классификация | Структура каталога | train/cats/, train/dogs/ |
Все координаты нормализованы (диапазон 0-1). Флаги видимости позы: 0 = без метки, 1 = с меткой, но скрыта, 2 = с меткой и видна.