Наборы данных
Наборы данных Ultralytics предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения модели с автоматической обработкой и генерацией статистики.
Смотреть: Загрузка наборов данных на Ultralytics
Загрузить набор данных
Ultralytics поддерживает несколько форматов загрузки для обеспечения гибкости:
| Формат | Описание |
|---|---|
| Изображения | Отдельные файлы изображений (JPG, PNG, WebP, TIFF, RAW) |
| ZIP-архив | Сжатая папка с изображениями и дополнительными метками |
| Видео | Файлы MP4, AVI — кадры извлечены со скоростью ~1 кадр в секунду |
| YOLO | Стандартная структура YOLO с метками |
Извлечение видеокадров
При загрузке видео кадры извлекаются автоматически:
- Частота кадров: ~1 кадр в секунду
- Максимальное количество кадров: 100 кадров на видео
- Обработка: извлечение на стороне клиента перед загрузкой
- Формат: Кадры преобразованы в стандартный формат изображения
Это идеально подходит для создания обучающих наборов данных из записей с камер наблюдения, записей действий или любого видеоисточника.
Подготовка набора данных
Для помеченных наборов данных используйте стандартный YOLO :
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
Файл YAML определяет конфигурацию вашего набора данных:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Процесс загрузки
- Перейдите к «Наборам данных» в боковой панели.
- Нажмите «Загрузить набор данных » или перетащите файлы в зону загрузки.
- Выберите тип задачи (detect, segment, поза, OBB, classify)
- Добавьте название и необязательное описание
- Нажмите «Загрузить»
После загрузки Платформа обрабатывает ваши данные:
- Нормализация: большие изображения изменены в размере (максимум 4096 пикселей)
- Миниатюры: сгенерированы предварительные просмотры размером 256 пикселей
- Анализ меток: извлечены метки YOLO
- Статистика: рассчитано распределение классов
Проверить перед загрузкой
Вы можете проверить свой набор данных локально перед загрузкой:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Просмотр изображений
Просматривайте изображения из набора данных в нескольких макетах:
| Вид | Описание |
|---|---|
| Сетка | Сетка миниатюр с наложенными аннотациями |
| Компактный | Меньшие миниатюры для быстрого просмотра |
| Таблица | Список с именами файлов, размерами и количеством меток |
Полноэкранный просмотрщик
Щелкните любое изображение, чтобы открыть полноэкранный просмотрщик с:
- Навигация: клавиши со стрелками или щелчок мышью для просмотра
- Метаданные: имя файла, размеры, разделение, количество меток
- Аннотации: Переключение видимости аннотаций
- Разбивка по классам: количество меток в каждом классе
Фильтр по разделению
Фильтрация изображений по разделению на наборы данных:
| Разделение | Цель |
|---|---|
| Обучение | Используется для обучения модели |
| Валидация | Используется для проверки во время обучения |
| Тест | Используется для окончательной оценки |
| Неизвестно | Разделение не назначено |
Статистика набора данных
Вкладка «Статистика» обеспечивает автоматический анализ вашего набора данных:
класс Распределение
Гистограмма, показывающая количество аннотаций по классам:
Карта популярности мест
Визуализация мест появления аннотаций на изображениях:
Анализ размеров
Точечный график размеров изображения (ширина по отношению к высоте):
Кэширование статистики
Статистика сохраняется в кэше в течение 5 минут. Изменения в аннотациях будут отражены после истечения срока хранения кэша.
Экспорт набора данных
Экспортируйте набор данных в формате NDJSON для использования в автономном режиме:
- Откройте меню действий с набором данных
- Нажмите «Экспорт»
- Скачать файл NDJSON
Формат NDJSON хранит один объект JSON в каждой строке:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Полную спецификацию см. в документации по форматуUltralytics .
URI набора данных
Справочная платформа наборов данных с использованием ul:// Формат URI:
ul://username/datasets/dataset-slug
Используйте этот URI для обучения моделей из любого места:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100
Тренируйтесь где угодно с помощью данных платформы
Параметр ul:// URI работает в любой среде:
- Локальный компьютер: обучение на вашем оборудовании, данные загружаются автоматически
- Google : доступ к наборам данных вашей платформы в блокнотах
- Удаленные серверы: обучение на виртуальных машинах в облаке с полным доступом к набору данных
Настройки видимости
Контролируйте, кто может просматривать ваш набор данных:
| Настройка | Описание |
|---|---|
| Частный | Только вы можете получить доступ |
| Общественный | Любой может просматривать на странице «Исследуйте» |
Чтобы изменить видимость:
- Открыть меню действий с набором данных
- Нажмите «Изменить»
- Переключение настройки видимости
- Нажмите «Сохранить»
Редактировать набор данных
Обновление названия, описания или видимости набора данных:
- Открыть меню действий с набором данных
- Нажмите «Изменить»
- Внести изменения
- Нажмите «Сохранить»
Удалить набор данных
Удалите набор данных, который вам больше не нужен:
- Открыть меню действий с набором данных
- Нажмите «Удалить»
- Подтвердить удаление
Удаление и восстановление
Удаленные наборы данных перемещаются в корзину на 30 дней. Вы можете восстановить их на странице «Корзина» в настройках.
Обучение на наборе данных
Начните обучение прямо из вашего набора данных:
- Нажмите «Модель обучения » на странице набора данных.
- Выберите проект или создайте новый
- Настройка параметров обучения
- Начать обучение
Подробности см. в разделе «Обучение по облачным технологиям ».
Часто задаваемые вопросы
Что происходит с моими данными после загрузки?
Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:
- Подтвержденный формат и размер
- Нормализуется, если размер превышает 4096 пикселей (с сохранением соотношения сторон)
- Хранение с использованием хэширования SHA-256 в хранилище с адресацией по содержимому (CAS)
- Миниатюры с разрешением 256 пикселей для быстрого просмотра
- Никогда не передается без вашего разрешения
Как работает хранение?
Ultralytics использует хранилище с адресацией по содержанию (CAS) для эффективного хранения данных:
- Дедупликация: идентичные изображения, загруженные разными пользователями, хранятся только один раз.
- Целостность: хеширование SHA-256 обеспечивает целостность данных
- Эффективность: снижает затраты на хранение и ускоряет обработку
- Региональный: данные остаются в выбранном вами регионе (США, ЕС или AP)
Могу ли я добавлять изображения в существующий набор данных?
Да, используйте кнопку «Добавить изображения» на странице набора данных, чтобы загрузить дополнительные изображения. Новые статистические данные будут рассчитаны автоматически.
Как перемещать изображения между наборами данных?
Используйте функцию массового выбора:
- Выберите изображения в галерее
- Нажмите «Переместить » или «Копировать».
- Выберите набор данных назначения
Какие форматы этикеток поддерживаются?
Ultralytics поддерживает метки YOLO :
- Обнаружение:
class_id x_center y_center width height - Сегментация:
class_id x1 y1 x2 y2 ...(точки многоугольника) - Поза:
class_id x_center y_center width height kp1_x kp1_y kp1_v ... - OBB:
class_id x1 y1 x2 y2 x3 y3 x4 y4
Все координаты нормализованы (диапазон 0-1).