Перейти к содержанию

Наборы данных

Наборы данных Ultralytics Platform предоставляют оптимизированное решение для управления вашими обучающими данными. После загрузки наборы данных могут быть немедленно использованы для обучения моделей с автоматической обработкой и генерацией статистики.

Загрузить набор данных

Ultralytics поддерживает несколько форматов загрузки для обеспечения гибкости.

Поддерживаемые форматы изображений

ФорматРасширенияПримечания
JPEG.jpg, .jpegНаиболее распространенные, рекомендуемые
PNG.pngПоддерживает прозрачность
WebP.webpСовременный, хорошая компрессия
BMP.bmpНесжатый
GIF.gifПервый извлеченный кадр
TIFF.tiff, .tifВысокое качество
HEIC.heicфотографии с iPhone
AVIF.avifФормат следующего поколения
JP2.jp2JPEG 2000
DNG.dngСырая камера

Поддерживаемые форматы видео

Видео автоматически разбивается на кадры:

ФорматРасширенияЭкстракция
MP4.mp41 FPS, максимум 100 кадров
WebM.webm1 FPS, максимум 100 кадров
MOV.mov1 FPS, максимум 100 кадров
AVI.avi1 FPS, максимум 100 кадров
MKV.mkv1 FPS, максимум 100 кадров
M4V.m4v1 FPS, максимум 100 кадров

Ограничения по размеру файла

ТипМаксимальный размер
Изображения50 МБ каждый
Видео1 ГБ каждый
ZIP-файлы50 ГБ

Архивы

Поддерживаются ZIP-файлы размером до 50 ГБ с сохранением структуры папок и автоматической извлечением и обработкой.

Подготовка вашего набора данных

Для размеченных наборов данных используйте стандартный формат YOLO:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

Файл yaml определяет конфигурацию вашего набора данных:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Процесс загрузки

  1. Перейдите в раздел Наборы данных на боковой панели
  2. Нажмите Загрузить набор данных или перетащите файлы в область загрузки
  3. Выберите тип задачи (detect, segment, pose, obb, classify)
  4. Добавьте имя и необязательное описание
  5. Нажмите Загрузить

После загрузки Платформа обрабатывает ваши данные:

  1. Нормализация: Большие изображения изменяются в размере (макс. 4096px)
  2. Миниатюры: Генерируются предварительные просмотры размером 256px
  3. Разбор меток: Извлекаются метки формата YOLO
  4. Статистика: Вычисляются распределения классов
Проверка перед загрузкой

Вы можете проверить свой набор данных локально перед загрузкой:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Просмотр изображений

Просматривайте изображения вашего набора данных в нескольких макетах:

ВидОписание
СеткаСетка миниатюр с наложениями аннотаций
КомпактныйУменьшенные миниатюры для быстрого просмотра
ТаблицаСписок с именем файла, размерами и количеством меток

Полноэкранный просмотрщик

Нажмите на любое изображение, чтобы открыть полноэкранный просмотрщик с:

  • Навигация: Клавиши со стрелками или щелчок для просмотра
  • Метаданные: Имя файла, размеры, разделение, количество меток
  • Аннотации: Переключение видимости аннотаций
  • Разбивка по классам: Количество меток по классам

Фильтр по разбиению

Фильтрация изображений по разделению набора данных:

РазделениеЦель
ОбучениеИспользуется для обучения модели
ВалидацияИспользуется для валидации во время обучения
ТестИспользуется для финальной оценки
НеизвестноРазделение не назначено

Статистика набора данных

Вкладка Статистика предоставляет автоматический анализ вашего набора данных:

Распределение классов

Гистограмма, показывающая количество аннотаций по классам:

Тепловая карта местоположений

Визуализация мест появления аннотаций на изображениях:

Анализ размерностей

Диаграмма рассеяния размеров изображений (ширина против высоты):

Кэширование статистики

Статистика кэшируется на 5 минут. Изменения в аннотациях будут отражены после истечения срока действия кэша.

Экспорт набора данных

Экспортируйте ваш набор данных в формате NDJSON для использования в автономном режиме:

  1. Откройте меню действий с набором данных
  2. Нажмите Экспорт
  3. Загрузите файл NDJSON

Формат NDJSON хранит один объект JSON в каждой строке:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Полную спецификацию см. в документации Ultralytics по формату NDJSON.

URI набора данных

Ссылайтесь на наборы данных платформы, используя ul:// формат URI:

ul://username/datasets/dataset-slug

Используйте этот URI для обучения моделей из любого места:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Обучайте где угодно с данными платформы

Параметр ul:// URI работает в любой среде:

  • Локальная машина: Обучайте на своем оборудовании, данные загружаются автоматически
  • Google Colab: Доступ к наборам данных вашей платформы в ноутбуках
  • Удаленные серверы: Обучайте на облачных виртуальных машинах с полным доступом к набору данных

Настройки видимости

Контролируйте, кто может видеть ваш набор данных:

НастройкаОписание
ПриватныйДоступен только вам
ПубличныйЛюбой может просмотреть на странице «Обзор»

Чтобы изменить видимость:

  1. Откройте меню действий с набором данных
  2. Нажмите Изменить
  3. Переключите настройку видимости
  4. Нажмите Сохранить

Редактировать набор данных

Обновите имя, описание или видимость набора данных:

  1. Откройте меню действий с набором данных
  2. Нажмите Изменить
  3. Внесите изменения
  4. Нажмите Сохранить

Удалить набор данных

Удалить ненужный набор данных:

  1. Откройте меню действий с набором данных
  2. Нажмите Удалить
  3. Подтвердите удаление

Корзина и восстановление

Удаленные наборы данных перемещаются в Корзину на 30 дней. Вы можете восстановить их со страницы Корзины в Настройках.

Обучение на наборе данных

Начать обучение непосредственно из вашего набора данных:

  1. Нажмите Обучить модель на странице набора данных
  2. Выберите проект или создайте новый
  3. Настройте параметры обучения
  4. Начать обучение

Подробности см. в разделе Облачное обучение.

Часто задаваемые вопросы

Что происходит с моими данными после загрузки?

Ваши данные обрабатываются и хранятся в выбранном вами регионе (США, ЕС или AP). Изображения:

  1. Проверены на соответствие формату и размеру
  2. Нормализованы, если размер превышает 4096 пикселей (с сохранением соотношения сторон)
  3. Хранятся с использованием контентно-адресуемого хранилища (CAS) с хешированием SHA-256
  4. Миниатюры генерируются размером 256 пикселей для быстрого просмотра

Как работает хранение данных?

Платформа Ultralytics использует контентно-адресуемое хранилище (CAS) для эффективного хранения:

  • Дедупликация: Идентичные изображения, загруженные разными пользователями, хранятся только один раз
  • Целостность: Хеширование SHA-256 обеспечивает целостность данных
  • Эффективность: Снижает затраты на хранение и ускоряет обработку
  • Региональность: Данные остаются в выбранном вами регионе (США, ЕС или AP)

Могу ли я добавить изображения в существующий набор данных?

Да, используйте кнопку Добавить изображения на странице набора данных для загрузки дополнительных изображений. Новая статистика будет вычислена автоматически.

Как перемещать изображения между наборами данных?

Используйте функцию массового выбора:

  1. Выберите изображения в галерее
  2. Нажмите Переместить или Копировать
  3. Выберите целевой набор данных

Какие форматы меток поддерживаются?

Платформа Ultralytics поддерживает метки формата YOLO:

ЗадачаФорматПример
Обнаружениеclass cx cy w h0 0.5 0.5 0.2 0.3
Сегментацияclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Позаclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
КлассификацияСтруктура каталогаtrain/cats/, train/dogs/

Все координаты нормализованы (диапазон 0-1). Флаги видимости позы: 0 = без метки, 1 = с меткой, но скрыта, 2 = с меткой и видна.



📅 Создано 20 дней назад ✏️ Обновлено 12 дней назад
glenn-jocherLaughing-q

Комментарии