Перейти к содержанию

Подготовка данных

Подготовка данных — это основа успешных моделей компьютерного зрения. Ultralytics Platform предоставляет комплексные инструменты для управления вашими обучающими данными, от загрузки и аннотирования до анализа.



Смотреть: Начало работы с платформой Ultralytics - Данные

Обзор

Раздел «Данные» в Ultralytics Platform помогает вам:

  • Загрузка изображения, видео и файлы наборов данных (ZIP, TAR, включая .tar.gz/.tgz, NDJSON)
  • Аннотируйте с помощью ручных инструментов рисования и интеллектуальной разметки на базе SAM — выбирайте из SAM 2.1 или нового SAM 3
  • Анализировать свои данные с помощью статистики и визуализаций
  • Экспорт в формате NDJSON для локального обучения

Платформа Ultralytics: Наборы данных на боковой панели обзора данных

Рабочий процесс

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ЭтапОписание
ЗагрузкаИмпортируйте изображения, видео или архивы с автоматической обработкой
АннотированиеРазмечайте данные с помощью ручных инструментов для всех 5 типов задач или используйте аннотацию SAM для detect, segment и obb
АнализПросмотр распределений классов, пространственных тепловых карт и статистики размеров.
ЭкспортСкачать в формате NDJSON для использования в автономном режиме

Поддерживаемые задачи

Платформа Ultralytics поддерживает все 5 типов задач YOLO:

ЗадачаОписаниеИнструмент аннотирования
ОбнаружениеОбнаружение объектов (detect) с помощью ограничивающих рамокИнструмент «Прямоугольник»
СегментацияСегментация экземпляров (segment) с помощью пиксельных масокИнструмент «Полигон»
ПозаОценка ключевых точек с использованием встроенных и пользовательских шаблонов скелетаИнструмент «Ключевая точка»
OBBОриентированные ограничивающие рамки для повернутых объектовИнструмент «Ориентированная рамка»
КлассификацияКлассификация на уровне изображенияСелектор классов

Выбор типа задачи

Тип задачи устанавливается при создании набора данных и определяет, какие инструменты аннотирования доступны. Вы можете изменить его позже в настройках набора данных, но несовместимые аннотации не будут отображаться после переключения.

Основные характеристики

Умное хранилище

Ultralytics Platform использует адресуемое по содержимому хранилище (CAS) для эффективного управления данными:

  • Дедупликация: Идентичные изображения хранятся только один раз с помощью хеширования XXH3-128
  • Целостность: Адресация на основе хешей обеспечивает целостность данных
  • Эффективность: Оптимизированное хранение и быстрая обработка.

URI наборов данных

Ссылочные наборы данных с использованием ul:// Формат URI (см. Использование наборов данных платформы):

yolo train data=ul://username/datasets/my-dataset

Это позволяет проводить обучение на наборах данных платформы с любой машины, на которой настроен ваш ключ API.

Используйте данные платформы из Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Версионирование набора данных

Создавайте неизменяемые снимки NDJSON вашего набора данных для воспроизводимого обучения. Каждая версия фиксирует количество изображений, количество классов и количество аннотаций на момент создания. Подробности см. на вкладке «Версии».

Вкладки датасета

Каждая страница набора данных содержит шесть вкладок:

ВкладкаОписание
ИзображенияПросмотр изображений в виде сетки, компактного списка или таблицы с наложениями аннотаций
КлассыПросмотр и редактирование имен классов, цветов и количества меток для каждого класса
ГрафикиАвтоматическая статистика: распределение разбиений, количество классов, тепловые карты
МоделиМодели, обученные на этом наборе данных, с метриками и статусом
ВерсииСоздавайте и загружайте неизменяемые снимки NDJSON для воспроизводимого обучения
ОшибкиИзображения, обработка которых не удалась, с подробностями ошибок и рекомендациями по их устранению

Статистика и визуализация

Параметр Charts вкладка предоставляет автоматический анализ, включая:

  • Распределение сплитов: Кольцевая диаграмма количества изображений для train/val/test
  • Наиболее частые классы: Кольцевая диаграмма наиболее частых классов аннотаций
  • Ширина изображений: Гистограмма распределения ширины изображений
  • Высоты изображений: Гистограмма распределения высот изображений
  • Точки на экземпляр: Распределение вершин полигона или количества ключевых точек (для наборов данных segment/pose)
  • Расположение аннотаций: 2D тепловая карта положений центров ограничивающих рамок.
  • Размеры изображений: 2D тепловая карта ширины относительно высоты с направляющими линиями соотношения сторон

Часто задаваемые вопросы

Какие форматы файлов поддерживаются для загрузки?

Ultralytics Platform поддерживает:

Изображения: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (макс. 50 МБ каждое)

Видео: MP4, WebM, MOV, AVI, MKV, M4V (макс. 1 ГБ, кадры извлекаются со скоростью 1 FPS, макс. 100 кадров)

Файлы наборов данных: ZIP- или TAR-архивы, включая .tar.gz и .tgz (макс. 10 ГБ на Free, 20 ГБ на Pro, 50 ГБ на Enterprise), содержащие изображения с опциональными метками в формате YOLO, а также экспорты NDJSON

Каков максимальный размер набора данных?

Ограничения на хранение зависят от вашего тарифа:

ПланЛимит хранилища
Бесплатно100 ГБ
Pro500 ГБ
КорпоративныйБезлимитно

Индивидуальные лимиты файлов: Изображения 50 МБ, Видео 1 ГБ, наборы данных 10 ГБ на Free / 20 ГБ на Pro / 50 ГБ на Enterprise

Могу ли я использовать свои наборы данных Platform для локального обучения?

Да! Используйте формат URI набора данных для локального обучения:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Или экспортируйте ваш набор данных в формате NDJSON для полностью автономного обучения.



📅 Создано 2 месяцев назад ✏️ Обновлено 2 дней назад
glenn-jocherRizwanMunawaramanharshxsergiuwaxmann

Комментарии