Перейти к содержанию

Подготовка данных

Подготовка данных — это основа успешных моделей компьютерного зрения. Ultralytics Platform предоставляет комплексные инструменты для управления вашими обучающими данными, от загрузки и аннотирования до анализа.

Обзор

Раздел «Данные» в Ultralytics Platform помогает вам:

  • Загружайте изображения, видео и архивы (ZIP, TAR, GZ)
  • Аннотируйте с помощью ручных инструментов рисования и интеллектуальной разметки на базе SAM — выбирайте из SAM 2.1 или нового SAM 3
  • Анализировать свои данные с помощью статистики и визуализаций
  • Экспорт в формате NDJSON для локального обучения

Платформа Ultralytics: Наборы данных на боковой панели обзора данных

Рабочий процесс

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ЭтапОписание
ЗагрузкаИмпортируйте изображения, видео или архивы с автоматической обработкой
АннотированиеРазмечайте данные с помощью ручных инструментов для всех 5 типов задач или используйте аннотацию SAM для detect, segment и obb
АнализПросмотр распределений классов, пространственных тепловых карт и статистики размеров.
ЭкспортСкачать в формате NDJSON для использования в автономном режиме

Поддерживаемые задачи

Платформа Ultralytics поддерживает все 5 типов задач YOLO:

ЗадачаОписаниеИнструмент аннотирования
ОбнаружениеОбнаружение объектов (detect) с помощью ограничивающих рамокИнструмент «Прямоугольник»
СегментацияСегментация экземпляров (segment) с помощью пиксельных масокИнструмент «Полигон»
ПозаОценка ключевых точек (формат COCO, 17 точек)Инструмент «Ключевая точка»
OBBОриентированные ограничивающие рамки для повернутых объектовИнструмент «Ориентированная рамка»
КлассификацияКлассификация на уровне изображенияСелектор классов

Выбор типа задачи

Тип задачи устанавливается при создании набора данных и определяет, какие инструменты аннотирования доступны. Вы можете изменить его позже в настройках набора данных, но несовместимые аннотации не будут отображаться после переключения.

Основные характеристики

Умное хранилище

Ultralytics Platform использует адресуемое по содержимому хранилище (CAS) для эффективного управления данными:

  • Дедупликация: Идентичные изображения хранятся только один раз с помощью хеширования XXH3-128
  • Целостность: Адресация на основе хешей обеспечивает целостность данных
  • Эффективность: Оптимизированное хранение и быстрая обработка.

URI наборов данных

Ссылочные наборы данных с использованием ul:// Формат URI (см. Использование наборов данных платформы):

yolo train data=ul://username/datasets/my-dataset

Это позволяет проводить обучение на наборах данных платформы с любой машины, на которой настроен ваш ключ API.

Используйте данные платформы из Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Версионирование набора данных

Создавайте неизменяемые снимки NDJSON вашего набора данных для воспроизводимого обучения. Каждая версия фиксирует количество изображений, количество классов и количество аннотаций на момент создания. Подробности см. на вкладке «Версии».

Вкладки датасета

Каждая страница набора данных содержит шесть вкладок:

ВкладкаОписание
ИзображенияПросмотр изображений в виде сетки, компактного списка или таблицы с наложениями аннотаций
КлассыПросмотр и редактирование имен классов, цветов и количества меток для каждого класса
ГрафикиАвтоматическая статистика: распределение разбиений, количество классов, тепловые карты
МоделиМодели, обученные на этом наборе данных, с метриками и статусом
ВерсииСоздавайте и загружайте неизменяемые снимки NDJSON для воспроизводимого обучения
ОшибкиИзображения, обработка которых не удалась, с подробностями ошибок и рекомендациями по их устранению

Статистика и визуализация

Параметр Charts вкладка предоставляет автоматический анализ, включая:

  • Распределение сплитов: Кольцевая диаграмма количества изображений для train/val/test
  • Наиболее частые классы: Кольцевая диаграмма наиболее частых классов аннотаций
  • Ширина изображений: Гистограмма распределения ширины изображений
  • Высоты изображений: Гистограмма распределения высот изображений
  • Точки на экземпляр: Распределение вершин полигона или количества ключевых точек (для наборов данных segment/pose)
  • Расположение аннотаций: 2D тепловая карта положений центров ограничивающих рамок.
  • Размеры изображений: 2D тепловая карта ширины относительно высоты с направляющими линиями соотношения сторон
  • Наборы данных: Загружайте и управляйте своими обучающими данными
  • Аннотирование: Разметка данных с помощью ручных инструментов и инструментов с ИИ

Часто задаваемые вопросы

Какие форматы файлов поддерживаются для загрузки?

Ultralytics Platform поддерживает:

Изображения: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (макс. 50 МБ каждое)

Видео: MP4, WebM, MOV, AVI, MKV, M4V (макс. 1 ГБ, кадры извлекаются со скоростью 1 FPS, макс. 100 кадров)

Архивы: ZIP, TAR, TAR.GZ, TGZ, GZ (макс. 10 ГБ), содержащие изображения с опциональными метками в формате YOLO.

Каков максимальный размер набора данных?

Ограничения на хранение зависят от вашего тарифа:

ПланЛимит хранилища
Бесплатно100 ГБ
Pro500 ГБ
КорпоративныйБезлимитно

Индивидуальные лимиты файлов: изображения 50 МБ, видео 1 ГБ, архивы 10 ГБ

Могу ли я использовать свои наборы данных Platform для локального обучения?

Да! Используйте формат URI набора данных для локального обучения:

export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "your_key"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Или экспортируйте ваш набор данных в формате NDJSON для полностью автономного обучения.



📅 Создано 2 месяцев назад ✏️ Обновлено 0 дней назад
glenn-jocheramanharshxsergiuwaxmann

Комментарии