Перейти к содержанию

Подготовка данных

Подготовка данных — это основа успешных моделей компьютерного зрения. Ultralytics Platform предоставляет комплексные инструменты для управления вашими обучающими данными, от загрузки и аннотирования до анализа.

Обзор

Раздел «Данные» в Ultralytics Platform помогает вам:

  • Загрузка изображений, видео и архивов (ZIP, TAR, GZ)
  • Добавляйте аннотации с помощью инструментов ручного рисования и интеллектуальной маркировки SAM — выбирайте между SAM .1 и новой версией SAM
  • Анализировать свои данные с помощью статистики и визуализаций
  • Экспорт в формате NDJSON для локального обучения

Обзор данных Ultralytics Набор данных боковой панели

Рабочий процесс

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ЭтапОписание
ЗагрузкаИмпорт изображений, видео или архивов с автоматической обработкой
АннотированиеМаркируйте данные с помощью ручных инструментов для всех 5 типов задач или используйте SAM для detect, segment и OBB.
АнализПросмотр распределений классов, пространственных тепловых карт и статистики размеров.
ЭкспортСкачать в формате NDJSON для использования в автономном режиме

Поддерживаемые задачи

Платформа Ultralytics поддерживает все 5 типов задач YOLO:

ЗадачаОписаниеИнструмент аннотирования
ОбнаружениеОбнаружение объектов (detect) с помощью ограничивающих рамокИнструмент «Прямоугольник»
СегментацияСегментация экземпляров (segment) с помощью пиксельных масокИнструмент «Полигон»
ПозаОценка ключевых точек (формат COCO, 17 точек)Инструмент «Ключевая точка»
OBBОриентированные ограничивающие рамки для повернутых объектовИнструмент «Ориентированная рамка»
КлассификацияКлассификация на уровне изображенияСелектор классов

Выбор типа задачи

Тип задачи устанавливается при создании набора данных и определяет, какие инструменты аннотирования будут доступны. Вы можете изменить его позже в настройках набора данных, но несовместимые аннотации не будут отображаться после переключения.

Основные характеристики

Умное хранилище

Ultralytics использует хранилище с адресацией по содержанию (CAS) для эффективного управления данными:

  • Дедупликация: идентичные изображения хранятся только один раз с помощью хеширования XXH3-128.
  • Целостность: адресация на основе хеша обеспечивает целостность данных
  • Эффективность: Оптимизированное хранение и быстрая обработка.

URI наборов данных

Ссылочные наборы данных с использованием ul:// Формат URI (см. Использование наборов данных платформы):

yolo train data=ul://username/datasets/my-dataset

Это позволяет проводить обучение на наборах данных платформы с любого компьютера, на котором настроен ваш ключ API.

Использование данных платформы из Python

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Вкладки набора данных

Управление версиями наборов данных

Создавайте неизменяемые снимки NDJSON вашего набора данных для воспроизводимого обучения. Каждая версия фиксирует количество изображений, классов и аннотаций на момент создания. Подробности см. на вкладке «Версии ».

Вкладки набора данных

На каждой странице набора данных имеется шесть вкладок:

ВкладкаОписание
ИзображенияПросмотр изображений в виде сетки, компактном или табличном виде с наложением аннотаций
ЗанятияПросмотр и редактирование названий классов, цветов и количества меток в каждом классе
ГрафикиАвтоматическая статистика: распределение по частям, подсчет классов, тепловые карты
МоделиМодели, обученные на этом наборе данных с метриками и статусом
ВерсииСоздание и загрузка неизменяемых снимков NDJSON для воспроизводимого обучения
ОшибкиИзображения, обработка которых завершилась с ошибкой, с подробностями об ошибке и инструкциями по исправлению

Статистика и визуализация

Параметр Charts вкладка обеспечивает автоматический анализ, включая:

  • Раздельное распределение: кольцевая диаграмма количества изображений train/val/test
  • Лучшие классы: круговая диаграмма наиболее частых классов аннотаций
  • Ширина изображения: гистограмма распределения ширины изображения
  • Высота изображения: гистограмма распределения высоты изображения
  • Точки на экземпляр: распределение вершин многоугольника или ключевых точек (наборы данныхsegment)
  • Расположение аннотаций: 2D-тепловая карта положений центров ограничительных рамок
  • Размеры изображения: 2D-тепловая карта ширины по отношению к высоте с линиями-ориентирами соотношения сторон
  • Наборы данных: Загружайте и управляйте своими обучающими данными
  • Аннотирование: Разметка данных с помощью ручных инструментов и инструментов с ИИ

Часто задаваемые вопросы

Какие форматы файлов поддерживаются для загрузки?

Ultralytics Platform поддерживает:

Изображения: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (максимум 50 МБ каждое)

Видео: MP4, WebM, MOV, AVI, MKV, M4V (максимум 1 ГБ, кадры извлекаются со скоростью 1 FPS, максимум 100 кадров)

Архивы: ZIP, TAR, TAR.GZ, TGZ, GZ (максимум 10 ГБ), содержащие изображения с опциональными меткамиYOLO

Каков максимальный размер набора данных?

Ограничения на хранение зависят от вашего тарифа:

ПланЛимит хранилища
Бесплатно100 ГБ
Pro500 ГБ
КорпоративныйПользовательский

Ограничения на отдельные файлы: изображения — 50 МБ, видео — 1 ГБ, архивы — 10 ГБ

Могу ли я использовать свои наборы данных Platform для локального обучения?

Да! Используйте формат URI набора данных для локального обучения:

export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "your_key"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Или экспортируйте набор данных в формате NDJSON для полностью автономного обучения.



📅 Создано 1 месяц назад ✏️ Обновлено 3 дней назад
glenn-jochersergiuwaxmann

Комментарии