Подготовка данных
Подготовка данных — это основа успешных моделей компьютерного зрения. Ultralytics Platform предоставляет комплексные инструменты для управления вашими обучающими данными, от загрузки и аннотирования до анализа.
Обзор
Раздел «Данные» в Ultralytics Platform помогает вам:
- Загружайте изображения, видео и архивы (ZIP, TAR, GZ)
- Аннотируйте с помощью ручных инструментов рисования и интеллектуальной разметки на базе SAM — выбирайте из SAM 2.1 или нового SAM 3
- Анализировать свои данные с помощью статистики и визуализаций
- Экспорт в формате NDJSON для локального обучения

Рабочий процесс
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Этап | Описание |
|---|---|
| Загрузка | Импортируйте изображения, видео или архивы с автоматической обработкой |
| Аннотирование | Размечайте данные с помощью ручных инструментов для всех 5 типов задач или используйте аннотацию SAM для detect, segment и obb |
| Анализ | Просмотр распределений классов, пространственных тепловых карт и статистики размеров. |
| Экспорт | Скачать в формате NDJSON для использования в автономном режиме |
Поддерживаемые задачи
Платформа Ultralytics поддерживает все 5 типов задач YOLO:
| Задача | Описание | Инструмент аннотирования |
|---|---|---|
| Обнаружение | Обнаружение объектов (detect) с помощью ограничивающих рамок | Инструмент «Прямоугольник» |
| Сегментация | Сегментация экземпляров (segment) с помощью пиксельных масок | Инструмент «Полигон» |
| Поза | Оценка ключевых точек (формат COCO, 17 точек) | Инструмент «Ключевая точка» |
| OBB | Ориентированные ограничивающие рамки для повернутых объектов | Инструмент «Ориентированная рамка» |
| Классификация | Классификация на уровне изображения | Селектор классов |
Выбор типа задачи
Тип задачи устанавливается при создании набора данных и определяет, какие инструменты аннотирования доступны. Вы можете изменить его позже в настройках набора данных, но несовместимые аннотации не будут отображаться после переключения.
Основные характеристики
Умное хранилище
Ultralytics Platform использует адресуемое по содержимому хранилище (CAS) для эффективного управления данными:
- Дедупликация: Идентичные изображения хранятся только один раз с помощью хеширования XXH3-128
- Целостность: Адресация на основе хешей обеспечивает целостность данных
- Эффективность: Оптимизированное хранение и быстрая обработка.
URI наборов данных
Ссылочные наборы данных с использованием ul:// Формат URI (см. Использование наборов данных платформы):
yolo train data=ul://username/datasets/my-dataset
Это позволяет проводить обучение на наборах данных платформы с любой машины, на которой настроен ваш ключ API.
Используйте данные платформы из Python
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Версионирование набора данных
Создавайте неизменяемые снимки NDJSON вашего набора данных для воспроизводимого обучения. Каждая версия фиксирует количество изображений, количество классов и количество аннотаций на момент создания. Подробности см. на вкладке «Версии».
Вкладки датасета
Каждая страница набора данных содержит шесть вкладок:
| Вкладка | Описание |
|---|---|
| Изображения | Просмотр изображений в виде сетки, компактного списка или таблицы с наложениями аннотаций |
| Классы | Просмотр и редактирование имен классов, цветов и количества меток для каждого класса |
| Графики | Автоматическая статистика: распределение разбиений, количество классов, тепловые карты |
| Модели | Модели, обученные на этом наборе данных, с метриками и статусом |
| Версии | Создавайте и загружайте неизменяемые снимки NDJSON для воспроизводимого обучения |
| Ошибки | Изображения, обработка которых не удалась, с подробностями ошибок и рекомендациями по их устранению |
Статистика и визуализация
Параметр Charts вкладка предоставляет автоматический анализ, включая:
- Распределение сплитов: Кольцевая диаграмма количества изображений для train/val/test
- Наиболее частые классы: Кольцевая диаграмма наиболее частых классов аннотаций
- Ширина изображений: Гистограмма распределения ширины изображений
- Высоты изображений: Гистограмма распределения высот изображений
- Точки на экземпляр: Распределение вершин полигона или количества ключевых точек (для наборов данных segment/pose)
- Расположение аннотаций: 2D тепловая карта положений центров ограничивающих рамок.
- Размеры изображений: 2D тепловая карта ширины относительно высоты с направляющими линиями соотношения сторон
Быстрые ссылки
- Наборы данных: Загружайте и управляйте своими обучающими данными
- Аннотирование: Разметка данных с помощью ручных инструментов и инструментов с ИИ
Часто задаваемые вопросы
Какие форматы файлов поддерживаются для загрузки?
Ultralytics Platform поддерживает:
Изображения: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (макс. 50 МБ каждое)
Видео: MP4, WebM, MOV, AVI, MKV, M4V (макс. 1 ГБ, кадры извлекаются со скоростью 1 FPS, макс. 100 кадров)
Архивы: ZIP, TAR, TAR.GZ, TGZ, GZ (макс. 10 ГБ), содержащие изображения с опциональными метками в формате YOLO.
Каков максимальный размер набора данных?
Ограничения на хранение зависят от вашего тарифа:
| План | Лимит хранилища |
|---|---|
| Бесплатно | 100 ГБ |
| Pro | 500 ГБ |
| Корпоративный | Безлимитно |
Индивидуальные лимиты файлов: изображения 50 МБ, видео 1 ГБ, архивы 10 ГБ
Могу ли я использовать свои наборы данных Platform для локального обучения?
Да! Используйте формат URI набора данных для локального обучения:
export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "your_key"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Или экспортируйте ваш набор данных в формате NDJSON для полностью автономного обучения.