Интеграция с ClearML

ClearML MLOps experiment tracking platform

О ClearML

ClearML — это open-source MLOps-платформа, созданная для оптимизации рабочих процессов машинного обучения и экономии времени инженеров.

  • 🔨 Отслеживай каждый запуск обучения YOLOv5 в менеджере экспериментов.
  • 🔧 Версионируй и получай доступ к своим данным для обучения с помощью встроенного инструмента версионирования данных ClearML.
  • 🔦 Удаленно обучай и контролируй запуски YOLOv5 с помощью ClearML Agent.
  • 🔬 Найди лучшие показатели mAP с помощью оптимизации гиперпараметров в ClearML.
  • 🔭 Преврати свою обученную модель YOLOv5 в API с помощью нескольких команд, используя ClearML Serving.

Используй столько инструментов, сколько тебе нужно — начни только с менеджера экспериментов или объедини все в полный конвейер.

Панель скаляров ClearML, показывающая метрики обучения YOLOv5

🦾 Настройка

ClearML должен связываться с сервером для отслеживания твоих экспериментов и данных. У тебя есть два варианта:

  • Зарегистрируйся в бесплатном ClearML Hosted Service, или
  • Разверни собственный сервер ClearML — он является open-source, поэтому остается надежным вариантом даже для конфиденциальных данных.

Затем установи Python-пакет clearml и подключи SDK к своему серверу:

pip install clearml

Создай учетные данные в Settings → Workspace → Create new credentials (в правом верхнем углу интерфейса ClearML), затем выполни:

clearml-init

Следуй подсказкам. Вот и всё — настройка завершена.

🚀 Обучение YOLOv5 с ClearML

Чтобы включить отслеживание экспериментов, установи pip-пакет ClearML, если ты еще этого не сделал:

pip install clearml

Это обеспечит интеграцию со скриптом обучения YOLOv5. С этого момента каждый запуск обучения будет захватываться и сохраняться в менеджере экспериментов ClearML.

Чтобы настроить названия проекта и задачи, передай --project и --name в train.py. По умолчанию используются YOLOv5 и Training. ClearML использует / как разделитель подпроектов, поэтому избегай использования / в пользовательских названиях проектов.

python train.py --img 640 --batch 16 --epochs 3 --data coco8.yaml --weights yolov5s.pt --cache

Или с пользовательскими именами:

python train.py --project my_project --name my_training --img 640 --batch 16 --epochs 3 --data coco8.yaml --weights yolov5s.pt --cache

Каждый запуск фиксирует:

  • Исходный код и незафиксированные изменения
  • Установленные пакеты
  • Гиперпараметры
  • Чекпоинты моделей (используй --save-period n для сохранения каждые n эпох)
  • Вывод консоли
  • Скаляры (mAP_0.5, mAP_0.5:0.95, точность, полнота, функции потерь, скорость обучения)
  • Информация о машине, время выполнения и дата создания
  • Созданные графики, такие как коррелограмма меток и матрица ошибок
  • Изображения с ограничивающими рамками (BBox) для каждой эпохи
  • Мозаичные визуализации для каждой эпохи
  • Изображения валидации для каждой эпохи

Все отображается в интерфейсе ClearML, чтобы ты мог контролировать процесс обучения в одном месте. Добавляй пользовательские столбцы (например, mAP_0.5) для сортировки по самой эффективной модели или выбирай несколько экспериментов для их сравнения.

Читай дальше об оптимизации гиперпараметров и удаленном выполнении.

🔗 Управление версиями наборов данных

Версионирование данных отдельно от кода упрощает получение последней версии и обеспечивает полную воспроизводимость. Этот репозиторий принимает ID версии набора данных, автоматически загружает данные, если они отсутствуют, и записывает ID в качестве параметра задачи, чтобы ты всегда знал, какие данные использовались в конкретном эксперименте.

Интерфейс управления версиями данных ClearML

Подготовь свой набор данных

Репозиторий YOLOv5 поддерживает множество наборов данных через YAML-файлы конфигурации. По умолчанию наборы данных загружаются в папку ../datasets относительно корня репозитория. После загрузки coco128 структура папок выглядит следующим образом:

..
|_ yolov5
|_ datasets
    |_ coco128
        |_ images
        |_ labels
        |_ LICENSE
        |_ README.txt

Любой набор данных подойдет, если ты сохранишь эту структуру.

Далее, скопируй YAML-файл набора данных в корневую папку набора данных — ClearML читает этот файл для корректного использования данных. Ты можешь написать свой собственный YAML, следуя примеру, убедившись, что он определяет path, train, test, val, nc и names.

..
|_ yolov5
|_ datasets
    |_ coco128
        |_ images
        |_ labels
        |_ coco128.yaml  # <---- HERE
        |_ LICENSE
        |_ README.txt

Загрузи свой набор данных

Чтобы зарегистрировать набор данных как версионированный набор данных ClearML, перейди в его корневую папку и выполни:

cd ../datasets/coco128
clearml-data sync --project YOLOv5 --name coco128 --folder .

clearml-data sync — это сокращение для следующей последовательности, которую ты также можешь запустить явно:

# Add --parent <parent_dataset_id> to base this version on a previous one.
# Duplicate files are not re-uploaded.
clearml-data create --name coco128 --project YOLOv5
clearml-data add --files .
clearml-data close

Обучение на наборе данных ClearML

После регистрации набора данных укажи обучение на него по ID:

python train.py --img 640 --batch 16 --epochs 3 --data clearml://YOUR_DATASET_ID --weights yolov5s.pt --cache

👀 Оптимизация гиперпараметров

Когда эксперименты и данные версионированы, ты можешь развивать их дальше. Поскольку каждый отслеживаемый эксперимент фиксирует всю среду — код, установленные пакеты и конфигурацию — запуски становятся полностью воспроизводимыми. ClearML позволяет клонировать эксперимент, изменять его параметры и запускать повторно автоматически, что является основой оптимизации гиперпараметров (HPO).

Чтобы запустить HPO локально, используй прилагаемый скрипт. Сначала убедись, что задача обучения существует в менеджере экспериментов — скрипт клонирует ее и варьирует гиперпараметры.

Заполни ID задачи-шаблона в utils/loggers/clearml/hpo.py, затем запусти:

# Install Optuna or change the optimizer to RandomSearch.
pip install optuna
python utils/loggers/clearml/hpo.py

Переключи task.execute_locally() на task.execute(), чтобы отправить задачу в очередь ClearML, откуда ее заберет удаленный агент.

Панель HPO ClearML с метриками YOLOv5

🤯 Удаленное выполнение (Продвинутый уровень)

Запуск HPO локально удобен, но часто тебе захочется проводить эксперименты на более мощном оборудовании — локальном GPU-сервере или облачном инстансе. Для этого предназначен ClearML Agent:

Каждый отслеживаемый эксперимент содержит все необходимое для воспроизведения на другой машине (установленные пакеты, незафиксированные изменения и конфигурацию). Агент ClearML прослушивает очередь, забирает входящие задачи, воссоздает среду, выполняет задание и передает скаляры и графики обратно в менеджер экспериментов.

Преврати любую машину — облачную ВМ, локальный GPU-сервер или ноутбук — в агента ClearML с помощью:

clearml-agent daemon --queue QUEUES_TO_LISTEN_TO [--docker]

Клонирование, редактирование и постановка в очередь

Когда агент запущен, ты можешь назначать ему работу прямо из интерфейса:

  • 🪄 Нажми правой кнопкой мыши на эксперимент и клонируй его.
  • 🎯 Измени его гиперпараметры.
  • ⏳ Нажми правой кнопкой мыши на клонированную задачу и поставь ее в целевую очередь.

Постановка задачи в очередь из интерфейса

Удаленное выполнение задачи

Ты также можешь пометить запущенный скрипт для удаленного выполнения программно, добавив task.execute_remotely() после инициализации логгера ClearML. Добавь выделенную строку в train.py:

# ...
# Loggers
data_dict = None
if RANK in {-1, 0}:
    loggers = Loggers(save_dir, weights, opt, hyp, LOGGER)  # loggers instance
    if loggers.clearml:
        loggers.clearml.task.execute_remotely(queue="my_queue")  # <------ ADD THIS LINE
        # data_dict is None unless the user selected a ClearML dataset, in which case ClearML fills it in.
        data_dict = loggers.clearml.data_dict
# ...

После этого изменения запуск скрипта обучения выполняется до этой строки, упаковывает код и отправляет его в очередь.

Автомасштабирование воркеров

ClearML поставляется с autoscalers, которые запускают удаленные машины в AWS, GCP или Azure, когда в очереди есть ожидающие эксперименты, превращают их в агентов ClearML и выключают, когда работа завершена — таким образом, ты платишь только за те вычислительные ресурсы, которые реально используются.

Посмотри видео для начала работы ниже:

Смотреть видео

Узнай больше

Для получения дополнительной информации об интеграции ClearML с моделями Ultralytics, ознакомься с нашим руководством по интеграции ClearML и узнай, как можно улучшить свой MLOps-процесс с помощью других инструментов отслеживания экспериментов.

Комментарии