ClearML 통합

ClearML MLOps experiment tracking platform

ClearML 소개

ClearML은 머신러닝 워크플로우를 간소화하고 엔지니어링 시간을 절약하기 위해 구축된 오픈소스 MLOps 플랫폼입니다.

  • 🔨 **실험 관리자(experiment manager)**에서 모든 YOLOv5 학습 실행을 추적합니다.
  • 🔧 통합된 ClearML 데이터 버전 관리 도구를 사용하여 사용자 지정 학습 데이터를 버전 관리하고 액세스합니다.
  • 🔦 ClearML Agent를 사용하여 YOLOv5 실행을 원격으로 학습하고 모니터링합니다.
  • 🔬 ClearML 하이퍼파라미터 최적화로 최적의 mAP를 찾습니다.
  • 🔭 ClearML Serving을 사용하여 몇 가지 명령어로 학습된 YOLOv5 모델을 API로 전환합니다.

필요에 따라 이러한 도구를 자유롭게 조합하여 사용하십시오. 실험 관리자부터 시작하거나 모든 도구를 전체 파이프라인으로 연결할 수 있습니다.

YOLOv5 학습 지표를 보여주는 ClearML 스칼라 대시보드

🦾 설정하기

ClearML은 실험과 데이터를 추적하기 위해 서버와 통신해야 합니다. 두 가지 옵션이 있습니다:

그다음 clearml Python 패키지를 설치하고 SDK를 서버에 연결하십시오:

pip install clearml

설정(Settings) → 작업 공간(Workspace) → 새 자격 증명 생성(Create new credentials)(ClearML UI 오른쪽 상단)에서 자격 증명을 생성한 후 다음을 실행하십시오:

clearml-init

프롬프트를 따르십시오. 이것으로 설정이 완료됩니다.

🚀 ClearML로 YOLOv5 학습하기

실험 추적을 활성화하려면 아직 설치하지 않은 경우 ClearML pip 패키지를 설치하십시오:

pip install clearml

이렇게 하면 YOLOv5 학습 스크립트와의 통합이 활성화됩니다. 이제부터 모든 학습 실행은 ClearML 실험 관리자에 의해 캡처되고 저장됩니다.

To customize the project and task names, pass --project and --name to train.py. The defaults are YOLOv5 and Training. ClearML uses / as a subproject delimiter, so avoid / in custom project names.

python train.py --img 640 --batch 16 --epochs 3 --data coco8.yaml --weights yolov5s.pt --cache

또는 사용자 지정 이름을 사용하는 경우:

python train.py --project my_project --name my_training --img 640 --batch 16 --epochs 3 --data coco8.yaml --weights yolov5s.pt --cache

각 실행은 다음을 캡처합니다:

  • 소스 코드 및 커밋되지 않은 변경 사항
  • 설치된 패키지
  • 하이퍼파라미터
  • 모델 체크포인트 (--save-period n을 사용하여 매 n 에폭마다 저장)
  • 콘솔 출력
  • 스칼라 값 (mAP_0.5, mAP_0.5:0.95, 정밀도, 재현율, 손실, 학습률)
  • 머신 세부 정보, 런타임 및 생성 날짜
  • 레이블 상관관계 및 혼동 행렬과 같은 생성된 플롯
  • 에폭당 바운딩 박스가 포함된 이미지
  • 에폭당 모자이크 시각화
  • 에폭당 검증 이미지

모든 항목이 ClearML UI에 표시되므로 한곳에서 학습을 모니터링할 수 있습니다. 사용자 지정 열(예: mAP_0.5)을 추가하여 성능이 가장 좋은 모델순으로 정렬하거나, 여러 실험을 선택하여 나란히 비교할 수 있습니다.

하이퍼파라미터 최적화 및 원격 실행에 대해 계속 읽어보십시오.

🔗 데이터셋 버전 관리

코드와 별도로 데이터를 버전 관리하면 최신 버전을 쉽게 가져올 수 있고 완벽한 재현성을 보장할 수 있습니다. 이 저장소는 데이터셋 버전 ID를 받아 필요한 경우 자동으로 데이터를 가져오며, ID를 작업 매개변수로 기록하므로 어떤 데이터가 어떤 실험에 사용되었는지 항상 알 수 있습니다.

ClearML 데이터셋 버전 관리 인터페이스

데이터셋 준비

YOLOv5 저장소는 YAML 구성 파일을 통해 많은 데이터셋을 지원합니다. 기본적으로 데이터셋은 저장소 루트를 기준으로 ../datasets 폴더에 다운로드됩니다. coco128을 다운로드한 후의 폴더 구조는 다음과 같습니다:

..
|_ yolov5
|_ datasets
    |_ coco128
        |_ images
        |_ labels
        |_ LICENSE
        |_ README.txt

이 구조만 유지한다면 어떤 데이터셋이든 작동합니다.

다음으로 데이터셋의 YAML 파일을 데이터셋 루트 폴더에 복사하십시오. ClearML은 데이터셋을 올바르게 사용하기 위해 이 파일을 읽습니다. path, train, test, val, nc, names를 정의하는 예시 레이아웃을 따라 직접 YAML을 작성할 수 있습니다.

..
|_ yolov5
|_ datasets
    |_ coco128
        |_ images
        |_ labels
        |_ coco128.yaml  # <---- HERE
        |_ LICENSE
        |_ README.txt

데이터셋 업로드

데이터셋을 버전 관리되는 ClearML 데이터셋으로 등록하려면 해당 루트 폴더로 이동하여 다음을 실행하십시오:

cd ../datasets/coco128
clearml-data sync --project YOLOv5 --name coco128 --folder .

clearml-data sync는 다음 시퀀스의 약어이며, 명시적으로 실행할 수도 있습니다:

# Add --parent <parent_dataset_id> to base this version on a previous one.
# Duplicate files are not re-uploaded.
clearml-data create --name coco128 --project YOLOv5
clearml-data add --files .
clearml-data close

ClearML 데이터셋으로 학습하기

데이터셋이 등록되면 ID를 통해 학습을 지정하십시오:

python train.py --img 640 --batch 16 --epochs 3 --data clearml://YOUR_DATASET_ID --weights yolov5s.pt --cache

👀 하이퍼파라미터 최적화

실험과 데이터가 버전 관리되므로 이를 기반으로 빌드할 수 있습니다. 각 추적된 실험은 전체 환경(코드, 설치된 패키지, 구성)을 캡처하므로 실행은 완벽하게 재현 가능합니다. ClearML을 사용하면 실험을 복제하고 매개변수를 변경한 후 자동으로 다시 실행할 수 있으며, 이것이 하이퍼파라미터 최적화(HPO)의 기초가 됩니다.

로컬에서 HPO를 실행하려면 번들 스크립트를 사용하십시오. 먼저 실험 관리자에 학습 작업이 존재하는지 확인하십시오. 스크립트가 이를 복제하고 하이퍼파라미터를 변경합니다.

utils/loggers/clearml/hpo.py에 템플릿 작업 ID를 입력한 후 실행하십시오:

# Install Optuna or change the optimizer to RandomSearch.
pip install optuna
python utils/loggers/clearml/hpo.py

task.execute_locally()task.execute()로 전환하여 작업을 ClearML 대기열로 푸시하면 원격 에이전트가 가져가서 실행합니다.

YOLOv5 지표가 포함된 ClearML HPO 대시보드

🤯 원격 실행 (고급)

로컬에서 HPO를 실행하는 것도 편리하지만, 종종 온프레미스 GPU 머신이나 클라우드 인스턴스처럼 더 강력한 하드웨어에서 실험을 수행해야 할 때가 있습니다. 이것이 ClearML Agent의 역할입니다:

각 추적된 실험에는 다른 머신에서 재현하는 데 필요한 모든 것(설치된 패키지, 커밋되지 않은 변경 사항 및 구성)이 포함되어 있습니다. ClearML 에이전트는 대기열을 듣고 있다가 들어오는 작업을 가져와 환경을 재구성하고, 작업을 실행한 다음 스칼라와 플롯을 다시 실험 관리자로 스트리밍합니다.

클라우드 VM, 로컬 GPU 박스 또는 노트북 등 모든 머신을 다음 명령어로 ClearML 에이전트로 전환하십시오:

clearml-agent daemon --queue QUEUES_TO_LISTEN_TO [--docker]

복제, 편집 및 대기열 추가

에이전트가 실행 중이면 UI에서 직접 작업을 할당할 수 있습니다:

  • 🪄 실험을 마우스 오른쪽 버튼으로 클릭하고 복제합니다.
  • 🎯 하이퍼파라미터를 편집합니다.
  • ⏳ 복제된 작업을 마우스 오른쪽 버튼으로 클릭하고 대상 대기열에 추가합니다.

UI에서 작업 대기열 추가

원격으로 작업 실행하기

ClearML 로거가 인스턴스화된 후 task.execute_remotely()를 추가하여 프로그래밍 방식으로 원격 실행을 위한 실행 스크립트에 플래그를 지정할 수도 있습니다. train.py에 강조 표시된 줄을 추가하십시오:

# ...
# Loggers
data_dict = None
if RANK in {-1, 0}:
    loggers = Loggers(save_dir, weights, opt, hyp, LOGGER)  # loggers instance
    if loggers.clearml:
        loggers.clearml.task.execute_remotely(queue="my_queue")  # <------ ADD THIS LINE
        # data_dict is None unless the user selected a ClearML dataset, in which case ClearML fills it in.
        data_dict = loggers.clearml.data_dict
# ...

이 변경 후 학습 스크립트를 실행하면 해당 줄까지 실행되고, 코드가 패키징되어 대기열로 전송됩니다.

자동 확장 작업자

ClearML은 대기열에 보류 중인 실험이 있을 때 AWS, GCP 또는 Azure에서 원격 머신을 시작하고 ClearML 에이전트로 변환한 뒤, 작업이 완료되면 종료하는 자동 확장 기능(autoscalers)을 제공합니다. 따라서 실제로 실행 중인 컴퓨팅 자원에 대해서만 비용을 지불하면 됩니다.

아래의 시작하기 비디오를 시청하십시오:

비디오 시청

더 알아보기

Ultralytics 모델과 ClearML을 통합하는 방법에 대한 자세한 내용은 ClearML 통합 가이드를 확인하고 다른 실험 추적 도구로 MLOps 워크플로우를 향상시키는 방법을 알아보십시오.

댓글