데이터 준비

데이터 준비는 성공적인 컴퓨터 비전 모델의 기초입니다. Ultralytics Platform은 업로드부터 어노테이션, 분석에 이르기까지 학습 데이터를 관리할 수 있는 종합적인 도구를 제공합니다.



Watch: Get Started with Ultralytics Platform - Data

개요

Ultralytics Platform의 데이터 섹션은 다음 기능을 지원합니다:

  • 업로드: 이미지, 비디오 및 데이터셋 파일(ZIP, .tar.gz/.tgz를 포함한 TAR, NDJSON)
  • 어노테이션: 수동 그리기 도구 및 SAM 기반 스마트 라벨링 사용 — SAM 2.1 또는 최신 SAM 3 중에서 선택할 수 있습니다.
  • 분석: 통계 및 시각화를 통한 데이터 분석
  • 내보내기: 로컬 학습을 위한 NDJSON 형식으로 내보내기

Ultralytics Platform 데이터 개요 사이드바 데이터셋

워크플로우

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
단계설명
업로드자동 처리를 통해 이미지, 비디오 또는 아카이브 파일 가져오기
주석(Annotate)모든 5가지 작업 유형에 대해 수동 도구로 데이터 라벨링을 하거나, Detect, Segment, OBB 작업에 SAM 어노테이션 사용
분석클래스 분포, 공간 히트맵 및 차원 통계 보기
내보내기(Export)오프라인 사용을 위해 NDJSON 형식으로 다운로드

지원 작업

Ultralytics Platform은 5가지 YOLO 작업 유형을 모두 지원합니다:

태스크설명어노테이션 도구
Detect바운딩 박스를 이용한 객체 탐지사각형 도구
Segment픽셀 마스크를 이용한 인스턴스 세그멘테이션다각형 도구
Pose내장 및 사용자 지정 스켈레톤 템플릿을 이용한 키포인트 추정키포인트 도구
OBB회전된 객체를 위한 방향성 바운딩 박스방향성 박스 도구
Classify이미지 수준 분류클래스 선택기
작업 유형 선택

작업 유형은 데이터셋을 생성할 때 설정되며, 사용 가능한 어노테이션 도구를 결정합니다. 나중에 데이터셋 헤더의 작업 선택기에서 변경할 수 있지만, 전환 후에는 호환되지 않는 어노테이션이 표시되지 않습니다.

주요 특징

스마트 스토리지

Ultralytics Platform은 효율적인 데이터 관리를 위해 콘텐츠 주소 지정 가능 스토리지(CAS)를 사용합니다:

  • 중복 제거: 동일한 이미지는 XXH3-128 해싱을 통해 한 번만 저장됩니다.
  • 무결성: 해시 기반 주소 지정으로 데이터 무결성을 보장합니다.
  • 효율성: 최적화된 스토리지 및 빠른 처리 성능을 제공합니다.

데이터셋 URI

ul:// URI 형식을 사용하여 데이터셋을 참조하세요(플랫폼 데이터셋 사용하기 참조):

yolo train data=ul://username/datasets/my-dataset

이를 통해 API 키가 구성된 모든 기기에서 플랫폼 데이터셋으로 학습할 수 있습니다.

Python에서 플랫폼 데이터 사용하기
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

데이터셋 버전 관리

재현 가능한 학습을 위해 데이터셋의 변경 불가능한 NDJSON 스냅샷을 생성하십시오. 각 버전은 생성 시점의 이미지 개수, 클래스 개수, 어노테이션 개수를 캡처합니다. 자세한 내용은 버전 탭을 참조하십시오.

데이터셋 탭

데이터셋 페이지는 데이터셋 상태 및 권한에 따라 최대 6개의 탭을 표시할 수 있습니다:

설명
이미지어노테이션 오버레이와 함께 그리드, 컴팩트 또는 표 보기로 이미지 탐색
클래스클래스 이름, 색상 및 클래스별 라벨 개수 확인 및 편집
차트자동 통계: 분할 분포, 클래스 개수, 히트맵
모델메트릭 및 상태와 함께 이 데이터셋으로 학습된 모델
버전재현 가능한 학습을 위해 변경 불가능한 NDJSON 스냅샷 생성 및 다운로드
오류처리 실패 이미지에 대한 오류 세부 정보 및 수정 안내

Classes and Charts appear when the dataset has images. Errors appears only when processing failures exist. Versions appears for owners, or for non-owners when versions already exist.

클러스터링

시각적으로 유사한 이미지가 서로 가깝게 배치된 대화형 2D 산점도 형태로 데이터셋을 탐색하세요. 클러스터, 중복 데이터, 이상치를 발견하거나 데이터 전반에 걸쳐 분할 또는 클래스가 어떻게 분포되어 있는지 검사하는 데 유용합니다. 플롯 영역을 올가미(Lasso)로 선택하여 해당 이미지들만 갤러리에 필터링하여 볼 수 있습니다. 자세한 내용은 클러스터링을 참조하십시오.

통계 및 시각화

The Charts tab provides automatic analysis including:

  • 분할 분포: 학습/검증/테스트 이미지 개수를 보여주는 도넛 차트
  • 상위 클래스: 가장 빈번한 어노테이션 클래스를 보여주는 도넛 차트
  • 이미지 너비: 이미지 너비 분포를 보여주는 히스토그램
  • 이미지 높이: 이미지 높이 분포를 보여주는 히스토그램
  • 인스턴스당 포인트: 다각형 정점 또는 키포인트 개수 분포(세그멘테이션/포즈 데이터셋)
  • 어노테이션 위치: 바운딩 박스 중심 위치의 2D 히트맵
  • 이미지 차원: 가로세로 비율 가이드 라인이 포함된 너비 대 높이의 2D 히트맵

빠른 링크

FAQ

업로드에 지원되는 파일 형식은 무엇인가요?

Ultralytics Platform은 다음을 지원합니다:

이미지: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (각 최대 50MB)

비디오: MP4, WebM, MOV, AVI, MKV, M4V (최대 1GB, 1 FPS로 프레임 추출, 최대 100프레임)

데이터셋 파일: 이미지가 포함된 ZIP 또는 TAR 아카이브(.tar.gz.tgz 포함, 무료 플랜 최대 10GB, Pro 20GB, Enterprise 50GB)와 선택적 YOLO 형식 라벨, 그리고 NDJSON 내보내기 파일

최대 데이터셋 크기는 얼마인가요?

스토리지 제한은 플랜에 따라 다릅니다:

플랜스토리지 제한
무료100 GB
Pro500 GB
Enterprise무제한

개별 파일 제한: 이미지 50MB, 비디오 1GB, 데이터셋 무료 10GB / Pro 20GB / Enterprise 50GB

플랫폼 데이터셋을 로컬 학습에 사용할 수 있나요?

네! 데이터셋 URI 형식을 사용하여 로컬에서 학습할 수 있습니다:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

또는 완전한 오프라인 학습을 위해 NDJSON 형식으로 데이터셋을 내보낼 수 있습니다.

댓글