콘텐츠로 건너뛰기

데이터 세트

Ultralytics Platform 데이터셋은 학습 데이터를 관리하기 위한 간소화된 솔루션을 제공합니다. 업로드되면 데이터셋은 자동 처리 및 통계 생성과 함께 모델 학습에 즉시 사용될 수 있습니다.

데이터세트 업로드

Ultralytics 유연성을 위해 다양한 업로드 형식을 지원합니다.

지원되는 이미지 형식

형식확장참고 사항
JPEG.jpg, .jpeg가장 흔한, 권장되는
PNG.png투명성을 지원합니다
WebP.webp현대적이며, 압축률이 우수함
BMP.bmp압축되지 않음
GIF.gif첫 번째 프레임 추출됨
TIFF.tiff, .tif고품질
HEIC.heic아이폰 사진
AVIF.avif차세대 포맷
JP2.jp2JPEG 2000
DNG.dng원본 카메라

지원되는 비디오 형식

동영상은 자동으로 프레임으로 추출됩니다:

형식확장추출
MP4.mp41 FPS, 최대 100 프레임
WebM.webm1 FPS, 최대 100 프레임
MOV.mov1 FPS, 최대 100 프레임
AVI.avi1 FPS, 최대 100 프레임
MKV.mkv1 FPS, 최대 100 프레임
M4V.m4v1 FPS, 최대 100 프레임

파일 크기 제한

유형최대 크기
이미지각 50MB
비디오각각 1GB
ZIP 파일50 GB

기록 보관소

50GB까지의 ZIP 파일을 폴더 구조를 유지한 채 자동으로 추출 및 처리하여 지원합니다.

데이터셋 준비

레이블이 지정된 데이터셋의 경우 표준 YOLO 형식을 사용하세요:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

yaml 파일은 데이터셋 구성을 정의합니다:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

업로드 프로세스

  1. 사이드바에서 데이터셋으로 이동합니다.
  2. 데이터셋 업로드를 클릭하거나 파일을 업로드 영역으로 드래그합니다.
  3. 작업 유형(detect, segment, pose, OBB, classify)을 선택합니다.
  4. 이름과 선택적 설명을 추가합니다.
  5. 업로드를 클릭합니다.

업로드 후 플랫폼이 데이터를 처리합니다:

  1. 정규화: 큰 이미지는 크기 조정됨 (최대 4096px)
  2. 썸네일: 256px 미리보기 생성됨
  3. 레이블 파싱: YOLO 형식 레이블 추출됨
  4. 통계: 클래스 분포 계산됨
업로드 전 유효성 검사

업로드하기 전에 로컬에서 데이터셋의 유효성을 검사할 수 있습니다:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

이미지 찾아보기

여러 레이아웃으로 데이터셋 이미지를 볼 수 있습니다:

보기설명
그리드어노테이션 오버레이가 있는 썸네일 그리드
콤팩트빠른 스캔을 위한 더 작은 썸네일
테이블파일 이름, 크기 및 레이블 수가 포함된 목록

전체 화면 뷰어

아무 이미지나 클릭하여 다음을 포함하는 전체 화면 뷰어를 엽니다:

  • 탐색: 화살표 키 또는 클릭하여 탐색
  • 메타데이터: 파일 이름, 크기, 분할, 레이블 수
  • 어노테이션: 어노테이션 가시성 토글
  • 클래스 분류: 클래스별 레이블 수

분할별 필터링

데이터셋 분할별로 이미지를 필터링합니다:

분할목적
Train모델 훈련에 사용
Val훈련 중 유효성 검사에 사용
테스트최종 평가에 사용
알 수 없음할당된 분할 없음

데이터셋 통계

통계 탭은 데이터셋에 대한 자동 분석을 제공합니다:

클래스 분포

클래스별 주석 수를 보여주는 막대 차트:

위치 히트맵

이미지 내 주석 위치 시각화:

차원 분석

이미지 크기(너비 대 높이) 산점도:

통계 캐싱

통계는 5분 동안 캐시됩니다. 주석 변경 사항은 캐시 만료 후 반영됩니다.

데이터셋 내보내기

오프라인 사용을 위해 데이터셋을 NDJSON 형식으로 내보내기:

  1. 데이터셋 작업 메뉴 열기
  2. 내보내기 클릭
  3. NDJSON 파일 다운로드

NDJSON 형식은 한 줄에 하나의 JSON 객체를 저장합니다:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

전체 사양은 Ultralytics NDJSON 형식 문서를 참조하십시오.

데이터셋 URI

다음 URI를 사용하여 플랫폼 데이터셋 참조: ul:// URI 형식:

ul://username/datasets/dataset-slug

이 URI를 사용하여 어디서든 모델을 훈련하십시오:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

플랫폼 데이터로 어디서든 훈련

에 지정되어 있습니다. ul:// URI는 모든 환경에서 작동합니다:

  • 로컬 머신: 자체 하드웨어에서 훈련, 데이터 자동 다운로드
  • Google Colab: 노트북에서 플랫폼 데이터셋에 액세스
  • 원격 서버: 클라우드 VM에서 전체 데이터셋 액세스로 훈련

가시성 설정

데이터셋을 볼 수 있는 사용자 제어:

설정설명
비공개본인만 접근 가능
공개탐색 페이지에서 누구나 볼 수 있음

공개 설정 변경 방법:

  1. 데이터셋 작업 메뉴 열기
  2. 편집 클릭
  3. 공개 설정 전환
  4. 저장 클릭

데이터세트 편집

데이터셋 이름, 설명 또는 공개 설정 업데이트:

  1. 데이터셋 작업 메뉴 열기
  2. 편집 클릭
  3. 변경 사항 적용
  4. 저장 클릭

데이터세트 삭제

더 이상 필요 없는 데이터셋 삭제:

  1. 데이터셋 작업 메뉴 열기
  2. 삭제를 클릭하세요.
  3. 삭제 확인

휴지통 및 복원

삭제된 데이터셋은 30일 동안 휴지통으로 이동됩니다. 설정의 휴지통 페이지에서 복원할 수 있습니다.

데이터셋으로 학습

데이터셋에서 직접 학습 시작:

  1. 데이터셋 페이지에서 모델 학습을 클릭하세요.
  2. 프로젝트 선택 또는 새로 생성
  3. 학습 매개변수 구성
  4. 학습 시작

자세한 내용은 클라우드 학습을 참조하세요.

FAQ

업로드 후 내 데이터는 어떻게 되나요?

귀하의 데이터는 선택한 지역(미국, EU 또는 AP)에 처리 및 저장됩니다. 이미지는 다음과 같습니다:

  1. 형식 및 크기 유효성 검사 완료
  2. 4096px보다 큰 경우 정규화됨 (가로세로 비율 유지)
  3. SHA-256 해싱을 사용하는 콘텐츠 주소 지정 저장소(CAS)를 통해 저장됨
  4. 빠른 탐색을 위해 256px로 썸네일 생성

스토리지는 어떻게 작동하나요?

Ultralytics Platform은 효율적인 스토리지를 위해 콘텐츠 주소 지정 스토리지(CAS)를 사용합니다:

  • 중복 제거: 다른 사용자가 업로드한 동일한 이미지는 한 번만 저장됩니다.
  • 무결성: SHA-256 해싱은 데이터 무결성을 보장합니다.
  • 효율성: 스토리지 비용을 절감하고 처리 속도를 높입니다.
  • 지역성: 데이터는 선택한 지역(미국, EU 또는 AP)에 유지됩니다.

기존 데이터셋에 이미지를 추가할 수 있나요?

예, 데이터셋 페이지의 이미지 추가 버튼을 사용하여 추가 이미지를 업로드하세요. 새로운 통계는 자동으로 계산됩니다.

데이터셋 간에 이미지를 어떻게 이동하나요?

대량 선택 기능을 사용하십시오:

  1. 갤러리에서 이미지를 선택하세요
  2. 이동 또는 복사를 클릭하세요
  3. 대상 데이터셋을 선택하세요

어떤 레이블 형식이 지원되나요?

Ultralytics Platform은 YOLO 형식 레이블을 지원합니다:

작업형식예시
Detectclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
포즈class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
Classify디렉터리 구조train/cats/, train/dogs/

모든 좌표는 정규화됩니다(0-1 범위). 자세 가시성 플래그: 0=라벨링되지 않음, 1=라벨링되었으나 가려짐, 2=라벨링되었고 가시적임.



5; 20 전에 생성됨 ✏️ 12 전에 업데이트됨
glenn-jocherLaughing-q

댓글