콘텐츠로 건너뛰기

데이터 세트

Ultralytics 데이터셋은 훈련 데이터 관리를 위한 간소화된 솔루션을 제공합니다. 업로드된 데이터셋은 자동 처리 및 통계 생성 기능을 통해 즉시 모델 훈련에 활용할 수 있습니다.


참고: Ultralytics 에 데이터셋 업로드

데이터세트 업로드

Ultralytics 유연성을 위해 다양한 업로드 형식을 지원합니다:

형식설명
이미지개별 이미지 파일(JPG, PNG, WebP, TIFF, RAW)
ZIP 압축 파일이미지와 선택적 레이블이 포함된 압축 폴더
영상MP4, AVI 파일 - 초당 약 1프레임으로 추출된 프레임
YOLO표준 YOLO 구조와 레이블

비디오 프레임 추출

동영상 업로드 시 프레임이 자동으로 추출됩니다:

  • 프레임 속도: 초당 약 1 프레임
  • 최대 프레임: 동영상당 100 프레임
  • 처리: 업로드 전 클라이언트 측 추출
  • 형식: 프레임을 표준 이미지 형식으로 변환

이것은 감시 영상, 액션 녹화물 또는 어떤 비디오 소스에서 훈련 데이터셋을 생성하는 데 이상적입니다.

데이터셋 준비하기

라벨링된 데이터셋의 경우 표준 YOLO 사용하십시오:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

YAML 파일은 데이터셋 구성을 정의합니다:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

업로드 과정

  1. 사이드바에서 데이터 세트로 이동하세요
  2. 데이터셋 업로드 버튼을 클릭하거나 파일을 업로드 영역으로 드래그하세요
  3. 작업 유형 선택 (detect, segment, 포즈, OBB, classify)
  4. 이름과 선택적 설명을 추가하세요
  5. 업로드

업로드 후 플랫폼은 귀하의 데이터를 처리합니다:

  1. 정규화: 대형 이미지 크기 조정 (최대 4096px)
  2. 썸네일: 256px 미리보기 생성됨
  3. 라벨 파싱: YOLO 라벨 추출
  4. 통계: 계산된 클래스 분포
업로드 전 검증

데이터셋을 업로드하기 전에 로컬에서 검증할 수 있습니다:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

이미지 찾아보기

여러 레이아웃으로 데이터셋 이미지를 확인하세요:

보기설명
그리드주석 오버레이가 적용된 썸네일 그리드
컴팩트빠른 확인을 위한 작은 썸네일
파일명, 크기, 레이블 개수를 포함한 목록

전체 화면 뷰어

이미지를 클릭하면 전체 화면 뷰어가 열립니다:

  • 탐색: 화살표 키 또는 클릭하여 둘러보기
  • 메타데이터: 파일명, 크기, 분할, 레이블 수
  • 주석: 주석 표시/숨기기
  • 클래스 분할: 클래스별 레이블 개수

분할로 필터링

데이터셋 분할에 따라 이미지를 필터링합니다:

분할목적
Train모델 훈련에 사용됨
Val훈련 중 검증에 사용됨
테스트최종 평가에 사용됨
알 수 없음할당된 분할 없음

데이터셋 통계

통계 탭은 데이터 세트에 대한 자동 분석을 제공합니다:

클래스 Distribution

클래스별 주석 수를 보여주는 막대 그래프:

위치 히트맵

이미지 내 주석 표시 위치 시각화:

차원 분석

이미지 크기(가로 vs 세로) 산점도:

통계 캐싱

통계는 5분 동안 캐시됩니다. 주석 변경 사항은 캐시가 만료된 후 반영됩니다.

데이터셋 내보내기

오프라인 사용을 위해 데이터셋을 NDJSON 형식으로 내보내세요:

  1. 데이터셋 작업 메뉴 열기
  2. 내보내기 클릭
  3. NDJSON 파일을 다운로드하세요

NDJSON 형식은 한 줄에 하나의 JSON 객체를 저장합니다:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

전체 사양은 Ultralytics 형식 문서를 참조하십시오.

데이터셋 URI

참조 플랫폼 데이터셋을 사용하여 ul:// URI 형식:

ul://username/datasets/dataset-slug

이 URI를 사용하여 어디서나 모델을 훈련하세요:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100

플랫폼 데이터로 어디서나 훈련하세요

에 지정되어 있습니다. ul:// URI는 모든 환경에서 작동합니다:

  • 로컬 머신: 하드웨어에서 훈련, 데이터 자동 다운로드
  • Google : 노트북에서 플랫폼 데이터셋에 접근하기
  • 원격 서버: 전체 데이터셋 접근이 가능한 클라우드 VM에서 훈련

가시성 설정

데이터셋을 볼 수 있는 사람을 제어하세요:

설정설명
비공개오직 당신만이 접근할 수 있습니다
공개누구나 탐색 페이지에서 볼 수 있습니다

가시성을 변경하려면:

  1. 데이터셋 작업 메뉴 열기
  2. 편집을 클릭하세요
  3. 표시 설정 전환
  4. 저장을 클릭하세요

데이터세트 편집

데이터셋 이름, 설명 또는 가시성 업데이트:

  1. 데이터셋 작업 메뉴 열기
  2. 편집을 클릭하세요
  3. 변경 사항 적용
  4. 저장을 클릭하세요

데이터세트 삭제

더 이상 필요하지 않은 데이터셋 삭제:

  1. 데이터셋 작업 메뉴 열기
  2. 삭제하기
  3. 삭제 확인

쓰레기 처리 및 복원

삭제된 데이터 세트는 30일 동안 휴지통으로 이동됩니다. 설정의 휴지통 페이지에서 복원할 수 있습니다.

데이터셋으로 훈련하기

데이터셋에서 바로 훈련을 시작하세요:

  1. 데이터셋 페이지에서 '클릭 트레인 모델'을 클릭하세요
  2. 프로젝트를 선택하거나 새로 생성하세요
  3. 훈련 매개변수 구성
  4. 훈련 시작

자세한 내용은 클라우드 교육을 참조하십시오.

FAQ

데이터를 업로드한 후에는 어떻게 되나요?

귀하의 데이터는 선택한 지역(미국, 유럽연합 또는 AP)에서 처리 및 저장됩니다. 이미지는:

  1. 형식과 크기에 대해 검증됨
  2. 4096px보다 클 경우 정규화(종횡비 유지)
  3. SHA-256 해싱을 적용한 콘텐츠 주소 지정 저장소(CAS)를 사용하여 저장됨
  4. 빠른 탐색을 위해 256px 크기로 생성된 썸네일
  5. 귀하의 허락 없이는 절대 공유하지 않습니다

저장소는 어떻게 작동하나요?

Ultralytics 효율적인 저장을 위해 콘텐츠 주소 지정 저장소(CAS)를 사용합니다:

  • 중복 제거: 서로 다른 사용자가 업로드한 동일한 이미지는 한 번만 저장됩니다.
  • 무결성: SHA-256 해싱은 데이터 무결성을 보장합니다
  • 효율성: 저장 비용을 절감하고 처리 속도를 높입니다.
  • 지역: 데이터는 선택한 지역(미국, 유럽, AP)에 보관됩니다.

기존 데이터셋에 이미지를 추가할 수 있나요?

예, 데이터셋 페이지의 '이미지 추가' 버튼을 사용하여 추가 이미지를 업로드하세요. 새로운 통계는 자동으로 계산됩니다.

데이터셋 간에 이미지를 어떻게 이동하나요?

대량 선택 기능을 사용하세요:

  1. 갤러리에서 이미지를 선택하세요
  2. 이동 또는 복사 클릭
  3. 대상 데이터셋 선택

어떤 라벨 형식이 지원됩니까?

Ultralytics YOLO 레이블을 지원합니다:

  • Detect: class_id x_center y_center width height
  • Segment: class_id x1 y1 x2 y2 ... (다각형 점)
  • 포즈: class_id x_center y_center width height kp1_x kp1_y kp1_v ...
  • OBB: class_id x1 y1 x2 y2 x3 y3 x4 y4

모든 좌표는 정규화됩니다(0-1 범위).



📅 생성 0 일 전 ✏️ 업데이트 0일 전
glenn-jocher

댓글