데이터 세트
Ultralytics Platform 데이터셋은 학습 데이터를 관리하기 위한 간소화된 솔루션을 제공합니다. 업로드되면 데이터셋은 자동 처리 및 통계 생성과 함께 모델 학습에 즉시 사용될 수 있습니다.
데이터세트 업로드
Ultralytics 유연성을 위해 다양한 업로드 형식을 지원합니다.
지원되는 이미지 형식
| 형식 | 확장 | 참고 사항 |
|---|---|---|
| JPEG | .jpg, .jpeg | 가장 흔한, 권장되는 |
| PNG | .png | 투명성을 지원합니다 |
| WebP | .webp | 현대적이며, 압축률이 우수함 |
| BMP | .bmp | 압축되지 않음 |
| GIF | .gif | 첫 번째 프레임 추출됨 |
| TIFF | .tiff, .tif | 고품질 |
| HEIC | .heic | 아이폰 사진 |
| AVIF | .avif | 차세대 포맷 |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | 원본 카메라 |
지원되는 비디오 형식
동영상은 자동으로 프레임으로 추출됩니다:
| 형식 | 확장 | 추출 |
|---|---|---|
| MP4 | .mp4 | 1 FPS, 최대 100 프레임 |
| WebM | .webm | 1 FPS, 최대 100 프레임 |
| MOV | .mov | 1 FPS, 최대 100 프레임 |
| AVI | .avi | 1 FPS, 최대 100 프레임 |
| MKV | .mkv | 1 FPS, 최대 100 프레임 |
| M4V | .m4v | 1 FPS, 최대 100 프레임 |
파일 크기 제한
| 유형 | 최대 크기 |
|---|---|
| 이미지 | 각 50MB |
| 비디오 | 각각 1GB |
| ZIP 파일 | 50 GB |
기록 보관소
50GB까지의 ZIP 파일을 폴더 구조를 유지한 채 자동으로 추출 및 처리하여 지원합니다.
데이터셋 준비
레이블이 지정된 데이터셋의 경우 표준 YOLO 형식을 사용하세요:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
yaml 파일은 데이터셋 구성을 정의합니다:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
업로드 프로세스
- 사이드바에서 데이터셋으로 이동합니다.
- 데이터셋 업로드를 클릭하거나 파일을 업로드 영역으로 드래그합니다.
- 작업 유형(detect, segment, pose, OBB, classify)을 선택합니다.
- 이름과 선택적 설명을 추가합니다.
- 업로드를 클릭합니다.
업로드 후 플랫폼이 데이터를 처리합니다:
- 정규화: 큰 이미지는 크기 조정됨 (최대 4096px)
- 썸네일: 256px 미리보기 생성됨
- 레이블 파싱: YOLO 형식 레이블 추출됨
- 통계: 클래스 분포 계산됨
업로드 전 유효성 검사
업로드하기 전에 로컬에서 데이터셋의 유효성을 검사할 수 있습니다:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
이미지 찾아보기
여러 레이아웃으로 데이터셋 이미지를 볼 수 있습니다:
| 보기 | 설명 |
|---|---|
| 그리드 | 어노테이션 오버레이가 있는 썸네일 그리드 |
| 콤팩트 | 빠른 스캔을 위한 더 작은 썸네일 |
| 테이블 | 파일 이름, 크기 및 레이블 수가 포함된 목록 |
전체 화면 뷰어
아무 이미지나 클릭하여 다음을 포함하는 전체 화면 뷰어를 엽니다:
- 탐색: 화살표 키 또는 클릭하여 탐색
- 메타데이터: 파일 이름, 크기, 분할, 레이블 수
- 어노테이션: 어노테이션 가시성 토글
- 클래스 분류: 클래스별 레이블 수
분할별 필터링
데이터셋 분할별로 이미지를 필터링합니다:
| 분할 | 목적 |
|---|---|
| Train | 모델 훈련에 사용 |
| Val | 훈련 중 유효성 검사에 사용 |
| 테스트 | 최종 평가에 사용 |
| 알 수 없음 | 할당된 분할 없음 |
데이터셋 통계
통계 탭은 데이터셋에 대한 자동 분석을 제공합니다:
클래스 분포
클래스별 주석 수를 보여주는 막대 차트:
위치 히트맵
이미지 내 주석 위치 시각화:
차원 분석
이미지 크기(너비 대 높이) 산점도:
통계 캐싱
통계는 5분 동안 캐시됩니다. 주석 변경 사항은 캐시 만료 후 반영됩니다.
데이터셋 내보내기
오프라인 사용을 위해 데이터셋을 NDJSON 형식으로 내보내기:
- 데이터셋 작업 메뉴 열기
- 내보내기 클릭
- NDJSON 파일 다운로드
NDJSON 형식은 한 줄에 하나의 JSON 객체를 저장합니다:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
전체 사양은 Ultralytics NDJSON 형식 문서를 참조하십시오.
데이터셋 URI
다음 URI를 사용하여 플랫폼 데이터셋 참조: ul:// URI 형식:
ul://username/datasets/dataset-slug
이 URI를 사용하여 어디서든 모델을 훈련하십시오:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
플랫폼 데이터로 어디서든 훈련
에 지정되어 있습니다. ul:// URI는 모든 환경에서 작동합니다:
- 로컬 머신: 자체 하드웨어에서 훈련, 데이터 자동 다운로드
- Google Colab: 노트북에서 플랫폼 데이터셋에 액세스
- 원격 서버: 클라우드 VM에서 전체 데이터셋 액세스로 훈련
가시성 설정
데이터셋을 볼 수 있는 사용자 제어:
| 설정 | 설명 |
|---|---|
| 비공개 | 본인만 접근 가능 |
| 공개 | 탐색 페이지에서 누구나 볼 수 있음 |
공개 설정 변경 방법:
- 데이터셋 작업 메뉴 열기
- 편집 클릭
- 공개 설정 전환
- 저장 클릭
데이터세트 편집
데이터셋 이름, 설명 또는 공개 설정 업데이트:
- 데이터셋 작업 메뉴 열기
- 편집 클릭
- 변경 사항 적용
- 저장 클릭
데이터세트 삭제
더 이상 필요 없는 데이터셋 삭제:
- 데이터셋 작업 메뉴 열기
- 삭제를 클릭하세요.
- 삭제 확인
휴지통 및 복원
삭제된 데이터셋은 30일 동안 휴지통으로 이동됩니다. 설정의 휴지통 페이지에서 복원할 수 있습니다.
데이터셋으로 학습
데이터셋에서 직접 학습 시작:
- 데이터셋 페이지에서 모델 학습을 클릭하세요.
- 프로젝트 선택 또는 새로 생성
- 학습 매개변수 구성
- 학습 시작
자세한 내용은 클라우드 학습을 참조하세요.
FAQ
업로드 후 내 데이터는 어떻게 되나요?
귀하의 데이터는 선택한 지역(미국, EU 또는 AP)에 처리 및 저장됩니다. 이미지는 다음과 같습니다:
- 형식 및 크기 유효성 검사 완료
- 4096px보다 큰 경우 정규화됨 (가로세로 비율 유지)
- SHA-256 해싱을 사용하는 콘텐츠 주소 지정 저장소(CAS)를 통해 저장됨
- 빠른 탐색을 위해 256px로 썸네일 생성
스토리지는 어떻게 작동하나요?
Ultralytics Platform은 효율적인 스토리지를 위해 콘텐츠 주소 지정 스토리지(CAS)를 사용합니다:
- 중복 제거: 다른 사용자가 업로드한 동일한 이미지는 한 번만 저장됩니다.
- 무결성: SHA-256 해싱은 데이터 무결성을 보장합니다.
- 효율성: 스토리지 비용을 절감하고 처리 속도를 높입니다.
- 지역성: 데이터는 선택한 지역(미국, EU 또는 AP)에 유지됩니다.
기존 데이터셋에 이미지를 추가할 수 있나요?
예, 데이터셋 페이지의 이미지 추가 버튼을 사용하여 추가 이미지를 업로드하세요. 새로운 통계는 자동으로 계산됩니다.
데이터셋 간에 이미지를 어떻게 이동하나요?
대량 선택 기능을 사용하십시오:
- 갤러리에서 이미지를 선택하세요
- 이동 또는 복사를 클릭하세요
- 대상 데이터셋을 선택하세요
어떤 레이블 형식이 지원되나요?
Ultralytics Platform은 YOLO 형식 레이블을 지원합니다:
| 작업 | 형식 | 예시 |
|---|---|---|
| Detect | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segment | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| 포즈 | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classify | 디렉터리 구조 | train/cats/, train/dogs/ |
모든 좌표는 정규화됩니다(0-1 범위). 자세 가시성 플래그: 0=라벨링되지 않음, 1=라벨링되었으나 가려짐, 2=라벨링되었고 가시적임.