데이터 세트
Ultralytics Platform 데이터셋은 학습 데이터를 관리하기 위한 간소화된 솔루션을 제공합니다. 업로드되면 데이터셋은 자동 처리 및 통계 생성과 함께 모델 학습에 즉시 사용될 수 있습니다.
데이터세트 업로드
Ultralytics 유연성을 위해 다양한 업로드 형식을 지원합니다.
지원되는 형식
| 형식 | 확장 | 참고 사항 | 최대 크기 |
|---|---|---|---|
| JPEG | .jpg, .jpeg | 가장 흔한, 권장되는 | 50MB |
| PNG | .png | 투명성을 지원합니다 | 50MB |
| WebP | .webp | 현대적이며, 압축률이 우수함 | 50MB |
| BMP | .bmp | 압축되지 않음 | 50MB |
| TIFF | .tiff, .tif | 고품질 | 50MB |
| HEIC | .heic | 아이폰 사진 | 50MB |
| AVIF | .avif | 차세대 포맷 | 50MB |
| JP2 | .jp2 | JPEG 2000 | 50MB |
| DNG | .dng | 원본 카메라 | 50MB |
| MPO | .mpo | 다중 이미지 객체 | 50MB |
동영상은 클라이언트 측에서 초당 1프레임(동영상당 최대 100프레임)으로 자동 프레임 추출됩니다.
| 형식 | 확장 | 추출 | 최대 크기 |
|---|---|---|---|
| MP4 | .mp4 | 1 FPS, 최대 100 프레임 | 1 GB |
| WebM | .webm | 1 FPS, 최대 100 프레임 | 1 GB |
| MOV | .mov | 1 FPS, 최대 100 프레임 | 1 GB |
| AVI | .avi | 1 FPS, 최대 100 프레임 | 1 GB |
| MKV | .mkv | 1 FPS, 최대 100 프레임 | 1 GB |
| M4V | .m4v | 1 FPS, 최대 100 프레임 | 1 GB |
비디오 프레임 추출
동영상 프레임은 업로드 전 브라우저에서 초당 1프레임으로 추출됩니다. 60초 동영상은 60개의 프레임을 생성합니다. 동영상당 최대 100프레임이므로, 약 100초를 초과하는 동영상은 샘플링 처리됩니다.
아카이브는 자동으로 추출 및 처리됩니다.
| 형식 | 확장 | 참고 사항 | 최대 크기 |
|---|---|---|---|
| ZIP | .zip | 가장 흔한 | 10 GB |
| TAR | .tar | 압축되지 않은 아카이브 | 10 GB |
| TAR.GZ | .tar.gz, .tgz | 압축 아카이브 | 10 GB |
| GZ | .gz | Gzip 압축 | 10 GB |
데이터셋 준비
플랫폼은 두 가지 주석 형식과 원본 업로드를 지원합니다: Ultralytics YOLO, COCO, 그리고 원본(주석 처리되지 않은 이미지):
표준 YOLO 구조를 사용하십시오. data.yaml 파일:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
yaml 파일은 데이터셋 구성을 정의합니다:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
표준 COCO 가진 JSON 주석 파일을 사용하십시오:
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
JSON 파일에는 다음이 포함됩니다. images, annotations및 categories 배열:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO 업로드 중에 자동으로 변환됩니다. 검출 (bbox), 세분화 (segmentation 다각형), 그리고 자세(keypoints) 작업이 지원됩니다. 범주 ID는 모든 주석 파일에서 0으로 시작하는 밀집 시퀀스로 재매핑됩니다. 형식 간 변환 방법은 다음을 참조하십시오. 형식 변환 도구.
원본 업로드
원본: 주석이 없는 이미지(라벨 없음)를 업로드합니다. 플랫폼의 주석 편집기를 사용하여 직접 주석을 달 계획일 때 유용합니다.
평면 디렉터리 구조
분할 폴더 구조 없이도 이미지를 업로드할 수 있습니다. 분할 폴더 없이 업로드된 이미지는 train 기본적으로 분할됩니다. 나중에 일괄 이동-분할 기능을 사용하여 재할당할 수 있습니다.
자동 형식 감지
형식은 자동으로 감지됩니다: data.yaml 포함하는 names, train또는 val 키들은 YOLO 처리됩니다. COCO 파일(포함)을 가진 데이터셋들 images, annotations및 categories 배열)은 COCO로 처리됩니다. 이미지만 있고 주석이 없는 데이터셋은 원시 데이터로 처리됩니다.
작업별 형식 세부 정보는 지원되는 작업 및 데이터셋 개요를 참조하십시오.
업로드 프로세스
- 다음으로 이동
Datasets사이드바에서 - 클릭
New Dataset또는 파일을 업로드 영역으로 드래그하세요 - 작업 유형 선택 ( 지원되는 작업 참조)
- 이름과 선택적 설명을 추가합니다.
- 가시성 설정(공개 또는 비공개) 및 선택적 라이선스( 사용 가능한 라이선스 참조)
- 클릭
Create

업로드 후 플랫폼은 다단계 파이프라인을 통해 데이터를 처리합니다:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- 검증: 형식 및 크기 검사
- 정규화: 대형 이미지 크기 조정 (최대 4096px, 최소 크기 28px)
- 썸네일: 256px WebP 미리보기 생성됨
- 라벨 파싱: YOLO 및 COCO 라벨 추출
- 통계: 클래스 분포 및 계산된 이미지 크기

업로드 전 유효성 검사
업로드하기 전에 로컬에서 데이터셋의 유효성을 검사할 수 있습니다:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
이미지 크기 요구 사항
이미지의 가장 짧은 변은 최소 28px 이상이어야 합니다. 이보다 작은 이미지는 처리 과정에서 거부됩니다. 가장 긴 변이 4096px를 초과하는 이미지는 가로세로 비율을 유지한 상태로 자동으로 크기가 조정됩니다.
이미지 찾아보기
여러 레이아웃으로 데이터셋 이미지를 볼 수 있습니다:
| 보기 | 설명 |
|---|---|
| 그리드 | 주석 오버레이가 적용된 썸네일 그리드 (기본값) |
| 콤팩트 | 빠른 스캔을 위한 더 작은 썸네일 |
| 테이블 | 썸네일, 파일명, 크기, 용량, 분할, 클래스, 라벨 수를 포함한 목록 |

정렬 및 필터링
이미지는 효율적인 탐색을 위해 정렬 및 필터링할 수 있습니다:
| 정렬 | 설명 |
|---|---|
| 최신 | 가장 최근에 추가된 |
| 가장 오래된 | 가장 먼저 추가됨 |
| 이름 A-Z | 알파벳순 |
| 이름 Z-A | 역순 알파벳순 |
| 크기 (가장 작은) | 가장 작은 파일부터 |
| 크기 (가장 큰) | 가장 큰 파일부터 |
| 대부분의 라벨 | 대부분의 주석 |
| 최소 라벨 | 가장 적은 주석 |
| 필터 | 옵션 |
|---|---|
| 분할 필터 | 훈련, 밸, 테스트 또는 모두 |
| 라벨 필터 | 모든 이미지, 주석이 달린 이미지 또는 주석이 없는 이미지 |
| 검색 | 파일명으로 이미지 필터링 |
라벨이 없는 이미지 찾기
라벨 필터 세트를 사용하여 Unannotated 주석이 아직 필요한 이미지를 빠르게 찾기 위해. 이는 특히 track 진행 상황을 track 대규모 데이터셋에서 유용합니다.
전체 화면 뷰어
아무 이미지나 클릭하여 다음을 포함하는 전체 화면 뷰어를 엽니다:
- 탐색: 화살표 키 또는 썸네일 미리보기를 통해 탐색
- 메타데이터: 파일명, 크기, 분할 배지, 주석 수
- 주석: 주석 오버레이 표시/숨기기 전환
- 클래스 분석: 클래스별 레이블 개수 및 색상 표시기
- 편집: 주석 모드로 전환하여 레이블을 추가하거나 수정하세요
- 다운로드: 원본 이미지 파일을 다운로드하세요
- 삭제: 데이터셋에서 이미지를 삭제합니다
- 확대:
Cmd/Ctrl+Scroll확대/축소 - 픽셀 보기: 세밀한 검사를 위해 픽셀화 렌더링을 켜거나 끕니다

분할별 필터링
데이터셋 분할별로 이미지를 필터링합니다:
| 분할 | 목적 |
|---|---|
| Train | 모델 훈련에 사용 |
| Val | 훈련 중 유효성 검사에 사용 |
| 테스트 | 최종 평가에 사용 |
데이터셋 탭
각 데이터셋 페이지에는 탭 바에서 접근 가능한 다섯 개의 탭이 있습니다:
이미지 탭
기본 보기에는 주석 오버레이가 적용된 이미지 갤러리가 표시됩니다. 그리드, 컴팩트, 테이블 보기 모드를 지원합니다. 여기에 파일을 드래그 앤 드롭하여 이미지를 추가하세요.
수업 탭
데이터셋에 대한 주석 클래스를 관리하세요:
- 클래스 히스토그램: 클래스별 주석 개수를 표시하는 막대 그래프(선형/로그 스케일 전환 가능)
- 클래스 테이블: 정렬 및 검색 가능한 테이블로 클래스 이름, 레이블 수, 이미지 수를 표시합니다.
- 클래스 이름 편집: 클래스 이름을 클릭하면 바로 이름을 변경할 수 있습니다
- 클래스 색상 편집: 색상 견본을 클릭하여 클래스 색상을 변경합니다
- 새 클래스 추가: 하단의 입력란을 사용하여 클래스를 추가하세요

불균형 데이터셋을 위한 로그 스케일
데이터셋에 클래스 불균형이 존재하는 경우(예: "사람" 라벨 10,000개 대비 "자전거" 라벨 50개), 다음을 사용하십시오. Log Scale 클래스 히스토그램을 토글하여 모든 클래스를 명확하게 시각화하세요.
차트 탭
데이터셋에서 자동으로 계산된 통계:
| 차트 | 설명 |
|---|---|
| 분할 배분 | 도넛 차트: 훈련/검증/테스트 이미지 개수 및 라벨링 비율 |
| 최상위 클래스 | 가장 빈번한 10개 주석 클래스의 도넛 차트 |
| 이미지 너비 | 평균을 포함한 이미지 너비 분포 히스토그램 |
| 이미지 하이츠 | 평균을 포함한 이미지 높이 분포 히스토그램 |
| 인스턴스당 포인트 | 주석(segment)당 다각형 정점 또는 키포인트 수 |
| 주석 위치 | 바운딩 박스 중심 위치의 2D 히트맵 |
| 이미지 크기 | 2D 너비 대 높이 히트맵 (종횡비 가이드라인 포함) |

통계 캐싱
통계는 5분 동안 캐시됩니다. 주석 변경 사항은 캐시 만료 후 반영됩니다.
전체 화면 히트맵
어떤 히트맵이든 확장 버튼을 클릭하면 전체 화면 모드로 볼 수 있습니다. 이를 통해 더 크고 상세한 뷰를 제공하여 대규모 데이터 세트의 공간적 패턴을 이해하는 데 유용합니다.
모델 탭
이 데이터셋으로 훈련된 모든 모델을 검색 가능한 테이블에서 확인하세요:
| 열 | 설명 |
|---|---|
| 이름 | 링크가 있는 모델 이름 |
| 프로젝트 | 아이콘이 있는 상위 프로젝트 |
| 상태 | 훈련 상태 배지 |
| 작업 | YOLO 유형 |
| 에포크 | 최적 에포크 / 총 에포크 수 |
| mAP50-95 | 평균 정밀도 |
| mAP50 | IoU .50mAP |
| 생성됨 | 생성일 |

오류 탭
처리 실패한 이미지는 다음과 같이 여기에 나열됩니다:
- 오류 배너: 실패한 이미지 총 개수 및 안내
- 오류 테이블: 파일명, 사용자 친화적 오류 설명, 수정 힌트, 미리보기 썸네일
- 일반적인 오류에는 손상된 파일, 지원되지 않는 형식, 너무 작은 이미지(최소 28px), 지원되지 않는 색상 모드가 포함됩니다.
일반적인 처리 오류
| 오류 | 원인 | 수정 |
|---|---|---|
| 이미지 파일을 읽을 수 없습니다. | 손상되었거나 지원되지 않는 형식 | 이미지 편집기에서 재수출 |
| 불완전하거나 손상된 | 파일 전송 중 잘림 | 원본 파일을 다시 다운로드하세요. |
| 이미지가 너무 작습니다 | 최소 크기 28px 미만 | 더 높은 해상도의 원본 이미지를 사용하십시오 |
| 지원되지 않는 색상 모드 | CMYK 또는 색상 인덱싱 모드 | RGB 모드로 변환 |
데이터셋 내보내기
오프라인 사용을 위해 데이터셋을 NDJSON 형식으로 내보내세요:
- 데이터셋 헤더의 다운로드 아이콘을 클릭하세요
- NDJSON 파일이 자동으로 다운로드됩니다.

NDJSON 형식은 각 줄에 하나의 JSON 객체를 저장합니다. 첫 번째 줄에는 데이터셋 메타데이터가 포함되며, 이후 이미지마다 한 줄씩 이어집니다:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
서명된 URL
내보낸 NDJSON의 이미지 URL은 서명 처리되어 있으며 7일간 유효합니다. 새로운 URL이 필요한 경우 데이터셋을 다시 내보내십시오.
전체 사양은 Ultralytics NDJSON 형식 문서를 참조하십시오.
대량 작업
테이블 뷰의 컨텍스트 메뉴를 사용하여 이미지를 일괄 관리하세요:
스플릿으로 이동
선택한 이미지를 동일한 데이터셋 내 다른 분할으로 재할당:
- 표 보기 모드로 전환
- 체크박스를 사용하여 이미지를 선택하세요
- 마우스 오른쪽 버튼을 클릭하여 컨텍스트 메뉴를 엽니다
- 선택하세요
Move to split> Train, 검증또는 테스트
그리드 보기에서 이미지를 분할 필터 탭 위로 드래그 앤 드롭할 수도 있습니다.
열차/밸리 분할 구성
모든 이미지를 하나의 데이터셋에 업로드한 후, 일괄 이동-분할 기능을 사용하여 하위 집합을 훈련, 검증, 테스트 분할로 구성합니다.
일괄 삭제
여러 이미지를 한 번에 삭제하기:
- 테이블 보기에서 이미지 선택
- 마우스 오른쪽 버튼을 클릭하고 선택하세요
Delete - 삭제 확인
데이터셋 URI
다음 URI를 사용하여 플랫폼 데이터셋 참조: ul:// URI 형식 (참조 플랫폼 데이터셋 사용):
ul://username/datasets/dataset-slug
이 URI를 사용하여 어디서든 모델을 훈련하십시오:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
플랫폼 데이터로 어디서든 훈련
에 지정되어 있습니다. ul:// URI는 모든 환경에서 작동합니다:
- 로컬 머신: 자체 하드웨어에서 훈련, 데이터 자동 다운로드
- Google Colab: 노트북에서 플랫폼 데이터셋에 액세스
- 원격 서버: 클라우드 VM에서 전체 데이터셋 액세스로 훈련
사용 가능한 라이선스
플랫폼은 데이터셋에 대해 다음 라이선스를 지원합니다:
| 라이선스 | 유형 |
|---|---|
| 없음 | 선택된 라이선스가 없습니다 |
| CC0-1.0 | 퍼블릭 도메인 |
| CC-BY-2.5 | 허용적인 |
| CC-BY-4.0 | 허용적인 |
| CC-BY-SA-4.0 | 카피레프트 |
| CC-BY-NC-4.0 | 비상업적 |
| CC-BY-NC-SA-4.0 | 카피레프트 |
| CC-BY-ND-4.0 | 파생상품 없음 |
| CC-BY-NC-ND-4.0 | 비상업적 |
| Apache-2.0 | 허용적인 |
| MIT | 허용적인 |
| AGPL-3.0 | 카피레프트 |
| GPL-3.0 | 카피레프트 |
| 연구 전용 | 제한됨 |
| 기타 | 사용자 정의 |
카피레프트 라이선스
복제본 생성 시 복제본은 해당 데이터셋의 복제본 사용 허가(AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0)를 상속하며, 라이선스 선택기는 잠깁니다.
가시성 설정
데이터셋을 볼 수 있는 사용자 제어:
| 설정 | 설명 |
|---|---|
| 비공개 | 본인만 접근 가능 |
| 공개 | 탐색 페이지에서 누구나 볼 수 있음 |
가시성은 데이터셋 생성 시 설정됩니다. New Dataset 토글 스위치를 사용한 대화상자. 공개 데이터셋은 탐색 페이지를 참조하세요.
데이터세트 편집
데이터셋 메타데이터는 데이터셋 페이지에서 직접 인라인으로 편집됩니다 — 별도의 대화상자가 필요하지 않습니다:
- 이름데이터셋 이름을 클릭하면 편집할 수 있습니다. 변경 내용은 포커스가 벗어날 때 자동 저장됩니다.
Enter. - 설명: 설명(또는 "설명 추가..." 자리 표시자)을 클릭하여 편집하세요. 변경 사항은 자동 저장됩니다.
- 작업 유형: 작업 배지를 클릭하여 다른 작업 유형을 선택하세요.
- 라이선스: 데이터셋 라이선스를 변경하려면 라이선스 선택기를 클릭하세요.
작업 유형 변경
작업 유형 변경은 기존 주석의 시각화 방식에 영향을 미칠 수 있습니다. 호환되지 않는 주석은 표시되지 않습니다.
데이터셋 복제
본인이 소유하지 않은 공개 데이터셋을 볼 때, 클릭하세요 Clone Dataset 작업 공간에 복사본을 생성합니다. 복제본에는 모든 이미지, 주석 및 클래스 정의가 포함됩니다. 원본 데이터셋에 복제 금지 라이선스가 적용된 경우, 복제본도 동일한 라이선스를 상속받으며 라이선스 선택기가 잠깁니다.
스타와 공유
- 별표: 데이터셋을 북마크하려면 별표 버튼을 클릭하세요. 별표 수는 모든 사용자에게 표시됩니다.
- 공유: 공개 데이터셋의 경우 공유 버튼을 클릭하여 링크를 복사하거나 소셜 플랫폼에 공유하세요.
데이터세트 삭제
더 이상 필요 없는 데이터셋 삭제:
- 데이터셋 작업 메뉴 열기
- 클릭
Delete - 대화 상자에서 확인하세요: "이 작업은 [이름]을 휴지통으로 이동시킵니다. 30일 이내에 복원할 수 있습니다."
휴지통 및 복원
삭제된 데이터 세트는 휴지통으로 이동되며 영구적으로 삭제되지 않습니다. 30일 이내에 복원할 수 있습니다. Settings > Trash.
데이터셋으로 학습
데이터셋에서 직접 학습 시작:
- 클릭
New Model데이터셋 페이지에서 - 프로젝트 선택 또는 새로 생성
- 학습 매개변수 구성
- 학습 시작
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
자세한 내용은 클라우드 학습을 참조하세요.
FAQ
업로드 후 내 데이터는 어떻게 되나요?
귀하의 데이터는 선택한 지역(미국, EU 또는 AP)에 처리 및 저장됩니다. 이미지는 다음과 같습니다:
- 형식 및 크기 유효성 검사 완료
- 최소 크기가 28px 미만인 경우 거부됨
- 4096px보다 클 경우 정규화됨 (종횡비 유지; 저장 공간 최적화를 위해 인코딩됨)
- XXH3-128 해싱을 사용한 콘텐츠 주소 지정 저장소(CAS)로 저장됨
- 빠른 탐색을 위해 256px WebP로 생성된 썸네일
스토리지는 어떻게 작동하나요?
Ultralytics Platform은 효율적인 스토리지를 위해 콘텐츠 주소 지정 스토리지(CAS)를 사용합니다:
- 중복 제거: 다른 사용자가 업로드한 동일한 이미지는 한 번만 저장됩니다.
- 무결성: XXH3-128 해싱은 데이터 무결성을 보장합니다
- 효율성: 스토리지 비용을 절감하고 처리 속도를 높입니다.
- 지역성: 데이터는 선택한 지역(미국, EU 또는 AP)에 유지됩니다.
기존 데이터셋에 이미지를 추가할 수 있나요?
예, 파일을 데이터셋 페이지로 드래그 앤 드롭하거나 업로드 버튼을 사용하여 추가 이미지를 추가하세요. 새로운 통계가 자동으로 계산됩니다.
스플릿 간에 이미지를 어떻게 이동하나요?
대량 이동-분할 기능을 사용하세요:
- 테이블 보기에서 이미지 선택
- 마우스 오른쪽 버튼을 클릭하고 선택하세요
Move to split - 대상 분할(훈련, 검증 또는 테스트)을 선택하십시오.
어떤 레이블 형식이 지원되나요?
Ultralytics 업로드용으로 두 가지 주석 형식을 지원합니다:
하나 .txt 정규화된 좌표(0-1 범위)를 가진 이미지별 파일:
| 작업 | 형식 | 예시 |
|---|---|---|
| Detect | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segment | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| 포즈 | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classify | 디렉터리 구조 | train/cats/, train/dogs/ |
포즈 가시성 플래그: 0=라벨링되지 않음, 1=라벨링되었으나 가려짐, 2=라벨링되었고 가시적임.
JSON 파일들 images, annotations및 categories 배열. 감지 지원 (bbox), 분할(다각형), 및 자세(keypoints) 작업. COCO 절대 픽셀 좌표를 COCO , 업로드 시 자동으로 정규화된 형식으로 변환됩니다.