콘텐츠로 건너뛰기

데이터 세트

Ultralytics Platform 데이터셋은 학습 데이터를 관리하기 위한 간소화된 솔루션을 제공합니다. 업로드되면 데이터셋은 자동 처리 및 통계 생성과 함께 모델 학습에 즉시 사용될 수 있습니다.

데이터세트 업로드

Ultralytics 유연성을 위해 다양한 업로드 형식을 지원합니다.

지원되는 형식

형식확장참고 사항최대 크기
JPEG.jpg, .jpeg가장 흔한, 권장되는50MB
PNG.png투명성을 지원합니다50MB
WebP.webp현대적이며, 압축률이 우수함50MB
BMP.bmp압축되지 않음50MB
TIFF.tiff, .tif고품질50MB
HEIC.heic아이폰 사진50MB
AVIF.avif차세대 포맷50MB
JP2.jp2JPEG 200050MB
DNG.dng원본 카메라50MB
MPO.mpo다중 이미지 객체50MB

동영상은 클라이언트 측에서 초당 1프레임(동영상당 최대 100프레임)으로 자동 프레임 추출됩니다.

형식확장추출최대 크기
MP4.mp41 FPS, 최대 100 프레임1 GB
WebM.webm1 FPS, 최대 100 프레임1 GB
MOV.mov1 FPS, 최대 100 프레임1 GB
AVI.avi1 FPS, 최대 100 프레임1 GB
MKV.mkv1 FPS, 최대 100 프레임1 GB
M4V.m4v1 FPS, 최대 100 프레임1 GB

비디오 프레임 추출

동영상 프레임은 업로드 전 브라우저에서 초당 1프레임으로 추출됩니다. 60초 동영상은 60개의 프레임을 생성합니다. 동영상당 최대 100프레임이므로, 약 100초를 초과하는 동영상은 샘플링 처리됩니다.

아카이브는 자동으로 추출 및 처리됩니다.

형식확장참고 사항최대 크기
ZIP.zip가장 흔한10 GB
TAR.tar압축되지 않은 아카이브10 GB
TAR.GZ.tar.gz, .tgz압축 아카이브10 GB
GZ.gzGzip 압축10 GB

데이터셋 준비

플랫폼은 두 가지 주석 형식과 원본 업로드를 지원합니다: Ultralytics YOLO, COCO, 그리고 원본(주석 처리되지 않은 이미지):

표준 YOLO 구조를 사용하십시오. data.yaml 파일:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

yaml 파일은 데이터셋 구성을 정의합니다:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

표준 COCO 가진 JSON 주석 파일을 사용하십시오:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

JSON 파일에는 다음이 포함됩니다. images, annotationscategories 배열:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO 업로드 중에 자동으로 변환됩니다. 검출 (bbox), 세분화 (segmentation 다각형), 그리고 자세(keypoints) 작업이 지원됩니다. 범주 ID는 모든 주석 파일에서 0으로 시작하는 밀집 시퀀스로 재매핑됩니다. 형식 간 변환 방법은 다음을 참조하십시오. 형식 변환 도구.

원본 업로드

원본: 주석이 없는 이미지(라벨 없음)를 업로드합니다. 플랫폼의 주석 편집기를 사용하여 직접 주석을 달 계획일 때 유용합니다.

평면 디렉터리 구조

분할 폴더 구조 없이도 이미지를 업로드할 수 있습니다. 분할 폴더 없이 업로드된 이미지는 train 기본적으로 분할됩니다. 나중에 일괄 이동-분할 기능을 사용하여 재할당할 수 있습니다.

자동 형식 감지

형식은 자동으로 감지됩니다: data.yaml 포함하는 names, train또는 val 키들은 YOLO 처리됩니다. COCO 파일(포함)을 가진 데이터셋들 images, annotationscategories 배열)은 COCO로 처리됩니다. 이미지만 있고 주석이 없는 데이터셋은 원시 데이터로 처리됩니다.

작업별 형식 세부 정보는 지원되는 작업데이터셋 개요를 참조하십시오.

업로드 프로세스

  1. 다음으로 이동 Datasets 사이드바에서
  2. 클릭 New Dataset 또는 파일을 업로드 영역으로 드래그하세요
  3. 작업 유형 선택 ( 지원되는 작업 참조)
  4. 이름과 선택적 설명을 추가합니다.
  5. 가시성 설정(공개 또는 비공개) 및 선택적 라이선스( 사용 가능한 라이선스 참조)
  6. 클릭 Create

Ultralytics 데이터셋 업로드 대화상자 작업 선택기

업로드 후 플랫폼은 다단계 파이프라인을 통해 데이터를 처리합니다:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. 검증: 형식 및 크기 검사
  2. 정규화: 대형 이미지 크기 조정 (최대 4096px, 최소 크기 28px)
  3. 썸네일: 256px WebP 미리보기 생성됨
  4. 라벨 파싱: YOLO 및 COCO 라벨 추출
  5. 통계: 클래스 분포 및 계산된 이미지 크기

Ultralytics 데이터셋 업로드 진행률 표시줄

업로드 전 유효성 검사

업로드하기 전에 로컬에서 데이터셋의 유효성을 검사할 수 있습니다:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

이미지 크기 요구 사항

이미지의 가장 짧은 변은 최소 28px 이상이어야 합니다. 이보다 작은 이미지는 처리 과정에서 거부됩니다. 가장 긴 변이 4096px를 초과하는 이미지는 가로세로 비율을 유지한 상태로 자동으로 크기가 조정됩니다.

이미지 찾아보기

여러 레이아웃으로 데이터셋 이미지를 볼 수 있습니다:

보기설명
그리드주석 오버레이가 적용된 썸네일 그리드 (기본값)
콤팩트빠른 스캔을 위한 더 작은 썸네일
테이블썸네일, 파일명, 크기, 용량, 분할, 클래스, 라벨 수를 포함한 목록

Ultralytics 데이터셋 갤러리 그리드 보기 (주석 포함)

정렬 및 필터링

이미지는 효율적인 탐색을 위해 정렬 및 필터링할 수 있습니다:

정렬설명
최신가장 최근에 추가된
가장 오래된가장 먼저 추가됨
이름 A-Z알파벳순
이름 Z-A역순 알파벳순
크기 (가장 작은)가장 작은 파일부터
크기 (가장 큰)가장 큰 파일부터
대부분의 라벨대부분의 주석
최소 라벨가장 적은 주석
필터옵션
분할 필터훈련, 밸, 테스트 또는 모두
라벨 필터모든 이미지, 주석이 달린 이미지 또는 주석이 없는 이미지
검색파일명으로 이미지 필터링

라벨이 없는 이미지 찾기

라벨 필터 세트를 사용하여 Unannotated 주석이 아직 필요한 이미지를 빠르게 찾기 위해. 이는 특히 track 진행 상황을 track 대규모 데이터셋에서 유용합니다.

전체 화면 뷰어

아무 이미지나 클릭하여 다음을 포함하는 전체 화면 뷰어를 엽니다:

  • 탐색: 화살표 키 또는 썸네일 미리보기를 통해 탐색
  • 메타데이터: 파일명, 크기, 분할 배지, 주석 수
  • 주석: 주석 오버레이 표시/숨기기 전환
  • 클래스 분석: 클래스별 레이블 개수 및 색상 표시기
  • 편집: 주석 모드로 전환하여 레이블을 추가하거나 수정하세요
  • 다운로드: 원본 이미지 파일을 다운로드하세요
  • 삭제: 데이터셋에서 이미지를 삭제합니다
  • 확대: Cmd/Ctrl+Scroll 확대/축소
  • 픽셀 보기: 세밀한 검사를 위해 픽셀화 렌더링을 켜거나 끕니다

Ultralytics 데이터셋 전체 화면 뷰어 (메타데이터 패널 포함)

분할별 필터링

데이터셋 분할별로 이미지를 필터링합니다:

분할목적
Train모델 훈련에 사용
Val훈련 중 유효성 검사에 사용
테스트최종 평가에 사용

데이터셋 탭

각 데이터셋 페이지에는 탭 바에서 접근 가능한 다섯 개의 탭이 있습니다:

이미지 탭

기본 보기에는 주석 오버레이가 적용된 이미지 갤러리가 표시됩니다. 그리드, 컴팩트, 테이블 보기 모드를 지원합니다. 여기에 파일을 드래그 앤 드롭하여 이미지를 추가하세요.

수업 탭

데이터셋에 대한 주석 클래스를 관리하세요:

  • 클래스 히스토그램: 클래스별 주석 개수를 표시하는 막대 그래프(선형/로그 스케일 전환 가능)
  • 클래스 테이블: 정렬 및 검색 가능한 테이블로 클래스 이름, 레이블 수, 이미지 수를 표시합니다.
  • 클래스 이름 편집: 클래스 이름을 클릭하면 바로 이름을 변경할 수 있습니다
  • 클래스 색상 편집: 색상 견본을 클릭하여 클래스 색상을 변경합니다
  • 새 클래스 추가: 하단의 입력란을 사용하여 클래스를 추가하세요

Ultralytics 데이터셋 클래스 탭 히스토그램 및 테이블

불균형 데이터셋을 위한 로그 스케일

데이터셋에 클래스 불균형이 존재하는 경우(예: "사람" 라벨 10,000개 대비 "자전거" 라벨 50개), 다음을 사용하십시오. Log Scale 클래스 히스토그램을 토글하여 모든 클래스를 명확하게 시각화하세요.

차트 탭

데이터셋에서 자동으로 계산된 통계:

차트설명
분할 배분도넛 차트: 훈련/검증/테스트 이미지 개수 및 라벨링 비율
최상위 클래스가장 빈번한 10개 주석 클래스의 도넛 차트
이미지 너비평균을 포함한 이미지 너비 분포 히스토그램
이미지 하이츠평균을 포함한 이미지 높이 분포 히스토그램
인스턴스당 포인트주석(segment)당 다각형 정점 또는 키포인트 수
주석 위치바운딩 박스 중심 위치의 2D 히트맵
이미지 크기2D 너비 대 높이 히트맵 (종횡비 가이드라인 포함)

Ultralytics 데이터셋 차트 탭 통계 그리드

통계 캐싱

통계는 5분 동안 캐시됩니다. 주석 변경 사항은 캐시 만료 후 반영됩니다.

전체 화면 히트맵

어떤 히트맵이든 확장 버튼을 클릭하면 전체 화면 모드로 볼 수 있습니다. 이를 통해 더 크고 상세한 뷰를 제공하여 대규모 데이터 세트의 공간적 패턴을 이해하는 데 유용합니다.

모델 탭

이 데이터셋으로 훈련된 모든 모델을 검색 가능한 테이블에서 확인하세요:

설명
이름링크가 있는 모델 이름
프로젝트아이콘이 있는 상위 프로젝트
상태훈련 상태 배지
작업YOLO 유형
에포크최적 에포크 / 총 에포크 수
mAP50-95평균 정밀도
mAP50IoU .50mAP
생성됨생성일

Ultralytics 데이터셋 모델 탭 훈련된 모델 테이블

오류 탭

처리 실패한 이미지는 다음과 같이 여기에 나열됩니다:

  • 오류 배너: 실패한 이미지 총 개수 및 안내
  • 오류 테이블: 파일명, 사용자 친화적 오류 설명, 수정 힌트, 미리보기 썸네일
  • 일반적인 오류에는 손상된 파일, 지원되지 않는 형식, 너무 작은 이미지(최소 28px), 지원되지 않는 색상 모드가 포함됩니다.
일반적인 처리 오류
오류원인수정
이미지 파일을 읽을 수 없습니다.손상되었거나 지원되지 않는 형식이미지 편집기에서 재수출
불완전하거나 손상된파일 전송 중 잘림원본 파일을 다시 다운로드하세요.
이미지가 너무 작습니다최소 크기 28px 미만더 높은 해상도의 원본 이미지를 사용하십시오
지원되지 않는 색상 모드CMYK 또는 색상 인덱싱 모드RGB 모드로 변환

데이터셋 내보내기

오프라인 사용을 위해 데이터셋을 NDJSON 형식으로 내보내세요:

  1. 데이터셋 헤더의 다운로드 아이콘을 클릭하세요
  2. NDJSON 파일이 자동으로 다운로드됩니다.

Ultralytics 데이터셋 내보내기 Ndjson 다운로드

NDJSON 형식은 각 줄에 하나의 JSON 객체를 저장합니다. 첫 번째 줄에는 데이터셋 메타데이터가 포함되며, 이후 이미지마다 한 줄씩 이어집니다:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

서명된 URL

내보낸 NDJSON의 이미지 URL은 서명 처리되어 있으며 7일간 유효합니다. 새로운 URL이 필요한 경우 데이터셋을 다시 내보내십시오.

전체 사양은 Ultralytics NDJSON 형식 문서를 참조하십시오.

대량 작업

테이블 뷰의 컨텍스트 메뉴를 사용하여 이미지를 일괄 관리하세요:

스플릿으로 이동

선택한 이미지를 동일한 데이터셋 내 다른 분할으로 재할당:

  1. 보기 모드로 전환
  2. 체크박스를 사용하여 이미지를 선택하세요
  3. 마우스 오른쪽 버튼을 클릭하여 컨텍스트 메뉴를 엽니다
  4. 선택하세요 Move to split > Train, 검증또는 테스트

그리드 보기에서 이미지를 분할 필터 탭 위로 드래그 앤 드롭할 수도 있습니다.

열차/밸리 분할 구성

모든 이미지를 하나의 데이터셋에 업로드한 후, 일괄 이동-분할 기능을 사용하여 하위 집합을 훈련, 검증, 테스트 분할로 구성합니다.

일괄 삭제

여러 이미지를 한 번에 삭제하기:

  1. 테이블 보기에서 이미지 선택
  2. 마우스 오른쪽 버튼을 클릭하고 선택하세요 Delete
  3. 삭제 확인

데이터셋 URI

다음 URI를 사용하여 플랫폼 데이터셋 참조: ul:// URI 형식 (참조 플랫폼 데이터셋 사용):

ul://username/datasets/dataset-slug

이 URI를 사용하여 어디서든 모델을 훈련하십시오:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

플랫폼 데이터로 어디서든 훈련

에 지정되어 있습니다. ul:// URI는 모든 환경에서 작동합니다:

  • 로컬 머신: 자체 하드웨어에서 훈련, 데이터 자동 다운로드
  • Google Colab: 노트북에서 플랫폼 데이터셋에 액세스
  • 원격 서버: 클라우드 VM에서 전체 데이터셋 액세스로 훈련

사용 가능한 라이선스

플랫폼은 데이터셋에 대해 다음 라이선스를 지원합니다:

라이선스유형
없음선택된 라이선스가 없습니다
CC0-1.0퍼블릭 도메인
CC-BY-2.5허용적인
CC-BY-4.0허용적인
CC-BY-SA-4.0카피레프트
CC-BY-NC-4.0비상업적
CC-BY-NC-SA-4.0카피레프트
CC-BY-ND-4.0파생상품 없음
CC-BY-NC-ND-4.0비상업적
Apache-2.0허용적인
MIT허용적인
AGPL-3.0카피레프트
GPL-3.0카피레프트
연구 전용제한됨
기타사용자 정의

카피레프트 라이선스

복제본 생성 시 복제본은 해당 데이터셋의 복제본 사용 허가(AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0)를 상속하며, 라이선스 선택기는 잠깁니다.

가시성 설정

데이터셋을 볼 수 있는 사용자 제어:

설정설명
비공개본인만 접근 가능
공개탐색 페이지에서 누구나 볼 수 있음

가시성은 데이터셋 생성 시 설정됩니다. New Dataset 토글 스위치를 사용한 대화상자. 공개 데이터셋은 탐색 페이지를 참조하세요.

데이터세트 편집

데이터셋 메타데이터는 데이터셋 페이지에서 직접 인라인으로 편집됩니다 — 별도의 대화상자가 필요하지 않습니다:

  • 이름데이터셋 이름을 클릭하면 편집할 수 있습니다. 변경 내용은 포커스가 벗어날 때 자동 저장됩니다. Enter.
  • 설명: 설명(또는 "설명 추가..." 자리 표시자)을 클릭하여 편집하세요. 변경 사항은 자동 저장됩니다.
  • 작업 유형: 작업 배지를 클릭하여 다른 작업 유형을 선택하세요.
  • 라이선스: 데이터셋 라이선스를 변경하려면 라이선스 선택기를 클릭하세요.

작업 유형 변경

작업 유형 변경은 기존 주석의 시각화 방식에 영향을 미칠 수 있습니다. 호환되지 않는 주석은 표시되지 않습니다.

데이터셋 복제

본인이 소유하지 않은 공개 데이터셋을 볼 때, 클릭하세요 Clone Dataset 작업 공간에 복사본을 생성합니다. 복제본에는 모든 이미지, 주석 및 클래스 정의가 포함됩니다. 원본 데이터셋에 복제 금지 라이선스가 적용된 경우, 복제본도 동일한 라이선스를 상속받으며 라이선스 선택기가 잠깁니다.

스타와 공유

  • 별표: 데이터셋을 북마크하려면 별표 버튼을 클릭하세요. 별표 수는 모든 사용자에게 표시됩니다.
  • 공유: 공개 데이터셋의 경우 공유 버튼을 클릭하여 링크를 복사하거나 소셜 플랫폼에 공유하세요.

데이터세트 삭제

더 이상 필요 없는 데이터셋 삭제:

  1. 데이터셋 작업 메뉴 열기
  2. 클릭 Delete
  3. 대화 상자에서 확인하세요: "이 작업은 [이름]을 휴지통으로 이동시킵니다. 30일 이내에 복원할 수 있습니다."

휴지통 및 복원

삭제된 데이터 세트는 휴지통으로 이동되며 영구적으로 삭제되지 않습니다. 30일 이내에 복원할 수 있습니다. Settings > Trash.

데이터셋으로 학습

데이터셋에서 직접 학습 시작:

  1. 클릭 New Model 데이터셋 페이지에서
  2. 프로젝트 선택 또는 새로 생성
  3. 학습 매개변수 구성
  4. 학습 시작
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

자세한 내용은 클라우드 학습을 참조하세요.

FAQ

업로드 후 내 데이터는 어떻게 되나요?

귀하의 데이터는 선택한 지역(미국, EU 또는 AP)에 처리 및 저장됩니다. 이미지는 다음과 같습니다:

  1. 형식 및 크기 유효성 검사 완료
  2. 최소 크기가 28px 미만인 경우 거부됨
  3. 4096px보다 클 경우 정규화됨 (종횡비 유지; 저장 공간 최적화를 위해 인코딩됨)
  4. XXH3-128 해싱을 사용한 콘텐츠 주소 지정 저장소(CAS)로 저장됨
  5. 빠른 탐색을 위해 256px WebP로 생성된 썸네일

스토리지는 어떻게 작동하나요?

Ultralytics Platform은 효율적인 스토리지를 위해 콘텐츠 주소 지정 스토리지(CAS)를 사용합니다:

  • 중복 제거: 다른 사용자가 업로드한 동일한 이미지는 한 번만 저장됩니다.
  • 무결성: XXH3-128 해싱은 데이터 무결성을 보장합니다
  • 효율성: 스토리지 비용을 절감하고 처리 속도를 높입니다.
  • 지역성: 데이터는 선택한 지역(미국, EU 또는 AP)에 유지됩니다.

기존 데이터셋에 이미지를 추가할 수 있나요?

예, 파일을 데이터셋 페이지로 드래그 앤 드롭하거나 업로드 버튼을 사용하여 추가 이미지를 추가하세요. 새로운 통계가 자동으로 계산됩니다.

스플릿 간에 이미지를 어떻게 이동하나요?

대량 이동-분할 기능을 사용하세요:

  1. 테이블 보기에서 이미지 선택
  2. 마우스 오른쪽 버튼을 클릭하고 선택하세요 Move to split
  3. 대상 분할(훈련, 검증 또는 테스트)을 선택하십시오.

어떤 레이블 형식이 지원되나요?

Ultralytics 업로드용으로 두 가지 주석 형식을 지원합니다:

하나 .txt 정규화된 좌표(0-1 범위)를 가진 이미지별 파일:

작업형식예시
Detectclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
포즈class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
Classify디렉터리 구조train/cats/, train/dogs/

포즈 가시성 플래그: 0=라벨링되지 않음, 1=라벨링되었으나 가려짐, 2=라벨링되었고 가시적임.

JSON 파일들 images, annotationscategories 배열. 감지 지원 (bbox), 분할(다각형), 및 자세(keypoints) 작업. COCO 절대 픽셀 좌표를 COCO , 업로드 시 자동으로 정규화된 형식으로 변환됩니다.



5; 1 전에 생성됨 ✏️ 4 전에 업데이트됨
glenn-jochersergiuwaxmannLaughing-q

댓글