데이터 세트
Ultralytics 데이터셋은 훈련 데이터 관리를 위한 간소화된 솔루션을 제공합니다. 업로드된 데이터셋은 자동 처리 및 통계 생성 기능을 통해 즉시 모델 훈련에 활용할 수 있습니다.
참고: Ultralytics 에 데이터셋 업로드
데이터세트 업로드
Ultralytics 유연성을 위해 다양한 업로드 형식을 지원합니다:
| 형식 | 설명 |
|---|---|
| 이미지 | 개별 이미지 파일(JPG, PNG, WebP, TIFF, RAW) |
| ZIP 압축 파일 | 이미지와 선택적 레이블이 포함된 압축 폴더 |
| 영상 | MP4, AVI 파일 - 초당 약 1프레임으로 추출된 프레임 |
| YOLO | 표준 YOLO 구조와 레이블 |
비디오 프레임 추출
동영상 업로드 시 프레임이 자동으로 추출됩니다:
- 프레임 속도: 초당 약 1 프레임
- 최대 프레임: 동영상당 100 프레임
- 처리: 업로드 전 클라이언트 측 추출
- 형식: 프레임을 표준 이미지 형식으로 변환
이것은 감시 영상, 액션 녹화물 또는 어떤 비디오 소스에서 훈련 데이터셋을 생성하는 데 이상적입니다.
데이터셋 준비하기
라벨링된 데이터셋의 경우 표준 YOLO 사용하십시오:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
YAML 파일은 데이터셋 구성을 정의합니다:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
업로드 과정
- 사이드바에서 데이터 세트로 이동하세요
- 데이터셋 업로드 버튼을 클릭하거나 파일을 업로드 영역으로 드래그하세요
- 작업 유형 선택 (detect, segment, 포즈, OBB, classify)
- 이름과 선택적 설명을 추가하세요
- 업로드
업로드 후 플랫폼은 귀하의 데이터를 처리합니다:
- 정규화: 대형 이미지 크기 조정 (최대 4096px)
- 썸네일: 256px 미리보기 생성됨
- 라벨 파싱: YOLO 라벨 추출
- 통계: 계산된 클래스 분포
업로드 전 검증
데이터셋을 업로드하기 전에 로컬에서 검증할 수 있습니다:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
이미지 찾아보기
여러 레이아웃으로 데이터셋 이미지를 확인하세요:
| 보기 | 설명 |
|---|---|
| 그리드 | 주석 오버레이가 적용된 썸네일 그리드 |
| 컴팩트 | 빠른 확인을 위한 작은 썸네일 |
| 표 | 파일명, 크기, 레이블 개수를 포함한 목록 |
전체 화면 뷰어
이미지를 클릭하면 전체 화면 뷰어가 열립니다:
- 탐색: 화살표 키 또는 클릭하여 둘러보기
- 메타데이터: 파일명, 크기, 분할, 레이블 수
- 주석: 주석 표시/숨기기
- 클래스 분할: 클래스별 레이블 개수
분할로 필터링
데이터셋 분할에 따라 이미지를 필터링합니다:
| 분할 | 목적 |
|---|---|
| Train | 모델 훈련에 사용됨 |
| Val | 훈련 중 검증에 사용됨 |
| 테스트 | 최종 평가에 사용됨 |
| 알 수 없음 | 할당된 분할 없음 |
데이터셋 통계
통계 탭은 데이터 세트에 대한 자동 분석을 제공합니다:
클래스 Distribution
클래스별 주석 수를 보여주는 막대 그래프:
위치 히트맵
이미지 내 주석 표시 위치 시각화:
차원 분석
이미지 크기(가로 vs 세로) 산점도:
통계 캐싱
통계는 5분 동안 캐시됩니다. 주석 변경 사항은 캐시가 만료된 후 반영됩니다.
데이터셋 내보내기
오프라인 사용을 위해 데이터셋을 NDJSON 형식으로 내보내세요:
- 데이터셋 작업 메뉴 열기
- 내보내기 클릭
- NDJSON 파일을 다운로드하세요
NDJSON 형식은 한 줄에 하나의 JSON 객체를 저장합니다:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
전체 사양은 Ultralytics 형식 문서를 참조하십시오.
데이터셋 URI
참조 플랫폼 데이터셋을 사용하여 ul:// URI 형식:
ul://username/datasets/dataset-slug
이 URI를 사용하여 어디서나 모델을 훈련하세요:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100
플랫폼 데이터로 어디서나 훈련하세요
에 지정되어 있습니다. ul:// URI는 모든 환경에서 작동합니다:
- 로컬 머신: 하드웨어에서 훈련, 데이터 자동 다운로드
- Google : 노트북에서 플랫폼 데이터셋에 접근하기
- 원격 서버: 전체 데이터셋 접근이 가능한 클라우드 VM에서 훈련
가시성 설정
데이터셋을 볼 수 있는 사람을 제어하세요:
| 설정 | 설명 |
|---|---|
| 비공개 | 오직 당신만이 접근할 수 있습니다 |
| 공개 | 누구나 탐색 페이지에서 볼 수 있습니다 |
가시성을 변경하려면:
- 데이터셋 작업 메뉴 열기
- 편집을 클릭하세요
- 표시 설정 전환
- 저장을 클릭하세요
데이터세트 편집
데이터셋 이름, 설명 또는 가시성 업데이트:
- 데이터셋 작업 메뉴 열기
- 편집을 클릭하세요
- 변경 사항 적용
- 저장을 클릭하세요
데이터세트 삭제
더 이상 필요하지 않은 데이터셋 삭제:
- 데이터셋 작업 메뉴 열기
- 삭제하기
- 삭제 확인
쓰레기 처리 및 복원
삭제된 데이터 세트는 30일 동안 휴지통으로 이동됩니다. 설정의 휴지통 페이지에서 복원할 수 있습니다.
데이터셋으로 훈련하기
데이터셋에서 바로 훈련을 시작하세요:
- 데이터셋 페이지에서 '클릭 트레인 모델'을 클릭하세요
- 프로젝트를 선택하거나 새로 생성하세요
- 훈련 매개변수 구성
- 훈련 시작
자세한 내용은 클라우드 교육을 참조하십시오.
FAQ
데이터를 업로드한 후에는 어떻게 되나요?
귀하의 데이터는 선택한 지역(미국, 유럽연합 또는 AP)에서 처리 및 저장됩니다. 이미지는:
- 형식과 크기에 대해 검증됨
- 4096px보다 클 경우 정규화(종횡비 유지)
- SHA-256 해싱을 적용한 콘텐츠 주소 지정 저장소(CAS)를 사용하여 저장됨
- 빠른 탐색을 위해 256px 크기로 생성된 썸네일
- 귀하의 허락 없이는 절대 공유하지 않습니다
저장소는 어떻게 작동하나요?
Ultralytics 효율적인 저장을 위해 콘텐츠 주소 지정 저장소(CAS)를 사용합니다:
- 중복 제거: 서로 다른 사용자가 업로드한 동일한 이미지는 한 번만 저장됩니다.
- 무결성: SHA-256 해싱은 데이터 무결성을 보장합니다
- 효율성: 저장 비용을 절감하고 처리 속도를 높입니다.
- 지역: 데이터는 선택한 지역(미국, 유럽, AP)에 보관됩니다.
기존 데이터셋에 이미지를 추가할 수 있나요?
예, 데이터셋 페이지의 '이미지 추가' 버튼을 사용하여 추가 이미지를 업로드하세요. 새로운 통계는 자동으로 계산됩니다.
데이터셋 간에 이미지를 어떻게 이동하나요?
대량 선택 기능을 사용하세요:
- 갤러리에서 이미지를 선택하세요
- 이동 또는 복사 클릭
- 대상 데이터셋 선택
어떤 라벨 형식이 지원됩니까?
Ultralytics YOLO 레이블을 지원합니다:
- Detect:
class_id x_center y_center width height - Segment:
class_id x1 y1 x2 y2 ...(다각형 점) - 포즈:
class_id x_center y_center width height kp1_x kp1_y kp1_v ... - OBB:
class_id x1 y1 x2 y2 x3 y3 x4 y4
모든 좌표는 정규화됩니다(0-1 범위).