Meet YOLO26: next-gen vision AI.

Link to this section데이터셋 개요#

Ultralytics는 객체 탐지(detection), 인스턴스 세그멘테이션, 시맨틱 세그멘테이션(semantic segmentation), 포즈 추정(pose estimation), 분류(classification) 및 다중 객체 추적(multi-object tracking)과 같은 컴퓨터 비전 작업을 원활하게 수행할 수 있도록 다양한 데이터셋을 지원합니다. 아래는 주요 Ultralytics 데이터셋 목록이며, 각 컴퓨터 비전 작업과 관련 데이터셋에 대한 요약이 이어집니다.



Watch: Ultralytics Datasets Overview

Link to this section객체 탐지(Object Detection)#

바운딩 박스(Bounding box) 객체 탐지는 이미지 내 각 객체 주위에 바운딩 박스를 그려 객체를 탐지하고 위치를 파악하는 컴퓨터 비전 기술입니다.

  • African-wildlife: 버팔로, 코끼리, 코뿔소, 얼룩말 등 아프리카 야생 동물의 이미지를 포함하는 데이터셋입니다.
  • Argoverse: 풍부한 주석이 달린 도시 환경에서의 3D 추적 및 모션 예측 데이터를 포함하는 데이터셋입니다.
  • Brain-tumor: 종양의 존재 여부, 위치 및 특성에 대한 정보가 포함된 MRI 또는 CT 스캔 이미지를 통해 뇌종양을 탐지하기 위한 데이터셋입니다.
  • COCO: COCO(Common Objects in Context)는 80개 객체 카테고리를 포함하는 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다.
  • COCO8: 빠른 테스트를 위해 COCO 학습(train) 및 검증(val) 이미지에서 처음 4장씩을 추출한 작은 하위 집합입니다.
  • COCO8-Grayscale: RGB 이미지를 그레이스케일로 변환하여 생성한 COCO8의 그레이스케일 버전으로, 단일 채널 모델 평가에 유용합니다.
  • COCO8-Multispectral: RGB 파장을 보간하여 생성한 10채널 다중 분광 버전의 COCO8로, 스펙트럼 인지 모델 평가에 유용합니다.
  • COCO128: 테스트에 적합하도록 COCO train2017 이미지 중 처음 128장을 추출한 작은 하위 집합입니다.
  • Construction-PPE: 안전모, 조끼, 장갑, 부츠, 고글 등 주요 안전 장비가 주석으로 표시된 건설 현장 이미지 데이터셋이며, 누락된 장비에 대한 라벨을 포함하여 규정 준수 및 작업자 보호를 위한 AI 모델 개발을 지원합니다.
  • Global Wheat 2020: Global Wheat Challenge 2020을 위해 밀 이삭 이미지를 포함하는 데이터셋입니다.
  • HomeObjects-3K: 12개의 일반적인 가정용 아이템이 포함된 주석 달린 실내 장면 데이터셋으로, 스마트 홈 시스템, 로봇 공학 및 증강 현실 분야의 컴퓨터 비전 모델 개발과 테스트에 이상적입니다.
  • KITTI New: 스테레오, LiDAR 및 GPS/IMU 입력을 제공하는 잘 알려진 자율 주행 데이터셋으로, 다양한 도로 장면에서 2D 객체 탐지에 사용됩니다.
  • LVIS: 1203개의 객체 카테고리를 포함하는 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다.
  • Medical-pills: 의약품 품질 관리, 분류 및 산업 표준 준수 보장과 같은 작업에 도움을 주기 위해 설계된 의료용 알약 라벨링 이미지 데이터셋입니다.
  • Objects365: 365개의 객체 카테고리와 60만 장 이상의 주석이 달린 이미지를 포함하는 고품질 대규모 객체 탐지 데이터셋입니다.
  • OpenImagesV7: Google에서 제공하는 포괄적인 데이터셋으로, 170만 장의 학습 이미지와 4만 2천 장의 검증 이미지를 포함합니다.
  • RF100: 포괄적인 모델 평가를 위해 7개 이미지 도메인에 걸쳐 100개의 데이터셋으로 구성된 객체 탐지 벤치마크입니다.
  • Signature: 서명이 주석으로 달린 다양한 문서 이미지를 포함하는 데이터셋으로, 문서 검증 및 사기 탐지 연구를 지원합니다.
  • SKU-110K: 1만 1천 장 이상의 이미지와 170만 개의 바운딩 박스를 포함하는 소매 환경에서의 밀집 객체 탐지 데이터셋입니다.
  • VisDrone: 드론으로 촬영한 1만 장 이상의 이미지 및 비디오 시퀀스를 포함하는 객체 탐지 및 다중 객체 추적 데이터셋입니다.
  • VOC: 20개 객체 클래스와 1만 1천 장 이상의 이미지를 포함하는 객체 탐지 및 세그멘테이션용 Pascal Visual Object Classes(VOC) 데이터셋입니다.
  • xView: 60개 객체 카테고리와 100만 개 이상의 주석이 달린 객체를 포함하는 항공 이미지 객체 탐지 데이터셋입니다.

Link to this section인스턴스 세그멘테이션(Instance Segmentation)#

인스턴스 세그멘테이션은 이미지 내 객체를 픽셀 단위로 식별하고 위치를 파악하는 컴퓨터 비전 기술입니다. 각 픽셀을 단순히 분류하기만 하는 시맨틱 세그멘테이션과 달리, 인스턴스 세그멘테이션은 동일 클래스의 서로 다른 개체를 구별합니다.

  • Carparts-seg: 차량 부품 식별을 위해 특별히 제작된 데이터셋으로, 설계, 제조 및 연구 목적에 적합합니다. 객체 탐지와 세그멘테이션 작업 모두에 사용할 수 있습니다.
  • COCO: 20만 장 이상의 라벨링된 이미지를 포함하며 객체 탐지, 세그멘테이션 및 캡셔닝 작업을 위해 설계된 대규모 데이터셋입니다.
  • COCO8-seg: 세그멘테이션 주석이 포함된 8장의 COCO 이미지 하위 집합으로 구성된 인스턴스 세그멘테이션 작업용 소규모 데이터셋입니다.
  • COCO128-seg: 세그멘테이션 주석이 포함된 128장의 COCO 이미지 하위 집합으로 구성된 인스턴스 세그멘테이션 작업용 소규모 데이터셋입니다.
  • Crack-seg: 도로와 벽의 균열을 탐지하기 위해 특별히 제작된 데이터셋으로, 객체 탐지와 세그멘테이션 작업 모두에 적용 가능합니다.
  • Package-seg: 창고나 산업 현장에서 패키지를 식별하기 위해 맞춤 제작된 데이터셋으로, 객체 탐지와 세그멘테이션 애플리케이션 모두에 적합합니다.

Link to this section시맨틱 세그멘테이션(Semantic Segmentation)#

시맨틱 세그멘테이션은 이미지의 모든 픽셀에 클래스 라벨을 할당하여 자율 주행, 장면 파싱(scene parsing) 및 토지 피복 매핑과 같은 애플리케이션을 위한 조밀한 장면 맵을 생성합니다.

  • Cityscapes: 19개 학습 클래스를 포함하는 도시 거리 장면 시맨틱 세그멘테이션 데이터셋입니다.
  • Cityscapes8: 빠른 시맨틱 세그멘테이션 파이프라인 확인을 위한 8장의 이미지로 구성된 소형 Cityscapes 하위 집합입니다.
  • ADE20K: 150개의 시맨틱 클래스를 포함하는 장면 파싱 데이터셋입니다.

Link to this section포즈 추정(Pose Estimation)#

포즈 추정은 카메라나 세계 좌표계를 기준으로 객체의 자세를 결정하는 데 사용되는 기술입니다. 여기에는 특히 인간이나 동물의 주요 지점 또는 관절을 식별하는 작업이 포함됩니다.

  • COCO: 포즈 추정 작업을 위해 설계된 인간 포즈 주석이 포함된 대규모 데이터셋입니다.
  • COCO8-pose: 인간 포즈 주석이 포함된 8장의 COCO 이미지 하위 집합으로 구성된 포즈 추정 작업용 소규모 데이터셋입니다.
  • Dog-pose: 개를 중심으로 약 8,500장의 이미지를 포함하며, 개 한 마리당 24개의 주요 지점이 주석으로 달려 있는 포즈 추정 작업 맞춤형 데이터셋입니다.
  • Hand-Keypoints: 사람의 손을 중심으로 2만 6천 장 이상의 이미지를 포함하며, 손 하나당 21개의 주요 지점이 주석으로 달려 있는 포즈 추정 작업용 데이터셋입니다.
  • Tiger-pose: 호랑이를 중심으로 263장의 이미지를 포함하며, 포즈 추정 작업을 위해 호랑이 한 마리당 12개의 주요 지점이 주석으로 달려 있는 소형 데이터셋입니다.

Link to this section분류(Classification)#

이미지 분류(Image classification)는 이미지의 시각적 콘텐츠를 기반으로 미리 정의된 하나 이상의 클래스나 카테고리로 이미지를 분류하는 컴퓨터 비전 작업입니다.

  • Caltech 101: 이미지 분류 작업을 위한 101개 객체 카테고리의 이미지를 포함하는 데이터셋입니다.
  • Caltech 256: Caltech 101의 확장 버전으로, 256개의 객체 카테고리와 더 도전적인 이미지를 포함합니다.
  • CIFAR-10: 10개 클래스에 6만 장의 32x32 컬러 이미지가 포함된 데이터셋으로, 클래스당 6천 장의 이미지가 들어 있습니다.
  • CIFAR-100: CIFAR-10의 확장 버전으로, 100개의 객체 카테고리와 클래스당 600장의 이미지를 포함합니다.
  • Fashion-MNIST: 이미지 분류 작업을 위해 10개 패션 카테고리에 속하는 7만 장의 그레이스케일 이미지로 구성된 데이터셋입니다.
  • ImageNet: 1,400만 장 이상의 이미지와 2만 개의 카테고리를 포함하는 객체 탐지 및 이미지 분류용 대규모 데이터셋입니다.
  • ImageNet-10: 보다 빠른 실험과 테스트를 위해 10개 카테고리로 구성된 ImageNet의 작은 하위 집합입니다.
  • Imagenette: 더 빠른 학습과 테스트를 위해 쉽게 구별 가능한 10개 클래스를 포함하는 ImageNet의 작은 하위 집합입니다.
  • Imagewoof: 이미지 분류 작업을 위해 10개 개 품종 카테고리를 포함하는 ImageNet의 더 까다로운 하위 집합입니다.
  • MNIST: 이미지 분류 작업을 위해 손글씨 숫자 7만 장의 그레이스케일 이미지를 포함하는 데이터셋입니다.
  • MNIST160: MNIST 학습 및 테스트 분할 데이터에서 각 숫자(0-9)당 처음 8장씩을 추출했습니다. 전체 데이터셋은 총 160장의 이미지를 포함합니다.

Link to this section회전 바운딩 박스(Oriented Bounding Boxes, OBB)#

회전 바운딩 박스(OBB)는 항공 및 위성 이미지에 주로 적용되는 기술로, 회전된 바운딩 박스를 사용하여 이미지 내 기울어진 객체를 탐지하는 컴퓨터 비전 방법입니다. 기존 바운딩 박스와 달리 OBB는 다양한 방향의 객체에 더 잘 맞출 수 있습니다.

  • DOTA-v2: 170만 개의 인스턴스와 11,268장의 이미지를 포함하는 인기 있는 OBB 항공 이미지 데이터셋입니다.
  • DOTA8: 빠른 테스트를 위해 DOTAv1 분할 세트에서 처음 8장(학습용 4장, 검증용 4장)을 추출한 작은 하위 집합입니다.
  • DOTA128: OBB 모델 테스트를 위한 크기와 다양성 간의 균형을 제공하며, 학습 및 검증용 128장의 이미지로 구성된 DOTA 데이터셋의 하위 집합입니다.

Link to this section다중 객체 추적(Multi-Object Tracking)#

다중 객체 추적은 비디오 시퀀스에서 시간의 흐름에 따라 여러 객체를 탐지하고 추적하는 컴퓨터 비전 기술입니다. 이 작업은 프레임 전반에 걸쳐 객체의 일관된 신원을 유지함으로써 객체 탐지를 확장합니다.

  • Argoverse: 다중 객체 추적 작업을 위해 풍부한 주석이 달린 도시 환경에서의 3D 추적 및 모션 예측 데이터를 포함하는 데이터셋입니다.
  • VisDrone: 드론으로 촬영한 1만 장 이상의 이미지 및 비디오 시퀀스를 포함하는 객체 탐지 및 다중 객체 추적 데이터셋입니다.

Link to this section새로운 데이터셋 기여하기#

새로운 데이터셋을 기여하려면 기존 인프라와 잘 통합되도록 몇 가지 단계를 거쳐야 합니다. 필요한 단계는 다음과 같습니다.



Watch: How to Contribute to Ultralytics Datasets

Link to this section새로운 데이터셋 기여 절차#

  1. 이미지 수집: 데이터셋에 속할 이미지를 수집합니다. 공공 데이터베이스나 직접 수집한 자료 등 다양한 출처에서 가져올 수 있습니다.

  2. 이미지 주석 달기: 작업에 따라 바운딩 박스, 세그먼트 또는 주요 지점(keypoints)으로 이미지에 주석을 답니다.

  3. 주석 내보내기: 이러한 주석을 Ultralytics가 지원하는 YOLO *.txt 파일 형식으로 변환합니다.

  4. 데이터셋 구성: 데이터셋을 올바른 폴더 구조로 정리합니다. 최상위 디렉토리에 images/labels/를 두고, 각각 그 내부에 train/val/ 하위 디렉토리를 생성해야 합니다.

    dataset/
    ├── images/
    │   ├── train/
    │   └── val/
    └── labels/
        ├── train/
        └── val/
  5. data.yaml 파일 생성: 데이터셋 루트 디렉토리에 데이터셋, 클래스 및 기타 필요한 정보를 설명하는 data.yaml 파일을 만듭니다.

  6. 이미지 최적화(선택 사항): 더 효율적인 처리를 위해 데이터셋 크기를 줄이고 싶다면 아래 코드를 사용하여 이미지를 최적화할 수 있습니다. 필수는 아니지만, 데이터셋 크기가 작고 다운로드 속도를 높이기 위해 권장됩니다.

  7. 데이터셋 압축(Zip): 전체 데이터셋 폴더를 zip 파일로 압축합니다.

  8. 문서화 및 PR: 데이터셋을 설명하고 기존 프레임워크와 어떻게 통합되는지 보여주는 문서 페이지를 만듭니다. 그 후 Pull Request(PR)를 제출하십시오. PR 제출 방법에 대한 자세한 내용은 Ultralytics 기여 가이드라인을 참조하십시오.

Link to this section데이터셋 최적화 및 압축 예제 코드#

데이터셋 최적화 및 압축
   from pathlib import Path

   from ultralytics.data.utils import compress_one_image
   from ultralytics.utils.downloads import zip_directory

   # Define dataset directory
   path = Path("path/to/dataset")

   # Optimize images in dataset (optional)
   for f in path.rglob("*.jpg"):
       compress_one_image(f)

   # Zip dataset into 'path/to/dataset.zip'
   zip_directory(path)

이 단계를 따르면 Ultralytics의 기존 구조와 잘 통합되는 새로운 데이터셋을 기여할 수 있습니다.

Link to this sectionFAQ#

Link to this sectionUltralytics는 객체 탐지를 위해 어떤 데이터셋을 지원합니까?#

Ultralytics는 다음과 같은 다양한 객체 탐지 데이터셋을 지원합니다:

  • COCO: 80개의 객체 카테고리를 포함하는 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다.
  • LVIS: 더 세밀한 객체 탐지 및 세그멘테이션을 위해 설계된 1203개의 객체 카테고리를 포함하는 방대한 데이터셋입니다.
  • Argoverse: 풍부한 주석이 달린 도시 환경에서의 3D 추적 및 모션 예측 데이터를 포함하는 데이터셋입니다.
  • VisDrone: 드론으로 촬영한 이미지에서 객체 탐지 및 다중 객체 추적 데이터를 포함하는 데이터셋입니다.
  • SKU-110K: 1만 1천 장 이상의 이미지를 포함하며 소매 환경에서의 밀집 객체 탐지를 제공합니다.

이러한 데이터셋은 다양한 객체 탐지 애플리케이션을 위한 강력한 Ultralytics YOLO 모델 학습을 원활하게 합니다.

Link to this sectionUltralytics에 새로운 데이터셋을 어떻게 기여합니까?#

새로운 데이터셋을 기여하는 데는 몇 가지 단계가 필요합니다:

  1. 이미지 수집: 공공 데이터베이스나 개인 컬렉션에서 이미지를 수집합니다.
  2. 이미지 주석 달기: 작업에 따라 바운딩 박스, 세그먼트 또는 주요 지점을 적용합니다.
  3. 주석 내보내기: 주석을 YOLO *.txt 형식으로 변환합니다.
  4. Organize Dataset: Use the folder structure with train/ and val/ directories, each containing images/ and labels/ subdirectories.
  5. data.yaml 파일 생성: 데이터셋 설명, 클래스 및 기타 관련 정보를 포함합니다.
  6. 이미지 최적화(선택 사항): 효율성을 위해 데이터셋 크기를 줄입니다.
  7. 데이터셋 압축(Zip): 데이터셋을 zip 파일로 압축합니다.
  8. 문서화 및 PR: 데이터셋을 설명하고 Ultralytics 기여 가이드라인에 따라 Pull Request를 제출합니다.

포괄적인 가이드는 새로운 데이터셋 기여하기를 방문하십시오.

Link to this section데이터셋에 Ultralytics 플랫폼을 사용해야 하는 이유는 무엇입니까?#

Ultralytics Platform은 다음과 같은 데이터셋 관리 및 분석을 위한 강력한 기능을 제공합니다:

  • 원활한 데이터셋 관리: 데이터셋을 한 곳에서 업로드, 구성 및 관리할 수 있습니다.
  • 즉각적인 학습 통합: 추가 설정 없이 업로드된 데이터셋을 모델 학습에 직접 사용할 수 있습니다.
  • 시각화 도구: 데이터셋 이미지와 주석(annotation)을 탐색하고 시각화할 수 있습니다.
  • 데이터셋 분석: 데이터셋 분포와 특성에 대한 인사이트를 얻을 수 있습니다.

이 플랫폼은 데이터셋 관리에서 모델 학습으로의 전환을 간소화하여 전체 프로세스를 더욱 효율적으로 만듭니다. Ultralytics Platform Datasets에 대해 더 알아보십시오.

Link to this section컴퓨터 비전을 위한 Ultralytics YOLO 모델의 독특한 기능은 무엇입니까?#

Ultralytics YOLO 모델은 컴퓨터 비전 작업을 위한 몇 가지 고유한 기능을 제공합니다:

  • 실시간 성능: 시간이 중요한 애플리케이션을 위한 고속 추론 및 학습 기능을 제공합니다.
  • 범용성: 단일 프레임워크 내에서 객체 탐지(detection), 인스턴스 세그멘테이션(instance segmentation), 의미론적 세그멘테이션(semantic segmentation), 분류(classification) 및 자세 추정(pose estimation) 작업을 지원합니다.
  • 사전 학습된 모델: 다양한 애플리케이션을 위해 성능이 뛰어난 사전 학습 모델에 액세스하여 학습 시간을 단축할 수 있습니다.
  • 광범위한 커뮤니티 지원: 문제 해결 및 개발을 위한 활발한 커뮤니티와 포괄적인 문서를 제공합니다.
  • 쉬운 통합: 기존 프로젝트 및 워크플로우와 통합하기 위한 간편한 API를 제공합니다.

YOLO 모델에 대한 자세한 내용은 Ultralytics Models 페이지에서 확인하십시오.

Link to this sectionUltralytics 도구를 사용하여 데이터셋을 최적화하고 압축(zip)하려면 어떻게 해야 합니까?#

Ultralytics 도구를 사용하여 데이터셋을 최적화하고 압축하려면 다음 예제 코드를 따르십시오:

데이터셋 최적화 및 압축
from pathlib import Path

from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory

# Define dataset directory
path = Path("path/to/dataset")

# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
    compress_one_image(f)

# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)

이 프로세스는 더 효율적인 저장과 빠른 다운로드 속도를 위해 데이터셋 크기를 줄이는 데 도움이 됩니다. 데이터셋 최적화 및 압축 방법에 대해 더 알아보십시오.

댓글