Meet YOLO26: next-gen vision AI.

Link to this section데이터셋 개요#

Ultralytics는 객체 탐지(detection), 인스턴스 세그멘테이션, 시맨틱 세그멘테이션(semantic segmentation), 포즈 추정(pose estimation), 분류(classification) 및 다중 객체 추적(multi-object tracking)과 같은 컴퓨터 비전 작업을 원활하게 수행할 수 있도록 다양한 데이터셋을 지원합니다. 아래는 주요 Ultralytics 데이터셋 목록이며, 각 컴퓨터 비전 작업과 관련 데이터셋에 대한 요약이 이어집니다.



Watch: Ultralytics Datasets Overview

Link to this section객체 탐지(Object Detection)#

바운딩 박스(Bounding box) 객체 탐지는 이미지 내 각 객체 주위에 바운딩 박스를 그려 객체를 탐지하고 위치를 파악하는 컴퓨터 비전 기술입니다.

  • African-wildlife: 버팔로, 코끼리, 코뿔소, 얼룩말 등 아프리카 야생 동물의 이미지를 포함하는 데이터셋입니다.
  • Argoverse: 풍부한 주석이 달린 도시 환경에서의 3D 추적 및 모션 예측 데이터를 포함하는 데이터셋입니다.
  • Brain-tumor: 종양의 존재 여부, 위치 및 특성에 대한 정보가 포함된 MRI 또는 CT 스캔 이미지를 통해 뇌종양을 탐지하기 위한 데이터셋입니다.
  • COCO: COCO(Common Objects in Context)는 80개 객체 카테고리를 포함하는 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다.
  • COCO8: 빠른 테스트를 위해 COCO 학습(train) 및 검증(val) 이미지에서 처음 4장씩을 추출한 작은 하위 집합입니다.
  • COCO8-Grayscale: RGB 이미지를 그레이스케일로 변환하여 생성한 COCO8의 그레이스케일 버전으로, 단일 채널 모델 평가에 유용합니다.
  • COCO8-Multispectral: RGB 파장을 보간하여 생성한 10채널 다중 분광 버전의 COCO8로, 스펙트럼 인지 모델 평가에 유용합니다.
  • COCO128: 테스트에 적합하도록 COCO train2017 이미지 중 처음 128장을 추출한 작은 하위 집합입니다.
  • Construction-PPE: 안전모, 조끼, 장갑, 부츠, 고글 등 주요 안전 장비가 주석으로 표시된 건설 현장 이미지 데이터셋이며, 누락된 장비에 대한 라벨을 포함하여 규정 준수 및 작업자 보호를 위한 AI 모델 개발을 지원합니다.
  • Global Wheat 2020: Global Wheat Challenge 2020을 위해 밀 이삭 이미지를 포함하는 데이터셋입니다.
  • HomeObjects-3K: 12개의 일반적인 가정용 아이템이 포함된 주석 달린 실내 장면 데이터셋으로, 스마트 홈 시스템, 로봇 공학 및 증강 현실 분야의 컴퓨터 비전 모델 개발과 테스트에 이상적입니다.
  • KITTI New: 스테레오, LiDAR 및 GPS/IMU 입력을 제공하는 잘 알려진 자율 주행 데이터셋으로, 다양한 도로 장면에서 2D 객체 탐지에 사용됩니다.
  • LVIS: 1203개의 객체 카테고리를 포함하는 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다.
  • Medical-pills: 의약품 품질 관리, 분류 및 산업 표준 준수 보장과 같은 작업에 도움을 주기 위해 설계된 의료용 알약 라벨링 이미지 데이터셋입니다.
  • Objects365: 365개의 객체 카테고리와 60만 장 이상의 주석이 달린 이미지를 포함하는 고품질 대규모 객체 탐지 데이터셋입니다.
  • OpenImagesV7: Google에서 제공하는 포괄적인 데이터셋으로, 170만 장의 학습 이미지와 4만 2천 장의 검증 이미지를 포함합니다.
  • RF100: 포괄적인 모델 평가를 위해 7개 이미지 도메인에 걸쳐 100개의 데이터셋으로 구성된 객체 탐지 벤치마크입니다.
  • Signature: 서명이 주석으로 달린 다양한 문서 이미지를 포함하는 데이터셋으로, 문서 검증 및 사기 탐지 연구를 지원합니다.
  • SKU-110K: 1만 1천 장 이상의 이미지와 170만 개의 바운딩 박스를 포함하는 소매 환경에서의 밀집 객체 탐지 데이터셋입니다.
  • VisDrone: 드론으로 촬영한 1만 장 이상의 이미지 및 비디오 시퀀스를 포함하는 객체 탐지 및 다중 객체 추적 데이터셋입니다.
  • VOC: 20개 객체 클래스와 1만 1천 장 이상의 이미지를 포함하는 객체 탐지 및 세그멘테이션용 Pascal Visual Object Classes(VOC) 데이터셋입니다.
  • xView: 60개 객체 카테고리와 100만 개 이상의 주석이 달린 객체를 포함하는 항공 이미지 객체 탐지 데이터셋입니다.

Link to this section인스턴스 세그멘테이션(Instance Segmentation)#

인스턴스 세그멘테이션은 이미지 내 객체를 픽셀 단위로 식별하고 위치를 파악하는 컴퓨터 비전 기술입니다. 각 픽셀을 단순히 분류하기만 하는 시맨틱 세그멘테이션과 달리, 인스턴스 세그멘테이션은 동일 클래스의 서로 다른 개체를 구별합니다.

  • Carparts-seg: 차량 부품 식별을 위해 특별히 제작된 데이터셋으로, 설계, 제조 및 연구 목적에 적합합니다. 객체 탐지와 세그멘테이션 작업 모두에 사용할 수 있습니다.
  • COCO: 20만 장 이상의 라벨링된 이미지를 포함하며 객체 탐지, 세그멘테이션 및 캡셔닝 작업을 위해 설계된 대규모 데이터셋입니다.
  • COCO8-seg: 세그멘테이션 주석이 포함된 8장의 COCO 이미지 하위 집합으로 구성된 인스턴스 세그멘테이션 작업용 소규모 데이터셋입니다.
  • COCO128-seg: 세그멘테이션 주석이 포함된 128장의 COCO 이미지 하위 집합으로 구성된 인스턴스 세그멘테이션 작업용 소규모 데이터셋입니다.
  • Crack-seg: 도로와 벽의 균열을 탐지하기 위해 특별히 제작된 데이터셋으로, 객체 탐지와 세그멘테이션 작업 모두에 적용 가능합니다.
  • Package-seg: 창고나 산업 현장에서 패키지를 식별하기 위해 맞춤 제작된 데이터셋으로, 객체 탐지와 세그멘테이션 애플리케이션 모두에 적합합니다.

Link to this section시맨틱 세그멘테이션(Semantic Segmentation)#

시맨틱 세그멘테이션은 이미지의 모든 픽셀에 클래스 라벨을 할당하여 자율 주행, 장면 파싱(scene parsing) 및 토지 피복 매핑과 같은 애플리케이션을 위한 조밀한 장면 맵을 생성합니다.

  • Cityscapes: 19개 학습 클래스를 포함하는 도시 거리 장면 시맨틱 세그멘테이션 데이터셋입니다.
  • Cityscapes8: 빠른 시맨틱 세그멘테이션 파이프라인 확인을 위한 8장의 이미지로 구성된 소형 Cityscapes 하위 집합입니다.
  • ADE20K: 150개의 시맨틱 클래스를 포함하는 장면 파싱 데이터셋입니다.

Link to this section포즈 추정(Pose Estimation)#

포즈 추정은 카메라나 세계 좌표계를 기준으로 객체의 자세를 결정하는 데 사용되는 기술입니다. 여기에는 특히 인간이나 동물의 주요 지점 또는 관절을 식별하는 작업이 포함됩니다.

  • COCO: 포즈 추정 작업을 위해 설계된 인간 포즈 주석이 포함된 대규모 데이터셋입니다.
  • COCO8-pose: 인간 포즈 주석이 포함된 8장의 COCO 이미지 하위 집합으로 구성된 포즈 추정 작업용 소규모 데이터셋입니다.
  • Dog-pose: 개를 중심으로 약 8,500장의 이미지를 포함하며, 개 한 마리당 24개의 주요 지점이 주석으로 달려 있는 포즈 추정 작업 맞춤형 데이터셋입니다.
  • Hand-Keypoints: 사람의 손을 중심으로 2만 6천 장 이상의 이미지를 포함하며, 손 하나당 21개의 주요 지점이 주석으로 달려 있는 포즈 추정 작업용 데이터셋입니다.
  • Tiger-pose: 호랑이를 중심으로 263장의 이미지를 포함하며, 포즈 추정 작업을 위해 호랑이 한 마리당 12개의 주요 지점이 주석으로 달려 있는 소형 데이터셋입니다.

Link to this section분류(Classification)#

이미지 분류(Image classification)는 이미지의 시각적 콘텐츠를 기반으로 미리 정의된 하나 이상의 클래스나 카테고리로 이미지를 분류하는 컴퓨터 비전 작업입니다.

  • Caltech 101: 이미지 분류 작업을 위한 101개 객체 카테고리의 이미지를 포함하는 데이터셋입니다.
  • Caltech 256: Caltech 101의 확장 버전으로, 256개의 객체 카테고리와 더 도전적인 이미지를 포함합니다.
  • CIFAR-10: 10개 클래스에 6만 장의 32x32 컬러 이미지가 포함된 데이터셋으로, 클래스당 6천 장의 이미지가 들어 있습니다.
  • CIFAR-100: CIFAR-10의 확장 버전으로, 100개의 객체 카테고리와 클래스당 600장의 이미지를 포함합니다.
  • Fashion-MNIST: 이미지 분류 작업을 위해 10개 패션 카테고리에 속하는 7만 장의 그레이스케일 이미지로 구성된 데이터셋입니다.
  • ImageNet: 1,400만 장 이상의 이미지와 2만 개의 카테고리를 포함하는 객체 탐지 및 이미지 분류용 대규모 데이터셋입니다.
  • ImageNet-10: 보다 빠른 실험과 테스트를 위해 10개 카테고리로 구성된 ImageNet의 작은 하위 집합입니다.
  • Imagenette: 더 빠른 학습과 테스트를 위해 쉽게 구별 가능한 10개 클래스를 포함하는 ImageNet의 작은 하위 집합입니다.
  • Imagewoof: 이미지 분류 작업을 위해 10개 개 품종 카테고리를 포함하는 ImageNet의 더 까다로운 하위 집합입니다.
  • MNIST: 이미지 분류 작업을 위해 손글씨 숫자 7만 장의 그레이스케일 이미지를 포함하는 데이터셋입니다.
  • MNIST160: MNIST 학습 및 테스트 분할 데이터에서 각 숫자(0-9)당 처음 8장씩을 추출했습니다. 전체 데이터셋은 총 160장의 이미지를 포함합니다.

Link to this section회전 바운딩 박스(Oriented Bounding Boxes, OBB)#

회전 바운딩 박스(OBB)는 항공 및 위성 이미지에 주로 적용되는 기술로, 회전된 바운딩 박스를 사용하여 이미지 내 기울어진 객체를 탐지하는 컴퓨터 비전 방법입니다. 기존 바운딩 박스와 달리 OBB는 다양한 방향의 객체에 더 잘 맞출 수 있습니다.

  • DOTA-v2: 170만 개의 인스턴스와 11,268장의 이미지를 포함하는 인기 있는 OBB 항공 이미지 데이터셋입니다.
  • DOTA8: 빠른 테스트를 위해 DOTAv1 분할 세트에서 처음 8장(학습용 4장, 검증용 4장)을 추출한 작은 하위 집합입니다.
  • DOTA128: OBB 모델 테스트를 위한 크기와 다양성 간의 균형을 제공하며, 학습 및 검증용 128장의 이미지로 구성된 DOTA 데이터셋의 하위 집합입니다.

Link to this section다중 객체 추적(Multi-Object Tracking)#

다중 객체 추적은 비디오 시퀀스에서 시간의 흐름에 따라 여러 객체를 탐지하고 추적하는 컴퓨터 비전 기술입니다. 이 작업은 프레임 전반에 걸쳐 객체의 일관된 신원을 유지함으로써 객체 탐지를 확장합니다.

  • Argoverse: 다중 객체 추적 작업을 위해 풍부한 주석이 달린 도시 환경에서의 3D 추적 및 모션 예측 데이터를 포함하는 데이터셋입니다.
  • VisDrone: 드론으로 촬영한 1만 장 이상의 이미지 및 비디오 시퀀스를 포함하는 객체 탐지 및 다중 객체 추적 데이터셋입니다.

Link to this section새로운 데이터셋 기여하기#

새로운 데이터셋을 기여하려면 기존 인프라와 잘 통합되도록 몇 가지 단계를 거쳐야 합니다. 필요한 단계는 다음과 같습니다.



Watch: How to Contribute to Ultralytics Datasets

Link to this section새로운 데이터셋 기여 절차#

  1. 이미지 수집: 데이터셋에 속할 이미지를 수집합니다. 공공 데이터베이스나 직접 수집한 자료 등 다양한 출처에서 가져올 수 있습니다.

  2. 이미지 주석 달기: 작업에 따라 바운딩 박스, 세그먼트 또는 주요 지점(keypoints)으로 이미지에 주석을 답니다.

  3. 주석 내보내기: 이러한 주석을 Ultralytics가 지원하는 YOLO *.txt 파일 형식으로 변환합니다.

  4. 데이터셋 구성: 데이터셋을 올바른 폴더 구조로 정리합니다. 최상위 디렉토리에 images/labels/를 두고, 각각 그 내부에 train/val/ 하위 디렉토리를 생성해야 합니다.

    dataset/
    ├── images/
    │   ├── train/
    │   └── val/
    └── labels/
        ├── train/
        └── val/
  5. data.yaml 파일 생성: 데이터셋 루트 디렉토리에 데이터셋, 클래스 및 기타 필요한 정보를 설명하는 data.yaml 파일을 만듭니다.

  6. 이미지 최적화(선택 사항): 더 효율적인 처리를 위해 데이터셋 크기를 줄이고 싶다면 아래 코드를 사용하여 이미지를 최적화할 수 있습니다. 필수는 아니지만, 데이터셋 크기가 작고 다운로드 속도를 높이기 위해 권장됩니다.

  7. 데이터셋 압축(Zip): 전체 데이터셋 폴더를 zip 파일로 압축합니다.

  8. 문서화 및 PR: 데이터셋과 기존 프레임워크와의 연관성을 설명하는 문서 페이지를 작성하십시오. 작성 후 Pull Request(PR)를 제출하십시오. PR 제출 방법에 대한 자세한 내용은 Ultralytics Contribution Guidelines를 참조하십시오.

Link to this section데이터셋 최적화 및 압축 예제 코드#

데이터셋 최적화 및 압축
   from pathlib import Path

   from ultralytics.data.utils import compress_one_image
   from ultralytics.utils.downloads import zip_directory

   # Define dataset directory
   path = Path("path/to/dataset")

   # Optimize images in dataset (optional)
   for f in path.rglob("*.jpg"):
       compress_one_image(f)

   # Zip dataset into 'path/to/dataset.zip'
   zip_directory(path)

이 단계를 따르면 Ultralytics의 기존 구조와 잘 통합되는 새로운 데이터셋을 기여할 수 있습니다.

Link to this sectionFAQ#

Link to this sectionUltralytics는 객체 탐지를 위해 어떤 데이터셋을 지원합니까?#

Ultralytics는 다음과 같은 다양한 객체 탐지 데이터셋을 지원합니다:

  • COCO: 80개의 객체 카테고리를 포함하는 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다.
  • LVIS: 더 세밀한 객체 탐지 및 세그멘테이션을 위해 설계된 1203개의 객체 카테고리를 포함하는 방대한 데이터셋입니다.
  • Argoverse: 풍부한 주석이 달린 도시 환경에서의 3D 추적 및 모션 예측 데이터를 포함하는 데이터셋입니다.
  • VisDrone: 드론으로 촬영한 이미지에서 객체 탐지 및 다중 객체 추적 데이터를 포함하는 데이터셋입니다.
  • SKU-110K: 1만 1천 장 이상의 이미지를 포함하며 소매 환경에서의 밀집 객체 탐지를 제공합니다.

이러한 데이터셋은 다양한 객체 탐지 애플리케이션을 위한 강력한 Ultralytics YOLO 모델 학습을 지원합니다.

Link to this sectionUltralytics에 새로운 데이터셋을 어떻게 기여합니까?#

새로운 데이터셋을 기여하는 데는 몇 가지 단계가 필요합니다:

  1. 이미지 수집: 공공 데이터베이스나 개인 컬렉션에서 이미지를 수집합니다.
  2. 이미지 주석 달기: 작업에 따라 바운딩 박스, 세그먼트 또는 주요 지점을 적용합니다.
  3. 주석 내보내기: 주석을 YOLO *.txt 형식으로 변환합니다.
  4. 데이터셋 구성: train/val/ 디렉터리가 포함된 폴더 구조를 사용하며, 각 디렉터리 내에는 images/labels/ 하위 디렉터리가 있어야 합니다.
  5. data.yaml 파일 생성: 데이터셋 설명, 클래스 및 기타 관련 정보를 포함합니다.
  6. 이미지 최적화(선택 사항): 효율성을 위해 데이터셋 크기를 줄입니다.
  7. 데이터셋 압축(Zip): 데이터셋을 zip 파일로 압축합니다.
  8. 문서화 및 PR: 데이터셋을 설명하고 Ultralytics Contribution Guidelines에 따라 Pull Request를 제출하십시오.

포괄적인 가이드는 새로운 데이터셋 기여하기를 방문하십시오.

Link to this section데이터셋에 Ultralytics 플랫폼을 사용해야 하는 이유는 무엇입니까?#

Ultralytics Platform은 다음과 같은 데이터셋 관리 및 분석을 위한 강력한 기능을 제공합니다:

  • 원활한 데이터셋 관리: 데이터셋을 한 곳에서 업로드, 구성 및 관리할 수 있습니다.
  • 즉각적인 학습 통합: 추가 설정 없이 업로드된 데이터셋을 모델 학습에 직접 사용할 수 있습니다.
  • 시각화 도구: 데이터셋 이미지와 주석(annotation)을 탐색하고 시각화할 수 있습니다.
  • 데이터셋 분석: 데이터셋 분포와 특성에 대한 인사이트를 얻을 수 있습니다.

이 플랫폼은 데이터셋 관리에서 모델 학습으로의 전환을 간소화하여 전체 프로세스를 더욱 효율적으로 만듭니다. Ultralytics Platform Datasets에 대해 자세히 알아보십시오.

Link to this section컴퓨터 비전을 위한 Ultralytics YOLO 모델의 독특한 기능은 무엇입니까?#

Ultralytics YOLO 모델은 컴퓨터 비전 작업을 위한 몇 가지 고유한 기능을 제공합니다:

  • 실시간 성능: 시간이 중요한 애플리케이션을 위한 고속 추론 및 학습 기능을 제공합니다.
  • 범용성: 단일 프레임워크 내에서 객체 탐지(detection), 인스턴스 세그멘테이션(instance segmentation), 의미론적 세그멘테이션(semantic segmentation), 분류(classification) 및 자세 추정(pose estimation) 작업을 지원합니다.
  • 사전 학습된 모델: 다양한 애플리케이션을 위해 성능이 뛰어난 사전 학습 모델에 액세스하여 학습 시간을 단축할 수 있습니다.
  • 광범위한 커뮤니티 지원: 문제 해결 및 개발을 위한 활발한 커뮤니티와 포괄적인 문서를 제공합니다.
  • 쉬운 통합: 기존 프로젝트 및 워크플로우와 통합하기 위한 간편한 API를 제공합니다.

Ultralytics Models 페이지에서 YOLO 모델에 대해 더 자세히 알아보십시오.

Link to this sectionUltralytics 도구를 사용하여 데이터셋을 최적화하고 압축(zip)하려면 어떻게 해야 합니까?#

Ultralytics 도구를 사용하여 데이터셋을 최적화하고 압축하려면 다음 예제 코드를 따르십시오:

데이터셋 최적화 및 압축
from pathlib import Path

from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory

# Define dataset directory
path = Path("path/to/dataset")

# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
    compress_one_image(f)

# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)

이 프로세스는 더 효율적인 저장과 빠른 다운로드 속도를 위해 데이터셋 크기를 줄이는 데 도움이 됩니다. 데이터셋 최적화 및 압축 방법에 대해 더 알아보십시오.

댓글