COCO 데이터셋

COCO (Common Objects in Context) 데이터셋은 대규모 객체 탐지, 세그멘테이션 및 캡셔닝 데이터셋입니다. 이 데이터셋은 다양한 객체 카테고리에 대한 연구를 장려하기 위해 설계되었으며, 컴퓨터 비전 모델을 벤치마킹하는 데 흔히 사용됩니다. 객체 탐지, 세그멘테이션 및 포즈 추정 작업을 수행하는 연구자와 개발자에게 필수적인 데이터셋입니다.



Watch: Ultralytics COCO Dataset Overview

COCO 사전 학습된 모델

모델크기
(픽셀)
mAPval
50-95
mAPval
50-95(e2e)
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

주요 특징

  • COCO는 33만 장의 이미지를 포함하며, 그중 20만 장에는 객체 탐지, 세그멘테이션 및 캡셔닝 작업을 위한 주석이 달려 있습니다.
  • 이 데이터셋은 자동차, 자전거, 동물과 같은 일반적인 객체부터 우산, 핸드백, 스포츠 장비와 같은 보다 구체적인 카테고리를 포함한 80개의 객체 카테고리로 구성됩니다.
  • 주석에는 각 이미지에 대한 객체 경계 상자(BBox), 세그멘테이션 마스크 및 캡션이 포함되어 있습니다.
  • COCO는 객체 탐지를 위한 mean Average Precision(mAP) 및 세그멘테이션 작업을 위한 mean Average Recall(mAR)과 같은 표준화된 평가 지표를 제공하여 모델 성능을 비교하는 데 적합합니다.

데이터셋 구조

COCO 데이터셋은 세 가지 하위 집합으로 나뉩니다:

  1. Train2017: 이 하위 집합은 객체 탐지, 세그멘테이션 및 캡셔닝 모델을 학습하기 위한 11만 8천 장의 이미지를 포함합니다.
  2. Val2017: 이 하위 집합은 모델 학습 중 검증 목적으로 사용되는 5천 장의 이미지를 가지고 있습니다.
  3. Test2017: 이 하위 집합은 학습된 모델을 테스트하고 벤치마킹하는 데 사용되는 2만 장의 이미지로 구성됩니다. 이 하위 집합에 대한 정답(Ground truth) 주석은 공개적으로 제공되지 않으며, 결과는 성능 평가를 위해 COCO 평가 서버에 제출해야 합니다.

응용 분야

The COCO dataset is widely used for training and evaluating deep learning models in object detection (such as Ultralytics YOLO, Faster R-CNN, and SSD), instance segmentation (such as Mask R-CNN), and keypoint detection (such as OpenPose). The dataset's diverse set of object categories, large number of annotated images, and standardized evaluation metrics make it an essential resource for computer vision researchers and practitioners.

데이터셋 YAML

YAML(Yet Another Markup Language) 파일은 데이터셋 구성을 정의하는 데 사용됩니다. 이 파일에는 데이터셋의 경로, 클래스 및 기타 관련 정보가 포함되어 있습니다. COCO 데이터셋의 경우 coco.yaml 파일이 https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml에 유지 관리되고 있습니다.

ultralytics/cfg/datasets/coco.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco/
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: airplane
  5: bus
  6: train
  7: truck
  8: boat
  9: traffic light
  10: fire hydrant
  11: stop sign
  12: parking meter
  13: bench
  14: bird
  15: cat
  16: dog
  17: horse
  18: sheep
  19: cow
  20: elephant
  21: bear
  22: zebra
  23: giraffe
  24: backpack
  25: umbrella
  26: handbag
  27: tie
  28: suitcase
  29: frisbee
  30: skis
  31: snowboard
  32: sports ball
  33: kite
  34: baseball bat
  35: baseball glove
  36: skateboard
  37: surfboard
  38: tennis racket
  39: bottle
  40: wine glass
  41: cup
  42: fork
  43: knife
  44: spoon
  45: bowl
  46: banana
  47: apple
  48: sandwich
  49: orange
  50: broccoli
  51: carrot
  52: hot dog
  53: pizza
  54: donut
  55: cake
  56: chair
  57: couch
  58: potted plant
  59: bed
  60: dining table
  61: toilet
  62: tv
  63: laptop
  64: mouse
  65: remote
  66: keyboard
  67: cell phone
  68: microwave
  69: oven
  70: toaster
  71: sink
  72: refrigerator
  73: book
  74: clock
  75: vase
  76: scissors
  77: teddy bear
  78: hair drier
  79: toothbrush

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils import ASSETS_URL
  from ultralytics.utils.downloads import download

  # Download labels
  segments = True  # segment or box labels
  dir = Path(yaml["path"])  # dataset root dir
  urls = [ASSETS_URL + ("/coco2017labels-segments.zip" if segments else "/coco2017labels.zip")]  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

사용법

이미지 크기 640으로 COCO 데이터셋에서 100 에포크(epochs) 동안 YOLO26n 모델을 학습하려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수에 대한 전체 목록은 모델 학습(Training) 페이지를 참조하십시오.

학습 예제
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

샘플 이미지 및 주석

COCO 데이터셋은 다양한 객체 카테고리와 복잡한 장면을 포함하는 다채로운 이미지들을 보유하고 있습니다. 다음은 데이터셋 이미지와 그에 상응하는 주석의 예시입니다:

객체 탐지가 포함된 COCO 데이터셋 모자이크 학습 배치

  • 모자이크 이미지: 이 이미지는 모자이크 처리된 데이터셋 이미지들로 구성된 학습 배치를 보여줍니다. 모자이킹은 학습 중에 여러 이미지를 하나의 이미지로 결합하여 각 학습 배치 내의 객체와 장면의 다양성을 높이는 데 사용되는 기법입니다. 이는 모델이 다양한 객체 크기, 가로세로 비율 및 문맥으로 일반화하는 능력을 향상시키는 데 도움을 줍니다.

이 예시는 COCO 데이터셋 이미지의 다양성과 복잡성, 그리고 학습 과정에서 모자이킹을 사용할 때의 이점을 잘 보여줍니다.

인용 및 감사의 글

연구 또는 개발 작업에 COCO 데이터셋을 사용하는 경우, 다음 논문을 인용해 주십시오:

인용
@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

컴퓨터 비전 커뮤니티를 위해 이 귀중한 자원을 만들고 유지 관리해 준 COCO 컨소시엄에 감사를 표합니다. COCO 데이터셋과 제작자에 대한 자세한 내용은 COCO 데이터셋 웹사이트를 방문하십시오.

FAQ

COCO 데이터셋이란 무엇이며 컴퓨터 비전에서 왜 중요한가요?

COCO 데이터셋 (Common Objects in Context)은 객체 탐지, 세그멘테이션 및 캡셔닝에 사용되는 대규모 데이터셋입니다. 80개 객체 카테고리에 대한 상세 주석이 포함된 33만 장의 이미지를 제공하여 컴퓨터 비전 모델의 벤치마킹 및 학습에 필수적입니다. 연구자들은 다양한 카테고리와 mean Average Precision(mAP)과 같은 표준화된 평가 지표 때문에 COCO를 사용합니다.

COCO 데이터셋을 사용하여 YOLO 모델을 어떻게 학습할 수 있나요?

COCO 데이터셋을 사용하여 YOLO26 모델을 학습하려면 다음 코드 스니펫을 사용할 수 있습니다:

학습 예제
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

사용 가능한 인수에 대한 자세한 내용은 학습 페이지를 참조하십시오.

COCO 데이터셋의 주요 특징은 무엇인가요?

COCO 데이터셋의 특징은 다음과 같습니다:

  • 객체 탐지, 세그멘테이션 및 캡셔닝을 위해 주석이 달린 20만 장을 포함한 총 33만 장의 이미지.
  • 자동차나 동물 같은 일반적인 항목부터 핸드백이나 스포츠 장비 같은 특정 항목까지 아우르는 80개의 객체 카테고리.
  • 객체 탐지(mAP) 및 세그멘테이션(mean Average Recall, mAR)을 위한 표준화된 평가 지표.
  • 다양한 객체 크기와 문맥 전반에서 모델 일반화를 향상하기 위한 학습 배치의 모자이킹 기법.

COCO 데이터셋으로 학습된 사전 학습된 YOLO26 모델은 어디서 찾을 수 있나요?

COCO 데이터셋으로 사전 학습된 YOLO26 모델은 문서에 제공된 링크에서 다운로드할 수 있습니다. 예시는 다음과 같습니다:

이 모델들은 크기, mAP 및 추론 속도가 다양하여, 각기 다른 성능과 리소스 요구 사항에 맞는 옵션을 제공합니다.

COCO 데이터셋은 어떻게 구성되어 있으며 어떻게 사용하나요?

COCO 데이터셋은 세 가지 하위 집합으로 나뉩니다:

  1. Train2017: 학습용 11만 8천 장의 이미지.
  2. Val2017: 학습 중 검증용 5천 장의 이미지.
  3. Test2017: 학습된 모델 벤치마킹용 2만 장의 이미지. 결과는 성능 평가를 위해 COCO 평가 서버에 제출해야 합니다.

데이터셋의 YAML 구성 파일은 coco.yaml에서 확인할 수 있으며, 이 파일은 경로, 클래스 및 데이터셋 세부 정보를 정의합니다.

댓글