COCOデータセット

COCO (Common Objects in Context) データセットは、物体検出、セグメンテーション、キャプション生成のための大規模データセットです。幅広い物体カテゴリーに関する研究を促進するために設計されており、コンピュータビジョンモデルのベンチマークとして一般的に使用されています。これは、物体検出、セグメンテーション、および姿勢推定タスクに取り組む研究者や開発者にとって不可欠なデータセットです。



Watch: Ultralytics COCO Dataset Overview

COCO学習済みモデル

モデルサイズ
(ピクセル)
mAPval
50-95
mAPval
50-95(e2e)
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

主な特徴

  • COCOには33万枚の画像が含まれており、そのうち20万枚の画像には物体検出、セグメンテーション、キャプション生成タスクのアノテーションが施されています。
  • このデータセットは80の物体カテゴリーで構成されており、車、自転車、動物などの一般的な物体だけでなく、傘、ハンドバッグ、スポーツ用品などのより具体的なカテゴリーも含まれています。
  • アノテーションには、各画像の物体境界ボックス(BBox)、セグメンテーションマスク、およびキャプションが含まれます。
  • COCOは、物体検出用の平均精度(mAP)や、セグメンテーションタスク用の平均再現率(mAR)といった標準化された評価指標を提供しており、モデルの性能比較に適しています。

データセットの構造

COCOデータセットは3つのサブセットに分割されています:

  1. Train2017: このサブセットには、物体検出、セグメンテーション、キャプション生成モデルを学習するための11.8万枚の画像が含まれています。
  2. Val2017: このサブセットには、モデル学習中の検証用に使用される5,000枚の画像が含まれています。
  3. Test2017: このサブセットは、学習済みモデルのテストとベンチマークに使用される2万枚の画像で構成されています。このサブセットの正解ラベル(Ground truth)は公開されておらず、結果は性能評価のためにCOCO評価サーバーに提出されます。

アプリケーション

The COCO dataset is widely used for training and evaluating deep learning models in object detection (such as Ultralytics YOLO, Faster R-CNN, and SSD), instance segmentation (such as Mask R-CNN), and keypoint detection (such as OpenPose). The dataset's diverse set of object categories, large number of annotated images, and standardized evaluation metrics make it an essential resource for computer vision researchers and practitioners.

データセットYAML

YAML(Yet Another Markup Language)ファイルは、データセットの設定を定義するために使用されます。これには、データセットのパス、クラス、およびその他の関連情報が含まれます。COCOデータセットの場合、coco.yamlファイルは https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml で管理されています。

ultralytics/cfg/datasets/coco.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco/
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: airplane
  5: bus
  6: train
  7: truck
  8: boat
  9: traffic light
  10: fire hydrant
  11: stop sign
  12: parking meter
  13: bench
  14: bird
  15: cat
  16: dog
  17: horse
  18: sheep
  19: cow
  20: elephant
  21: bear
  22: zebra
  23: giraffe
  24: backpack
  25: umbrella
  26: handbag
  27: tie
  28: suitcase
  29: frisbee
  30: skis
  31: snowboard
  32: sports ball
  33: kite
  34: baseball bat
  35: baseball glove
  36: skateboard
  37: surfboard
  38: tennis racket
  39: bottle
  40: wine glass
  41: cup
  42: fork
  43: knife
  44: spoon
  45: bowl
  46: banana
  47: apple
  48: sandwich
  49: orange
  50: broccoli
  51: carrot
  52: hot dog
  53: pizza
  54: donut
  55: cake
  56: chair
  57: couch
  58: potted plant
  59: bed
  60: dining table
  61: toilet
  62: tv
  63: laptop
  64: mouse
  65: remote
  66: keyboard
  67: cell phone
  68: microwave
  69: oven
  70: toaster
  71: sink
  72: refrigerator
  73: book
  74: clock
  75: vase
  76: scissors
  77: teddy bear
  78: hair drier
  79: toothbrush

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils import ASSETS_URL
  from ultralytics.utils.downloads import download

  # Download labels
  segments = True  # segment or box labels
  dir = Path(yaml["path"])  # dataset root dir
  urls = [ASSETS_URL + ("/coco2017labels-segments.zip" if segments else "/coco2017labels.zip")]  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

使用方法

COCOデータセットでYOLO26nモデルを100エポック学習させ、画像サイズを640にするには、以下のコードスニペットを使用できます。利用可能な引数の詳細なリストについては、モデルのトレーニングページを参照してください。

トレーニングの例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

サンプル画像とアノテーション

COCOデータセットには、さまざまな物体カテゴリーと複雑なシーンを含む多様な画像セットが含まれています。以下に、データセットからの画像例とそれに対応するアノテーションを示します:

COCOデータセットの物体検出用モザイク学習バッチ

  • モザイク画像: この画像は、モザイク処理されたデータセット画像で構成される学習バッチを示しています。モザイク処理は、学習中に複数の画像を1枚の画像に結合し、各学習バッチ内の物体やシーンの多様性を高めるために使用される手法です。これは、異なる物体のサイズ、アスペクト比、コンテキストに対してモデルが汎化する能力を向上させるのに役立ちます。

この例は、COCOデータセットにおける画像の多様性と複雑さ、そして学習プロセス中にモザイク処理を使用することの利点を示しています。

引用と謝辞

研究や開発の仕事でCOCOデータセットを使用する場合は、次の論文を引用してください:

引用
@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

コンピュータビジョンコミュニティのためのこの貴重なリソースを作成および維持しているCOCOコンソーシアムに感謝いたします。COCOデータセットとその作成者に関する詳細については、COCOデータセットのウェブサイトをご覧ください。

FAQ

COCOデータセットとは何ですか?また、なぜコンピュータビジョンにおいて重要なのでしょうか?

COCOデータセット (Common Objects in Context) は、物体検出、セグメンテーション、およびキャプション生成に使用される大規模データセットです。80の物体カテゴリーに対する詳細なアノテーションが施された33万枚の画像が含まれており、コンピュータビジョンモデルのベンチマークと学習に不可欠です。研究者は、その多様なカテゴリーと、平均精度(mAP)のような標準化された評価指標のためにCOCOを使用しています。

COCOデータセットを使用してYOLOモデルを学習するにはどうすればよいですか?

COCOデータセットを使用してYOLO26モデルを学習するには、以下のコードスニペットを使用できます:

トレーニングの例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

利用可能な引数の詳細については、トレーニングページを参照してください。

COCOデータセットの主な特徴は何ですか?

COCOデータセットには以下のものが含まれます:

  • 33万枚の画像(そのうち20万枚は物体検出、セグメンテーション、キャプション生成用のアノテーション済み)
  • 車や動物のような一般的なアイテムから、ハンドバッグやスポーツ用品のような特定のアイテムまで、80の物体カテゴリー
  • 物体検出(mAP)およびセグメンテーション(平均再現率、mAR)のための標準化された評価指標
  • 様々な物体サイズやコンテキストにわたってモデルの汎化性能を高めるための、学習バッチにおけるモザイク処理技術

COCOデータセットで学習済みのYOLO26モデルはどこで見つけられますか?

COCOデータセットで学習済みのYOLO26モデルは、ドキュメント内のリンクからダウンロードできます。例を以下に挙げます:

これらのモデルはサイズ、mAP、推論速度が異なり、さまざまな性能やリソース要件に応じたオプションを提供します。

COCOデータセットはどのように構成されており、どのように使用すればよいですか?

COCOデータセットは3つのサブセットに分割されています:

  1. Train2017: 学習用の11.8万枚の画像。
  2. Val2017: 学習中の検証用の5,000枚の画像。
  3. Test2017: 学習済みモデルのベンチマーク用の2万枚の画像。結果は性能評価のためにCOCO評価サーバーに提出する必要があります。

データセットのYAML設定ファイルは coco.yaml で利用可能であり、パス、クラス、およびデータセットの詳細が定義されています。

コメント