COCOデータセット
COCO (Common Objects in Context) データセットは、物体検出、セグメンテーション、キャプション生成のための大規模データセットです。幅広い物体カテゴリーに関する研究を促進するために設計されており、コンピュータビジョンモデルのベンチマークとして一般的に使用されています。これは、物体検出、セグメンテーション、および姿勢推定タスクに取り組む研究者や開発者にとって不可欠なデータセットです。
Watch: Ultralytics COCO Dataset Overview
COCO学習済みモデル
| モデル | サイズ (ピクセル) | mAPval 50-95 | mAPval 50-95(e2e) | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 40.1 | 38.9 ± 0.7 | 1.7 ± 0.0 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 47.8 | 87.2 ± 0.9 | 2.5 ± 0.0 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 52.5 | 220.0 ± 1.4 | 4.7 ± 0.1 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 54.4 | 286.2 ± 2.0 | 6.2 ± 0.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 56.9 | 525.8 ± 4.0 | 11.8 ± 0.2 | 55.7 | 193.9 |
主な特徴
- COCOには33万枚の画像が含まれており、そのうち20万枚の画像には物体検出、セグメンテーション、キャプション生成タスクのアノテーションが施されています。
- このデータセットは80の物体カテゴリーで構成されており、車、自転車、動物などの一般的な物体だけでなく、傘、ハンドバッグ、スポーツ用品などのより具体的なカテゴリーも含まれています。
- アノテーションには、各画像の物体境界ボックス(BBox)、セグメンテーションマスク、およびキャプションが含まれます。
- COCOは、物体検出用の平均精度(mAP)や、セグメンテーションタスク用の平均再現率(mAR)といった標準化された評価指標を提供しており、モデルの性能比較に適しています。
データセットの構造
COCOデータセットは3つのサブセットに分割されています:
- Train2017: このサブセットには、物体検出、セグメンテーション、キャプション生成モデルを学習するための11.8万枚の画像が含まれています。
- Val2017: このサブセットには、モデル学習中の検証用に使用される5,000枚の画像が含まれています。
- Test2017: このサブセットは、学習済みモデルのテストとベンチマークに使用される2万枚の画像で構成されています。このサブセットの正解ラベル(Ground truth)は公開されておらず、結果は性能評価のためにCOCO評価サーバーに提出されます。
アプリケーション
The COCO dataset is widely used for training and evaluating deep learning models in object detection (such as Ultralytics YOLO, Faster R-CNN, and SSD), instance segmentation (such as Mask R-CNN), and keypoint detection (such as OpenPose). The dataset's diverse set of object categories, large number of annotated images, and standardized evaluation metrics make it an essential resource for computer vision researchers and practitioners.
データセットYAML
YAML(Yet Another Markup Language)ファイルは、データセットの設定を定義するために使用されます。これには、データセットのパス、クラス、およびその他の関連情報が含まれます。COCOデータセットの場合、coco.yamlファイルは https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml で管理されています。
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco/
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
# └── coco ← downloads here (20.1 GB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794
# Classes
names:
0: person
1: bicycle
2: car
3: motorcycle
4: airplane
5: bus
6: train
7: truck
8: boat
9: traffic light
10: fire hydrant
11: stop sign
12: parking meter
13: bench
14: bird
15: cat
16: dog
17: horse
18: sheep
19: cow
20: elephant
21: bear
22: zebra
23: giraffe
24: backpack
25: umbrella
26: handbag
27: tie
28: suitcase
29: frisbee
30: skis
31: snowboard
32: sports ball
33: kite
34: baseball bat
35: baseball glove
36: skateboard
37: surfboard
38: tennis racket
39: bottle
40: wine glass
41: cup
42: fork
43: knife
44: spoon
45: bowl
46: banana
47: apple
48: sandwich
49: orange
50: broccoli
51: carrot
52: hot dog
53: pizza
54: donut
55: cake
56: chair
57: couch
58: potted plant
59: bed
60: dining table
61: toilet
62: tv
63: laptop
64: mouse
65: remote
66: keyboard
67: cell phone
68: microwave
69: oven
70: toaster
71: sink
72: refrigerator
73: book
74: clock
75: vase
76: scissors
77: teddy bear
78: hair drier
79: toothbrush
# Download script/URL (optional)
download: |
from pathlib import Path
from ultralytics.utils import ASSETS_URL
from ultralytics.utils.downloads import download
# Download labels
segments = True # segment or box labels
dir = Path(yaml["path"]) # dataset root dir
urls = [ASSETS_URL + ("/coco2017labels-segments.zip" if segments else "/coco2017labels.zip")] # labels
download(urls, dir=dir.parent)
# Download data
urls = [
"http://images.cocodataset.org/zips/train2017.zip", # 19G, 118k images
"http://images.cocodataset.org/zips/val2017.zip", # 1G, 5k images
"http://images.cocodataset.org/zips/test2017.zip", # 7G, 41k images (optional)
]
download(urls, dir=dir / "images", threads=3)使用方法
COCOデータセットでYOLO26nモデルを100エポック学習させ、画像サイズを640にするには、以下のコードスニペットを使用できます。利用可能な引数の詳細なリストについては、モデルのトレーニングページを参照してください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)サンプル画像とアノテーション
COCOデータセットには、さまざまな物体カテゴリーと複雑なシーンを含む多様な画像セットが含まれています。以下に、データセットからの画像例とそれに対応するアノテーションを示します:

- モザイク画像: この画像は、モザイク処理されたデータセット画像で構成される学習バッチを示しています。モザイク処理は、学習中に複数の画像を1枚の画像に結合し、各学習バッチ内の物体やシーンの多様性を高めるために使用される手法です。これは、異なる物体のサイズ、アスペクト比、コンテキストに対してモデルが汎化する能力を向上させるのに役立ちます。
この例は、COCOデータセットにおける画像の多様性と複雑さ、そして学習プロセス中にモザイク処理を使用することの利点を示しています。
引用と謝辞
研究や開発の仕事でCOCOデータセットを使用する場合は、次の論文を引用してください:
@misc{lin2015microsoft,
title={Microsoft COCO: Common Objects in Context},
author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
year={2015},
eprint={1405.0312},
archivePrefix={arXiv},
primaryClass={cs.CV}
}コンピュータビジョンコミュニティのためのこの貴重なリソースを作成および維持しているCOCOコンソーシアムに感謝いたします。COCOデータセットとその作成者に関する詳細については、COCOデータセットのウェブサイトをご覧ください。
FAQ
COCOデータセットとは何ですか?また、なぜコンピュータビジョンにおいて重要なのでしょうか?
COCOデータセット (Common Objects in Context) は、物体検出、セグメンテーション、およびキャプション生成に使用される大規模データセットです。80の物体カテゴリーに対する詳細なアノテーションが施された33万枚の画像が含まれており、コンピュータビジョンモデルのベンチマークと学習に不可欠です。研究者は、その多様なカテゴリーと、平均精度(mAP)のような標準化された評価指標のためにCOCOを使用しています。
COCOデータセットを使用してYOLOモデルを学習するにはどうすればよいですか?
COCOデータセットを使用してYOLO26モデルを学習するには、以下のコードスニペットを使用できます:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)利用可能な引数の詳細については、トレーニングページを参照してください。
COCOデータセットの主な特徴は何ですか?
COCOデータセットには以下のものが含まれます:
- 33万枚の画像(そのうち20万枚は物体検出、セグメンテーション、キャプション生成用のアノテーション済み)
- 車や動物のような一般的なアイテムから、ハンドバッグやスポーツ用品のような特定のアイテムまで、80の物体カテゴリー
- 物体検出(mAP)およびセグメンテーション(平均再現率、mAR)のための標準化された評価指標
- 様々な物体サイズやコンテキストにわたってモデルの汎化性能を高めるための、学習バッチにおけるモザイク処理技術
COCOデータセットで学習済みのYOLO26モデルはどこで見つけられますか?
COCOデータセットで学習済みのYOLO26モデルは、ドキュメント内のリンクからダウンロードできます。例を以下に挙げます:
これらのモデルはサイズ、mAP、推論速度が異なり、さまざまな性能やリソース要件に応じたオプションを提供します。
COCOデータセットはどのように構成されており、どのように使用すればよいですか?
COCOデータセットは3つのサブセットに分割されています:
- Train2017: 学習用の11.8万枚の画像。
- Val2017: 学習中の検証用の5,000枚の画像。
- Test2017: 学習済みモデルのベンチマーク用の2万枚の画像。結果は性能評価のためにCOCO評価サーバーに提出する必要があります。
データセットのYAML設定ファイルは coco.yaml で利用可能であり、パス、クラス、およびデータセットの詳細が定義されています。