Link to this sectionCOCO-Segデータセット#

COCO-Segデータセットは、COCO（Common Objects in Context）のインスタンスセグメンテーションマスク（80のオブジェクトカテゴリにわたるポリゴンマスク付きのトレーニング画像118,287枚および検証用画像5,000枚）をUltralytics YOLOラベル形式で提供します。これはCOCOの元画像と独自のセグメンテーションアノテーションをYOLOトレーニング用に変換したもので、インスタンスセグメンテーションタスクに取り組む研究者や開発者にとって重要なリソースです。

Link to this sectionCOCO-Seg事前学習済みモデル#

モデル	サイズ ^{(ピクセル)}	mAP^{box 50-95(e2e)}	mAP^{mask 50-95(e2e)}	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	パラメータ ^(M)	FLOPs ^(B)
YOLO26n-seg	640	39.6	33.9	53.3 ± 0.5	2.1 ± 0.0	2.7	9.1
YOLO26s-seg	640	47.3	40.0	118.4 ± 0.9	3.3 ± 0.0	10.4	34.2
YOLO26m-seg	640	52.5	44.1	328.2 ± 2.4	6.7 ± 0.1	23.6	121.5
YOLO26l-seg	640	54.4	45.5	387.0 ± 3.7	8.0 ± 0.1	28.0	139.8
YOLO26x-seg	640	56.5	47.0	787.0 ± 6.8	16.4 ± 0.1	62.8	313.5

Link to this section主な特徴#

COCO-Segは、COCOのより広範な約33万枚の画像リリースから、アノテーション済みのCOCO train2017/val2017画像123,287枚（トレーニング用118,287枚 + 検証用5,000枚）に対するインスタンスセグメンテーションマスクを提供します。
このデータセットは、オリジナルのCOCOデータセットに含まれる80種類のオブジェクトカテゴリで構成されています。
アノテーションは、YOLOポリゴンラベル形式でインスタンスセグメンテーションマスクを提供します。
COCO-Segは、インスタンスセグメンテーションの性能評価のための標準化されたmAPおよびmARメトリクスを提供し、モデル性能の効果的な比較を可能にします。
ダウンロードサイズ: 初回使用時に約20.3 GB (train2017.zip + val2017.zip + ラベル)。7 GBの test2017.zip は自動的には取得されません。これらの画像には正解データが含まれておらず、test-dev2017への提出にのみ必要となるためです。

Link to this sectionデータセットの構造#

COCO-Segデータセットは、3つのサブセットに分割されています。

Train2017: インスタンスセグメンテーションモデルをトレーニングするための118,287枚の画像。
Val2017: モデル開発中の検証に使用される5,000枚の画像。
Test-dev2017: ベンチマークに使用されるtest2017画像40,670枚のうち20,288枚。このサブセットのグラウンドトゥルースアノテーションは公開されていないため、予測結果を評価のためにCOCO evaluation serverへ提出する必要があります。

小規模な実験ニーズには、COCO128-Seg（128枚の画像）およびCOCO8-Seg（8枚の画像）サブセットを参照してください。

Link to this sectionアプリケーション#

COCO-Seg is widely used for training and evaluating deep learning models on instance segmentation, such as the YOLO models. The large number of annotated images, the diversity of object categories, and the standardized evaluation metrics make it an indispensable resource for computer vision researchers and practitioners. Full COCO-Seg annotations can also be browsed and managed on Ultralytics Platform.

Link to this sectionデータセット YAML#

YAMLファイルは、データセットの設定を定義するために使用されます。これには、データセットのパス、クラス、およびその他の関連情報が含まれます。COCO-Segデータセットの場合、coco.yamlファイルはhttps://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yamlで管理されています。

ultralytics/cfg/datasets/coco.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco ← downloads here (20.3 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit via https://cocodataset.org/#detection-eval

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: airplane
  5: bus
  6: train
  7: truck
  8: boat
  9: traffic light
  10: fire hydrant
  11: stop sign
  12: parking meter
  13: bench
  14: bird
  15: cat
  16: dog
  17: horse
  18: sheep
  19: cow
  20: elephant
  21: bear
  22: zebra
  23: giraffe
  24: backpack
  25: umbrella
  26: handbag
  27: tie
  28: suitcase
  29: frisbee
  30: skis
  31: snowboard
  32: sports ball
  33: kite
  34: baseball bat
  35: baseball glove
  36: skateboard
  37: surfboard
  38: tennis racket
  39: bottle
  40: wine glass
  41: cup
  42: fork
  43: knife
  44: spoon
  45: bowl
  46: banana
  47: apple
  48: sandwich
  49: orange
  50: broccoli
  51: carrot
  52: hot dog
  53: pizza
  54: donut
  55: cake
  56: chair
  57: couch
  58: potted plant
  59: bed
  60: dining table
  61: toilet
  62: tv
  63: laptop
  64: mouse
  65: remote
  66: keyboard
  67: cell phone
  68: microwave
  69: oven
  70: toaster
  71: sink
  72: refrigerator
  73: book
  74: clock
  75: vase
  76: scissors
  77: teddy bear
  78: hair drier
  79: toothbrush

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils import ASSETS_URL
  from ultralytics.utils.downloads import download

  # Download labels
  segments = True  # segment or box labels
  dir = Path(yaml["path"])  # dataset root dir
  urls = [ASSETS_URL + ("/coco2017labels-segments.zip" if segments else "/coco2017labels.zip")]  # labels
  download(urls, dir=dir.parent)

  # Download data (test2017.zip excluded: ground truth is withheld, only used for the eval-server test-dev split)
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
  ]
  download(urls, dir=dir / "images", threads=3)

Link to this section使用方法#

YOLO26n-segモデルをCOCO-Segデータセットで100エポック分、画像サイズ640でトレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の詳細なリストについては、モデルのトレーニングページを参照してください。

学習例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-seg.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

Link to this sectionサンプル画像とアノテーション#

COCO-Segには、COCOと同じ多様な画像、オブジェクトカテゴリ、複雑なシーンが含まれており、インスタンスセグメンテーションマスクがYOLOラベル形式で提供されます。データセットの画像とそれに対応するインスタンスセグメンテーションマスクの例をいくつか示します。

COCOセグメンテーションデータセットのモザイク学習バッチ

モザイク画像: この画像は、モザイク処理されたデータセット画像で構成されるトレーニングバッチを示しています。モザイク処理は、トレーニング中に複数の画像を1つの画像に結合して、各トレーニングバッチ内のオブジェクトやシーンの多様性を高めるために使用される手法です。これは、モデルがさまざまなオブジェクトのサイズ、アスペクト比、およびコンテキストに対して汎化能力を高めるのに役立ちます。

Link to this section引用と謝辞#

研究や開発の仕事でCOCO-Segデータセットを使用する場合は、オリジナルのCOCO論文を引用し、COCO-Segへの拡張について言及してください。

引用

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

コンピュータビジョンコミュニティのためのこの貴重なリソースを作成・維持してくださったCOCOコンソーシアムに感謝いたします。COCOデータセットとその作成者に関する詳細については、COCOデータセットのウェブサイトをご覧ください。

Link to this sectionよくある質問 (FAQ)#

Link to this sectionCOCO-Segデータセットとは何ですか？また、オリジナルのCOCOデータセットとどう違いますか？#

COCO-Segは、COCO（Common Objects in Context）独自のインスタンスセグメンテーションマスクを、同じ118,287枚のtrain2017画像および5,000枚のval2017画像に対してUltralytics YOLO形式でパッケージ化したものです。元々のCOCOアノテーションには、これら80の全オブジェクトカテゴリに対するポリゴンマスクが含まれており、COCO-Segはそれらをオブジェクトインスタンスセグメンテーショントレーニングで使用されるYOLOラベル形式に変換します。

Link to this sectionCOCO-Segデータセットを使用してYOLO26モデルをトレーニングするにはどうすればよいですか？#

画像サイズ640でCOCO-Segデータセットを使用してYOLO26n-segモデルを100エポックトレーニングするには、以下のコードスニペットを使用できます。利用可能なトレーニング引数の詳細リストについては、モデルのトレーニングページを参照してください。

学習例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-seg.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

Link to this sectionCOCO-Segデータセットの主な特徴は何ですか？#

COCO-Segデータセットには、いくつかの主要な特徴があります。

123,287枚のアノテーション済みCOCO train2017/val2017画像（トレーニング用118,287枚 + 検証用5,000枚）に対するインスタンスセグメンテーションマスクを提供します。
オリジナルのCOCOにある80種類のオブジェクトカテゴリをアノテーション。
YOLOポリゴンラベル形式でインスタンスセグメンテーションマスクを提供します。
Uses standardized evaluation metrics such as mean Average Precision (mAP) and mean Average Recall (mAR) for instance segmentation tasks.

Link to this sectionCOCO-Segで利用可能な事前学習済みモデルは何ですか？また、その性能指標はどうなっていますか？#

COCO-Segデータセットは、多様な性能指標を持つ複数の事前学習済みYOLO26セグメンテーションモデルをサポートしています。利用可能なモデルとその主要指標の概要は以下の通りです。

モデル	サイズ ^{(ピクセル)}	mAP^{box 50-95(e2e)}	mAP^{mask 50-95(e2e)}	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	パラメータ ^(M)	FLOPs ^(B)
YOLO26n-seg	640	39.6	33.9	53.3 ± 0.5	2.1 ± 0.0	2.7	9.1
YOLO26s-seg	640	47.3	40.0	118.4 ± 0.9	3.3 ± 0.0	10.4	34.2
YOLO26m-seg	640	52.5	44.1	328.2 ± 2.4	6.7 ± 0.1	23.6	121.5
YOLO26l-seg	640	54.4	45.5	387.0 ± 3.7	8.0 ± 0.1	28.0	139.8
YOLO26x-seg	640	56.5	47.0	787.0 ± 6.8	16.4 ± 0.1	62.8	313.5

これらのモデルは、軽量な YOLO26n-seg からより強力な YOLO26x-seg まで多岐にわたり、さまざまなアプリケーションの要件に合わせて速度と精度の異なるトレードオフを提供します。モデルの選択に関する詳細については、Ultralytics モデルページをご覧ください。

Link to this sectionCOCO-Segデータセットはどのように構成されており、どのようなサブセットが含まれていますか？#

COCO-Segデータセットは、特定のトレーニングおよび評価のニーズに合わせて3つのサブセットに分割されています。

Train2017: インスタンスセグメンテーションモデルのトレーニングに主に使用される118,287枚の画像を含みます。
Val2017: トレーニングプロセス中の検証に使用される5,000枚の画像で構成されます。
Test-dev2017: トレーニング済みモデルのテストおよびベンチマーク用に予約された、test2017画像40,670枚のうち20,288枚を網羅します。このサブセットのグラウンドトゥルースアノテーションは公開されておらず、性能評価の結果はCOCO evaluation serverへ提出される点に注意してください。

小規模な実験ニーズには、COCO128-Segデータセット（128枚の画像）や、COCO train 2017セットからの画像8枚のみを含むコンパクト版のCOCO8-Segデータセットも検討できます。

貢献者

GLglenn-jocher¹⁷ RAraimbekovm⁴ JKjk4e³ RIRizwanMunawar² Y-Y-T-G¹ AMambitious-octopus¹ MAMatthewNoyce¹ LUlunarifish¹

作成日 2023年11月12日更新日一昨日