COCO 数据集

Q: How can I train a YOLO model using the COCO dataset?

要使用 COCO 数据集训练YOLO11 模型，可以使用以下代码片段：有关可用参数的详细信息，请参阅 "训练 "页面。

Q: Where can I find pretrained YOLO11 models trained on the COCO dataset?

在 COCO 数据集上预训练的YOLO11 模型可从文档中提供的链接下载。示例包括这些模型的大小、mAP 和推理速度各不相同，可满足不同的性能和资源要求。

Q: How is the COCO dataset structured and how do I use it?

COCO 数据集分为三个子集：数据集的 YAML 配置文件位于 coco.yml，其中定义了路径、类和数据集的详细信息。

COCO（上下文中的常见物体）数据集是一个大规模物体检测、分割和字幕数据集。它旨在鼓励对各种物体类别进行研究，通常用于计算机视觉模型的基准测试。对于从事物体检测、分割和姿态估计任务的研究人员和开发人员来说，这是一个必不可少的数据集。

观看： Ultralytics COCO 数据集概览

COCO 预训练模型

模型	尺寸 ^（像素）	mAPval^50-95	速度 ^{CPU ONNX （毫秒）}	速度 T4^{TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1 ± 0.8	1.5 ± 0.0	2.6	6.5
YOLO11s	640	47.0	90.0 ± 1.2	2.5 ± 0.0	9.4	21.5
YOLO11m	640	51.5	183.2 ± 2.0	4.7 ± 0.1	20.1	68.0
YOLO11l	640	53.4	238.6 ± 1.4	6.2 ± 0.1	25.3	86.9
YOLO11x	640	54.7	462.8 ± 6.7	11.3 ± 0.2	56.9	194.9

主要功能

COCO 包含 330K 幅图像，其中 200K 幅图像带有用于物体检测、分割和字幕任务的注释。
该数据集包含 80 个物体类别，包括汽车、自行车和动物等常见物体，以及雨伞、手提包和运动器材等更具体的类别。
注释包括每幅图像的对象边界框、分割掩码和标题。
COCO 提供了标准化的评估指标，如用于物体检测的平均精度（mAP）和用于分割任务的平均召回率（mAR），因此适用于比较模型性能。

数据集结构

COCO 数据集分为三个子集：

Train2017：该子集包含 118K 幅图像，用于训练对象检测、分割和字幕模型。
Val2017：该子集包含 5K 幅图像，用于模型训练过程中的验证。
Test2017：该子集由 20K 幅图像组成，用于测试和基准测试训练有素的模型。该子集的地面实况注释不公开，其结果将提交给COCO 评估服务器进行性能评估。

应用

COCO 数据集广泛用于训练和评估物体检测方面的深度学习模型（如 Ultralytics YOLO、Faster R-CNN 和SSD）、实例分割（如Mask R-CNN）和关键点检测（如OpenPose）。该数据集包含多种物体类别、大量注释图像和标准化评估指标，是计算机视觉研究人员和从业人员的重要资源。

数据集 YAML

YAML（另一种标记语言）文件用于定义数据集配置。它包含数据集的路径、类和其他相关信息。就 COCO 数据集而言，YAML 文件中的 coco.yaml 文件保存在 https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml.

ultralytics/cfg/datasets/coco.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco/
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco  ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: airplane
  5: bus
  6: train
  7: truck
  8: boat
  9: traffic light
  10: fire hydrant
  11: stop sign
  12: parking meter
  13: bench
  14: bird
  15: cat
  16: dog
  17: horse
  18: sheep
  19: cow
  20: elephant
  21: bear
  22: zebra
  23: giraffe
  24: backpack
  25: umbrella
  26: handbag
  27: tie
  28: suitcase
  29: frisbee
  30: skis
  31: snowboard
  32: sports ball
  33: kite
  34: baseball bat
  35: baseball glove
  36: skateboard
  37: surfboard
  38: tennis racket
  39: bottle
  40: wine glass
  41: cup
  42: fork
  43: knife
  44: spoon
  45: bowl
  46: banana
  47: apple
  48: sandwich
  49: orange
  50: broccoli
  51: carrot
  52: hot dog
  53: pizza
  54: donut
  55: cake
  56: chair
  57: couch
  58: potted plant
  59: bed
  60: dining table
  61: toilet
  62: tv
  63: laptop
  64: mouse
  65: remote
  66: keyboard
  67: cell phone
  68: microwave
  69: oven
  70: toaster
  71: sink
  72: refrigerator
  73: book
  74: clock
  75: vase
  76: scissors
  77: teddy bear
  78: hair drier
  79: toothbrush

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils.downloads import download

  # Download labels
  segments = True  # segment or box labels
  dir = Path(yaml["path"])  # dataset root dir
  url = "https://github.com/ultralytics/assets/releases/download/v0.0.0/"
  urls = [url + ("coco2017labels-segments.zip" if segments else "coco2017labels.zip")]  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

使用方法

要在 COCO 数据集上对 YOLO11n 模型进行 100次历时训练（图像大小为 640），可以使用以下代码片段。有关可用参数的完整列表，请参阅模型训练页面。

列车示例

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo detect train data=coco.yaml model=yolo11n.pt epochs=100 imgsz=640

图片和注释示例

COCO 数据集包含一组不同的图像，其中有各种物体类别和复杂场景。下面是数据集中的一些图像示例及其相应的注释：

数据集样本图像

镶嵌图像：该图像展示了由马赛克数据集图像组成的训练批次。马赛克是一种在训练过程中使用的技术，可将多幅图像合并为单幅图像，以增加每个训练批次中物体和场景的多样性。这有助于提高模型对不同物体尺寸、长宽比和环境的泛化能力。

该示例展示了 COCO 数据集中图像的多样性和复杂性，以及在训练过程中使用镶嵌技术的好处。

引文和致谢

如果您在研究或开发工作中使用 COCO 数据集，请引用以下论文：

BibTeX

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

我们衷心感谢 COCO 联盟为计算机视觉界创建并维护这一宝贵资源。有关 COCO 数据集及其创建者的更多信息，请访问COCO 数据集网站。

常见问题

什么是 COCO 数据集，为什么它对计算机视觉很重要？

COCO 数据集（Common Objects in Context，上下文中的常见物体）是一个用于物体检测、分割和标注的大型数据集。该数据集包含 330K 幅图像，对 80 个物体类别进行了详细注释，因此对计算机视觉模型的基准测试和训练至关重要。研究人员使用 COCO 的原因在于其多样化的类别和标准化的评估指标，如平均精度(mAP)。

如何使用 COCO 数据集训练YOLO 模型？

要使用 COCO 数据集训练YOLO11 模型，可以使用以下代码片段：

列车示例

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo detect train data=coco.yaml model=yolo11n.pt epochs=100 imgsz=640

有关可用参数的详细信息，请参阅培训页面。

COCO 数据集有哪些主要特点？

COCO 数据集包括

330K 幅图像，其中 200K 幅已标注对象检测、分割和标题。
80 个物品类别，既有汽车和动物等常见物品，也有手提包和运动器材等特殊物品。
物体检测（mAP）和分割（平均召回率，mAR）的标准化评估指标。
在训练批次中采用镶嵌技术，以提高模型在不同物体大小和环境中的泛化能力。

在哪里可以找到基于 COCO 数据集训练的预训练YOLO11 模型？

在 COCO 数据集上预训练的YOLO11 模型可从文档中提供的链接下载。示例包括

这些模型的大小、mAP 和推理速度各不相同，可满足不同的性能和资源要求。

COCO 数据集的结构和使用方法是什么？