Dataset COCO

Il dataset COCO (Common Objects in Context) è un dataset su larga scala per il rilevamento di oggetti, la segmentazione e la generazione di didascalie. È progettato per incoraggiare la ricerca su un'ampia varietà di categorie di oggetti ed è comunemente utilizzato per il benchmarking di modelli di computer vision. Si tratta di un dataset essenziale per ricercatori e sviluppatori che lavorano su attività di rilevamento di oggetti, segmentazione e stima della posa.



Watch: Ultralytics COCO Dataset Overview

Modelli preaddestrati su COCO

Modellodimensione
(pixel)
mAPval
50-95
mAPval
50-95(e2e)
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOP
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

Caratteristiche principali

  • COCO contiene 330K immagini, di cui 200K con annotazioni per attività di rilevamento di oggetti, segmentazione e generazione di didascalie.
  • Il dataset comprende 80 categorie di oggetti, inclusi oggetti comuni come auto, biciclette e animali, oltre a categorie più specifiche come ombrelli, borse e attrezzature sportive.
  • Le annotazioni includono i riquadri di delimitazione degli oggetti (bounding box), maschere di segmentazione e didascalie per ogni immagine.
  • COCO fornisce metriche di valutazione standardizzate come la mean Average Precision (mAP) per il rilevamento di oggetti e la mean Average Recall (mAR) per le attività di segmentazione, rendendolo adatto al confronto delle prestazioni dei modelli.

Struttura del dataset

Il dataset COCO è suddiviso in tre sottoinsiemi:

  1. Train2017: Questo sottoinsieme contiene 118K immagini per l'addestramento di modelli di rilevamento di oggetti, segmentazione e generazione di didascalie.
  2. Val2017: Questo sottoinsieme contiene 5K immagini utilizzate per scopi di validazione durante l'addestramento del modello.
  3. Test2017: Questo sottoinsieme consiste in 20K immagini utilizzate per testare e confrontare i modelli addestrati. Le annotazioni di ground truth per questo sottoinsieme non sono disponibili pubblicamente e i risultati vengono inviati al server di valutazione COCO per la valutazione delle prestazioni.

Applicazioni

Il dataset COCO è ampiamente utilizzato per addestrare e valutare modelli di deep learning nel rilevamento di oggetti (come Ultralytics YOLO, Faster R-CNN e SSD), instance segmentation (come Mask R-CNN) e rilevamento di keypoint (come OpenPose). Il set diversificato di categorie di oggetti del dataset, l'elevato numero di immagini annotate e le metriche di valutazione standardizzate lo rendono una risorsa essenziale per ricercatori e professionisti della computer vision.

YAML del dataset

Un file YAML (Yet Another Markup Language) viene utilizzato per definire la configurazione del dataset. Contiene informazioni sui percorsi del dataset, le classi e altre informazioni rilevanti. Nel caso del dataset COCO, il file coco.yaml è mantenuto su https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml.

ultralytics/cfg/datasets/coco.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco/
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: airplane
  5: bus
  6: train
  7: truck
  8: boat
  9: traffic light
  10: fire hydrant
  11: stop sign
  12: parking meter
  13: bench
  14: bird
  15: cat
  16: dog
  17: horse
  18: sheep
  19: cow
  20: elephant
  21: bear
  22: zebra
  23: giraffe
  24: backpack
  25: umbrella
  26: handbag
  27: tie
  28: suitcase
  29: frisbee
  30: skis
  31: snowboard
  32: sports ball
  33: kite
  34: baseball bat
  35: baseball glove
  36: skateboard
  37: surfboard
  38: tennis racket
  39: bottle
  40: wine glass
  41: cup
  42: fork
  43: knife
  44: spoon
  45: bowl
  46: banana
  47: apple
  48: sandwich
  49: orange
  50: broccoli
  51: carrot
  52: hot dog
  53: pizza
  54: donut
  55: cake
  56: chair
  57: couch
  58: potted plant
  59: bed
  60: dining table
  61: toilet
  62: tv
  63: laptop
  64: mouse
  65: remote
  66: keyboard
  67: cell phone
  68: microwave
  69: oven
  70: toaster
  71: sink
  72: refrigerator
  73: book
  74: clock
  75: vase
  76: scissors
  77: teddy bear
  78: hair drier
  79: toothbrush

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils import ASSETS_URL
  from ultralytics.utils.downloads import download

  # Download labels
  segments = True  # segment or box labels
  dir = Path(yaml["path"])  # dataset root dir
  urls = [ASSETS_URL + ("/coco2017labels-segments.zip" if segments else "/coco2017labels.zip")]  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

Utilizzo

Per addestrare un modello YOLO26n sul dataset COCO per 100 epoch con una dimensione dell'immagine di 640, puoi utilizzare i seguenti frammenti di codice. Per un elenco completo degli argomenti disponibili, fai riferimento alla pagina di Addestramento del modello.

Esempio di training
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

Immagini campione e annotazioni

Il dataset COCO contiene un set diversificato di immagini con varie categorie di oggetti e scene complesse. Ecco alcuni esempi di immagini dal dataset, insieme alle relative annotazioni:

Batch di addestramento a mosaico del dataset COCO con rilevamento di oggetti

  • Immagine a mosaico: Questa immagine mostra un batch di addestramento composto da immagini del dataset a mosaico. Il mosaico è una tecnica utilizzata durante l'addestramento che combina più immagini in un'unica immagine per aumentare la varietà di oggetti e scene all'interno di ogni batch di addestramento. Ciò aiuta a migliorare la capacità del modello di generalizzare a diverse dimensioni, proporzioni e contesti degli oggetti.

L'esempio mostra la varietà e la complessità delle immagini nel dataset COCO e i vantaggi dell'utilizzo del mosaico durante il processo di addestramento.

Citazioni e ringraziamenti

Se utilizzi il dataset COCO nel tuo lavoro di ricerca o sviluppo, cita il seguente articolo:

Citazione
@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Vorremmo ringraziare il COCO Consortium per aver creato e mantenuto questa preziosa risorsa per la comunità della computer vision. Per ulteriori informazioni sul dataset COCO e sui suoi creatori, visita il sito web del dataset COCO.

FAQ

Cos'è il dataset COCO e perché è importante per la computer vision?

Il dataset COCO (Common Objects in Context) è un dataset su larga scala utilizzato per il rilevamento di oggetti, la segmentazione e la generazione di didascalie. Contiene 330K immagini con annotazioni dettagliate per 80 categorie di oggetti, rendendolo essenziale per il benchmarking e l'addestramento di modelli di computer vision. I ricercatori utilizzano COCO per le sue diverse categorie e le metriche di valutazione standardizzate come la mean Average Precision (mAP).

Come posso addestrare un modello YOLO utilizzando il dataset COCO?

Per addestrare un modello YOLO26 utilizzando il dataset COCO, puoi utilizzare i seguenti frammenti di codice:

Esempio di training
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

Fai riferimento alla pagina di Addestramento per ulteriori dettagli sugli argomenti disponibili.

Quali sono le caratteristiche chiave del dataset COCO?

Il dataset COCO include:

  • 330K immagini, di cui 200K annotate per rilevamento di oggetti, segmentazione e didascalie.
  • 80 categorie di oggetti che spaziano da oggetti comuni come auto e animali a quelli specifici come borse e attrezzature sportive.
  • Metriche di valutazione standardizzate per il rilevamento di oggetti (mAP) e la segmentazione (mean Average Recall, mAR).
  • Tecnica di Mosaico nei batch di addestramento per migliorare la generalizzazione del modello su diverse dimensioni e contesti di oggetti.

Dove posso trovare modelli YOLO26 preaddestrati sul dataset COCO?

I modelli YOLO26 preaddestrati sul dataset COCO possono essere scaricati dai link forniti nella documentazione. Esempi includono:

Questi modelli variano in dimensioni, mAP e velocità di inferenza, offrendo opzioni per diverse prestazioni e requisiti di risorse.

Come è strutturato il dataset COCO e come lo utilizzo?

Il dataset COCO è suddiviso in tre sottoinsiemi:

  1. Train2017: 118K immagini per l'addestramento.
  2. Val2017: 5K immagini per la validazione durante l'addestramento.
  3. Test2017: 20K immagini per il benchmarking dei modelli addestrati. I risultati devono essere inviati al server di valutazione COCO per la valutazione delle prestazioni.

Il file di configurazione YAML del dataset è disponibile su coco.yaml, il quale definisce percorsi, classi e dettagli del dataset.

Commenti