Dataset COCO-Seg

Q: How is the COCO-Seg dataset structured and what subsets does it contain?

Il dataset COCO-Seg è suddiviso in tre sottoinsiemi per esigenze specifiche di addestramento e valutazione: Per esigenze sperimentali più ridotte, si potrebbe anche prendere in considerazione l'utilizzo del dataset COCO8-seg, che è una versione compatta contenente solo 8 immagini dal set COCO train 2017.

Il dataset COCO-Seg, un'estensione del dataset COCO (Common Objects in Context), è appositamente progettato per supportare la ricerca nella segmentazione delle istanze degli oggetti. Utilizza le stesse immagini di COCO, ma introduce annotazioni di segmentazione più dettagliate. Questo dataset è una risorsa cruciale per ricercatori e sviluppatori che lavorano su attività di segmentazione delle istanze, specialmente per l'addestramento di modelli Ultralytics YOLO.

Modelli Pre-addestrati COCO-Seg

Modello	dimensione ^(pixel)	mAP^box 50-95	mAP^mask 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLO11n-seg	640	38.9	32.0	65.9 ± 1.1	1.8 ± 0.0	2.9	9.7
YOLO11s-seg	640	46.6	37.8	117.6 ± 4.9	2.9 ± 0.0	10.1	33.0
YOLO11m-seg	640	51.5	41.5	281.6 ± 1.2	6.3 ± 0.1	22.4	113.2
YOLO11l-seg	640	53.4	42.9	344.2 ± 3.2	7.8 ± 0.2	27.6	132.2
YOLO11x-seg	640	54.7	43.8	664.5 ± 3.2	15.8 ± 0.7	62.1	296.4

Caratteristiche principali

COCO-Seg conserva le 330.000 immagini originali di COCO.
Il dataset è composto dalle stesse 80 categorie di oggetti presenti nel dataset COCO originale.
Le annotazioni ora includono maschere di segmentazione dell'istanza più dettagliate per ciascun oggetto nelle immagini.
COCO-Seg fornisce metriche di valutazione standardizzate come la mean Average Precision (mAP) per il rilevamento di oggetti e la mean Average Recall (mAR) per le attività di segmentazione delle istanze, consentendo un confronto efficace delle prestazioni del modello.

Struttura del set di dati

Il dataset COCO-Seg è suddiviso in tre sottoinsiemi:

Train2017: Questo sottoinsieme contiene 118.000 immagini per l'addestramento di modelli di segmentazione delle istanze.
Val2017: Questo sottoinsieme include 5.000 immagini utilizzate per scopi di convalida durante l'addestramento del modello.
Test2017: Questo sottoinsieme comprende 20.000 immagini utilizzate per testare e valutare i modelli addestrati. Le annotazioni ground truth per questo sottoinsieme non sono pubblicamente disponibili e i risultati vengono inviati al server di valutazione COCO per la valutazione delle prestazioni.

Applicazioni

COCO-Seg è ampiamente utilizzato per l'addestramento e la valutazione di modelli di deep learning nella segmentazione di istanze, come i modelli YOLO. L'elevato numero di immagini annotate, la diversità delle categorie di oggetti e le metriche di valutazione standardizzate lo rendono una risorsa indispensabile per i ricercatori e i professionisti della computer vision.

YAML del set di dati

Un file YAML (Yet Another Markup Language) viene utilizzato per definire la configurazione del dataset. Contiene informazioni sui percorsi, le classi e altre informazioni rilevanti del dataset. Nel caso del dataset COCO-Seg, il coco.yaml file è mantenuto in https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco.yaml.

ultralytics/cfg/datasets/coco.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/detect/coco/
# Example usage: yolo train data=coco.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: airplane
  5: bus
  6: train
  7: truck
  8: boat
  9: traffic light
  10: fire hydrant
  11: stop sign
  12: parking meter
  13: bench
  14: bird
  15: cat
  16: dog
  17: horse
  18: sheep
  19: cow
  20: elephant
  21: bear
  22: zebra
  23: giraffe
  24: backpack
  25: umbrella
  26: handbag
  27: tie
  28: suitcase
  29: frisbee
  30: skis
  31: snowboard
  32: sports ball
  33: kite
  34: baseball bat
  35: baseball glove
  36: skateboard
  37: surfboard
  38: tennis racket
  39: bottle
  40: wine glass
  41: cup
  42: fork
  43: knife
  44: spoon
  45: bowl
  46: banana
  47: apple
  48: sandwich
  49: orange
  50: broccoli
  51: carrot
  52: hot dog
  53: pizza
  54: donut
  55: cake
  56: chair
  57: couch
  58: potted plant
  59: bed
  60: dining table
  61: toilet
  62: tv
  63: laptop
  64: mouse
  65: remote
  66: keyboard
  67: cell phone
  68: microwave
  69: oven
  70: toaster
  71: sink
  72: refrigerator
  73: book
  74: clock
  75: vase
  76: scissors
  77: teddy bear
  78: hair drier
  79: toothbrush

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils import ASSETS_URL
  from ultralytics.utils.downloads import download

  # Download labels
  segments = True  # segment or box labels
  dir = Path(yaml["path"])  # dataset root dir
  urls = [ASSETS_URL + ("/coco2017labels-segments.zip" if segments else "/coco2017labels.zip")]  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

Utilizzo

Per addestrare un modello YOLO11n-seg sul dataset COCO-Seg per 100 epoche con una dimensione dell'immagine di 640, puoi utilizzare i seguenti frammenti di codice. Per un elenco completo degli argomenti disponibili, consulta la pagina Training del modello.

Esempio di addestramento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-seg.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo segment train data=coco.yaml model=yolo11n-seg.pt epochs=100 imgsz=640

Immagini di esempio e annotazioni

COCO-Seg, come il suo predecessore COCO, contiene un insieme diversificato di immagini con varie categorie di oggetti e scene complesse. Tuttavia, COCO-Seg introduce maschere di segmentazione dell'istanza più dettagliate per ciascun oggetto nelle immagini. Ecco alcuni esempi di immagini del set di dati, insieme alle relative maschere di segmentazione dell'istanza:

Immagine di esempio del set di dati

Immagine mosaicata: Questa immagine dimostra un batch di training composto da immagini del dataset mosaicato. Il mosaicing è una tecnica utilizzata durante il training che combina più immagini in una singola immagine per aumentare la varietà di oggetti e scene all'interno di ogni batch di training. Questo aiuta la capacità del modello di generalizzare a diverse dimensioni dell'oggetto, proporzioni e contesti.

L'esempio mostra la varietà e la complessità delle immagini nel dataset COCO-Seg e i vantaggi dell'utilizzo del mosaicing durante il processo di training.

Citazioni e ringraziamenti

Se utilizzi il dataset COCO-Seg nel tuo lavoro di ricerca o sviluppo, cita l'articolo originale su COCO e riconosci l'estensione a COCO-Seg:

BibTeX

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Ringraziamo il COCO Consortium per aver creato e mantenuto questa risorsa preziosa per la comunità della computer vision. Per maggiori informazioni sul dataset COCO e sui suoi creatori, visita il sito web del dataset COCO.

FAQ

Cos'è il dataset COCO-Seg e in cosa differisce dal dataset COCO originale?

Il dataset COCO-Seg è un'estensione del dataset COCO (Common Objects in Context) originale, specificamente progettato per attività di segmentazione delle istanze. Pur utilizzando le stesse immagini del dataset COCO, COCO-Seg include annotazioni di segmentazione più dettagliate, rendendolo una risorsa potente per ricercatori e sviluppatori che si concentrano sulla segmentazione delle istanze degli oggetti.

Come posso addestrare un modello YOLO11 utilizzando il set di dati COCO-Seg?

Per addestrare un modello YOLO11n-seg sul dataset COCO-Seg per 100 epoche con una dimensione dell'immagine di 640, puoi utilizzare i seguenti frammenti di codice. Per un elenco dettagliato degli argomenti disponibili, consulta la pagina Training del modello.

Esempio di addestramento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-seg.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo segment train data=coco.yaml model=yolo11n-seg.pt epochs=100 imgsz=640

Quali sono le caratteristiche principali del dataset COCO-Seg?

Il dataset COCO-Seg include diverse caratteristiche chiave:

Mantiene le 330.000 immagini originali del dataset COCO.
Annota le stesse 80 categorie di oggetti presenti nel COCO originale.
Fornisce maschere di segmentazione dell'istanza più dettagliate per ogni oggetto.
Utilizza metriche di valutazione standardizzate come la mean Average Precision (mAP) per il rilevamento di oggetti e la mean Average Recall (mAR) per le attività di segmentazione delle istanze.

Quali modelli pre-addestrati sono disponibili per COCO-Seg e quali sono le loro metriche di performance?

Il dataset COCO-Seg supporta più modelli di segmentazione YOLO11 preaddestrati con diverse metriche di prestazioni. Ecco un riepilogo dei modelli disponibili e delle loro metriche chiave:

Modello	dimensione ^(pixel)	mAP^box 50-95	mAP^mask 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLO11n-seg	640	38.9	32.0	65.9 ± 1.1	1.8 ± 0.0	2.9	9.7
YOLO11s-seg	640	46.6	37.8	117.6 ± 4.9	2.9 ± 0.0	10.1	33.0
YOLO11m-seg	640	51.5	41.5	281.6 ± 1.2	6.3 ± 0.1	22.4	113.2
YOLO11l-seg	640	53.4	42.9	344.2 ± 3.2	7.8 ± 0.2	27.6	132.2
YOLO11x-seg	640	54.7	43.8	664.5 ± 3.2	15.8 ± 0.7	62.1	296.4

Questi modelli variano dal leggero YOLO11n-seg al più potente YOLO11x-seg, offrendo diversi compromessi tra velocità e precisione per soddisfare le diverse esigenze applicative. Per maggiori informazioni sulla selezione del modello, visitare la pagina dei modelli Ultralytics.

Come è strutturato il dataset COCO-Seg e quali sottoinsiemi contiene?

Il dataset COCO-Seg è suddiviso in tre sottoinsiemi per specifiche esigenze di addestramento e valutazione:

Train2017: Contiene 118.000 immagini utilizzate principalmente per l'addestramento di modelli di segmentazione delle istanze.
Val2017: Comprende 5.000 immagini utilizzate per la convalida durante il processo di addestramento.
Test2017: Comprende 20.000 immagini riservate ai test e al benchmarking dei modelli addestrati. Si noti che le annotazioni ground truth per questo sottoinsieme non sono pubblicamente disponibili e i risultati delle prestazioni vengono inviati al server di valutazione COCO per la valutazione.

Per esigenze di sperimentazione più contenute, si può anche considerare l'utilizzo del dataset COCO8-seg, che è una versione compatta contenente solo 8 immagini dal set di training COCO 2017.

📅 Creato 1 anno fa ✏️ Aggiornato 7 mesi fa