Conjunto de dados de COV
O conjunto de dados PASCAL VOC (Visual Object Classes) Ć© um conjunto de dados bem conhecido de deteĆ§Ć£o, segmentaĆ§Ć£o e classificaĆ§Ć£o de objectos. Foi concebido para encorajar a investigaĆ§Ć£o sobre uma grande variedade de categorias de objectos e Ć© normalmente utilizado para aferir modelos de visĆ£o por computador. Ć um conjunto de dados essencial para investigadores e programadores que trabalham em tarefas de deteĆ§Ć£o, segmentaĆ§Ć£o e classificaĆ§Ć£o de objectos.
CaracterĆsticas principais
- O conjunto de dados VOC inclui dois desafios principais: VOC2007 e VOC2012.
- O conjunto de dados inclui 20 categorias de objectos, incluindo objectos comuns como carros, bicicletas e animais, bem como categorias mais especĆficas como barcos, sofĆ”s e mesas de jantar.
- As anotaƧƵes incluem caixas delimitadoras de objectos e etiquetas de classe para as tarefas de deteĆ§Ć£o e classificaĆ§Ć£o de objectos, e mĆ”scaras de segmentaĆ§Ć£o para as tarefas de segmentaĆ§Ć£o.
- O VOC fornece mĆ©tricas de avaliaĆ§Ć£o padronizadas como a precisĆ£o mĆ©dia (mAP) para a deteĆ§Ć£o e classificaĆ§Ć£o de objectos, tornando-o adequado para comparar o desempenho do modelo.
Estrutura do conjunto de dados
O conjunto de dados COV estĆ” dividido em trĆŖs subconjuntos:
- Treina: Este subconjunto contĆ©m imagens para treinar modelos de deteĆ§Ć£o, segmentaĆ§Ć£o e classificaĆ§Ć£o de objectos.
- ValidaĆ§Ć£o: Este subconjunto tem imagens utilizadas para efeitos de validaĆ§Ć£o durante a formaĆ§Ć£o do modelo.
- Testa: Este subconjunto Ć© constituĆdo por imagens utilizadas para testar e aferir os modelos treinados. As anotaƧƵes da verdade terrestre para este subconjunto nĆ£o estĆ£o disponĆveis publicamente e os resultados sĆ£o submetidos ao servidor de avaliaĆ§Ć£o PASCAL VOC para avaliaĆ§Ć£o do desempenho.
AplicaƧƵes
O conjunto de dados VOC Ć© amplamente utilizado para treinar e avaliar modelos de aprendizagem profunda na deteĆ§Ć£o de objetos (como YOLO, Faster R-CNN e SSD), segmentaĆ§Ć£o de instĆ¢ncias (como Mask R-CNN) e classificaĆ§Ć£o de imagens. O conjunto diversificado de categorias de objetos do conjunto de dados, o grande nĆŗmero de imagens anotadas e as mĆ©tricas de avaliaĆ§Ć£o padronizadas fazem dele um recurso essencial para pesquisadores e profissionais de visĆ£o computacional.
Conjunto de dados YAML
Um ficheiro YAML (Yet Another Markup Language) Ć© utilizado para definir a configuraĆ§Ć£o do conjunto de dados. ContĆ©m informaƧƵes sobre os caminhos do conjunto de dados, classes e outras informaƧƵes relevantes. No caso do conjunto de dados VOC, o ficheiro VOC.yaml
Ć© mantido em https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/VOC.yaml.
ultralytics/cfg/datasets/VOC.yaml
# Ultralytics YOLO š, AGPL-3.0 license
# PASCAL VOC dataset http://host.robots.ox.ac.uk/pascal/VOC by University of Oxford
# Documentation: # Documentation: https://docs.ultralytics.com/datasets/detect/voc/
# Example usage: yolo train data=VOC.yaml
# parent
# āāā ultralytics
# āāā datasets
# āāā VOC ā downloads here (2.8 GB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/VOC
train: # train images (relative to 'path') 16551 images
- images/train2012
- images/train2007
- images/val2012
- images/val2007
val: # val images (relative to 'path') 4952 images
- images/test2007
test: # test images (optional)
- images/test2007
# Classes
names:
0: aeroplane
1: bicycle
2: bird
3: boat
4: bottle
5: bus
6: car
7: cat
8: chair
9: cow
10: diningtable
11: dog
12: horse
13: motorbike
14: person
15: pottedplant
16: sheep
17: sofa
18: train
19: tvmonitor
# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
import xml.etree.ElementTree as ET
from tqdm import tqdm
from ultralytics.utils.downloads import download
from pathlib import Path
def convert_label(path, lb_path, year, image_id):
def convert_box(size, box):
dw, dh = 1. / size[0], 1. / size[1]
x, y, w, h = (box[0] + box[1]) / 2.0 - 1, (box[2] + box[3]) / 2.0 - 1, box[1] - box[0], box[3] - box[2]
return x * dw, y * dh, w * dw, h * dh
in_file = open(path / f'VOC{year}/Annotations/{image_id}.xml')
out_file = open(lb_path, 'w')
tree = ET.parse(in_file)
root = tree.getroot()
size = root.find('size')
w = int(size.find('width').text)
h = int(size.find('height').text)
names = list(yaml['names'].values()) # names list
for obj in root.iter('object'):
cls = obj.find('name').text
if cls in names and int(obj.find('difficult').text) != 1:
xmlbox = obj.find('bndbox')
bb = convert_box((w, h), [float(xmlbox.find(x).text) for x in ('xmin', 'xmax', 'ymin', 'ymax')])
cls_id = names.index(cls) # class id
out_file.write(" ".join(str(a) for a in (cls_id, *bb)) + '\n')
# Download
dir = Path(yaml['path']) # dataset root dir
url = 'https://github.com/ultralytics/yolov5/releases/download/v1.0/'
urls = [f'{url}VOCtrainval_06-Nov-2007.zip', # 446MB, 5012 images
f'{url}VOCtest_06-Nov-2007.zip', # 438MB, 4953 images
f'{url}VOCtrainval_11-May-2012.zip'] # 1.95GB, 17126 images
download(urls, dir=dir / 'images', curl=True, threads=3, exist_ok=True) # download and unzip over existing paths (required)
# Convert
path = dir / 'images/VOCdevkit'
for year, image_set in ('2012', 'train'), ('2012', 'val'), ('2007', 'train'), ('2007', 'val'), ('2007', 'test'):
imgs_path = dir / 'images' / f'{image_set}{year}'
lbs_path = dir / 'labels' / f'{image_set}{year}'
imgs_path.mkdir(exist_ok=True, parents=True)
lbs_path.mkdir(exist_ok=True, parents=True)
with open(path / f'VOC{year}/ImageSets/Main/{image_set}.txt') as f:
image_ids = f.read().strip().split()
for id in tqdm(image_ids, desc=f'{image_set}{year}'):
f = path / f'VOC{year}/JPEGImages/{id}.jpg' # old img path
lb_path = (lbs_path / f.name).with_suffix('.txt') # new label path
f.rename(imgs_path / f.name) # move image
convert_label(path, lb_path, year, id) # convert labels to YOLO format
UtilizaĆ§Ć£o
Para treinar um modelo YOLOv8n no conjunto de dados VOC para 100 Ć©pocas com um tamanho de imagem de 640, podes utilizar os seguintes snippets de cĆ³digo. Para obter uma lista abrangente dos argumentos disponĆveis, consulta a pĆ”gina de treino do modelo.
Exemplo de comboio
Exemplos de imagens e anotaƧƵes
O conjunto de dados VOC contƩm um conjunto diversificado de imagens com vƔrias categorias de objectos e cenas complexas. Seguem-se alguns exemplos de imagens do conjunto de dados, juntamente com as anotaƧƵes correspondentes:
- Imagem em mosaico: Esta imagem demonstra um lote de treino composto por imagens do conjunto de dados em mosaico. O mosaico Ć© uma tĆ©cnica utilizada durante o treino que combina vĆ”rias imagens numa Ćŗnica imagem para aumentar a variedade de objectos e cenas em cada lote de treino. Isto ajuda a melhorar a capacidade do modelo de generalizar para diferentes tamanhos de objectos, proporƧƵes e contextos.
O exemplo mostra a variedade e complexidade das imagens no conjunto de dados VOC e os benefĆcios da utilizaĆ§Ć£o de mosaicos durante o processo de formaĆ§Ć£o.
CitaƧƵes e agradecimentos
Se utilizares o conjunto de dados VOC no teu trabalho de investigaĆ§Ć£o ou desenvolvimento, cita o seguinte documento:
GostarĆamos de agradecer ao ConsĆ³rcio PASCAL VOC por criar e manter este valioso recurso para a comunidade de visĆ£o computacional. Para mais informaƧƵes sobre o conjunto de dados VOC e os seus criadores, visita o site do conjunto de dados PASCAL VOC.