Link to this sectionConjunto de dados xView#

Name: Conjunto de Dados de Detecção xView
Creator: Defense Innovation Unit
License: https://creativecommons.org/licenses/by-nc-sa/4.0/
Keywords: Conjunto de dados xView, imagens de satélite, imagens aéreas, detecção de objetos, sensoriamento remoto, YOLO26, download xView, WorldView-3, caixas delimitadoras, computer vision

O conjunto de dados xView é um dos maiores benchmarks de imagens de satélite publicamente disponíveis para detecção de objetos, fornecendo mais de 1 milhão de instâncias de objetos em 60 classes anotadas com caixas delimitadoras em mais de 1.400 km² de imagens WorldView-3 de 0,3 m. Ele foi lançado para o DIUx xView 2018 Challenge pela Agência Nacional de Inteligência Geoespacial (NGA) dos EUA e requer um download manual de cerca de 20,7 GB.

O conjunto de dados foi criado para impulsionar quatro fronteiras da visão computacional:

Reduzir a resolução mínima para detecção.
Melhorar a eficiência do aprendizado.
Possibilitar a descoberta de mais classes de objetos.
Melhorar a detecção de classes de granulação fina.

Baseando-se em benchmarks como o COCO, o xView foca em imagens aéreas, onde os objetos são muito menores e mais densamente agrupados do que em fotos tiradas ao nível do solo.

Download manual necessário

O conjunto de dados xView não é baixado automaticamente. Registre-se no site do DIUx xView 2018 Challenge para baixar train_images.zip (~15 GB), train_labels.zip e val_images.zip (~5 GB), depois extraia-os em datasets/xView/ para que contenha:

datasets/xView/
├── train_images/          # 847 TIF satellite images
├── val_images/            # 282 TIF images (no public labels)
└── xView_train.geojson    # bounding-box annotations

Na primeira execução de treinamento, a Ultralytics converte as anotações GeoJSON para o formato YOLO e divide automaticamente as imagens rotuladas em aproximadamente 90/10 para conjuntos de treinamento e validação — não é necessária nenhuma conversão manual.

Link to this sectionPrincipais recursos#

Classes de granulação fina: 60 classes de objetos abrangendo aeronaves, veículos, material ferroviário, embarcações marítimas, equipamentos de construção e edifícios — muitos pequenos, raros e visualmente semelhantes.
Alta resolução: distância de amostragem de solo de 0,3 m coletada de satélites WorldView-3.
Anotação densa: mais de 1 milhão de instâncias de objetos em mais de 1.400 km² de imagens, todas rotuladas com caixas delimitadoras horizontais.
Conversão automática: o script de download da Ultralytics converte os rótulos GeoJSON originais para o formato YOLO e gera a divisão de treino/val na primeira utilização.

Link to this sectionEstrutura do Dataset#

As imagens do xView são grandes cenas de satélite no formato TIF, e apenas as 847 imagens de treinamento acompanham rótulos públicos — o conjunto de validação do desafio, com 282 imagens, não possui nenhum. Portanto, a configuração xView.yaml da Ultralytics divide as imagens rotuladas automaticamente na primeira utilização:

Divisão	Imagens	Descrição
Treinar	~90% de 847	Imagens rotuladas listadas em `autosplit_train.txt`, gerado na primeira execução
Validação	~10% de 847	Imagens rotuladas listadas em `autosplit_val.txt`, usadas para avaliação

As 60 classes cobrem categorias de granulação fina, como Aeronave de asa fixa, Avião de carga, Carro pequeno, Ônibus, Locomotiva, Embarcação marítima, Escavadeira, Edifício, Hangar de aeronaves e Tanque de armazenamento; a lista completa está no YAML do conjunto de dados abaixo. Durante a conversão, os IDs de classe originais do desafio (11–94) são remapeados para índices contíguos de 0–59.

Link to this sectionAplicações#

As classes de granulação fina do xView e o ponto de vista aéreo de alta resolução tornam-no um benchmark padrão para treinar e avaliar modelos de aprendizado profundo em sensoriamento remoto. Aplicações comuns incluem:

Reconhecimento militar e de defesa
Planejamento urbano e desenvolvimento
Monitoramento ambiental
Resposta e avaliação de desastres
Mapeamento e gestão de infraestrutura

Para outros benchmarks de imagens aéreas, veja o conjunto de dados VisDrone focado em drones ou o conjunto de dados DOTA-v2 com caixas orientadas.

Link to this sectionYAML do Dataset#

O arquivo xView.yaml define a configuração do conjunto de dados — os caminhos do conjunto de dados, os nomes das 60 classes e o script de download que converte as anotações GeoJSON e gera o autosplit. Ele é mantido no repositório da Ultralytics em https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/xView.yaml.

ultralytics/cfg/datasets/xView.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# DIUx xView 2018 Challenge dataset https://challenge.xviewdataset.org by U.S. National Geospatial-Intelligence Agency (NGA)
# --------  Download and extract data manually to `datasets/xView` before running the train command.  --------
# Documentation: https://docs.ultralytics.com/datasets/detect/xview
# Example usage: yolo train data=xView.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── xView ← downloads here (20.7 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: xView # dataset root dir
train: images/autosplit_train.txt # train images (relative to 'path') 90% of 847 train images
val: images/autosplit_val.txt # val images (relative to 'path') 10% of 847 train images

# Classes
names:
  0: Fixed-wing Aircraft
  1: Small Aircraft
  2: Cargo Plane
  3: Helicopter
  4: Passenger Vehicle
  5: Small Car
  6: Bus
  7: Pickup Truck
  8: Utility Truck
  9: Truck
  10: Cargo Truck
  11: Truck w/Box
  12: Truck Tractor
  13: Trailer
  14: Truck w/Flatbed
  15: Truck w/Liquid
  16: Crane Truck
  17: Railway Vehicle
  18: Passenger Car
  19: Cargo Car
  20: Flat Car
  21: Tank car
  22: Locomotive
  23: Maritime Vessel
  24: Motorboat
  25: Sailboat
  26: Tugboat
  27: Barge
  28: Fishing Vessel
  29: Ferry
  30: Yacht
  31: Container Ship
  32: Oil Tanker
  33: Engineering Vehicle
  34: Tower crane
  35: Container Crane
  36: Reach Stacker
  37: Straddle Carrier
  38: Mobile Crane
  39: Dump Truck
  40: Haul Truck
  41: Scraper/Tractor
  42: Front loader/Bulldozer
  43: Excavator
  44: Cement Mixer
  45: Ground Grader
  46: Hut/Tent
  47: Shed
  48: Building
  49: Aircraft Hangar
  50: Damaged Building
  51: Facility
  52: Construction Site
  53: Vehicle Lot
  54: Helipad
  55: Storage Tank
  56: Shipping container lot
  57: Shipping Container
  58: Pylon
  59: Tower

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import json
  from pathlib import Path
  import shutil

  import numpy as np
  from PIL import Image

  from ultralytics.utils import TQDM
  from ultralytics.data.split import autosplit
  from ultralytics.utils.ops import xyxy2xywhn

  def convert_labels(fname=Path("xView/xView_train.geojson")):
      """Convert xView GeoJSON labels to YOLO format (classes 0-59) and save them as text files."""
      path = fname.parent
      with open(fname, encoding="utf-8") as f:
          print(f"Loading {fname}...")
          data = json.load(f)

      # Make dirs
      labels = path / "labels" / "train"
      shutil.rmtree(labels, ignore_errors=True)
      labels.mkdir(parents=True, exist_ok=True)

      # xView classes 11-94 to 0-59
      xview_class2index = [-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 0, 1, 2, -1, 3, -1, 4, 5, 6, 7, 8, -1, 9, 10, 11,
                           12, 13, 14, 15, -1, -1, 16, 17, 18, 19, 20, 21, 22, -1, 23, 24, 25, -1, 26, 27, -1, 28, -1,
                           29, 30, 31, 32, 33, 34, 35, 36, 37, -1, 38, 39, 40, 41, 42, 43, 44, 45, -1, -1, -1, -1, 46,
                           47, 48, 49, -1, 50, 51, -1, 52, -1, -1, -1, 53, 54, -1, 55, -1, -1, 56, -1, 57, -1, 58, 59]

      shapes = {}
      for feature in TQDM(data["features"], desc=f"Converting {fname}"):
          p = feature["properties"]
          if p["bounds_imcoords"]:
              image_id = p["image_id"]
              image_file = path / "train_images" / image_id
              if image_file.exists():  # 1395.tif missing
                  try:
                      box = np.array([int(num) for num in p["bounds_imcoords"].split(",")])
                      assert box.shape[0] == 4, f"incorrect box shape {box.shape[0]}"
                      cls = p["type_id"]
                      cls = xview_class2index[int(cls)]  # xView class to 0-59
                      assert 59 >= cls >= 0, f"incorrect class index {cls}"

                      # Write YOLO label
                      if image_id not in shapes:
                          shapes[image_id] = Image.open(image_file).size
                      box = xyxy2xywhn(box[None].astype(float), w=shapes[image_id][0], h=shapes[image_id][1], clip=True)
                      with open((labels / image_id).with_suffix(".txt"), "a", encoding="utf-8") as f:
                          f.write(f"{cls} {' '.join(f'{x:.6f}' for x in box[0])}\n")  # write label.txt
                  except Exception as e:
                      print(f"WARNING: skipping one label for {image_file}: {e}")

  # Download manually from https://challenge.xviewdataset.org
  dir = Path(yaml["path"])  # dataset root dir
  # urls = [
  #     "https://d307kc0mrhucc3.cloudfront.net/train_labels.zip",  # train labels
  #     "https://d307kc0mrhucc3.cloudfront.net/train_images.zip",  # 15G, 847 train images
  #     "https://d307kc0mrhucc3.cloudfront.net/val_images.zip",  # 5G, 282 val images (no labels)
  # ]
  # download(urls, dir=dir)

  # Convert labels
  convert_labels(dir / "xView_train.geojson")

  # Move images
  images = Path(dir / "images")
  images.mkdir(parents=True, exist_ok=True)
  Path(dir / "train_images").rename(dir / "images" / "train")
  Path(dir / "val_images").rename(dir / "images" / "val")

  # Split
  autosplit(dir / "images" / "train")

Link to this sectionUso#

Download manual de 20,7 GB

O treinamento espera que o download manual descrito acima seja extraído em datasets/xView/; a conversão de anotações e a divisão de treino/val são executadas automaticamente.

Para treinar um modelo no conjunto de dados xView por 100 épocas com um tamanho de imagem de 640, você pode usar os seguintes trechos de código. Para uma lista abrangente de argumentos disponíveis, consulte a página de Treinamento do modelo.

Exemplo de Treinamento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="xView.yaml", epochs=100, imgsz=640)

Para rotular imagens de satélite adicionais e gerenciar execuções de treinamento do xView no seu navegador, use a Plataforma Ultralytics.

Link to this sectionDados de Amostra e Anotações#

A amostra abaixo mostra uma cena típica do xView: imagens aéreas de alta resolução nas quais pequenos objetos, como veículos e edifícios, são anotados com caixas delimitadoras, ilustrando por que a detecção de objetos em imagens de satélite exige localização de granulação fina.

Imagens de satélite aérea do conjunto de dados xView com detecção de objetos

Link to this sectionCitações e Agradecimentos#

Se você usar o conjunto de dados xView em seu trabalho de pesquisa ou desenvolvimento, cite o seguinte artigo:

Citação

@misc{lam2018xview,
      title={xView: Objects in Context in Overhead Imagery},
      author={Darius Lam and Richard Kuzma and Kevin McGee and Samuel Dooley and Michael Laielli and Matthew Klaric and Yaroslav Bulatov and Brendan McCord},
      year={2018},
      eprint={1802.07856},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Gostaríamos de agradecer à Defense Innovation Unit (DIU) e aos criadores do conjunto de dados xView por sua valiosa contribuição para a comunidade de pesquisa em visão computacional. Para mais informações, visite o site do conjunto de dados xView.

Link to this sectionFAQ#

Link to this sectionO que é o conjunto de dados xView e como ele beneficia a pesquisa em visão computacional?#

O conjunto de dados xView é um benchmark de imagens de satélite lançado para o DIUx xView 2018 Challenge pela Agência Nacional de Inteligência Geoespacial dos EUA, fornecendo mais de 1 milhão de instâncias de objetos em 60 classes de granulação fina em imagens WorldView-3 de 0,3 m. Ele apoia a pesquisa na detecção de objetos pequenos, raros e de granulação fina em visões aéreas, que são alvos muito mais difíceis do que aqueles em fotos tiradas ao nível do solo.

Link to this sectionComo faço para baixar e configurar o conjunto de dados xView?#

O xView requer um download manual: registre-se no site do DIUx xView 2018 Challenge, baixe train_images.zip (~15 GB), train_labels.zip e val_images.zip (~5 GB) — cerca de 20,7 GB no total — e extraia-os em datasets/xView/ seguindo o layout mostrado no aviso no topo desta página. Na primeira execução de treinamento, a Ultralytics converte automaticamente as anotações GeoJSON para o formato YOLO e cria a divisão de treino/validação.

Link to this sectionQuantas imagens e classes o xView possui?#

O xView contém 847 imagens de treinamento rotuladas e 282 imagens de validação sem rótulos públicos, todas capturadas por satélites WorldView-3 com resolução de 0,3 m. As anotações cobrem mais de 1 milhão de instâncias de objetos em 60 classes. Como apenas os rótulos de treinamento são públicos, a configuração xView.yaml da Ultralytics divide as 847 imagens rotuladas em aproximadamente 90/10 para conjuntos de treinamento e validação; veja Estrutura do Conjunto de Dados para detalhes.

Link to this sectionComo faço para treinar um modelo YOLO26 no conjunto de dados xView?#

Treine um modelo YOLO26n no xView por 100 épocas com um tamanho de imagem de 640:

Exemplo de Treinamento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="xView.yaml", epochs=100, imgsz=640)

Para argumentos e configurações detalhados, consulte a página de Treinamento do modelo.

Link to this sectionComo cito o conjunto de dados xView em minha pesquisa?#

Cite o artigo "xView: Objects in Context in Overhead Imagery" (Lam et al., arXiv:1802.07856, 2018); a entrada BibTeX completa está na seção Citações e Agradecimentos acima.

Contribuidores

GLglenn-jocher¹⁹ RAraimbekovm³ PDpderrenger¹ MAMatthewNoyce¹ RIRizwanMunawar¹ JKjk4e¹

Criado 12 de nov. de 2023Atualizado anteontem