Link to this sectionConjunto de datos Argoverse#

Name: Argoverse Detection Dataset
Creator: Argo AI
License: https://creativecommons.org/licenses/by-nc-sa/4.0/
Keywords: Conjunto de datos Argoverse, Argoverse-HD, detección de objetos, Detección 2D, conducción autónoma, conjunto de datos de coche autónomo, YOLO26, detección de tráfico, Ultralytics

El conjunto de datos Ultralytics Argoverse (Argoverse-HD) es un conjunto de datos de detección de objetos 2D con 54 446 imágenes etiquetadas de conducción autónoma (39 384 para entrenamiento y 15 062 para validación) en 8 clases: persona, bicicleta, coche, motocicleta, autobús, camión, semáforo y señal de stop. Las imágenes se capturan desde la cámara central delantera del vehículo y las anotaciones provienen del proyecto de percepción en streaming de la Carnegie Mellon University, construido sobre los datos de conducción Argoverse 1.1 de Argo AI. Es un benchmark grande y del mundo real para entrenar modelos de visión artificial para detectar objetos en la carretera en escenarios de conducción autónoma.

Se requiere descarga manual

El archivo *.zip de Argoverse-HD (~31.5 GB) necesario para el entrenamiento se eliminó de Amazon S3 tras el cierre de Argo AI por parte de Ford. Está disponible para descarga manual desde Google Drive; la descarga automática no funcionará, así que descarga el archivo antes de entrenar.

Link to this sectionCaracterísticas clave#

8 clases de detección de objetos: persona, bicicleta, coche, motocicleta, autobús, camión, semáforo y señal de stop.
54 446 imágenes etiquetadas — 39 384 para entrenamiento y 15 062 para validación — además de una división de prueba sin etiquetar reservada para el desafío eval.ai.
~31.5 GB de fotogramas de cámara central delantera de alta resolución capturados en escenas de conducción autónoma urbana.
Las anotaciones se convierten automáticamente al formato YOLO en el primer uso, por lo que el conjunto de datos se entrena directamente con los modelos de detección Ultralytics YOLO.

Link to this sectionEstructura del dataset#

El conjunto de datos Argoverse-HD se divide en tres subconjuntos predefinidos, definidos por la configuración Argoverse.yaml:

Split	Imágenes	Etiquetas
Entrenar	39 384	Sí
Validación	15 062	Sí
Prueba	—	Sin etiquetar (desafío eval.ai)

Todas las imágenes comparten las mismas 8 clases de objetos (índices 0–7): persona, bicicleta, coche, motocicleta, autobús, camión, semáforo y señal de stop.

Conversión automática a YOLO

Después de la descarga manual, Ultralytics convierte automáticamente las anotaciones originales de Argoverse-HD en etiquetas de detección YOLO la primera vez que entrenas, por lo que no se requiere preprocesamiento manual.

Link to this sectionAplicaciones#

El conjunto de datos Argoverse-HD admite una variedad de aplicaciones de detección de objetos en conducción autónoma:

Percepción para conducción autónoma — detecta vehículos, peatones y ciclistas desde una cámara orientada hacia adelante para ayudar a la navegación de vehículos autónomos.
Sistemas avanzados de asistencia al conductor (ADAS) — reconoce semáforos y señales de stop para alertas al conductor en tiempo real.
Monitorización del tráfico — cuenta y rastrea a los usuarios de la carretera en escenas urbanas para análisis de ciudades inteligentes.
Investigación y creación de prototipos — un benchmark grande y del mundo real para aprender sobre entrenamiento de modelos y predicción con datos de conducción.

Link to this sectionYAML del dataset#

Un archivo YAML define la configuración del conjunto de datos, incluyendo rutas, clases y otros detalles relevantes. Para el conjunto de datos Argoverse, el archivo Argoverse.yaml se mantiene en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/Argoverse.yaml.

ultralytics/cfg/datasets/Argoverse.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Argoverse-HD dataset (ring-front-center camera) by Argo AI: https://www.cs.cmu.edu/~mengtial/proj/streaming/
# Documentation: https://docs.ultralytics.com/datasets/detect/argoverse
# Example usage: yolo train data=Argoverse.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── Argoverse ← downloads here (31.5 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: Argoverse # dataset root dir
train: Argoverse-1.1/images/train/ # train images (relative to 'path') 39384 images
val: Argoverse-1.1/images/val/ # val images (relative to 'path') 15062 images
test: Argoverse-1.1/images/test/ # test images (optional) https://eval.ai/web/challenges/challenge-page/800/overview

# Classes
names:
  0: person
  1: bicycle
  2: car
  3: motorcycle
  4: bus
  5: truck
  6: traffic_light
  7: stop_sign

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import json
  from pathlib import Path

  from ultralytics.utils import TQDM
  from ultralytics.utils.downloads import download

  def argoverse2yolo(annotation_file):
      """Convert Argoverse dataset annotations to YOLO format for object detection tasks."""
      labels = {}
      with open(annotation_file, encoding="utf-8") as f:
          a = json.load(f)
      for annot in TQDM(a["annotations"], desc=f"Converting {annotation_file} to YOLO format..."):
          img_id = annot["image_id"]
          img_name = a["images"][img_id]["name"]
          img_label_name = f"{Path(img_name).stem}.txt"

          cls = annot["category_id"]  # instance class id
          x_center, y_center, width, height = annot["bbox"]
          x_center = (x_center + width / 2) / 1920.0  # offset and scale
          y_center = (y_center + height / 2) / 1200.0  # offset and scale
          width /= 1920.0  # scale
          height /= 1200.0  # scale

          img_dir = annotation_file.parents[2] / "Argoverse-1.1" / "labels" / a["seq_dirs"][a["images"][annot["image_id"]]["sid"]]
          if not img_dir.exists():
              img_dir.mkdir(parents=True, exist_ok=True)

          k = str(img_dir / img_label_name)
          if k not in labels:
              labels[k] = []
          labels[k].append(f"{cls} {x_center} {y_center} {width} {height}\n")

      for k in labels:
          with open(k, "w", encoding="utf-8") as f:
              f.writelines(labels[k])

  # Download 'https://argoverse-hd.s3.amazonaws.com/Argoverse-HD-Full.zip' (deprecated S3 link)
  dir = Path(yaml["path"])  # dataset root dir
  urls = ["https://drive.google.com/file/d/1st9qW3BeIwQsnR0t8mRpvbsSWIo16ACi/view?usp=drive_link"]
  print("\n\nWARNING: Argoverse dataset MUST be downloaded manually, autodownload will NOT work.")
  print(f"WARNING: Manually download Argoverse dataset '{urls[0]}' to '{dir}' and re-run your command.\n\n")
  # download(urls, dir=dir)

  # Convert
  annotations_dir = "Argoverse-HD/annotations/"
  (dir / "Argoverse-1.1" / "tracking").rename(dir / "Argoverse-1.1" / "images")  # rename 'tracking' to 'images'
  for d in "train.json", "val.json":
      argoverse2yolo(dir / annotations_dir / d)  # convert Argoverse annotations to YOLO labels

Link to this sectionUso#

Para entrenar un modelo YOLO26n en el conjunto de datos Argoverse durante 100 épocas con un tamaño de imagen de 640, utiliza los siguientes ejemplos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de Entrenamiento del modelo.

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="Argoverse.yaml", epochs=100, imgsz=640)

Una vez entrenado, ejecuta la inferencia con el modelo ajustado en nuevas imágenes o vídeos de conducción:

Ejemplo de inferencia

from ultralytics import YOLO

# Load a model
model = YOLO("path/to/best.pt")  # load an Argoverse fine-tuned model

# Inference using the model
results = model.predict("path/to/driving-scene.jpg")

Link to this sectionEjemplos de datos y anotaciones#

El conjunto de datos Argoverse-HD contiene imágenes de conducción de alta resolución capturadas desde una cámara central delantera, anotadas con cuadros delimitadores 2D para las 8 clases de objetos. A continuación, se muestra un ejemplo de imagen del conjunto de datos con sus correspondientes anotaciones:

Escena de conducción autónoma de Argoverse-HD con objetos de carretera anotados

Escena de conducción anotada: esta imagen muestra objetos en la carretera, como vehículos y peatones, etiquetados con cuadros delimitadores 2D, el formato que los modelos YOLO aprenden a predecir durante el entrenamiento.

Link to this sectionCitas y agradecimientos#

Las anotaciones de detección 2D de Argoverse-HD utilizadas en este conjunto de datos provienen del trabajo de percepción en streaming de la Carnegie Mellon University. Si utilizas el conjunto de datos en tu investigación o desarrollo, por favor cita:

Cita

@inproceedings{li2020towards,
  title={Towards Streaming Perception},
  author={Li, Mengtian and Wang, Yu-Xiong and Ramanan, Deva},
  booktitle={Proceedings of the European Conference on Computer Vision (ECCV)},
  pages={473--488},
  year={2020}
}

@inproceedings{chang2019argoverse,
  title={Argoverse: 3D Tracking and Forecasting with Rich Maps},
  author={Chang, Ming-Fang and Lambert, John and Sangkloy, Patsorn and Singh, Jagjeet and Bak, Slawomir and Hartnett, Andrew and Wang, Dequan and Carr, Peter and Lucey, Simon and Ramanan, Deva and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={8748--8757},
  year={2019}
}

Nos gustaría agradecer a la Carnegie Mellon University por las anotaciones de detección de Argoverse-HD y a Argo AI por crear el conjunto de datos Argoverse original como un recurso valioso para la comunidad de investigación en conducción autónoma.

Link to this sectionFAQ#

Link to this section¿Qué es el conjunto de datos Argoverse y para qué se utiliza?#

El conjunto de datos Ultralytics Argoverse (Argoverse-HD) es un conjunto de datos de detección de objetos 2D con 54 446 imágenes de conducción autónoma en 8 clases: persona, bicicleta, coche, motocicleta, autobús, camión, semáforo y señal de stop. Se utiliza para entrenar y evaluar modelos que detectan objetos de la carretera desde una cámara del vehículo orientada hacia adelante, apoyando la percepción para conducción autónoma, ADAS y la investigación en monitorización del tráfico.

Link to this section¿Cuántas clases e imágenes hay en el conjunto de datos Argoverse?#

El conjunto de datos Argoverse-HD tiene 8 clases (persona, bicicleta, coche, motocicleta, autobús, camión, semáforo y señal de stop) y 54 446 imágenes etiquetadas — 39 384 para entrenamiento y 15 062 para validación — además de una división de prueba sin etiquetar reservada para el desafío eval.ai.

Link to this section¿Es el conjunto de datos Argoverse de detección 2D o 3D en Ultralytics?#

En Ultralytics, es un conjunto de datos de detección de objetos 2D (fotogramas de cámara Argoverse-HD con cuadros delimitadores 2D), no la suite de investigación de seguimiento 3D, pronóstico de movimiento o LiDAR del programa Argoverse más amplio. Lo entrenas con un modelo de detección estándar como yolo26n.pt.

Link to this section¿Cómo entreno un modelo YOLO26 usando el conjunto de datos Argoverse?#

Descarga primero el conjunto de datos manualmente (mira abajo), luego entrena con el archivo de configuración Argoverse.yaml:

Ejemplo

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="Argoverse.yaml", epochs=100, imgsz=640)

Para obtener una explicación detallada de los argumentos, consulta la página de Entrenamiento del modelo.

Link to this section¿Dónde puedo descargar el conjunto de datos Argoverse ahora que se ha eliminado de Amazon S3?#

El archivo *.zip de Argoverse-HD (~31.5 GB), anteriormente alojado en Amazon S3, ahora se puede descargar manualmente desde Google Drive. La descarga automática no funcionará, así que obtén el archivo antes de ejecutar tu comando de entrenamiento.

Link to this section¿Puedo usar el conjunto de datos Argoverse con la plataforma Ultralytics?#

Sí. Ultralytics Platform te permite cargar y versionar grandes conjuntos de datos como Argoverse-HD, luego entrenar y desplegar modelos de detección de objetos en la nube sin una configuración local pesada. También puedes explorar conjuntos de datos relacionados en la descripción general de conjuntos de datos de detección.

Colaboradores

GLglenn-jocher¹³ RAraimbekovm³ MAMatthewNoyce¹ RIRizwanMunawar¹

Creado 12 nov 2023Actualizado anteayer