Skip to content

Jeu de données VisDrone

The VisDrone Dataset is a large-scale benchmark created by the AISKYEYE team at the Lab of Machine Learning and Data Mining, Tianjin University, China. It contains carefully annotated ground truth data for various computer vision tasks related to drone-based image and video analysis.



Regarde : Comment former les modèles Ultralytics YOLO sur l'ensemble de données VisDrone pour l'analyse d'images de drones ?

VisDrone est composé de 288 clips vidéo avec 261 908 images et 10 209 images statiques, capturées par diverses caméras montées sur des drones. L'ensemble de données couvre un large éventail d'aspects, notamment le lieu (14 villes différentes à travers la Chine), l'environnement (urbain et rural), les objets (piétons, véhicules, vélos, etc.) et la densité (scènes clairsemées et bondées). L'ensemble de données a été collecté à l'aide de diverses plateformes de drones dans différents scénarios et conditions météorologiques et d'éclairage. Ces images sont annotées manuellement avec plus de 2,6 millions de boîtes englobantes de cibles telles que des piétons, des voitures, des vélos et des tricycles. Des attributs tels que la visibilité de la scène, la classe d'objet et l'occlusion sont également fournis pour une meilleure utilisation des données.

Structure de l'ensemble de données

L'ensemble de données VisDrone est organisé en cinq sous-ensembles principaux, chacun se concentrant sur une tâche spécifique :

  1. Tâche 1: Détection d'objets dans les images
  2. Tâche 2: détection d'objets dans les vidéos
  3. Tâche 3: suivi d'un seul objet
  4. Tâche 4: suivi de plusieurs objets
  5. Tâche 5: compter les foules

Applications

The VisDrone dataset is widely used for training and evaluating deep learning models in drone-based computer vision tasks such as object detection, object tracking, and crowd counting. The dataset's diverse set of sensor data, object annotations, and attributes make it a valuable resource for researchers and practitioners in the field of drone-based computer vision.

Jeu de données YAML

Un fichier YAML (Yet Another Markup Language) est utilisé pour définir la configuration du jeu de données. Il contient des informations sur les chemins d'accès au jeu de données, les classes et d'autres informations pertinentes. Dans le cas du jeu de données Visdrone, le fichier VisDrone.yaml est maintenu à https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/VisDrone.yaml.

ultralytics/cfg/datasets/VisDrone.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# VisDrone2019-DET dataset https://github.com/VisDrone/VisDrone-Dataset by Tianjin University
# Documentation: https://docs.ultralytics.com/datasets/detect/visdrone/
# Example usage: yolo train data=VisDrone.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── VisDrone  ← downloads here (2.3 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/VisDrone # dataset root dir
train: VisDrone2019-DET-train/images # train images (relative to 'path')  6471 images
val: VisDrone2019-DET-val/images # val images (relative to 'path')  548 images
test: VisDrone2019-DET-test-dev/images # test images (optional)  1610 images

# Classes
names:
  0: pedestrian
  1: people
  2: bicycle
  3: car
  4: van
  5: truck
  6: tricycle
  7: awning-tricycle
  8: bus
  9: motor

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import os
  from pathlib import Path

  from ultralytics.utils.downloads import download

  def visdrone2yolo(dir):
      from PIL import Image
      from tqdm import tqdm

      def convert_box(size, box):
          # Convert VisDrone box to YOLO xywh box
          dw = 1. / size[0]
          dh = 1. / size[1]
          return (box[0] + box[2] / 2) * dw, (box[1] + box[3] / 2) * dh, box[2] * dw, box[3] * dh

      (dir / 'labels').mkdir(parents=True, exist_ok=True)  # make labels directory
      pbar = tqdm((dir / 'annotations').glob('*.txt'), desc=f'Converting {dir}')
      for f in pbar:
          img_size = Image.open((dir / 'images' / f.name).with_suffix('.jpg')).size
          lines = []
          with open(f, 'r') as file:  # read annotation.txt
              for row in [x.split(',') for x in file.read().strip().splitlines()]:
                  if row[4] == '0':  # VisDrone 'ignored regions' class 0
                      continue
                  cls = int(row[5]) - 1
                  box = convert_box(img_size, tuple(map(int, row[:4])))
                  lines.append(f"{cls} {' '.join(f'{x:.6f}' for x in box)}\n")
                  with open(str(f).replace(f'{os.sep}annotations{os.sep}', f'{os.sep}labels{os.sep}'), 'w') as fl:
                      fl.writelines(lines)  # write label.txt


  # Download
  dir = Path(yaml['path'])  # dataset root dir
  urls = ['https://github.com/ultralytics/assets/releases/download/v0.0.0/VisDrone2019-DET-train.zip',
          'https://github.com/ultralytics/assets/releases/download/v0.0.0/VisDrone2019-DET-val.zip',
          'https://github.com/ultralytics/assets/releases/download/v0.0.0/VisDrone2019-DET-test-dev.zip',
          'https://github.com/ultralytics/assets/releases/download/v0.0.0/VisDrone2019-DET-test-challenge.zip']
  download(urls, dir=dir, curl=True, threads=4)

  # Convert
  for d in 'VisDrone2019-DET-train', 'VisDrone2019-DET-val', 'VisDrone2019-DET-test-dev':
      visdrone2yolo(dir / d)  # convert VisDrone annotations to YOLO labels

Utilisation

To train a YOLO11n model on the VisDrone dataset for 100 epochs with an image size of 640, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

Exemple de train

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="VisDrone.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=VisDrone.yaml model=yolo11n.pt epochs=100 imgsz=640

Exemples de données et d'annotations

Le jeu de données VisDrone contient un ensemble varié d'images et de vidéos capturées par des caméras montées sur des drones. Voici quelques exemples de données issues du jeu de données, ainsi que les annotations correspondantes :

Image de l'échantillon du jeu de données

  • Task 1: Object detection in images - This image demonstrates an example of object detection in images, where objects are annotated with bounding boxes. The dataset provides a wide variety of images taken from different locations, environments, and densities to facilitate the development of models for this task.

Cet exemple montre la variété et la complexité des données de l'ensemble de données VisDrone et souligne l'importance des données de capteur de haute qualité pour les tâches de vision par ordinateur basées sur les drones.

Citations et remerciements

Si tu utilises le jeu de données VisDrone dans tes travaux de recherche ou de développement, cite l'article suivant :

@ARTICLE{9573394,
  author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  title={Detection and Tracking Meet Drones Challenge},
  year={2021},
  volume={},
  number={},
  pages={1-1},
  doi={10.1109/TPAMI.2021.3119563}}

We would like to acknowledge the AISKYEYE team at the Lab of Machine Learning and Data Mining, Tianjin University, China, for creating and maintaining the VisDrone dataset as a valuable resource for the drone-based computer vision research community. For more information about the VisDrone dataset and its creators, visit the VisDrone Dataset GitHub repository.

FAQ

Qu'est-ce que le jeu de données VisDrone et quelles sont ses principales caractéristiques ?

The VisDrone Dataset is a large-scale benchmark created by the AISKYEYE team at Tianjin University, China. It is designed for various computer vision tasks related to drone-based image and video analysis. Key features include:

  • Composition: 288 video clips with 261,908 frames and 10,209 static images.
  • Annotations: Over 2.6 million bounding boxes for objects like pedestrians, cars, bicycles, and tricycles.
  • Diversity: Collected across 14 cities, in urban and rural settings, under different weather and lighting conditions.
  • Tasks: Split into five main tasks—object detection in images and videos, single-object and multi-object tracking, and crowd counting.

How can I use the VisDrone Dataset to train a YOLO11 model with Ultralytics?

To train a YOLO11 model on the VisDrone dataset for 100 epochs with an image size of 640, you can follow these steps:

Exemple de train

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="VisDrone.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=VisDrone.yaml model=yolo11n.pt epochs=100 imgsz=640

Pour les options de configuration supplémentaires, tu peux te référer à la page de formation du modèle.

Quels sont les principaux sous-ensembles du jeu de données VisDrone et leurs applications ?

The VisDrone dataset is divided into five main subsets, each tailored for a specific computer vision task:

  1. Task 1: Object detection in images.
  2. Task 2: Object detection in videos.
  3. Task 3: Single-object tracking.
  4. Task 4: Multi-object tracking.
  5. Task 5: Crowd counting.

These subsets are widely used for training and evaluating deep learning models in drone-based applications such as surveillance, traffic monitoring, and public safety.

Où puis-je trouver le fichier de configuration pour le jeu de données VisDrone dans Ultralytics?

Le fichier de configuration pour le jeu de données VisDrone, VisDrone.yamlTu trouveras ces informations sur le site Ultralytics en cliquant sur le lien suivant : VisDrone.yaml.

Comment puis-je citer le jeu de données VisDrone si je l'utilise dans ma recherche ?

Si tu utilises le jeu de données VisDrone dans tes travaux de recherche ou de développement, cite l'article suivant :

@ARTICLE{9573394,
  author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  title={Detection and Tracking Meet Drones Challenge},
  year={2021},
  volume={},
  number={},
  pages={1-1},
  doi={10.1109/TPAMI.2021.3119563}
}
📅 Created 11 months ago ✏️ Updated 22 days ago

Commentaires