带有 OBB 的 DOTA 数据集

Q: How can I train a model using the DOTA dataset?

要在 DOTA 数据集上训练模型，你可以使用以下 Ultralytics YOLO 示例：有关如何拆分和预处理 DOTA 图像的更多详细信息，请参阅拆分 DOTA 图像部分。

Q: How can I prepare high-resolution DOTA images for training?

DOTA 图像可能非常大，因此会拆分为较小的分辨率以进行管理型训练。这是一个拆分图像的 Python 代码片段：此过程有助于提高训练效率和模型性能。有关详细说明，请访问拆分 DOTA 图像部分。

DOTA 作为一个专门的数据集，强调航空图像中的目标检测。它源自 DOTA 系列数据集，提供带注释的图像，这些图像使用旋转框检测 (OBB)捕获各种航空场景。

DOTA 数据集用于航空 detect 的目标类别

主要功能

观看： 如何在 Google Colab 中使用 DOTA 数据集训练 Ultralytics YOLO26 以进行定向边界框检测

从各种传感器和平台收集，图像大小从 800 × 800 像素到 20,000 × 20,000 像素不等。
包含超过170万个定向边界框，涵盖18个类别。
得益于每张图像中目标尺寸的广泛分布，涵盖了多尺度目标检测。
实例由专家使用任意（8 自由度）四边形进行标注，捕捉不同尺度、方向和形状的对象。

数据集版本

DOTA-v1.0

包含15个常见类别。
包含2,806张图像，共计188,282个实例。
分割比例：训练集1/2，验证集1/6，测试集1/3。

DOTA-v1.5

包含与DOTA-v1.0相同的图像。
非常小的实例（小于10像素）也进行了标注。
新增一个类别：“集装箱起重机”。
总共有403,318个实例。
为DOAI 2019 年航拍图像目标检测挑战赛发布。

DOTA-v2.0

收集自Google Earth、GF-2卫星和其他航空图像。
包含18个常见类别。
包含11,268张图像，共计1,793,658个实例。
引入了新的类别：“机场”和“直升机停机坪”。
图像分割：
- 训练集：1,830张图像，包含268,627个实例。
- 验证集：593张图像，包含81,048个实例。
- Test-dev：2,792张图像，包含353,346个实例。
- Test-challenge：6,053张图像，包含1,090,637个实例。

数据集结构

DOTA 展示了一个为 OBB 目标检测挑战量身定制的结构化布局：

图像：大量高分辨率航空图像，捕捉了不同的地形和结构。
定向边界框：以旋转矩形形式存在的标注，封装了目标，不受其方向的影响，非常适合捕捉飞机、船舶和建筑物等目标。

应用

DOTA 可作为训练和评估专门为航空图像分析量身定制的模型的基准。通过包含 OBB 注释，它提供了一个独特的挑战，从而可以开发专门的目标检测模型，以满足航空图像的细微差别。该数据集对于遥感、监视和环境监测中的应用尤其有价值。

数据集 YAML

一个数据集 yaml (Yet Another Markup Language) 文件指定了图像/标签根目录、类别名称以及其他重要的元数据。Ultralytics 为两个最常用的版本维护官方 yaml 文件：

使用与您下载的版本匹配的YAML文件，如果您正在使用DOTA-v2或其他衍生版本，则可以编写自定义YAML文件。

DOTAv1.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# DOTA 1.0 dataset https://captain-whu.github.io/DOTA/index.html for object detection in aerial images by Wuhan University
# Documentation: https://docs.ultralytics.com/datasets/obb/dota-v2/
# Example usage: yolo train model=yolov8n-obb.pt data=DOTAv1.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── dota1 ← downloads here (2 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: DOTAv1 # dataset root dir
train: images/train # train images (relative to 'path') 1411 images
val: images/val # val images (relative to 'path') 458 images
test: images/test # test images (optional) 937 images

# Classes for DOTA 1.0
names:
  0: plane
  1: ship
  2: storage tank
  3: baseball diamond
  4: tennis court
  5: basketball court
  6: ground track field
  7: harbor
  8: bridge
  9: large vehicle
  10: small vehicle
  11: helicopter
  12: roundabout
  13: soccer ball field
  14: swimming pool

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/DOTAv1.zip

拆分 DOTA 图像

原始图像每边通常超过 10,000 像素，因此在将数据输入 YOLO 之前需要进行切片。使用下面的辅助工具将源图像切片成多个尺度下重叠的 1024 × 1024 块，同时保持标注同步。

分割图像

Python

from ultralytics.data.split_dota import split_test, split_trainval

# Split train and val set, with labels.
split_trainval(
    data_root="path/to/DOTAv1.0/",
    save_dir="path/to/DOTAv1.0-split/",
    rates=[0.5, 1.0, 1.5],  # multiscale
    gap=500,
)
# Split test set, without labels.
split_test(
    data_root="path/to/DOTAv1.0/",
    save_dir="path/to/DOTAv1.0-split/",
    rates=[0.5, 1.0, 1.5],  # multiscale
    gap=500,
)

提示

保持输出目录按照标准的 YOLO 布局组织 (images/train, labels/train，等等），因此您可以直接从数据集 YAML 中引用它。

用法

要在 DOTA v1 数据集上训练模型，您可以使用以下代码片段。始终参考模型的文档以获取可用参数的完整列表。对于那些希望首先尝试较小子集的人，请考虑使用 DOTA8 数据集，该数据集仅包含 8 个图像以进行快速测试。

警告

请注意，DOTAv1数据集中的所有图像和相关注释均可用于学术目的，但禁止商业用途。非常感谢您理解并尊重数据集创建者的意愿！

训练示例

PythonCLI

from ultralytics import YOLO

# Create a new YOLO26n-OBB model from scratch
model = YOLO("yolo26n-obb.yaml")

# Train the model on the DOTAv1 dataset
results = model.train(data="DOTAv1.yaml", epochs=100, imgsz=1024)

# Train a new YOLO26n-OBB model on the DOTAv1 dataset
yolo obb train data=DOTAv1.yaml model=yolo26n-obb.pt epochs=100 imgsz=1024

样本数据和注释

浏览一下数据集，即可了解其深度：

DOTA 数据集带定向边界框标注

DOTA 示例：此快照突出了航空场景的复杂性以及定向边界框注释的重要性，从而以其自然方向捕获对象。

该数据集的丰富性为理解航空图像独有的目标检测挑战提供了宝贵的见解。DOTA-v2.0 数据集因其全面的注释和多样化的对象类别而变得特别受遥感和航空监视项目的欢迎。

引用和致谢

如果您在工作中使用 DOTA，请引用相关的研究论文：

BibTeX

@article{9560031,
  author={Ding, Jian and Xue, Nan and Xia, Gui-Song and Bai, Xiang and Yang, Wen and Yang, Michael and Belongie, Serge and Luo, Jiebo and Datcu, Mihai and Pelillo, Marcello and Zhang, Liangpei},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  title={Object Detection in Aerial Images: A Large-Scale Benchmark and Challenges},
  year={2021},
  volume={},
  number={},
  pages={1-1},
  doi={10.1109/TPAMI.2021.3117983}
}

特别感谢DOTA数据集背后的团队为整理此数据集所做的值得称赞的努力。要全面了解数据集及其细微之处，请访问DOTA官方网站。

常见问题

什么是 DOTA 数据集？为什么它对航空图像中的目标检测如此重要？

DOTA 数据集是一个专门的数据集，专注于航空图像中的目标检测。它以旋转框检测 (OBB) 为特色，提供来自各种航空场景的带注释图像。DOTA 在其 170 万个注释和 18 个类别中，对象方向、比例和形状的多样性使其成为开发和评估专为航空图像分析量身定制的模型的理想选择，例如用于监视、环境监测和灾害管理中的模型。

DOTA 数据集如何处理图像中不同的比例和方向？

DOTA 利用旋转框检测 (OBB) 进行注释，这些注释由旋转的矩形表示，无论对象的方向如何，都可以封装对象。此方法确保准确捕获对象，无论其大小或角度如何。数据集的多尺度图像范围从 800 × 800 像素到 20,000 × 20,000 像素，进一步可以有效地检测小对象和大对象。这种方法对于对象以各种角度和比例出现的航空图像尤其有价值。

如何使用 DOTA 数据集训练模型？

要在 DOTA 数据集上训练模型，您可以使用以下示例，使用 Ultralytics YOLO：

训练示例

PythonCLI

from ultralytics import YOLO

# Create a new YOLO26n-OBB model from scratch
model = YOLO("yolo26n-obb.yaml")

# Train the model on the DOTAv1 dataset
results = model.train(data="DOTAv1.yaml", epochs=100, imgsz=1024)

# Train a new YOLO26n-OBB model on the DOTAv1 dataset
yolo obb train data=DOTAv1.yaml model=yolo26n-obb.pt epochs=100 imgsz=1024

有关如何分割和预处理DOTA图像的更多详细信息，请参阅分割DOTA图像部分。

DOTA-v1.0、DOTA-v1.5 和 DOTA-v2.0 之间有什么区别？

DOTA-v1.0：包括2,806张图像中的15个常见类别，包含188,282个实例。数据集分为训练集、验证集和测试集。
DOTA-v1.5：在DOTA-v1.0的基础上，注释了非常小的实例（小于10像素），并添加了一个新类别“集装箱起重机”，总计403,318个实例。
DOTA-v2.0：通过Google Earth和GF-2卫星的注释进一步扩展，包含11,268张图像和1,793,658个实例。它包括“机场”和“直升机停机坪”等新类别。

有关详细的比较和其他详细信息，请查看数据集版本部分。

如何准备用于训练的高分辨率 DOTA 图像？

DOTA图像可能非常大，因此会分割成较小的分辨率，以便于管理训练。这是一个分割图像的python代码片段：

示例