使用 YOLOv5 进行多 GPU 训练

本指南说明了如何在单台机器或跨多台机器上使用 多个 GPU 训练 YOLOv5。

在你开始之前

Clone repo and install requirements.txt in a Python>=3.8.0 environment, including PyTorch>=1.8. Models and datasets download automatically from the latest YOLOv5 release.

git clone https://github.com/ultralytics/yolov5 # clone
cd yolov5
pip install -r requirements.txt # install
使用 Docker

建议在所有多 GPU 训练运行中使用 Ultralytics Docker 镜像。请参阅 Docker 快速入门指南Docker Pulls

PyTorch >= 1.9

torch.distributed.run replaces torch.distributed.launch in PyTorch >= 1.9. See the PyTorch distributed documentation for details.

训练

选择一个预训练模型以开始训练。在这里,我们选择 YOLOv5s,它是现有最小且最快的模型。有关所有模型的完整比较,请参阅我们的 README 表格。我们将使用多 GPU 在 COCO 数据集上训练此模型。

YOLOv5 Models

单 GPU

python train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0

多 GPU DataParallel 模式(⚠️ 不推荐)

将多个 GPU ID 传递给 --device 以启用 DataParallel 模式:

python train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1

DataParallel 速度缓慢,相比使用单个 GPU,它对训练速度的提升微乎其微。

多 GPU DistributedDataParallel 模式(✅ 推荐)

在训练命令前加上 python -m torch.distributed.run --nproc_per_node,然后传入常规参数:

python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1
  • --nproc_per_node 是要使用的 GPU 数量。在上面的示例中,该值为 2
  • --batch 是总批次大小,在每个 GPU 上均匀分配。在上面的示例中,每个 GPU 为 64 / 2 = 32

上述命令使用 GPU 0...(N-1)。若要改为通过环境变量控制设备可见性,请在启动前设置 CUDA_VISIBLE_DEVICES=2,3(或任何其他列表)。

Use specific GPUs (click to expand)

传入 --device 后跟特定的 GPU ID。下面的示例使用 GPU 2,3

python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --device 2,3
Use SyncBatchNorm (click to expand)

SyncBatchNorm 可以提高多 GPU 训练的 准确率,但会显著降低训练速度。它 可用于多 GPU DistributedDataParallel 训练。

每个 GPU 上的批次大小较小(<= 8)时效果最好。

要启用 SyncBatchNorm,请传入 --sync-bn

python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --sync-bn
Use Multiple machines (click to expand)

可用于多 GPU DistributedDataParallel 训练。

在继续之前,请确保所有机器上的数据集、代码库和任何其他依赖项保持一致,然后验证机器之间在网络上是否可以互相访问。

选择一台主机器(其他机器将连接到此机器),记下其地址(master_addr)并选择一个端口(master_port)。下面的示例使用 master_addr = 192.168.1.1master_port = 1234

然后运行:

# On master machine 0
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank 0 --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''
# On machine R
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank R --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''

其中 G 是每台机器的 GPU 数量,N 是机器数量,R0...(N-1) 范围内的机器排名。例如,对于两台机器且每台机器有两个 GPU,在第二台机器上设置 G = 2N = 2,且 R = 1

直到 所有 N 台机器连接后才会开始训练。输出仅显示在主机器上。

备注

  • Windows 支持尚未经过测试;建议使用 Linux。

  • --batch 必须是 GPU 数量的倍数。

  • GPU 0 使用的内存略多于其他 GPU,因为它负责维护 EMA 并处理检查点。

  • 如果你收到 RuntimeError: Address already in use,通常意味着多个训练任务正在使用同一个端口。请使用 --master_port 指定不同的端口:

    python -m torch.distributed.run --master_port 1234 --nproc_per_node 2 ...

Results

AWS EC2 P4d 实例 上使用 8x A100 SXM4-40GB 进行 DDP 分析的结果,针对 YOLOv5l 在 1 个 COCO 周期 上。

Profiling code
# prepare
t=ultralytics/yolov5:latest && sudo docker pull $t && sudo docker run -it --runtime=nvidia --ipc=host --gpus all -v "$(pwd)"/coco:/usr/src/coco $t
pip3 install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html
cd .. && rm -rf app && git clone https://github.com/ultralytics/yolov5 -b master app && cd app
cp data/coco.yaml data/coco_profile.yaml

# profile
python train.py --batch-size 16 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0
python -m torch.distributed.run --nproc_per_node 2 train.py --batch-size 32 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1
python -m torch.distributed.run --nproc_per_node 4 train.py --batch-size 64 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3
python -m torch.distributed.run --nproc_per_node 8 train.py --batch-size 128 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3,4,5,6,7
GPU
A100
batch-sizeCUDA_mem
device0 (G)
COCO
train
COCO
val
1x1626GB20:390:55
2x3226GB11:430:57
4x6426GB5:570:55
8x12826GB3:090:57

如结果所示,结合多个 GPU 使用 DistributedDataParallel 可以实现近乎线性的训练速度缩放。使用 8 个 GPU 时,训练完成速度比单个 GPU 快约 6.5 倍,同时保持每个设备相同的内存使用量。

常见问题 (FAQ)

在提交 Issue 之前,请阅读以下清单——它通常可以节省时间。

Checklist (click to expand)
  • 你是否已从头到尾阅读了本指南?
  • 你是否已重新克隆代码库?代码库 每天 都在变化。
  • 你是否搜索过错误消息?可能已经有人遇到了同样的问题并分享了修复方法。
  • 你是否安装了所有要求(包括正确的 Python 和 PyTorch 版本)?
  • 你是否尝试过下面列出的受支持环境之一?
  • 你是否尝试过使用较小的数据集(如 coco128coco2017)来定位根源问题?

如果以上检查均无误,请按照模板提交 Issue,并尽可能提供详细信息。

支持的环境

Ultralytics 提供了一系列开箱即用的环境,每个环境都预装了 CUDACUDNNPythonPyTorch 等关键依赖项,助你快速启动项目。

项目状态

YOLOv5 CI

此徽章表示所有 YOLOv5 GitHub Actions 持续集成 (CI) 测试均成功通过。这些 CI 测试严格检查 YOLOv5 在各个关键方面的功能和性能:训练验证推理导出基准测试。它们确保了在 macOS、Windows 和 Ubuntu 上的一致且可靠的运行,测试每 24 小时以及在每次新提交时进行。

鸣谢

我们要感谢 @MagicFrogSJTU,他完成了所有繁重的工作,并感谢 @glenn-jocher 在此过程中为我们提供的指导。

另请参阅

评论