使用 YOLOv5 进行多 GPU 训练
本指南说明了如何在单台机器或跨多台机器上使用 多个 GPU 训练 YOLOv5。
在你开始之前
Clone repo and install requirements.txt in a Python>=3.8.0 environment, including PyTorch>=1.8. Models and datasets download automatically from the latest YOLOv5 release.
git clone https://github.com/ultralytics/yolov5 # clone
cd yolov5
pip install -r requirements.txt # install建议在所有多 GPU 训练运行中使用 Ultralytics Docker 镜像。请参阅 Docker 快速入门指南。
torch.distributed.run replaces torch.distributed.launch in PyTorch >= 1.9. See the PyTorch distributed documentation for details.
训练
选择一个预训练模型以开始训练。在这里,我们选择 YOLOv5s,它是现有最小且最快的模型。有关所有模型的完整比较,请参阅我们的 README 表格。我们将使用多 GPU 在 COCO 数据集上训练此模型。

单 GPU
python train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0多 GPU DataParallel 模式(⚠️ 不推荐)
将多个 GPU ID 传递给 --device 以启用 DataParallel 模式:
python train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1DataParallel 速度缓慢,相比使用单个 GPU,它对训练速度的提升微乎其微。
多 GPU DistributedDataParallel 模式(✅ 推荐)
在训练命令前加上 python -m torch.distributed.run --nproc_per_node,然后传入常规参数:
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1--nproc_per_node是要使用的 GPU 数量。在上面的示例中,该值为2。--batch是总批次大小,在每个 GPU 上均匀分配。在上面的示例中,每个 GPU 为64 / 2 = 32。
上述命令使用 GPU 0...(N-1)。若要改为通过环境变量控制设备可见性,请在启动前设置 CUDA_VISIBLE_DEVICES=2,3(或任何其他列表)。
Use specific GPUs (click to expand)
传入 --device 后跟特定的 GPU ID。下面的示例使用 GPU 2,3。
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --device 2,3Use SyncBatchNorm (click to expand)
SyncBatchNorm 可以提高多 GPU 训练的 准确率,但会显著降低训练速度。它 仅 可用于多 GPU DistributedDataParallel 训练。
当 每个 GPU 上的批次大小较小(<= 8)时效果最好。
要启用 SyncBatchNorm,请传入 --sync-bn:
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --sync-bnUse Multiple machines (click to expand)
这 仅 可用于多 GPU DistributedDataParallel 训练。
在继续之前,请确保所有机器上的数据集、代码库和任何其他依赖项保持一致,然后验证机器之间在网络上是否可以互相访问。
选择一台主机器(其他机器将连接到此机器),记下其地址(master_addr)并选择一个端口(master_port)。下面的示例使用 master_addr = 192.168.1.1 和 master_port = 1234。
然后运行:
# On master machine 0
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank 0 --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''# On machine R
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank R --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''其中 G 是每台机器的 GPU 数量,N 是机器数量,R 是 0...(N-1) 范围内的机器排名。例如,对于两台机器且每台机器有两个 GPU,在第二台机器上设置 G = 2,N = 2,且 R = 1。
直到 所有 N 台机器连接后才会开始训练。输出仅显示在主机器上。
备注
-
Windows 支持尚未经过测试;建议使用 Linux。
-
--batch必须是 GPU 数量的倍数。 -
GPU 0 使用的内存略多于其他 GPU,因为它负责维护 EMA 并处理检查点。
-
如果你收到
RuntimeError: Address already in use,通常意味着多个训练任务正在使用同一个端口。请使用--master_port指定不同的端口:python -m torch.distributed.run --master_port 1234 --nproc_per_node 2 ...
Results
在 AWS EC2 P4d 实例 上使用 8x A100 SXM4-40GB 进行 DDP 分析的结果,针对 YOLOv5l 在 1 个 COCO 周期 上。
Profiling code
# prepare
t=ultralytics/yolov5:latest && sudo docker pull $t && sudo docker run -it --runtime=nvidia --ipc=host --gpus all -v "$(pwd)"/coco:/usr/src/coco $t
pip3 install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html
cd .. && rm -rf app && git clone https://github.com/ultralytics/yolov5 -b master app && cd app
cp data/coco.yaml data/coco_profile.yaml
# profile
python train.py --batch-size 16 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0
python -m torch.distributed.run --nproc_per_node 2 train.py --batch-size 32 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1
python -m torch.distributed.run --nproc_per_node 4 train.py --batch-size 64 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3
python -m torch.distributed.run --nproc_per_node 8 train.py --batch-size 128 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3,4,5,6,7| GPU A100 | batch-size | CUDA_mem device0 (G) | COCO train | COCO val |
|---|---|---|---|---|
| 1x | 16 | 26GB | 20:39 | 0:55 |
| 2x | 32 | 26GB | 11:43 | 0:57 |
| 4x | 64 | 26GB | 5:57 | 0:55 |
| 8x | 128 | 26GB | 3:09 | 0:57 |
如结果所示,结合多个 GPU 使用 DistributedDataParallel 可以实现近乎线性的训练速度缩放。使用 8 个 GPU 时,训练完成速度比单个 GPU 快约 6.5 倍,同时保持每个设备相同的内存使用量。
常见问题 (FAQ)
在提交 Issue 之前,请阅读以下清单——它通常可以节省时间。
Checklist (click to expand)
- 你是否已从头到尾阅读了本指南?
- 你是否已重新克隆代码库?代码库 每天 都在变化。
- 你是否搜索过错误消息?可能已经有人遇到了同样的问题并分享了修复方法。
- 你是否安装了所有要求(包括正确的 Python 和 PyTorch 版本)?
- 你是否尝试过下面列出的受支持环境之一?
- 你是否尝试过使用较小的数据集(如
coco128或coco2017)来定位根源问题?
如果以上检查均无误,请按照模板提交 Issue,并尽可能提供详细信息。
支持的环境
Ultralytics 提供了一系列开箱即用的环境,每个环境都预装了 CUDA、CUDNN、Python 和 PyTorch 等关键依赖项,助你快速启动项目。
- 免费 GPU Notebooks:
- Google Cloud: GCP 快速入门指南
- Amazon: AWS 快速入门指南
- Azure: AzureML 快速入门指南
- Docker: Docker 快速入门指南
项目状态
此徽章表示所有 YOLOv5 GitHub Actions 持续集成 (CI) 测试均成功通过。这些 CI 测试严格检查 YOLOv5 在各个关键方面的功能和性能:训练、验证、推理、导出和基准测试。它们确保了在 macOS、Windows 和 Ubuntu 上的一致且可靠的运行,测试每 24 小时以及在每次新提交时进行。
鸣谢
我们要感谢 @MagicFrogSJTU,他完成了所有繁重的工作,并感谢 @glenn-jocher 在此过程中为我们提供的指导。
另请参阅
- 训练模式 - 了解如何使用 Ultralytics 训练 YOLO 模型
- 超参数调优 - 优化模型的性能
- Docker 快速入门指南 - 设置用于训练的 Docker 环境