انتقل إلى المحتوى

تدريب متعددGPU

📚 يشرح هذا الدليل كيفية استخدام وحدات معالجة الرسومات المتعددة بشكل صحيح لتدريب مجموعة بيانات باستخدام YOLOv5 🚀 على جهاز (أجهزة) واحد أو متعدد.

قبل البدء

استنساخ الريبو وتثبيت requirements.txt في ملف Python>=3.8.0 بيئة، بما في ذلك PyTorch>=1.8. يتم تنزيل النماذج ومجموعات البيانات تلقائيا من الأحدث YOLOv5 إطلاق سراح.

git clone https://github.com/ultralytics/yolov5  # clone
cd yolov5
pip install -r requirements.txt  # install

💡 بروتيب! صورة عامل ميناء يوصى به لجميع الدورات التدريبية متعددةGPU . انظر دليل التشغيل السريع ل Docker عامل ميناء يسحب

💡 بروتيب! torch.distributed.run يستبدل torch.distributed.launch في PyTorch>=1.9. رأى مستندات للتفاصيل.

تدريب

حدد نموذجًا مدربًا مسبقًا لبدء التدريب منه. هنا نختار YOLOv5s، أصغر وأسرع نموذج متاح. راجع جدول README للحصول على مقارنة كاملة لجميع النماذج. سنقوم بتدريب هذا النموذج باستخدام Multi-GPU على مجموعة بيانات COCO.

YOLOv5 نماذج

مفردة GPU

python train.py  --batch 64 --data coco.yaml --weights yolov5s.pt --device 0

يمكنك زيادة device لاستخدام وحدات معالجة رسومات متعددة في وضع DataParallel.

python train.py  --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1

هذه الطريقة بطيئة وبالكاد تسرع التدريب مقارنة باستخدام 1 GPU فقط .

سيكون عليك المرور python -m torch.distributed.run --nproc_per_node، تليها الحجج المعتادة.

python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1

--nproc_per_node يحدد عدد وحدات معالجة الرسومات التي ترغب في استخدامها. في المثال أعلاه ، هو 2. --batch هو إجمالي حجم الدفعة. سيتم تقسيمها بالتساوي على كل GPU. في المثال أعلاه، هو 64/2=32 لكل GPU.

سيستخدم الرمز أعلاه وحدات معالجة الرسومات 0... (N-1).

استخدام وحدات معالجة رسومات محددة (انقر للتوسيع) يمكنك القيام بذلك ببساطة عن طريق تمرير "--device" متبوعا بوحدات معالجة الرسومات الخاصة بك. على سبيل المثال ، في الكود أدناه ، سنستخدم وحدات معالجة الرسومات "2,3".
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --device 2,3
استخدم SyncBatchNorm (انقر للتوسيع) [SyncBatchNorm](https://pytorch.org/docs/master/generated/torch.nn.SyncBatchNorm.html) could increase [accuracy](https://www.ultralytics.com/glossary/accuracy) for multiple gpu training, however, it will slow down training by a significant factor. It is **only** available for Multiple GPU DistributedDataParallel training. It is best used when the batch-size on **each** GPU is small (<= 8). To use SyncBatchNorm, simple pass `--sync-bn` to the command like below,
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --sync-bn
استخدام أجهزة متعددة (انقر للتوسيع) This is **only** available for Multiple GPU DistributedDataParallel training. Before we continue, make sure the files on all machines are the same, dataset, codebase, etc. Afterward, make sure the machines can communicate to each other. You will have to choose a master machine(the machine that the others will talk to). Note down its address(`master_addr`) and choose a port(`master_port`). I will use `master_addr = 192.168.1.1` and `master_port = 1234` for the example below. To use it, you can do as the following,
# On master machine 0
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank 0 --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''
# On machine R
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank R --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''
where `G` is number of GPU per machine, `N` is the number of machines, and `R` is the machine number from `0...(N-1)`. Let's say I have two machines with two GPUs each, it would be `G = 2` , `N = 2`, and `R = 1` for the above. Training will not start until كل آلات "N" متصلة. سيتم عرض الإخراج فقط على الجهاز الرئيسي!

تلاحظ

  • دعم Windows لم يتم اختباره ، يوصى باستخدام Linux.
  • --batch يجب أن يكون مضاعفا لعدد وحدات معالجة الرسومات.
  • GPU 0 سيأخذ ذاكرة أكبر قليلاً من وحدات معالجة الرسومات الأخرى لأنه يحافظ على EMA وهو مسؤول عن نقاط التحقق وما إلى ذلك.
  • إذا حصلت على RuntimeError: Address already in use، قد يكون ذلك بسبب قيامك بإجراء تدريبات متعددة في وقت واحد. لإصلاح ذلك ، ما عليك سوى استخدام رقم منفذ مختلف عن طريق إضافة --master_port مثل أدناه ،
python -m torch.distributed.run --master_port 1234 --nproc_per_node 2 ...

النتائج

DDP profiling results on an AWS EC2 P4d instance with 8x A100 SXM4-40GB for YOLOv5l for 1 COCO epoch.

رمز التنميط
# prepare
t=ultralytics/yolov5:latest && sudo docker pull $t && sudo docker run -it --ipc=host --gpus all -v "$(pwd)"/coco:/usr/src/coco $t
pip3 install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html
cd .. && rm -rf app && git clone https://github.com/ultralytics/yolov5 -b master app && cd app
cp data/coco.yaml data/coco_profile.yaml

# profile
python train.py --batch-size 16 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0
python -m torch.distributed.run --nproc_per_node 2 train.py --batch-size 32 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1
python -m torch.distributed.run --nproc_per_node 4 train.py --batch-size 64 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3
python -m torch.distributed.run --nproc_per_node 8 train.py --batch-size 128 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3,4,5,6,7
وحدات معالجة الرسومات
أ 100
حجم الدفعةCUDA_mem
الجهاز 0 (G)
كوكو
قطار
كوكو
فال
1x1626 جيجابايت20:390:55
2x3226 جيجابايت11:430:57
4x6426 جيجابايت5:570:55
8x12826 جيجابايت3:090:57

الأسئلة المتداولة

في حالة حدوث خطأ ، يرجى قراءة قائمة التحقق أدناه أولا! (يمكن أن يوفر وقتك)

قائمة التحقق (انقر للتوسيع)
  • هل قرأت هذا المنشور بشكل صحيح؟
  • هل حاولت إعادة استنساخ قاعدة البيانات؟ يتغير الرمز يوميا.
  • هل حاولت البحث عن خطأك؟ قد يكون شخص ما قد واجهها بالفعل في هذا الريبو أو في آخر ولديه الحل.
  • هل قمت بتثبيت جميع المتطلبات المدرجة في الأعلى (بما في ذلك الصحيح Python و Pytorch الإصدارات)؟
  • هل جربت في بيئات أخرى مدرجة في قسم "البيئات" أدناه؟
  • هل جربت مع مجموعة بيانات أخرى مثل coco128 أو coco2017؟ سيجعل من السهل العثور على السبب الجذري.
إذا مررت بكل ما سبق ، فلا تتردد في إثارة مشكلة من خلال تقديم أكبر قدر ممكن من التفاصيل باتباع النموذج.

البيئات المدعومة

Ultralytics مجموعة من البيئات الجاهزة للاستخدام، كل منها مثبت مسبقًا مع التبعيات الأساسية مثل CUDA، CUDNN, Pythonو PyTorchلبدء مشاريعك.

حالة المشروع

YOLOv5 سي آي

تشير هذه الشارة إلى أن جميع YOLOv5 اجتياز اختبارات التكامل المستمر (CI) لإجراءات GitHub بنجاح. تتحقق اختبارات CI هذه بدقة من وظائف وأداءYOLOv5 عبر جوانب رئيسية مختلفة: التدريب ، والتحقق من الصحة ، والاستدلال ، والتصدير ، والمعايير. إنها تضمن التشغيل المتسق والموثوق به على macOS و Windows و Ubuntu ، مع إجراء الاختبارات كل 24 ساعة وعند كل التزام جديد.

الائتمانات

نود أن نشكر @MagicFrogSJTU ، الذي قام بكل الرفع الثقيل ، و @glenn-jocher لإرشادنا على طول الطريق.

📅 Created 11 months ago ✏️ Updated 4 days ago

التعليقات