انتقل إلى المحتوى

تدريب متعددGPU

📚 يشرح هذا الدليل كيفية استخدام وحدات معالجة الرسومات المتعددة بشكل صحيح لتدريب مجموعة بيانات باستخدام YOLOv5 🚀 على جهاز (أجهزة) واحد أو متعدد.

قبل البدء

استنساخ الريبو وتثبيت requirements.txt في ملف Python>=3.8.0 بيئة، بما في ذلك PyTorch>=1.8. يتم تنزيل النماذج ومجموعات البيانات تلقائيا من الأحدث YOLOv5 إطلاق سراح.

git clone https://github.com/ultralytics/yolov5  # clone
cd yolov5
pip install -r requirements.txt  # install

💡 بروتيب! صورة عامل ميناء يوصى به لجميع الدورات التدريبية متعددةGPU . انظر دليل التشغيل السريع ل Docker عامل ميناء يسحب

💡 بروتيب! torch.distributed.run يستبدل torch.distributed.launch في PyTorch>=1.9. رأى مستندات للتفاصيل.

تدريب

حدد نموذجًا مدربًا مسبقًا لبدء التدريب منه. هنا نختار YOLOv5s، أصغر وأسرع نموذج متاح. راجع جدول README للحصول على مقارنة كاملة لجميع النماذج. سنقوم بتدريب هذا النموذج باستخدام Multi-GPU على مجموعة بيانات COCO.

YOLOv5 نماذج

مفردة GPU

python train.py  --batch 64 --data coco.yaml --weights yolov5s.pt --device 0

يمكنك زيادة device لاستخدام وحدات معالجة رسومات متعددة في وضع DataParallel.

python train.py  --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1

هذه الطريقة بطيئة وبالكاد تسرع التدريب مقارنة باستخدام 1 GPU فقط .

سيكون عليك المرور python -m torch.distributed.run --nproc_per_node، تليها الحجج المعتادة.

python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --weights yolov5s.pt --device 0,1

--nproc_per_node يحدد عدد وحدات معالجة الرسومات التي ترغب في استخدامها. في المثال أعلاه ، هو 2. --batch هو إجمالي حجم الدفعة. سيتم تقسيمها بالتساوي على كل GPU. في المثال أعلاه، هو 64/2=32 لكل GPU.

سيستخدم الرمز أعلاه وحدات معالجة الرسومات 0... (N-1).

استخدام وحدات معالجة رسومات محددة (انقر للتوسيع) يمكنك القيام بذلك ببساطة عن طريق تمرير "--device" متبوعا بوحدات معالجة الرسومات الخاصة بك. على سبيل المثال ، في الكود أدناه ، سنستخدم وحدات معالجة الرسومات "2,3".
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --device 2,3
استخدم SyncBatchNorm (انقر للتوسيع) [SyncBatchNorm](https://pytorch.org/docs/master/generated/torch.nn.SyncBatchNorm.html) could increase accuracy for multiple gpu training, however, it will slow down training by a significant factor. It is **only** available for Multiple GPU DistributedDataParallel training. It is best used when the batch-size on **each** GPU is small (<= 8). To use SyncBatchNorm, simple pass `--sync-bn` to the command like below,
python -m torch.distributed.run --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --sync-bn
استخدام أجهزة متعددة (انقر للتوسيع) هذا متاح **فقط** للتدريب المتعدد GPU الموزع البيانات الموزعة المتوازية. قبل المتابعة، تأكد من أن الملفات الموجودة على جميع الأجهزة متماثلة، مجموعة البيانات، وقاعدة البيانات، وقاعدة الشفرات، وما إلى ذلك. بعد ذلك، تأكد من أن الأجهزة يمكنها الاتصال ببعضها البعض. سيكون عليك اختيار جهاز رئيسي (الجهاز الذي ستتحدث إليه الأجهزة الأخرى). قم بتدوين عنوانه ('Master_addr') واختر منفذًا ('Master_port'). سوف أستخدم 'Master_addr = 192.168.1.1.1' و 'Master_port = 1234' في المثال أدناه. لاستخدامه، يمكنك القيام بما يلي,
# On master machine 0
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank 0 --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''
# On machine R
python -m torch.distributed.run --nproc_per_node G --nnodes N --node_rank R --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''
حيث "G" هو عدد GPU لكل آلة، و"N" هو عدد الآلات، و"R" هو عدد الآلات من "0... (N-1)". لنفترض أن لدي جهازين مع وحدتي معالجة رسومات لكل منهما، سيكون "G = 2"، و"N = 2"، و"R = 1" لما سبق. لن يبدأ التدريب حتى كل آلات "N" متصلة. سيتم عرض الإخراج فقط على الجهاز الرئيسي!

تلاحظ

  • دعم Windows لم يتم اختباره ، يوصى باستخدام Linux.
  • --batch يجب أن يكون مضاعفا لعدد وحدات معالجة الرسومات.
  • GPU 0 سيأخذ ذاكرة أكبر قليلاً من وحدات معالجة الرسومات الأخرى لأنه يحافظ على EMA وهو مسؤول عن نقاط التحقق وما إلى ذلك.
  • إذا حصلت على RuntimeError: Address already in use، قد يكون ذلك بسبب قيامك بإجراء تدريبات متعددة في وقت واحد. لإصلاح ذلك ، ما عليك سوى استخدام رقم منفذ مختلف عن طريق إضافة --master_port مثل أدناه ،
python -m torch.distributed.run --master_port 1234 --nproc_per_node 2 ...

النتائج

نتائج تنميط DDP على مثيل AWS EC2 P4d مع 8x A100 SXM4-40GB ل YOLOv5l لعصر COCO واحد.

رمز التنميط
# prepare
t=ultralytics/yolov5:latest && sudo docker pull $t && sudo docker run -it --ipc=host --gpus all -v "$(pwd)"/coco:/usr/src/coco $t
pip3 install torch==1.9.0+cu111 torchvision==0.10.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html
cd .. && rm -rf app && git clone https://github.com/ultralytics/yolov5 -b master app && cd app
cp data/coco.yaml data/coco_profile.yaml

# profile
python train.py --batch-size 16 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0
python -m torch.distributed.run --nproc_per_node 2 train.py --batch-size 32 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1
python -m torch.distributed.run --nproc_per_node 4 train.py --batch-size 64 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3
python -m torch.distributed.run --nproc_per_node 8 train.py --batch-size 128 --data coco_profile.yaml --weights yolov5l.pt --epochs 1 --device 0,1,2,3,4,5,6,7
وحدات معالجة الرسومات
أ 100
حجم الدفعة CUDA_mem
الجهاز 0 (G)
كوكو
قطار
كوكو
فال
1x 16 26 جيجابايت 20:39 0:55
2x 32 26 جيجابايت 11:43 0:57
4x 64 26 جيجابايت 5:57 0:55
8x 128 26 جيجابايت 3:09 0:57

الأسئلة المتداولة

في حالة حدوث خطأ ، يرجى قراءة قائمة التحقق أدناه أولا! (يمكن أن يوفر وقتك)

قائمة التحقق (انقر للتوسيع)
  • هل قرأت هذا المنشور بشكل صحيح؟
  • هل حاولت إعادة استنساخ قاعدة البيانات؟ يتغير الرمز يوميا.
  • هل حاولت البحث عن خطأك؟ قد يكون شخص ما قد واجهها بالفعل في هذا الريبو أو في آخر ولديه الحل.
  • هل قمت بتثبيت جميع المتطلبات المدرجة في الأعلى (بما في ذلك الصحيح Python و Pytorch الإصدارات)؟
  • هل جربت في بيئات أخرى مدرجة في قسم "البيئات" أدناه؟
  • هل جربت مع مجموعة بيانات أخرى مثل coco128 أو coco2017؟ سيجعل من السهل العثور على السبب الجذري.
إذا مررت بكل ما سبق ، فلا تتردد في إثارة مشكلة من خلال تقديم أكبر قدر ممكن من التفاصيل باتباع النموذج.

البيئات المدعومة

Ultralytics مجموعة من البيئات الجاهزة للاستخدام، كل منها مثبت مسبقًا مع التبعيات الأساسية مثل CUDA، CUDNN, Pythonو PyTorchلبدء مشاريعك.

حالة المشروع

YOLOv5 سي آي

تشير هذه الشارة إلى أن جميع YOLOv5 اجتياز اختبارات التكامل المستمر (CI) لإجراءات GitHub بنجاح. تتحقق اختبارات CI هذه بدقة من وظائف وأداءYOLOv5 عبر جوانب رئيسية مختلفة: التدريب ، والتحقق من الصحة ، والاستدلال ، والتصدير ، والمعايير. إنها تضمن التشغيل المتسق والموثوق به على macOS و Windows و Ubuntu ، مع إجراء الاختبارات كل 24 ساعة وعند كل التزام جديد.

الائتمانات

نود أن نشكر @MagicFrogSJTU ، الذي قام بكل الرفع الثقيل ، و @glenn-jocher لإرشادنا على طول الطريق.



Created 2023-11-12, Updated 2024-07-10
Authors: glenn-jocher (5), Burhan-Q (1)

التعليقات