Link to this sectionYOLOv10: اكتشاف كائنات في الوقت الفعلي ومن الطرف إلى الطرف (End-to-End)#

YOLOv10, released in May 2024 and built on the Ultralytics Python package by researchers at Tsinghua University, introduces a new approach to real-time object detection, addressing both the post-processing and model architecture deficiencies found in previous YOLO versions. By eliminating non-maximum suppression (NMS) and optimizing various model components, YOLOv10 achieved excellent performance with significantly reduced computational overhead at its time of release. Its NMS-free end-to-end design pioneered an approach that has been further developed in YOLO26.

YOLOv10 consistent dual assignment for NMS-free training

Watch: How to Train YOLOv10 on SKU-110k Dataset using Ultralytics | Retail Dataset

Link to this sectionنظرة عامة#

يهدف اكتشاف الكائنات في الوقت الفعلي إلى التنبؤ بدقة بفئات الكائنات ومواقعها في الصور مع زمن وصول منخفض. كانت سلسلة YOLO في طليعة هذا البحث بسبب توازنها بين الأداء والكفاءة. ومع ذلك، فإن الاعتماد على NMS وأوجه القصور الهندسية أعاقت الأداء الأمثل. يعالج YOLOv10 هذه المشكلات من خلال تقديم تعيينات مزدوجة متسقة للتدريب بدون NMS واستراتيجية تصميم نموذج شاملة تعتمد على الكفاءة والدقة.

Link to this sectionالبنية الهندسية#

تعتمد هندسة YOLOv10 على نقاط قوة نماذج YOLO السابقة مع تقديم العديد من الابتكارات الرئيسية. تتكون هندسة النموذج من المكونات التالية:

العمود الفقري: المسؤول عن استخراج الميزات، يستخدم العمود الفقري في YOLOv10 نسخة محسنة من CSPNet (Cross Stage Partial Network) لتحسين تدفق التدرج وتقليل التكرار الحسابي.
الرقبة (Neck): صُممت الرقبة لتجميع الميزات من مقاييس مختلفة وتمريرها إلى الرأس. وهي تتضمن طبقات PAN (Path Aggregation Network) لدمج الميزات متعددة المقاييس بشكل فعال.
رأس واحد إلى متعدد (One-to-Many Head): يولد تنبؤات متعددة لكل كائن أثناء التدريب لتوفير إشارات إشرافية غنية وتحسين دقة التعلم.
رأس واحد إلى واحد (One-to-One Head): يولد تنبؤاً واحداً أفضل لكل كائن أثناء الاستنتاج للقضاء على الحاجة إلى NMS، مما يقلل زمن الوصول ويحسن الكفاءة.

Link to this sectionالميزات الرئيسية#

التدريب بدون NMS: يستخدم تعيينات مزدوجة متسقة للقضاء على الحاجة إلى NMS، مما يقلل من زمن وصول الاستنتاج.
تصميم النموذج الشامل: تحسين شامل لمختلف المكونات من منظور الكفاءة والدقة، بما في ذلك رؤوس التصنيف خفيفة الوزن، وأخذ العينات لأسفل المفكك مكانيًا وقنويًا، وتصميم الكتل الموجه بالرتبة.
قدرات النموذج المحسنة: يتضمن التفافات ذات نواة كبيرة ووحدات انتباه ذاتي جزئية لتحسين الأداء دون تكلفة حسابية كبيرة.

Link to this sectionمتغيرات النموذج#

يأتي YOLOv10 بمقاييس نموذج مختلفة لتلبية احتياجات التطبيقات المختلفة:

YOLOv10n: نسخة نانو للبيئات محدودة الموارد للغاية.
YOLOv10s: نسخة صغيرة توازن بين السرعة والدقة.
YOLOv10m: نسخة متوسطة للاستخدام العام.
YOLOv10b: نسخة متوازنة مع زيادة العرض لدقة أعلى.
YOLOv10l: نسخة كبيرة لدقة أعلى على حساب زيادة الموارد الحسابية.
YOLOv10x: نسخة كبيرة جداً لأقصى درجات الدقة والأداء.

Link to this sectionالأداء#

يتفوق YOLOv10 على إصدارات YOLO السابقة والنماذج الأخرى المتطورة من حيث الدقة والكفاءة. على سبيل المثال، YOLOv10s أسرع بـ 1.8 مرة من RT-DETR-R18 مع دقة AP مماثلة على مجموعة بيانات COCO، وYOLOv10b لديه زمن وصول أقل بنسبة 46% وبارامترات أقل بنسبة 25% من YOLOv9-C مع نفس الأداء.

الأداء

تم قياس زمن الوصول باستخدام TensorRT FP16 على GPU من نوع T4.

النموذج	حجم الإدخال	AP^val	FLOPs (G)	زمن الوصول (ms)
[YOLOv10n][1]	640	38.5	6.7	1.84
[YOLOv10s][2]	640	46.3	21.6	2.49
[YOLOv10m][3]	640	51.1	59.1	4.74
[YOLOv10b][4]	640	52.5	92.0	5.74
[YOLOv10l][5]	640	53.2	120.3	7.28
[YOLOv10x][6]	640	54.4	160.4	10.70

Link to this sectionالمنهجية#

Link to this sectionتعيينات مزدوجة متسقة للتدريب بدون NMS#

يستخدم YOLOv10 تعيينات تسميات مزدوجة، تجمع بين استراتيجيات الواحد إلى متعدد والواحد إلى واحد أثناء التدريب لضمان إشراف غني ونشر فعال من الطرف إلى الطرف. يعمل مقياس المطابقة المتسق على محاذاة الإشراف بين كلتا الاستراتيجيتين، مما يعزز جودة التنبؤات أثناء الاستنتاج.

Link to this sectionتصميم نموذج شامل يعتمد على الكفاءة والدقة #

Link to this sectionتحسينات الكفاءة#

رأس تصنيف خفيف الوزن: يقلل من التكاليف الحسابية لرأس التصنيف باستخدام التفافات منفصلة في العمق.
أخذ العينات لأسفل المفكك مكانيًا وقنويًا: يفكك الاختزال المكاني وتعديل القناة لتقليل فقدان المعلومات والتكلفة الحسابية.
تصميم الكتلة الموجه بالرتبة: يكيف تصميم الكتلة بناءً على التكرار الجوهري للمرحلة، مما يضمن الاستخدام الأمثل للبارامترات.

Link to this sectionتحسينات الدقة#

التفاف بالنواة الكبيرة: يوسع مجال الاستقبال لتعزيز قدرة استخراج الميزات.
الانتباه الذاتي الجزئي (PSA): يتضمن وحدات انتباه ذاتي لتحسين تعلم التمثيل العالمي بأقل قدر من التكاليف الإضافية.

Link to this sectionالتجارب والنتائج#

تم اختبار YOLOv10 بشكل مكثف على معايير قياسية مثل COCO، مما يدل على أداء وكفاءة فائقين. يحقق النموذج نتائج متطورة عبر متغيرات مختلفة، مما يعرض تحسينات كبيرة في زمن الوصول والدقة مقارنة بالإصدارات السابقة وأجهزة الكشف المعاصرة الأخرى.

Link to this sectionالمقارنات#

YOLOv10 comparison with SOTA object detectors

مقارنة بأجهزة الكشف المتطورة الأخرى:

YOLOv10s / x أسرع بـ 1.8 مرة / 1.3 مرة من RT-DETR-R18 / R101 مع دقة مماثلة
YOLOv10b لديه بارامترات أقل بنسبة 25% وزمن وصول أقل بنسبة 46% من YOLOv9-C بنفس الدقة
YOLOv10l / x يتفوقان على YOLOv8l / x بمقدار 0.3 AP / 0.5 AP مع بارامترات أقل بـ 1.8 مرة / 2.3 مرة

الأداء

إليك مقارنة مفصلة لمتغيرات YOLOv10 مع النماذج المتطورة الأخرى:

النموذج	البارامترات ^(M)	FLOPs ^(G)	mAP^val 50-95	زمن الوصول ^(ms)	زمن الوصول الأمامي ^(ms)
YOLOv6-3.0-N	4.7	11.4	37.0	2.69	1.76
Gold-YOLO-N	5.6	12.1	39.6	2.92	1.82
YOLOv8n	3.2	8.7	37.3	6.16	1.77
YOLOv10n	2.3	6.7	39.5	1.84	1.79

YOLOv6-3.0-S	18.5	45.3	44.3	3.42	2.35
Gold-YOLO-S	21.5	46.0	45.4	3.82	2.73
YOLOv8s	11.2	28.6	44.9	7.07	2.33
YOLOv10s	7.2	21.6	46.8	2.49	2.39

RT-DETR-R18	20.0	60.0	46.5	4.58	4.49
YOLOv6-3.0-M	34.9	85.8	49.1	5.63	4.56
Gold-YOLO-M	41.3	87.5	49.8	6.38	5.45
YOLOv8m	25.9	78.9	50.6	9.50	5.09
YOLOv10m	15.4	59.1	51.3	4.74	4.63

YOLOv6-3.0-L	59.6	150.7	51.8	9.02	7.90
Gold-YOLO-L	75.1	151.7	51.8	10.65	9.78
YOLOv8l	43.7	165.2	52.9	12.39	8.06
RT-DETR-R50	42.0	136.0	53.1	9.20	9.07
YOLOv10l	24.4	120.3	53.4	7.28	7.21

YOLOv8x	68.2	257.8	53.9	16.86	12.83
RT-DETR-R101	76.0	259.0	54.3	13.71	13.58
YOLOv10x	29.5	160.4	54.4	10.70	10.60

قيم المعاملات (Params) و FLOPs خاصة بالنموذج المدمج بعد تنفيذ model.fuse()، والتي تقوم بدمج طبقات Conv و BatchNorm وإزالة رأس الكشف الإضافي واحد-إلى-متعدد. تحتفظ نقاط التحقق المدربة مسبقًا بهيكلية التدريب الكاملة وقد تظهر أعدادًا أعلى.

Link to this sectionأمثلة الاستخدام#

للتنبؤ بصور جديدة باستخدام YOLOv10. يمكن أيضاً تدريب النماذج على وحدات معالجة الرسوميات (GPUs) السحابية من خلال Ultralytics Platform:

مثال

from ultralytics import YOLO

# Load a pretrained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()

لتدريب YOLOv10 على مجموعة بيانات مخصصة:

مثال

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Link to this sectionالمهام والأوضاع المدعومة#

تقدم سلسلة نماذج YOLOv10 مجموعة من النماذج، كل منها محسن لـ اكتشاف الكائنات عالي الأداء. تلبي هذه النماذج احتياجات حسابية ومتطلبات دقة متفاوتة، مما يجعلها مرنة لمجموعة واسعة من التطبيقات.

النموذج	أسماء الملفات	مهام	الاستنتاج	التحقق	التدريب	التصدير
YOLOv10	`yolov10n.pt` `yolov10s.pt` `yolov10m.pt` `yolov10l.pt` `yolov10x.pt`	اكتشاف الكائنات	✅	✅	✅	✅

Link to this sectionتصدير YOLOv10#

نظراً للعمليات الجديدة التي تم تقديمها مع YOLOv10، لا يتم حالياً دعم جميع تنسيقات التصدير التي توفرها Ultralytics. يوضح الجدول التالي التنسيقات التي تم تحويلها بنجاح باستخدام Ultralytics لـ YOLOv10. لا تتردد في فتح طلب سحب (pull request) إذا كنت قادراً على تقديم مساهمة لإضافة دعم تصدير لتنسيقات إضافية لـ YOLOv10.

تنسيق التصدير	دعم التصدير	استدلال النموذج المصدر	ملاحظات
TorchScript	✅	✅	تنسيق نموذج PyTorch القياسي.
ONNX	✅	✅	مدعوم على نطاق واسع للنشر.
OpenVINO	✅	✅	محسن لأجهزة Intel.
TensorRT	✅	✅	محسن لوحدات معالجة الرسوميات من NVIDIA.
CoreML	✅	✅	محدود بأجهزة Apple.
TF SavedModel	✅	✅	تنسيق النموذج القياسي لـ TensorFlow.
TF GraphDef	✅	✅	تنسيق TensorFlow القديم.
LiteRT	✅	✅	محسن للأجهزة المحمولة، والمضمنة، والمتصفحات (LiteRT.js).
TF Edge TPU	✅	✅	خاص بأجهزة Edge TPU من Google.
PaddlePaddle	❌	❌	شائع في الصين؛ دعم عالمي أقل.
NCNN	✅	❌	الطبقة `torch.topk` غير موجودة أو غير مسجلة

Link to this sectionالخلاصة#

وضعت YOLOv10 معياراً جديداً في اكتشاف الكائنات في الوقت الفعلي عند إصدارها من خلال معالجة أوجه القصور في إصدارات YOLO السابقة ودمج استراتيجيات تصميم مبتكرة. كان نهجها الخالي من NMS رائداً في اكتشاف الكائنات من البداية إلى النهاية في عائلة YOLO. للحصول على أحدث نموذج من Ultralytics مع أداء محسّن واستدلال خالٍ من NMS، راجع YOLO26.

Link to this sectionالاقتباسات والشكر#

نود أن نعرب عن تقديرنا لمؤلفي YOLOv10 من جامعة تسينغ-هوا لأبحاثهم المكثفة ومساهماتهم الكبيرة في إطار عمل Ultralytics:

اقتباس

@inproceedings{wang2024yolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Wang, Ao and Chen, Hui and Liu, Lihao and Chen, Kai and Lin, Zijia and Han, Jungong and Ding, Guiguang},
  booktitle={Advances in Neural Information Processing Systems},
  doi = {10.52202/079017-3429},
  url = {https://proceedings.neurips.cc/paper_files/paper/2024/file/c34ddd05eb089991f06f3c5dc36836e0-Paper-Conference.pdf},
  volume={37},
  pages={107984--108011},
  year={2024}
}

للحصول على تفاصيل التنفيذ، والابتكارات المعمارية، والنتائج التجريبية، يرجى الرجوع إلى ورقة البحث الخاصة بـ YOLOv10 ومستودع GitHub من قبل فريق جامعة تسينغ-هوا.

Link to this sectionالأسئلة الشائعة#

Link to this sectionما هو YOLOv10 وكيف يختلف عن إصدارات YOLO السابقة؟#

يقدم YOLOv10، الذي طوره باحثون في جامعة تسينغ-هوا، العديد من الابتكارات الرئيسية في اكتشاف الكائنات في الوقت الفعلي. فهو يلغي الحاجة إلى كبت غير الحد الأقصى (NMS) من خلال استخدام تعيينات مزدوجة متسقة أثناء التدريب ومكونات نموذج محسنة لأداء متفوق مع تقليل الحمل الحسابي. لمزيد من التفاصيل حول بنيته وميزاته الرئيسية، تحقق من قسم نظرة عامة على YOLOv10.

Link to this sectionكيف يمكنني البدء في تشغيل الاستدلال باستخدام YOLOv10؟#

للحصول على استدلال سهل، يمكنك استخدام مكتبة Ultralytics YOLO Python أو واجهة سطر الأوامر (CLI). فيما يلي أمثلة للتنبؤ بصور جديدة باستخدام YOLOv10:

مثال

from ultralytics import YOLO

# Load the pretrained YOLOv10n model
model = YOLO("yolov10n.pt")
results = model("image.jpg")
results[0].show()

لمزيد من أمثلة الاستخدام، قم بزيارة قسم أمثلة الاستخدام.

Link to this sectionما هي متغيرات النماذج التي يقدمها YOLOv10 وما هي حالات استخدامها؟#

يوفر YOLOv10 العديد من متغيرات النماذج لتلبية حالات الاستخدام المختلفة:

YOLOv10n: مناسب للبيئات المحدودة الموارد للغاية
YOLOv10s: يوازن بين السرعة والدقة
YOLOv10m: للاستخدام العام
YOLOv10b: دقة أعلى مع زيادة في العرض
YOLOv10l: دقة عالية على حساب الموارد الحسابية
YOLOv10x: أقصى دقة وأداء

تم تصميم كل متغير لاحتياجات حسابية ومتطلبات دقة مختلفة، مما يجعلها مرنة لمجموعة متنوعة من التطبيقات. استكشف قسم متغيرات النماذج لمزيد من المعلومات.

Link to this sectionكيف يحسن النهج الخالي من NMS في YOLOv10 الأداء؟#

يلغي YOLOv10 الحاجة إلى كبت غير الحد الأقصى (NMS) أثناء الاستدلال من خلال توظيف تعيينات مزدوجة متسقة للتدريب. يقلل هذا النهج من زمن انتقال الاستدلال ويعزز كفاءة التنبؤ. تتضمن البنية أيضاً رأساً واحداً لواحد للاستدلال، مما يضمن حصول كل كائن على تنبؤ واحد هو الأفضل. للحصول على شرح مفصل، راجع قسم التعيينات المزدوجة المتسقة للتدريب الخالي من NMS.

Link to this sectionأين يمكنني العثور على خيارات التصدير لنماذج YOLOv10؟#

يدعم YOLOv10 العديد من تنسيقات التصدير، بما في ذلك TorchScript وONNX وOpenVINO وTensorRT. ومع ذلك، لا يتم حالياً دعم جميع تنسيقات التصدير التي توفرها Ultralytics لـ YOLOv10 بسبب عملياتها الجديدة. للحصول على تفاصيل حول التنسيقات المدعومة وتعليمات التصدير، قم بزيارة قسم تصدير YOLOv10.

Link to this sectionما هي مقاييس الأداء لنماذج YOLOv10؟#

يتفوق YOLOv10 على إصدارات YOLO السابقة ونماذج أخرى متطورة من حيث الدقة والكفاءة. على سبيل المثال، YOLOv10s أسرع بـ 1.8 مرة من RT-DETR-R18 مع دقة (AP) مماثلة على مجموعة بيانات COCO. يظهر YOLOv10b زمن انتقال أقل بنسبة 46% وبارامترات أقل بنسبة 25% من YOLOv9-C بنفس الأداء. يمكن العثور على مقاييس أداء مفصلة في قسم المقارنات.

المساهمون

GLglenn-jocher¹⁶ RIRizwanMunawar⁶ RAraimbekovm² AMambitious-octopus¹ BAbanu4prasad¹ PDpderrenger¹ LEleonnil¹ Y-Y-T-G¹ LALaughing-q¹ MAMatthewNoyce¹ HAhasanghaffari93¹ ZHzhixuwei¹ ABabirami-vina¹ BUBurhan-Q¹

تم الإنشاء 24 مايو 2024تم التحديث قبل أسبوعين

Link to this sectionYOLOv10: اكتشاف كائنات في الوقت الفعلي ومن الطرف إلى الطرف (End-to-End)#

Link to this sectionنظرة عامة#

Link to this sectionالبنية الهندسية#

Link to this sectionالميزات الرئيسية#

Link to this sectionمتغيرات النموذج#

Link to this sectionالأداء#

Link to this sectionالمنهجية#

Link to this sectionتعيينات مزدوجة متسقة للتدريب بدون NMS#

Link to this sectionتصميم نموذج شامل يعتمد على الكفاءة والدقة#

Link to this sectionتحسينات الكفاءة#

Link to this sectionتحسينات الدقة#

Link to this sectionالتجارب والنتائج#

Link to this sectionالمقارنات#

Link to this sectionأمثلة الاستخدام#

Link to this sectionالمهام والأوضاع المدعومة#

Link to this sectionتصدير YOLOv10#

Link to this sectionالخلاصة#

Link to this sectionالاقتباسات والشكر#

Link to this sectionالأسئلة الشائعة#

Link to this sectionما هو YOLOv10 وكيف يختلف عن إصدارات YOLO السابقة؟#

Link to this sectionكيف يمكنني البدء في تشغيل الاستدلال باستخدام YOLOv10؟#

Link to this sectionما هي متغيرات النماذج التي يقدمها YOLOv10 وما هي حالات استخدامها؟#

Link to this sectionكيف يحسن النهج الخالي من NMS في YOLOv10 الأداء؟#

Link to this sectionأين يمكنني العثور على خيارات التصدير لنماذج YOLOv10؟#

Link to this sectionما هي مقاييس الأداء لنماذج YOLOv10؟#

التعليقات

Link to this sectionتصميم نموذج شامل يعتمد على الكفاءة والدقة #