YOLOv10 YOLOX: نظرة متعمقة على بنى الكشف عن الكائنات في الوقت الفعلي
في مجال الرؤية الحاسوبية سريع التطور، شكل التحول نحو البنى الخالية من المراسي نقطة تحول مهمة. YOLOv10 و YOLOX يمثلان لحظتين محوريتين في هذا التطور. YOLOX، الذي تم إصداره في عام 2021، شاع نموذج بدون مرساة من خلال فصل رؤوس الكشف وإدخال استراتيجيات متقدمة لتعيين العلامات. بعد ثلاث سنوات، YOLOv10 الحدود إلى أبعد من ذلك من خلال إدخال تصميم NMS أصلاً، مما أزال الحاجة إلى المعالجة اللاحقة للقمع غير الأقصى تمامًا.
تستكشف هذه المقارنة الفروق المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لكلا النموذجين، مع تسليط الضوء على كيفية قيام الحلول الحديثة مثل YOLO26 بدمج هذه التطورات في نظام بيئي شامل للذكاء الاصطناعي.
مقارنة مقاييس الأداء
عند اختيار نموذج للإنتاج، من الضروري فهم التوازن بين سرعة الاستدلال ودقة الكشف. يقدم الجدول أدناه نظرة مفصلة على مقارنة هاتين العائلتين عبر نماذج مختلفة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
كما هو موضح، YOLOv10 يحقق عمومًا متوسط دقة أعلى (mAP) لزمن انتقال استنتاجات مماثلة على GPU . على سبيل المثال، يصل نموذج YOLOv10m إلى 51.3٪ mAP مقارنة بـ 46.9٪ لـ YOLOX-m، مع الحفاظ على ملف زمن انتقال مماثل. يُعزى هذا الكسب في الكفاءة إلى حد كبير إلى إزالة NMS مما يقلل من العبء الحسابي خلال مرحلة ما بعد المعالجة.
YOLOv10: المبتكر الشامل
YOLOv10 تحولًا كبيرًا في البنية الهندسية من خلال معالجة أحد أقدم العقبات في الكشف في الوقت الفعلي: عدم القمع الأقصى (NMS). تتنبأ أجهزة الكشف التقليدية بوجود عدة مربعات حدودية لنفس الكائن وتعتمد على NMS التكرارات. YOLOv10 هذه الخطوة من خلال استراتيجية مزدوجة متسقة للتخصيص أثناء التدريب.
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المؤسسة:جامعة تسينغ - هوا
- التاريخ: 23 مايو 2024
- ورقة بحثية:arXiv:2405.14458
- المصدر:مستودع GitHub
الميزات المعمارية الرئيسية
YOLOv10 "تصميم نموذج شامل يعتمد على الكفاءة والدقة". ويشمل ذلك تحسين المكونات الفردية مثل طبقات تقليل الدقة ورأس التنبؤ لتقليل التكرار الحسابي. يستخدم النموذج تعيينات ثنائية للعلامات: تعيين واحد إلى العديد من العلامات للإشراف الغني أثناء التدريب وتعيين واحد إلى واحد للاستدلال، مما يسمح للنموذج بتوقع أفضل مربع واحد لكل كائن، مما يجعل NMS بشكل فعال.
هذه البنية مفيدة بشكل خاص لنشر الحافة حيث يمكن أن تشكل تقلبات زمن الاستجابة الناتجة عن NMS والتي تعتمد على عدد الكائنات المكتشفة) مشكلة.
YOLOX: الرائد الخالي من الـ Anchor
كان YOLOX أحد أول النماذج عالية الأداء التي نجحت في إدخال الكشف بدون مرساة إلى YOLO بخلاف النهج القائم على المرساة في YOLOv3 و YOLOv4. من خلال إزالة مربعات المرساة المحددة مسبقًا، بسط YOLOX عملية التدريب وحسّن التعميم عبر أشكال الكائنات المتنوعة.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 18 يوليو 2021
- ورقة بحثية:arXiv:2107.08430
- المصدر:مستودع GitHub
الميزات المعمارية الرئيسية
يتميز YOLOX برأس منفصل، يفصل مهام التصنيف والانحدار إلى فروع مختلفة. وقد ثبت أن هذا التصميم يتقارب بشكل أسرع ويحقق دقة أفضل. كما أدخل SimOTA، وهي استراتيجية متقدمة لتعيين العلامات تعين العينات الإيجابية ديناميكيًا بناءً على وظيفة التكلفة، مما يضمن التوازن بين جودة التصنيف والانحدار.
على الرغم من فعاليته العالية، لا يزال YOLOX يعتمد على NMS مما يعني أن وقت الاستدلال الخاص به يمكن أن يتقلب في المشاهد ذات الكثافة العالية للأجسام، على عكس زمن الاستجابة الثابت لـ YOLOv10.
ميزة Ultralytics
على الرغم من أن كلا النموذجين لهما مزاياهما، فإن Ultralytics يوفر واجهة موحدة تبسط بشكل كبير دورة حياة التطوير مقارنة بالمستودعات المستقلة. سواء كنت تستخدم YOLOv10 أحدث إصدار YOLO26، فإن التجربة ستكون سلسة.
سهولة الاستخدام وتعدد الاستخدامات
يمكن للمطورين التبديل بين النماذج بسطر واحد من التعليمات البرمجية. على عكس قاعدة كود YOLOX، التي تتطلب ملفات تكوين وخطوات إعداد محددة، فإن Ultralytics تعمل بنظام "التوصيل والتشغيل". علاوة على ذلك، Ultralytics مجموعة واسعة من مهام الرؤية الحاسوبية، بما في ذلك تقسيم المثيلات وتقدير الوضع وكشف الكائنات الموجهة (OBB)، مما يوفر تنوعًا تفتقر إليه YOLOX.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
كفاءة التدريب والذاكرة
تم تصميم Ultralytics لتحقيق الاستخدام الأمثل للموارد. وهي تتطلب عمومًا CUDA أقل أثناء التدريب مقارنة بالبنى الثقيلة المحولات مثل RT-DETR أو قواعد البيانات القديمة. وهذا يتيح للباحثين التدريب على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين، مما يتيح الوصول إلى تطوير الذكاء الاصطناعي المتطور. وتعزز Ultralytics ذلك من خلال توفير التدريب القائم على السحابة وإدارة مجموعات البيانات وتصدير النماذج بنقرة واحدة.
تحديثات سلسة
غالبًا ما يؤدي التبديل من بنية قديمة إلى بنية حديثة مثل YOLO26 إلى تحسين الأداء بشكل فوري دون الحاجة إلى إعادة هيكلة الكود. Ultralytics واجهة برمجة تطبيقات متسقة عبر الأجيال، مما يضمن الحفاظ على استثمارك في تكامل الكود.
لماذا تختار YOLO26؟
بالنسبة للمطورين الذين يبحثون عن أفضل توازن بين السرعة والدقة والميزات الحديثة، فإن YOLO26 هو الخيار الموصى به. تم إصداره في أوائل عام 2026، وهو يعتمد على ابتكارات YOLOv10 NMS YOLOv10 يحسنها من أجل تحقيق استقرار وسرعة فائقتين.
- نهاية إلى نهاية أصلاً: مثل YOLOv10، YOLO26 NMS، مما يضمن زمن انتقال حتمي.
- MuSGD Optimizer: مستوحى من تدريب LLM (على وجه التحديد Moonshot AI's Kimi K2)، يضمن هذا المحسن الهجين تقاربًا أسرع واستقرارًا في التدريب.
- تحسين الحواف: مع إزالة Distribution Focal Loss (DFL) ووظائف الخسارة المحسّنة (ProgLoss + STAL)، يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله مثاليًا للأجهزة التي لا تحتوي على وحدات معالجة رسومات مخصصة (GPU).
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه النماذج على القيود المحددة لمشروعك.
عدّ الحشود عالية الكثافة
في سيناريوهات مثل مراقبة المدن الذكية، من الشائع اكتشاف مئات الأشخاص في إطار واحد.
- YOLOX: قد يعاني من ارتفاعات في زمن الاستجابة لأن وقت NMS يزداد بشكل خطي مع عدد الصناديق المكتشفة.
- YOLOv10 YOLO26: يضمن تصميمهما NMS استقرار وقت الاستدلال بغض النظر عن كثافة الحشود، وهو أمر بالغ الأهمية بالنسبة لموجزات الفيديو في الوقت الفعلي.
الروبوتات المتنقلة والمدمجة
بالنسبة للروبوتات التي تتنقل في بيئات ديناميكية، كل مللي ثانية مهمة.
- YOLOX-Nano: منافس قوي وخفيف الوزن، لكن بنيته قديمة.
- YOLO26n: يوفر دقة فائقة عند عدد معلمات مماثل أو أقل ويستفيد من إزالة DFL، مما يجعله أسرع بشكل ملحوظ على وحدات المعالجة المركزية الموجودة في أجهزة مثل Raspberry Pi أو Jetson Nano.
التفتيش الصناعي
يتطلب اكتشاف العيوب في خطوط التجميع دقة عالية.
- YOLOX: يوفر رأسه المنفصل دقة تحديد الموقع الممتازة، مما يجعله أساسًا موثوقًا للبحث.
- Ultralytics : تتيح القدرة على التبديل بسهولة إلى مهام التجزئة لنفس النظام ليس فقط detect بل وقياس مساحتها بدقة، مما يوفر بيانات أكثر ثراءً لمراقبة الجودة.
الخلاصة
يظل YOLOX معيارًا محترمًا في الأوساط الأكاديمية، ويشتهر بتعميم الكشف بدون نقاط ربط. YOLOv10 نجح في تطوير هذا الإرث من خلال إزالة NMS، مما يوفر لمحة عن مستقبل الأنظمة الشاملة في الوقت الفعلي.
ومع ذلك، بالنسبة لعمليات النشر الإنتاجية الحالية، يوفر نظام Ultralytics ميزة لا مثيل لها. من خلال توحيد عمليات التدريب والتحقق والنشر، يتيح للمطورين الاستفادة من الأداء المتطور لـ YOLO26—الذي يجمع YOLOv10 مزايا YOLOv10 NMS CPU الفائقة واستقرار التدريب—دون التعقيدات التي تنطوي عليها إدارة قواعد البيانات المتباينة.
لمزيد من الاستكشاف، يرجى مراجعة الوثائق الخاصة بـ YOLO11 أو الغوص في مقاييس الأداء لفهم أفضل لكيفية قياس أداء هذه النماذج على أجهزتك الخاصة.