YOLOv10 YOLOX: تطور الكشف عن الكائنات بدون مرساة NMS
يتم دفع مجال الرؤية الحاسوبية بواسطة التطورات السريعة في هياكل الكشف عن الأجسام في الوقت الفعلي. تستكشف هذه المقارنة التقنية التفصيلية نموذجين مؤثرين دفعا حدود الكفاءة ونماذج التصميم: YOLOv10 و YOLOX. من خلال دراسة الاختلافات في البنية ومقاييس الأداء ومنهجيات التدريب، يمكن للمطورين والباحثين اتخاذ قرارات مستنيرة لنشر أنظمة رؤية قوية.
خلفيات وأصول النماذج
إن فهم أصول نماذج التعلم العميق هذه يوفر سياقًا قيمًا فيما يتعلق بأهدافها المعمارية وحالات الاستخدام المستهدفة.
YOLOv10: القضاء على NMS الكشف الحقيقي من البداية إلى النهاية
تم تطوير YOLOv10 لحل مشاكل التأخير الطويلة الأمد، YOLOv10 نهجًا أصليًا شاملاً إلى YOLO .
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المؤسسة:جامعة تسينغ - هوا
- التاريخ: 23 مايو 2024
- ArXiv:2405.14458
- GitHub:THU-MIG/yolov10
- الوثائق:وثائق Ultralytics YOLOv10
YOLOX: سد الفجوة بين البحث العلمي والصناعة
ظهر YOLOX كنسخة خالية من المراسي من YOLO التقليدي، ويقدم منهجية أبسط مع أداء تنافسي، ويستهدف بشكل خاص تسهيل النشر في المجتمعات الصناعية.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 18 يوليو 2021
- ArXiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
- الوثائق:الوثائق الرسمية لـ YOLOX
أبرز الملامح والابتكارات المعمارية
تختلف كلتا الأطر عن الكاشفات التقليدية القائمة على المرساة، لكنها تحل مشكلات مختلفة في مسار الكشف عن الكائنات.
بنية YOLOX
أدخلت YOLOX عدة تحديثات مهمة على النظام البيئي في عام 2021. وكان إسهامها الأساسي هو التحول إلى تصميم كاشف بدون مرساة. من خلال التخلص من مربعات المرساة المحددة مسبقًا، قللت YOLOX بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب لمجموعات البيانات المختلفة.
علاوة على ذلك، يستخدم YOLOX رأسًا منفصلًا، يفصل بين مهام التصنيف والانحدار. وقد أدى ذلك إلى حل التضارب بين الهدفين، مما أدى إلى تسريع التقارب بشكل كبير أثناء التدريب. كما يستخدم SimOTA لتعيين العلامات المتقدمة، مما يحسن التعامل مع المشاهد المزدحمة وحالات الحجب الشائعة في COCO .
ميزة بلا مرساة
التصاميم الخالية من المرساة، مثل تلك التي ابتكرها YOLOX، تقلل بشكل كبير من تعقيد ضبط النموذج. لم يعد المطورون بحاجة إلى إجراء تجميع k-means على مجموعات بيانات مخصصة لتحديد أحجام مربعات المرساة المثلى، مما يوفر وقتًا ثمينًا في التحضير.
بنية YOLOv10
على الرغم من أن YOLOX حسّن رأس الكشف، إلا أنه لا يزال يعتمد على تقنية Non-Maximum Suppression (NMS) أثناء الاستدلال، مما يتسبب في تقلب زمن الاستجابة. YOLOv10 استهدف هذا العيب على وجه التحديد من خلال إدخال استراتيجية مزدوجة متسقة للتدريب NMS. أثناء التدريب، يستخدم كل من التعيينات الفردية والجماعية للعلامات، ولكن أثناء الاستدلال، يتخلى عن الرأس الفردي تمامًا، ويخرج تنبؤات نظيفة بدون NMS .
يتميز YOLOv10 بتصميم نموذج شامل يعتمد على الكفاءة والدقة. فهو يشتمل على رؤوس تصنيف خفيفة الوزن وتقليل الدقة المكانية المنفصلة عن القناة، مما يقلل بشكل كبير من عدد المعلمات وعمليات FLOPs دون التضحية بالدقة.
مقارنة الأداء
GPU تقييم هذه النماذج على أجهزة مثل GPU NVIDIA GPU مزايا واضحة اعتمادًا على الحجم. فيما يلي جدول مقارنة شامل.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
كما هو موضح أعلاه، يتوسع YOLOv10 بشكل استثنائي. الـ YOLOv10x يحقق المتغير أعلى دقة (54.4 mAP، بينما الـ YOLOv10n يوفر المتغير أسرع استنتاج باستخدام TensorRT التكامل. على العكس من ذلك، يتميز طراز YOLOX nano القديم بأصغر حجم إجمالي للبيئات شديدة التقييد.
منهجيات التدريب والمتطلبات من الموارد
عند تنفيذ نماذج للإنتاج، فإن نظام التدريب ومتطلبات الموارد لا تقل أهمية عن سرعة الاستدلال الأولية.
غالبًا ما يعتمد YOLOX على تكوينات بيئة قديمة قد يكون من الصعب إدارتها. علاوة على ذلك، تتطلب قاعدة الكود القديمة الخاصة به المزيد من الكود النمطي لتحقيق التدريبGPU أو تحسين الدقة المختلطة.
في المقابل، YOLOv10 بسلاسة مع PyTorch الحديث، ولكن Ultralytics هو الذي يغير تجربة المطورين بشكل حقيقي. تتميز Ultralytics باستخدام CUDA أقل بكثير أثناء التدريب مقارنة بالبنى القائمة على المحولات مثل RT-DETR.
مثال برمجي: تدريب مبسط
باستخدام Ultralytics الموحدة، يمكنك تدريب النماذج المتطورة بسلاسة في بضع أسطر من Python. وهذا يتجنب التجميع اليدوي لمشغلات C++ أو ملفات التكوين المعقدة.
from ultralytics import YOLO
# Initialize a pre-trained YOLOv10 model
model = YOLO("yolov10s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to ONNX format
model.export(format="onnx")
توفر هذه الصيغة البسيطة وصولاً فوريًا إلى الدقة المختلطة التلقائية، وزيادة البيانات الآلية، والتكامل مع أدوات مثل Weights & Biases بشكل فوري.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv10 و YOLOX على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv10
YOLOv10 خيار قوي لـ:
- detect في الوقت الفعلي خالٍ من NMS: التطبيقات التي تستفيد من detect الشامل دون التثبيط غير الأقصى، مما يقلل من تعقيد النشر.
- مقايضات متوازنة بين السرعة والدقة: المشاريع التي تتطلب توازنًا قويًا بين سرعة الاستدلال ودقة الكشف عبر مقاييس النماذج المختلفة.
- تطبيقات زمن الاستجابة المتسق: سيناريوهات النشر التي تكون فيها أوقات الاستدلال المتوقعة حاسمة، مثل الروبوتات أو الأنظمة المستقلة.
متى تختار YOLOX
يوصى باستخدام YOLOX في الحالات التالية:
- أبحاث الكشف الخالي من المراسي: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة الحافة خفيفة الوزن للغاية: النشر على المتحكمات الدقيقة أو الأجهزة المحمولة القديمة حيث تعتبر البصمة الصغيرة للغاية لمتغير YOLOX-Nano (0.91 مليون معلمة) أمرًا بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: مشاريع بحثية تستكشف استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
مستقبل الذكاء الاصطناعي في مجال الرؤية: دخول YOLO26
في حين يمثل YOLOv10 YOLOX معالم بارزة، فإن مجال الرؤية الحاسوبية يتقدم بلا هوادة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة اليوم، فإن Ultralytics هو الخيار الموصى به بشكل قاطع.
تم إصدار Ultralytics في يناير 2026، وهو يعتمد على الاختراق الأساسي للتصميم الشامل NMS الذي ابتكرته YOLOv10، مع تحسينه لتحقيق مزيد من الاستقرار والسرعة.
يتميز YOLO26 بتقديمه عدة قفزات هائلة إلى الأمام:
- سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: من خلال الإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يحقق YOLO26 أداءً فائقًا على الأجهزة الطرفية التي لا تحتوي على وحدات GPU.
- مُحسِّن MuSGD: مستوحى من استقرار تدريب نماذج اللغة الكبيرة (LLM)، يضمن هذا الهجين الجديد من SGD و Muon تقاربًا أسرع وتشغيل تدريب مستقر للغاية.
- ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو عامل حاسم للصور الجوية ومستشعرات إنترنت الأشياء.
- تعدد استخدامات لا مثيل له: على عكس YOLOX، الذي هو كاشف كائنات (object detector) بحت، يدعم YOLO26 بشكل أصيل تجزئة الكائنات (Instance Segmentation)، وتقدير الوضعيات، وتصنيف الصور، وOBB Detection ضمن مكتبة واحدة موحدة.
استفد من Ultralytics
للحصول على أبسط مسار للإنتاج، يمكن للمطورين استخدام Ultralytics لتعليق مجموعات البيانات وتدريب نماذج YOLO26 في السحابة ونشرها على أي جهاز طرفي دون الحاجة إلى أي إعداد.
تطبيقات عملية في أرض الواقع
يحدد اختيار النموذج الصحيح نجاح عمليات النشر الواقعية عبر مختلف الصناعات.
تحليلات الفيديو عالية السرعة
لمعالجة موجزات الفيديو الكثيفة، مثل إدارة حركة المرور في المدن الذكية، YOLOv10 ميزة كبيرة بفضل معالجتها اللاحقة NMS. إن القضاء على NMS يتيح زمن انتقال منخفضًا ثابتًا، مما يجعلها مثالية للاقتران بخوارزميات التتبع مثل BoT-SORT.
نشر Legacy Edge
بالنسبة للأنظمة الأكاديمية القديمة أو Android القديمة التي تم تحسينها بشكل كبير لنماذج التحويلية البحتة، قد تظل النماذج الأصغر مثل YOLOX-Tiny تجد حالات استخدام متخصصة حيث يُعد الحفاظ على PyTorch القديمة مقايضة مقبولة.
الأجهزة الحديثة المتطورة وأجهزة إنترنت الأشياء
بالنسبة لنشر الأجهزة من الجيل التالي، مثل الروبوتات والطائرات بدون طيار وتحليل أرفف البيع بالتجزئة، فإن YOLO26 هو الحل الأمثل. إن انخفاض CPU بشكل كبير وقدرته الفائقة على اكتشاف الأجسام الصغيرة يجعله مؤهلاً بشكل فريد للملاحة الذاتية وإدارة المخزون بالتفصيل.
للحصول على مقارنات إضافية لتوسيع مجموعة أدوات التعلم العميق الخاصة بك، يمكنك أيضًا استكشاف كيفية مقارنة هذه النماذج بالبدائل مثل النموذج المرن YOLO11 أو النموذج المدعوم بمحول RT-DETR.