تخطي إلى المحتوى

YOLOv10 YOLOX: تطور الكشف عن الكائنات بدون مرساة NMS

يتم دفع مجال الرؤية الحاسوبية بواسطة التطورات السريعة في هياكل الكشف عن الأجسام في الوقت الفعلي. تستكشف هذه المقارنة التقنية التفصيلية نموذجين مؤثرين دفعا حدود الكفاءة ونماذج التصميم: YOLOv10 و YOLOX. من خلال دراسة الاختلافات في البنية ومقاييس الأداء ومنهجيات التدريب، يمكن للمطورين والباحثين اتخاذ قرارات مستنيرة لنشر أنظمة رؤية قوية.

خلفيات وأصول النماذج

إن فهم أصول نماذج التعلم العميق هذه يوفر سياقًا قيمًا فيما يتعلق بأهدافها المعمارية وحالات الاستخدام المستهدفة.

YOLOv10: القضاء على NMS الكشف الحقيقي من البداية إلى النهاية

تم تطوير YOLOv10 لحل مشاكل التأخير الطويلة الأمد، YOLOv10 نهجًا أصليًا شاملاً إلى YOLO .

تعرف على المزيد حول YOLOv10

YOLOX: سد الفجوة بين البحث العلمي والصناعة

ظهر YOLOX كنسخة خالية من المراسي من YOLO التقليدي، ويقدم منهجية أبسط مع أداء تنافسي، ويستهدف بشكل خاص تسهيل النشر في المجتمعات الصناعية.

تعرف على المزيد حول YOLOX

أبرز الملامح المعمارية والابتكارات

يختلف كلا الإطارين عن أجهزة الكشف التقليدية القائمة على المراسي، لكنهما يحلان مشكلات مختلفة في مسار الكشف عن الأجسام.

بنية YOLOX

أدخلت YOLOX عدة تحديثات مهمة على النظام البيئي في عام 2021. وكان إسهامها الأساسي هو التحول إلى تصميم كاشف بدون مرساة. من خلال التخلص من مربعات المرساة المحددة مسبقًا، قللت YOLOX بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب لمجموعات البيانات المختلفة.

علاوة على ذلك، يستخدم YOLOX رأسًا منفصلًا، يفصل بين مهام التصنيف والانحدار. وقد أدى ذلك إلى حل التضارب بين الهدفين، مما أدى إلى تسريع التقارب بشكل كبير أثناء التدريب. كما يستخدم SimOTA لتعيين العلامات المتقدمة، مما يحسن التعامل مع المشاهد المزدحمة وحالات الحجب الشائعة في COCO .

ميزة عدم وجود مرساة

تقلل التصميمات الخالية من المراسي، مثل تلك التي ابتكرتها YOLOX، من تعقيد ضبط النموذج بشكل كبير. لم يعد المطورون بحاجة إلى إجراء تجميع k-means على مجموعات البيانات المخصصة لتحديد الأحجام المثلى لمربعات المراسي، مما يوفر وقتًا ثمينًا في التحضير.

بنية YOLOv10

على الرغم من أن YOLOX حسّن رأس الكشف، إلا أنه لا يزال يعتمد على تقنية Non-Maximum Suppression (NMS) أثناء الاستدلال، مما يتسبب في تقلب زمن الاستجابة. YOLOv10 استهدف هذا العيب على وجه التحديد من خلال إدخال استراتيجية مزدوجة متسقة للتدريب NMS. أثناء التدريب، يستخدم كل من التعيينات الفردية والجماعية للعلامات، ولكن أثناء الاستدلال، يتخلى عن الرأس الفردي تمامًا، ويخرج تنبؤات نظيفة بدون NMS .

يتميز YOLOv10 بتصميم نموذج شامل يعتمد على الكفاءة والدقة. فهو يشتمل على رؤوس تصنيف خفيفة الوزن وتقليل الدقة المكانية المنفصلة عن القناة، مما يقلل بشكل كبير من عدد المعلمات وعمليات FLOPs دون التضحية بالدقة.

مقارنة الأداء

GPU تقييم هذه النماذج على أجهزة مثل GPU NVIDIA GPU مزايا واضحة اعتمادًا على الحجم. فيما يلي جدول مقارنة شامل.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

كما هو موضح أعلاه، فإن YOLOv10 بشكل استثنائي. YOLOv10x يحقق المتغير أعلى دقة (54.4 mAP)، في حين أن YOLOv10n يوفر المتغير أسرع استنتاج باستخدام TensorRT التكامل. على العكس من ذلك، يتميز طراز YOLOX nano القديم بأصغر حجم إجمالي للبيئات شديدة التقييد.

منهجيات التدريب والمتطلبات من الموارد

عند تنفيذ نماذج للإنتاج، فإن نظام التدريب ومتطلبات الموارد لا تقل أهمية عن سرعة الاستدلال الأولية.

غالبًا ما يعتمد YOLOX على تكوينات بيئة قديمة قد يكون من الصعب إدارتها. علاوة على ذلك، تتطلب قاعدة الكود القديمة الخاصة به المزيد من الكود النمطي لتحقيق التدريبGPU أو تحسين الدقة المختلطة.

في المقابل، YOLOv10 بسلاسة مع PyTorch الحديث، ولكن Ultralytics هو الذي يغير تجربة المطورين بشكل حقيقي. تتميز Ultralytics باستخدام CUDA أقل بكثير أثناء التدريب مقارنة بالبنى القائمة على المحولات مثل RT-DETR.

مثال على الكود: تدريب مبسط

باستخدام Ultralytics الموحدة، يمكنك تدريب النماذج المتطورة بسلاسة في بضع أسطر من Python. وهذا يتجنب التجميع اليدوي لمشغلات C++ أو ملفات التكوين المعقدة.

from ultralytics import YOLO

# Initialize a pre-trained YOLOv10 model
model = YOLO("yolov10s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to ONNX format
model.export(format="onnx")

توفر هذه الصيغة البسيطة وصولاً فوريًا إلى الدقة المختلطة التلقائية، وزيادة البيانات الآلية، والتكامل مع أدوات مثل Weights & Biases بشكل فوري.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv10 YOLOX على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOv10

YOLOv10 خيار قوي لـ:

  • الكشف في الوقت الفعليNMS: تطبيقات تستفيد من الكشف الشامل بدون قمع غير أقصى، مما يقلل من تعقيد النشر.
  • التوازن بين السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الكشف عبر نماذج مختلفة.
  • تطبيقات ذات زمن انتقال ثابت: سيناريوهات النشر التي يكون فيها زمن الاستدلال المتوقع أمرًا بالغ الأهمية، مثل الروبوتات أو الأنظمة المستقلة.

متى تختار YOLOX

يوصى باستخدام YOLOX في الحالات التالية:

  • أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
  • أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
  • دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

مستقبل الذكاء الاصطناعي في مجال الرؤية: دخول YOLO26

في حين يمثل YOLOv10 YOLOX معالم بارزة، فإن مجال الرؤية الحاسوبية يتقدم بلا هوادة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة اليوم، فإن Ultralytics هو الخيار الموصى به بشكل قاطع.

تم إصدار Ultralytics في يناير 2026، وهو يعتمد على الاختراق الأساسي للتصميم الشامل NMS الذي ابتكرته YOLOv10، مع تحسينه لتحقيق مزيد من الاستقرار والسرعة.

يتميز YOLO26 بتقديمه عدة قفزات هائلة إلى الأمام:

  • CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة Distribution Focal Loss (DFL) بشكل استراتيجي، يحقق YOLO26 أداءً فائقًا على الأجهزة الطرفية التي لا تحتوي على وحدات معالجة رسومات.
  • MuSGD Optimizer: مستوحى من استقرار تدريب LLM، يضمن هذا المزيج الجديد من SGD Muon تقاربًا أسرع وتدريبات أكثر استقرارًا.
  • ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو عامل حاسم في التصوير الجوي وأجهزة استشعار إنترنت الأشياء.
  • تنوع لا مثيل له: على عكس YOLOX، الذي هو مجرد كاشف للأجسام، يدعم YOLO26 بشكل أساسي تقسيم المثيلات وتقدير الوضع وتصنيف الصور وكشف OBB ضمن مكتبة واحدة موحدة.

تعرف على المزيد حول YOLO26

استفد من Ultralytics

للحصول على أبسط مسار للإنتاج، يمكن للمطورين استخدام Ultralytics لتعليق مجموعات البيانات وتدريب نماذج YOLO26 في السحابة ونشرها على أي جهاز طرفي دون الحاجة إلى أي إعداد.

تطبيقات عملية في أرض الواقع

اختيار النموذج المناسب يحدد نجاح عمليات النشر في العالم الواقعي عبر مختلف الصناعات.

تحليلات الفيديو عالية السرعة

لمعالجة موجزات الفيديو الكثيفة، مثل إدارة حركة المرور في المدن الذكية، YOLOv10 ميزة كبيرة بفضل معالجتها اللاحقة NMS. إن القضاء على NMS يتيح زمن انتقال منخفضًا ثابتًا، مما يجعلها مثالية للاقتران بخوارزميات التتبع مثل BoT-SORT.

نشر Legacy Edge

بالنسبة للأنظمة الأكاديمية القديمة أو Android القديمة التي تم تحسينها بشكل كبير لنماذج التحويلية البحتة، قد تظل النماذج الأصغر مثل YOLOX-Tiny تجد حالات استخدام متخصصة حيث يُعد الحفاظ على PyTorch القديمة مقايضة مقبولة.

الأجهزة الحديثة المتطورة وأجهزة إنترنت الأشياء

بالنسبة لنشر الأجهزة من الجيل التالي، مثل الروبوتات والطائرات بدون طيار وتحليل أرفف البيع بالتجزئة، فإن YOLO26 هو الحل الأمثل. إن انخفاض CPU بشكل كبير وقدرته الفائقة على اكتشاف الأجسام الصغيرة يجعله مؤهلاً بشكل فريد للملاحة الذاتية وإدارة المخزون بالتفصيل.

للحصول على مقارنات إضافية لتوسيع مجموعة أدوات التعلم العميق الخاصة بك، يمكنك أيضًا استكشاف كيفية مقارنة هذه النماذج بالبدائل مثل النموذج المرن YOLO11 أو النموذج المدعوم بمحول RT-DETR.


تعليقات