YOLOX مقابلYOLO: مقارنة بين أجهزة الكشف عن الأجسام الخالية من المراسي والمزودة بنظام NAS
شهد تطور الكشف عن الكائنات في الوقت الفعلي العديد من التحولات النموذجية، من البنى القائمة على المراسي إلى البنى الخالية من المراسي، ومن البنى الأساسية المصممة يدويًا إلى البحث الآلي في البنية العصبية (NAS). في هذه المقارنة التقنية الشاملة، سنحلل معلمتين هامتين في هذه الرحلة: YOLOX و YOLO. سنستكشف ابتكاراتهما المعمارية ومنهجيات التدريب والتنازلات في الأداء، مع تسليط الضوء على كيفية توفير Ultralytics الحديث بديلاً لا مثيل له للمطورين المعاصرين.
YOLOX: رائدة في نموذج بدون مرساة
صدر YOLOX في 18 يوليو 2021 عن Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii، وشكل نقطة تحول حاسمة من خلال نجاحه في دمج تصميم خالٍ من المراسي في YOLO . ووفقًا للتقرير الفني المفصل الذي نشره الفريق على ArXiv، يهدف YOLOX إلى سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي.
الابتكارات المعمارية الرئيسية
أدخلت YOLOX عدة تغييرات هيكلية أساسية أدت إلى تحسينات جذرية مقارنة بسابقاتها:
- آلية خالية من المراسي: من خلال التنبؤ بمركز الكائن وأبعاد مربعه المحيط مباشرة، قلل YOLOX من عدد الاستدلالات التصميمية وبسط عمليات تجميع المراسي المعقدة. وهذا يجعله قابلاً للتكيف بدرجة عالية مع سيناريوهات رؤية الكمبيوتر المتنوعة.
- الرأس المفصول (Decoupled Head): استخدمت نماذج YOLO التقليدية رأسًا مقترنًا واحدًا لكل من التصنيف والانحدار. طبقت YOLOX رأسًا مفصولًا، حيث تعالج التصنيف والتحديد بشكل منفصل، مما أدى إلى تقارب أسرع بكثير وتحسين الدقة.
- تعيين التسميات SimOTA: تم استخدام نسخة مبسطة من تعيين النقل الأمثل (OTA) لتعيين العينات الإيجابية ديناميكيًا، مما يقلل أوقات التدريب ويتغلب على غموض تعيينات نقطة المركز.
إرث YOLOX
أثر تصميم الرأس المنفصل من YOLOX تأثيرًا كبيرًا على الأجيال اللاحقة من أجهزة الكشف عن الأجسام، وأصبح ميزة قياسية في العديد من الطرز الحديثة.
DAMO-YOLO: البحث الآلي عن البنية على نطاق واسع
تم تطويرYOLO بواسطة Xianzhe Xu وفريق من الباحثين في مجموعة Alibaba Group،YOLO طرحه في 23 نوفمبر 2022. كما هو مفصل في منشورهم على ArXiv، استخدم النموذج بشكل مكثف البحث في البنية العصبية (NAS) لدفع حدود باريتو للسرعة والدقة.
الابتكارات المعمارية الرئيسية
استندت استراتيجية DAMO-YOLO إلى أتمتة تصميم الهياكل الفعالة:
- أعمدة MAE-NAS الفقرية: باستخدام خوارزمية تطورية متعددة الأهداف، اكتشف DAMO-YOLO أعمدة فقرية عالية الكفاءة مُخصصة لميزانيات زمن استجابة محددة، خاصة عند التصدير إلى أطر عمل مثل TensorRT.
- RepGFPN الفعال: تصميم ذو عنق ثقيل يعزز بشكل كبير دمج الميزات عبر درجات دقة مكانية مختلفة، وهو مفيد للغاية لتحليل الصور الجوية و detect الكائنات بمقاييس مختلفة.
- ZeroHead: رأس تنبؤ مبسط يقلل من التكرار الحسابي دون التضحية بمتوسط الدقة المتوسطة (mAP) الكلي للنموذج.
- AlignedOTA والتقطير: يدمج تعيين التسميات المتقدم وتقطير المعرفة بين المعلم والطالب لاستخلاص أقصى أداء من النماذج الطلابية الأصغر.
مقارنة الأداء والمقاييس
عند مقارنة هذين النموذجين، يجب أن ننظر إلى عدد المعلمات، وعمليات FLOP المطلوبة، وملفات تعريف زمن الاستجابة. فيما يلي بيانات المقارنة بين YOLOX وYOLO عدة مقاييس.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
على الرغم من أن كلا النموذجين يحققان نتائج مبهرة، إلا أنهما ينطويان على بعض المحاذير. يتطلب YOLOX ضبطًا دقيقًا لرأسه المنفصل، بينما يعتمدYOLO بشكل كبير على التقطير، مما يجعل إعادة التدريب على مجموعات البيانات المخصصة عملية تستهلك موارد كثيرة وتتطلب كميات هائلة من GPU .
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOX و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOX
YOLOX هو خيار قوي لـ:
- أبحاث الكشف الخالي من المراسي: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة الحافة خفيفة الوزن للغاية: النشر على المتحكمات الدقيقة أو الأجهزة المحمولة القديمة حيث تعتبر البصمة الصغيرة للغاية لمتغير YOLOX-Nano (0.91 مليون معلمة) أمرًا بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: مشاريع بحثية تستكشف استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار DAMO-YOLO
يوصى بـ DAMO-YOLO لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
Ultralytics : تقديم YOLO26
في حينYOLO YOLOX وYOLO معالم تاريخية مهمة، فإن المطورين المعاصرين يحتاجون إلى حل يجمع بين الدقة المتطورة وسهولة الاستخدام التي لا مثيل لها. وهنا يأتي دور Ultralytics لتغيير المشهد. تم إصدار YOLO26 في يناير 2026، وهو يعتمد على إرث النماذجNMS لتوفير التوازن المثالي بين السرعة والدقة وتجربة المطور.
لماذا تختار YOLO26؟
يتفوق Ultralytics المتكامل Ultralytics على المستودعات الأكاديمية المجزأة من خلال تقديم:
- تصميم شامل بدون NMS: يلغي YOLO26 بطبيعته Non-Maximum Suppression (NMS) أثناء الاستدلال. وهذا يؤدي إلى زمن استجابة سريع للغاية ويمكن التنبؤ به، وهو أمر بالغ الأهمية لعمليات النشر على الأجهزة الطرفية والمركبات ذاتية القيادة.
- إزالة DFL: من خلال إزالة خسارة التركيز التوزيعي، يبسط YOLO26 عمليات التصدير إلى الأجهزة الطرفية، مما يقلل بشكل كبير متطلبات الذاكرة للتطبيقات خفيفة الوزن.
- مُحسِّن MuSGD: يستعير YOLO26 ابتكارات تدريب نماذج LLM باستخدام مُحسِّن SGD و Muon الهجين الخاص به، مما يضمن استقرار تدريب قوي للغاية وتقاربًا فائق السرعة.
- استدلال أسرع على CPU بنسبة تصل إلى 43%: بفضل التحسينات الهيكلية العميقة، يعمل YOLO26 بسرعة فائقة على وحدات CPU دون الحاجة إلى أجهزة GPU باهظة الثمن.
- دوال الخسارة المتقدمة: يوفر دمج ProgLoss + STAL تحسينات هائلة في التعرف على الأجسام الصغيرة، مما يجعله مثاليًا لمهام مثل فحص الطائرات بدون طيار ومراقبة إنترنت الأشياء.
- تعدد الاستخدامات: على عكس DAMO-YOLO، الذي هو كاشف بحت، يدعم YOLO26 بشكل أصلي مهام تجزئة الكائنات، وتقدير الوضعيات، وتصنيف الصور، والصناديق المحيطة الموجهة (OBB) ضمن إطار عمل واحد وموحد.
ابدأ البناء على الفور
مع Python Ultralytics Python ، لن تحتاج إلى تكوين خطوط أنابيب تقطير معقدة يدويًا أو كتابة مئات الأسطر من كود C++ لنشر نموذجك.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")
نماذج أخرى يجب أخذها في الاعتبار
نظام الرؤية الحاسوبية واسع النطاق. اعتمادًا على القيود الخاصة بك، قد ترغب أيضًا في استكشاف بنى أخرى مدعومة بالكامل من قبل Ultralytics :
- YOLO11: السلف عالي الكفاءة لـ YOLO26، المعروف بمتانته في تحليلات التجزئة و مراقبة جودة التصنيع.
- YOLOv8: نموذج أسطوري ومستقر للغاية خالٍ من نقاط الارتكاز (anchor-free) ساهم في انتشار النشر على الحافة (edge deployment) على نطاق واسع.
- RT-DETR: محول كشف في الوقت الفعلي (Real-Time DEtection TRansformer) طورته بايدو، ويقدم بديلاً ممتازًا للمهام التي تستفيد بشكل كبير من آليات الانتباه الشاملة، وإن كان ذلك على حساب متطلبات ذاكرة تدريب أعلى.
الخلاصة
ساهم كل من YOLOX وDAMO-YOLO بمفاهيم حيوية في تقدم التعلم العميق — حيث أثبت YOLOX صحة النهج المفصول والخالي من نقاط الارتكاز، وأظهر DAMO-YOLO قوة البحث التلقائي عن البنية. ومع ذلك، بالنسبة للإنتاج في العالم الحقيقي، يمكن أن تؤدي تعقيدات قواعد بيانات الأبحاث الأصلية الخاصة بهم إلى إبطاء الفرق الرشيقة.
بالاستفادة من منصة Ultralytics الشاملة، يمكن للمطورين تجاوز هذه العقبات. بفضل تصميم YOLO26 الشامل، وسرعات CPU الفائقة، والوثائق الشاملة، أصبح تحقيق الذكاء الاصطناعي البصري المتطور أكثر سهولة من أي وقت مضى. سواء كنت تقوم ببناء بنية تحتية للمدن الذكية، أو تشخيصات الرعاية الصحية، أو روبوتات متقدمة، توفر Ultralytics المسار الأكثر كفاءة من البيانات الخام إلى النشر القوي في العالم الحقيقي.