YOLOX مقابل DAMO-YOLO: مقارنة كواشف الكائنات الخالية من المرساة (Anchor-Free) والقائمة على البحث في بنية الشبكة (NAS)
لقد شهد تطور اكتشاف الكائنات في الوقت الفعلي تحولات عديدة في النماذج، من البنى القائمة على المرساة إلى البنى الخالية من المرساة، ومن الهياكل الأساسية (backbones) المصممة يدويًا إلى البحث الآلي في بنية الشبكة (NAS). في هذه المقارنة التقنية الشاملة، سنحلل علامتين بارزتين في هذه المسيرة: YOLOX و DAMO-YOLO. سنستكشف ابتكاراتهما المعمارية، ومنهجيات التدريب، والمقايضات في الأداء، مع تسليط الضوء أيضًا على كيفية توفير Ultralytics YOLO26 لبديل لا مثيل له للمطورين المعاصرين.
YOLOX: ريادة النموذج الخالي من المربعات المرجعية
تم إصدار YOLOX في 18 يوليو 2021 بواسطة تشنغ جي، وسونغتاو ليو، وفنغ وانغ، وزيمينغ لي، وجيان صن في Megvii، وقد مثّل نقطة تحول حاسمة من خلال دمج تصميم خالٍ من المرساة بنجاح في عائلة YOLO. وكما ورد في تقريرهم التقني المفصل على ArXiv، كان هدف YOLOX هو سد الفجوة بين البحث الأكاديمي والنشر الصناعي.
أهم الابتكارات المعمارية
أدخل YOLOX العديد من التحولات الهيكلية الجوهرية التي أدت إلى تحسين أسلافه بشكل كبير:
- آلية خالية من المرساة (Anchor-Free): من خلال التنبؤ بمركز الكائن وأبعاد مربع الإحاطة (bbox) مباشرة، قلل YOLOX من عدد الاستدلالات التصميمية وبسّط عمليات تجميع المرساة المعقدة. وهذا يجعله قابلاً للتكيف بشكل كبير مع سيناريوهات computer vision المتنوعة.
- رأس مفكك (Decoupled Head): استخدمت نماذج YOLO التقليدية رأسًا مقترنًا واحدًا لكل من التصنيف والانحدار. نفذ YOLOX رأسًا مفككًا، حيث يعالج التصنيف والتوطين بشكل منفصل، مما أدى إلى التقارب بشكل أسرع بكثير وتحسين الدقة.
- تخصيص الملصقات بنظام SimOTA: تم استخدام نسخة مبسطة من تخصيص النقل الأمثل (OTA) لتعيين العينات الإيجابية ديناميكيًا، مما قلل من أوقات التدريب وتجاوز غموض تعيينات النقطة المركزية.
أثر تصميم الرأس المفكك في YOLOX بشكل كبير على الأجيال اللاحقة من كواشف الكائنات، ليصبح ميزة قياسية في العديد من النماذج الحديثة.
DAMO-YOLO: البحث الآلي في البنية على نطاق واسع
تم تطوير DAMO-YOLO بواسطة شيانزي شو وفريق من الباحثين في Alibaba Group، وتم تقديمه في 23 نوفمبر 2022. وكما هو مفصل في منشور ArXiv الخاص بهم، استخدم النموذج بشكل مكثف البحث في بنية الشبكة (NAS) لدفع حدود Pareto للسرعة والدقة.
أهم الابتكارات المعمارية
اعتمدت استراتيجية DAMO-YOLO على أتمتة تصميم الهياكل الفعالة:
- هياكل MAE-NAS: باستخدام خوارزمية تطورية متعددة الأهداف، اكتشف DAMO-YOLO هياكل أساسية عالية الكفاءة مخصصة لميزانيات زمن انتقال محددة، خاصة عند تصديرها إلى أطر عمل مثل TensorRT.
- Efficient RepGFPN: تصميم عنق ثقيل يعزز بشكل كبير دمج الميزات عبر دقات مكانية مختلفة، وهو مفيد للغاية لـ تحليل الصور الجوية واكتشاف الكائنات بمقاييس متفاوتة.
- ZeroHead: رأس تنبؤ مبسط يقلل من التكرار الحسابي دون التضحية بمتوسط الدقة (mAP) العام للنموذج.
- AlignedOTA والتقطير (Distillation): يدمج تخصيص ملصقات متقدم وتقطير المعرفة من المعلم إلى الطالب لاستخراج أقصى أداء من نماذج الطلاب الأصغر.
مقارنة الأداء والمقاييس
عند مقارنة هذين النموذجين، يجب أن ننظر إلى عدد المعلمات، و FLOPs المطلوبة، وملفات تعريف زمن الانتقال. فيما يلي بيانات المعيار التي تقارن بين YOLOX و DAMO-YOLO عبر مقاييس متعددة.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
على الرغم من أن كلا النموذجين يحققان نتائج مبهرة، إلا أن لهما محاذير. يتطلب YOLOX ضبطًا دقيقًا لرأسه المفكك، بينما يجعل اعتماد DAMO-YOLO الكبير على التقطير إعادة التدريب على مجموعات بيانات مخصصة مكثفة للغاية من حيث الموارد، وتتطلب كميات هائلة من GPU memory.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOX و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOX
يعد YOLOX خياراً قوياً لـ:
- أبحاث الاكتشاف الخالي من المراسي: البحث الأكاديمي الذي يستخدم بنية YOLOX النظيفة والخالية من المراسي كقاعدة لتجربة رؤوس اكتشاف جديدة أو دوال خسارة (loss functions).
- أجهزة الحافة خفيفة الوزن للغاية: النشر على وحدات التحكم الدقيقة أو أجهزة الهاتف المحمول القديمة حيث يعد البصمة الصغيرة جداً لمتغير YOLOX-Nano (0.91M معامل) أمراً بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: المشاريع البحثية التي تبحث في استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار DAMO-YOLO
يُنصح بـ DAMO-YOLO من أجل:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
ميزة Ultralytics: تقديم YOLO26
بينما يمثل كل من YOLOX و DAMO-YOLO معالم تاريخية مهمة، يحتاج المطورون المعاصرون إلى حل يجمع بين الدقة المتطورة وسهولة الاستخدام التي لا تضاهى. وهنا يأتي دور Ultralytics YOLO26 ليغير المشهد. تم إصدار YOLO26 في يناير 2026، وهو يبني على إرث النماذج الخالية من NMS لتقديم التوازن النهائي بين السرعة والدقة وتجربة المطور.
لماذا تختار YOLO26؟
يتفوق نظام Ultralytics البيئي المتكامل على المستودعات الأكاديمية المشتتة من خلال توفير:
- تصميم كامل خالي من NMS: يلغي YOLO26 محليًا كبت الحد الأقصى غير (NMS) أثناء الاستدلال. يؤدي هذا إلى زمن انتقال سريع للغاية ومتوقع، وهو أمر بالغ الأهمية لنشر الحافة و المركبات ذاتية القيادة.
- إزالة DFL: من خلال إزالة خسارة التوزيع البؤرية (Distribution Focal Loss)، يبسط YOLO26 عمليات التصدير إلى أجهزة الحافة، مما يقلل بشكل كبير من متطلبات الذاكرة للتطبيقات خفيفة الوزن.
- محسن MuSGD: يستعير YOLO26 ابتكارات تدريب النماذج اللغوية الكبيرة (LLM) مع محسن SGD و Muon الهجين الخاص به، مما يضمن استقرارًا قويًا للغاية في التدريب وتقاربًا فائق السرعة.
- استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): بفضل التحسينات الهيكلية العميقة، يعمل YOLO26 بسرعة مذهلة على وحدات المعالجة المركزية دون الحاجة إلى أجهزة GPU باهظة الثمن.
- وظائف خسارة متقدمة: يوفر دمج ProgLoss + STAL تحسينات هائلة في التعرف على الكائنات الصغيرة، مما يجعله مثاليًا لمهام مثل فحص الطائرات بدون طيار ومراقبة إنترنت الأشياء (IoT).
- تعدد الاستخدامات: على عكس DAMO-YOLO، الذي يعد كاشفًا فقط، يدعم YOLO26 أصلاً مهام تجزئة المثيلات، و تقدير الوضعية، و تصنيف الصور، و مربع الإحاطة الموجه (OBB) في إطار عمل واحد موحد.
باستخدام Ultralytics Python API، لا تحتاج إلى تكوين خطوط أنابيب تقطير معقدة يدويًا أو كتابة مئات الأسطر من كود ++C لنشر نموذجك.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")نماذج أخرى للنظر فيها
نظام رؤية الحاسوب البيئي واسع جدًا. اعتمادًا على قيودك المحددة، قد ترغب أيضًا في استكشاف بنيات أخرى مدعومة بالكامل من قبل نظام Ultralytics البيئي:
- YOLO11: السلف القادر للغاية لـ YOLO26، المعروف بمتانته في تحليلات التجزئة و مراقبة جودة التصنيع.
- YOLOv8: نموذج أسطوري ومستقر للغاية خالٍ من المرساة، وقد شاع استخدامه على نطاق واسع في نشر الحافة.
- RT-DETR: محول كشف في الوقت الفعلي (Real-Time DEtection TRansformer) تم تطويره بواسطة Baidu، ويقدم بديلاً ممتازًا للمهام التي تستفيد بشكل كبير من آليات الانتباه العالمية، وإن كان ذلك على حساب متطلبات ذاكرة تدريب أعلى.
خاتمة
ساهم كل من YOLOX و DAMO-YOLO بمفاهيم حيوية في تقدم التعلم العميق—حيث قام YOLOX بالتحقق من صحة النهج المفكك والخالي من المرساة، وأظهر DAMO-YOLO قوة البحث الآلي في البنية. ومع ذلك، بالنسبة للإنتاج في العالم الحقيقي، يمكن لتعقيدات قواعد أكواد بحثهما الأصلية أن تبطئ الفرق الرشيقة.
من خلال الاستفادة من Ultralytics Platform الشاملة، يمكن للمطورين تجاوز هذه العقبات. مع تصميم YOLO26 المتكامل، وسرعات وحدة المعالجة المركزية (CPU) الفائقة، و التوثيق المكثف، أصبح تحقيق ذكاء اصطناعي للرؤية على أحدث طراز أكثر سهولة من أي وقت مضى. سواء كنت تبني بنية تحتية للمدن الذكية، أو تشخيصات الرعاية الصحية، أو روبوتات متقدمة، توفر Ultralytics المسار الأكثر كفاءة من البيانات الخام إلى النشر القوي في العالم الحقيقي.