DAMO-YOLO في مواجهة YOLO26: تحليل معماريات الجيل القادم لاكتشاف الأجسام في الوقت الفعلي
يشهد مشهد رؤية الحاسوب تطوراً مستمراً، مدفوعاً بالحاجة إلى معماريات توازن بين الدقة العالية والاستدلال منخفض التأخير. يتناول هذا المقارنة التفاصيل التقنية لكل من DAMO-YOLO و Ultralytics YOLO26، مع استكشاف ابتكاراتهما المعمارية، ومنهجيات التدريب، وحالات الاستخدام المثالية.
سواء كنت تقوم بنشر نماذج الرؤية على أجهزة الحافة أو بناء خطوط أنابيب سحابية ذات إنتاجية عالية، فإن فهم الفروق الدقيقة بين هذه النماذج أمر بالغ الأهمية لاتخاذ قرارات معمارية مستنيرة في تطوير الذكاء الاصطناعي الحديث.
DAMO-YOLO: البحث عن البنية العصبية على نطاق واسع
تم تطوير DAMO-YOLO من قبل Alibaba Group، وتم إصداره في 23 نوفمبر 2022. صممه Xianzhe Xu و Yiqi Jiang و Weihua Chen و Yilun Huang و Yuan Zhang و Xiuyu Sun، ويركز النموذج بشكل كبير على الاكتشاف الآلي للمعماريات الفعالة باستخدام بحث معمارية الشبكة العصبية (NAS).
يمكنك مراجعة البحث الأصلي في ورقة ArXiv الخاصة بهم أو استكشاف الكود المصدري على مستودع GitHub الخاص بـ DAMO-YOLO.
الميزات المعمارية الرئيسية
يقدم DAMO-YOLO العديد من الابتكارات التقنية المصممة لدفع حدود اكتشاف الأجسام في الوقت الفعلي:
- هياكل MAE-NAS: يستخدم DAMO-YOLO بحثاً تطورياً متعدد الأهداف للعثور على الهياكل المثلى. تكتشف نهج NAS هذا المعماريات التي توازن بدقة بين دقة الاكتشاف وسرعة الاستدلال على أجهزة محددة.
- Efficient RepGFPN: تصميم عنق ثقيل يعمل على تحسين دمج الميزات بشكل كبير، وهو مفيد للغاية عند تحليل المشاهد المعقدة مثل تلك الموجودة في الصور الجوية.
- تصميم ZeroHead: رأس اكتشاف مبسط للغاية يقلل من التعقيد الحسابي لطبقات التنبؤ النهائية.
- AlignedOTA والتقطير: يستخدم DAMO-YOLO تعيين النقل الأمثل المحاذى (AlignedOTA) لحل غموض تعيين التسميات، مقترناً باستراتيجية قوية لتعزيز تقطير المعرفة لزيادة دقة نماذج الطلاب الأصغر باستخدام شبكات معلمين أكبر.
ميزة Ultralytics: YOLO26
تم إصداره في 14 يناير 2026 بواسطة Glenn Jocher و Jing Qiu في Ultralytics، يمثل YOLO26 قمة رؤية الذكاء الاصطناعي عالية الأداء وسهلة الوصول. بالبناء على إرث YOLO11 و YOLOv10، تم تصميم YOLO26 من الأساس للنشر على الحافة، وتعدد الوسائط، وسهولة الاستخدام التي لا تضاهى.
ابتكارات YOLO26
يقدم Ultralytics YOLO26 العديد من الميزات الرائدة التي تجعله الخيار النهائي لتطبيقات رؤية الحاسوب الحديثة:
- تصميم من طرف إلى طرف بدون NMS: يلغي YOLO26 محلياً معالجة ما بعد الاستدلال Non-Maximum Suppression (NMS). هذا النهج الذي تم ريادته في البداية في YOLOv10، يبسط بشكل كبير خطوط أنابيب النشر ويضمن استدلالاً حتمياً منخفض التأخير.
- سرعة استدلال على CPU تصل إلى 43% أسرع: تم تحسين YOLO26 معمارياً لحوسبة الحافة، ويقدم سرعة استثنائية على أجهزة الحافة و CPUs القياسية، مما يجعله مثالياً لأجهزة إنترنت الأشياء التي تعمل بالبطارية.
- محسن MuSGD: مستوحى من تدريب نماذج اللغات الكبيرة (مثل Kimi K2 الخاص بـ Moonshot AI)، يدمج YOLO26 مزيجاً من SGD و Muon. هذا يجلب استقرار تدريب نماذج اللغات الكبيرة إلى رؤية الحاسوب، مما يؤدي إلى تقارب أسرع وأكثر موثوقية.
- إزالة DFL: من خلال إزالة Distribution Focal Loss، يتم تبسيط رسم بياني النموذج، مما يسمح بالتصدير السلس إلى تنسيقات مثل ONNX و TensorRT.
- ProgLoss + STAL: توفر دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة حاسمة لـ عمليات الطائرات بدون طيار و الزراعة.
يتضمن YOLO26 تحسينات متخصصة عبر وسائط متعددة: نموذج أولي متعدد المقاييس لـ تجزئة المثيلات، وتقدير احتمالية السجل المتبقي (RLE) لـ تقدير الوضع، وخسارة زاوية متقدمة لتخفيف مشاكل الحدود في اكتشاف صندوق التحديد الموجه (OBB).
مقارنة الأداء
عند تقييم هذه النماذج، يعد التوازن بين الدقة (mAP) والكفاءة الحسابية (السرعة/FLOPs) أمراً بالغ الأهمية. يسلط الجدول أدناه الضوء على كيفية مقارنة هذه النماذج باستخدام مجموعة بيانات COCO القياسية في الصناعة.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
كما رأينا أعلاه، يوفر YOLO26 باستمرار دقة أعلى مع عدد أقل بكثير من المعلمات و FLOPs، مما يؤدي إلى معمارية أكثر كفاءة لكل من التدريب والاستدلال.
كفاءة التدريب وسهولة الاستخدام
تعقيدات DAMO-YOLO
بينما يحقق DAMO-YOLO دقة تنافسية، فإن منهجية تدريبه معقدة للغاية. الاعتماد على بحث معمارية الشبكة العصبية (NAS) وتقطير المعرفة المكثف يعني أن تدريب نموذج مخصص غالباً ما يتطلب موارد GPU كبيرة ومعرفة متخصصة. هذه العملية متعددة المراحل - تدريب نموذج معلم ضخم لتقطيره في نموذج طالب أصغر - يمكن أن تعيق فرق الهندسة الرشيقة التي تحاول التكرار بسرعة على مجموعات بيانات مخصصة.
تجربة Ultralytics المبسطة
على العكس من ذلك، تم تصميم Ultralytics YOLO26 لسهولة الاستخدام من البداية إلى الاحتراف. يتم تجريد دورة حياة التدريب والتحقق والنشر بأكملها خلف واجهة برمجة تطبيقات Python و CLI نظيفة وموحدة. علاوة على ذلك، يتطلب YOLO26 ذاكرة CUDA أقل بكثير أثناء التدريب مقارنة بالنماذج القائمة على المحولات مثل RT-DETR، مما يسمح للباحثين بتدريب نماذج متطورة على أجهزة المستهلك العادية.
إليك مثال على مدى بساطة تدريب وتقييم وتصدير نموذج YOLO26 باستخدام Ultralytics SDK:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")بالنسبة للفرق التي تفضل بيئة بدون كود، توفر منصة Ultralytics واجهة بديهية لتعليق مجموعة البيانات، والتدريب السحابي، والنشر السلس.
تطبيقات العالم الحقيقي
يعتمد اختيار المعمارية المناسبة بشكل كبير على بيئة النشر المستهدفة وقيود الأجهزة.
مراقبة الجودة الصناعية
بالنسبة لـ أتمتة التصنيع عالية السرعة، يمكن أن يعمل DAMO-YOLO بشكل جيد على أجهزة GPU مخصصة. ومع ذلك، فإن YOLO26 هو الخيار المفضل لخطوط التجميع الحديثة. يضمن تصميمه من طرف إلى طرف الخالي من NMS تأخيراً حتمياً وخالياً من الارتعاش، وهو أمر ضروري عند مزامنة البيانات المرئية مع المحركات الروبوتية في الوقت الفعلي.
ذكاء الحافة وأجهزة الجوال
يتطلب نشر رؤية الحاسوب على الأجهزة التي تعمل بالبطارية كفاءة قصوى. بينما يعتمد DAMO-YOLO على أعناق RepGFPN محددة، تم تحسين YOLO26n (Nano) خصيصاً لحوسبة الحافة. تجعل إزالة DFL و سرعة استدلال CPU أسرع بنسبة 43% منه الحل الأمثل للكاميرات الذكية، وتطبيقات الجوال، و أنظمة إنذار الأمن.
متطلبات المشاريع متعددة الوسائط
إذا كان المشروع يتطلب أكثر من مجرد اكتشاف الأجسام - مثل تحليل ميكانيكا اللاعب في الرياضة باستخدام تقدير الوضع، أو استخراج حدود البكسل الدقيقة باستخدام تجزئة المثيلات - يوفر YOLO26 دعماً محلياً عبر كل هذه المهام ضمن قاعدة كود واحدة وموحدة. يقتصر DAMO-YOLO بدقة على اكتشاف صناديق التحديد.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO و YOLO26 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
يعد DAMO-YOLO خياراً قوياً لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.
متى تختار YOLO26
يُنصح باستخدام YOLO26 لـ:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
خاتمة
تمثل كلتا المعمارتين إنجازات مهمة في مجال التعلم العميق. يقدم DAMO-YOLO لمحة رائعة عن قوة بحث معمارية الشبكة العصبية وتقنيات التقطير المصممة لمقاييس الأجهزة المحددة.
ومع ذلك، بالنسبة للمطورين والباحثين والمؤسسات التي تبحث عن حل جاهز للإنتاج، يبرز Ultralytics YOLO26 كخيار متفوق. إن جمعه بين تصميم من طرف إلى طرف بدون NMS، ومكاسب هائلة في استدلال CPU، وتعدد الاستخدامات متعدد الوسائط، والتكامل في نظام Ultralytics البيئي المدار جيداً يجعله الأداة الأكثر قوة وعملية لحل تحديات رؤية الحاسوب في العالم الحقيقي اليوم.
للمستخدمين المهتمين باستكشاف نماذج أخرى داخل نظام Ultralytics البيئي، تتوفر وثائق شاملة لـ YOLO11 و YOLOv8 و RT-DETR القائم على المحولات.