YOLOv6.0 مقابل RTDETRv2: مواجهة بين الشبكات العصبية الصناعية والمحولات في الوقت الحقيقي
يتطلب اختيار البنية المثلى لتطبيقات رؤية الكمبيوتر الموازنة بين السرعة والدقة وقيود النشر. في هذا التحليل الفني الشامل، نقوم بتحليل YOLOv6-3.0، وهي شبكة عصبية تلافيفية (CNN) من الدرجة الصناعية مصممة لبيئات GPU عالية الإنتاجية، مقابل RTDETRv2، وهو نموذج يعتمد على المحولات (transformer-based) على أحدث طراز يجلب آليات الانتباه إلى اكتشاف الكائنات في الوقت الفعلي.
في حين أن كلا النموذجين يمثلان إنجازات مهمة في مجال أبحاث الذكاء الاصطناعي، فإن المطورين الذين يبحثون عن خط أنابيب أكثر تنوعًا وكفاءة غالبًا ما يلجأون إلى Ultralytics القوية.
YOLOv6.0: الإنتاجية الصناعية
تم تطوير YOLOv6. YOLOv6 بواسطة قسم Vision AI في Meituan، وهو يركز بشكل كبير على تعظيم سرعات المعالجة الأولية على NVIDIA الأجهزة مثل NVIDIA ، مما يعزز مكانته في التطبيقات الصناعية القديمة.
- المؤلفون: تشوي لي، لولو لي، ييفي جينغ، وآخرون.
- المؤسسة:Meituan
- التاريخ: 2023-01-13
- ArXiv:2301.05586
- GitHub:meituan/YOLOv6
أبرز ملامح الهيكلة
يستخدم YOLOv6 بنية أساسية EfficientRep سهلة الاستخدام ومصممة خصيصًا GPU عالي السرعة GPU . تدمج البنية وحدة تسلسل ثنائي الاتجاه (BiC) في عنقها لإثراء دمج الميزات عبر درجات دقة مكانية مختلفة. أثناء التدريب، تستفيد من استراتيجية التدريب بمساعدة المراسي (AAT) لتسخير قوة التدريب القائم على المراسي مع الحفاظ على مسار استدلال خالٍ من المراسي.
نقاط القوة والضعف
نقاط القوة:
- إنتاجية استثنائية على أجهزة من فئة الخوادم مثل وحدات معالجة الرسومات T4 و A100.
- يوفر دروسًا تعليمية متخصصة في التكمية لنشر INT8 باستخدام RepOpt.
- نسبة معلمة إلى سرعة مواتية لتحليلات الفيديو واسعة النطاق.
نقاط الضعف:
- في المقام الأول كاشف مربع الحدود؛ يفتقر إلى تعدد المهام الجاهز للاستخدام (مثل Pose و OBB) الموجود في نماذج مثل Ultralytics YOLO11.
- الاعتماد بشكل أكبر على تقنية Non-Maximum Suppression (NMS) المعقدة أثناء المعالجة اللاحقة، مما يزيد من تباين زمن الاستجابة.
- نظام بيئي أقل نشاطًا مقارنة بالأطر السائدة، مما يجعل التحديثات ودعم المجتمع أقل قابلية للتنبؤ.
RTDETRv2: محولات الوقت الفعلي
بقيادة باحثين في Baidu، يعتمد RTDETRv2 على RT-DETR الأصلي RT-DETR تحسين إطار عمل محول الكشف باستخدام نهج "bag-of-freebies"، مما يحقق دقة متطورة دون التضحية بالقدرة على العمل في الوقت الفعلي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- ArXiv:2407.17140
- GitHub:lyuwenyu/RT-DETR
أبرز ملامح الهيكلة
على عكس شبكات CNN التقليدية، فإن RTDETRv2 هي شبكة متكاملة من البداية إلى النهاية. من خلال الاستفادة من طبقات الانتباه في المحول، تلغي البنية تمامًا الحاجة إلى NMS . وهذا يسمح بتبسيط عملية الاستدلال. تقدم RTDETRv2 دمجًا عالي التحسين للميزات عبر النطاقات ومشفّرًا هجينًا فعالًا، مما يسمح لها بمعالجة COCO القياسية بدقة ملحوظة.
نقاط القوة والضعف
نقاط القوة:
- تحقق آليات الانتباه القائمة على المحولات متوسط دقة استثنائي (mAP)، لا سيما في المشاهد المعقدة أو الكثيفة.
- يعمل التصميم NMS على توحيد زمن انتقال الاستدلال وتبسيط التكامل في بيئات الإنتاج.
- ممتاز للسيناريوهات التي تتطلب أقصى دقة مطلقة حيث تكون قيود الأجهزة ضئيلة.
نقاط الضعف:
- تتطلب طبقات المحولات CUDA كبيرة أثناء التدريب، مما يعزل الباحثين الذين لا يمكنهم الوصول إلى وحدات معالجة الرسومات (GPU) المتطورة.
- تعد سرعات استدلال CPU أبطأ بشكل ملحوظ من شبكات CNN المتخصصة للحوسبة الطرفية، مما يحد من استخدامها في الأجهزة المحمولة أو أجهزة إنترنت الأشياء.
- قد يكون الإعداد والضبط معقدين بالنسبة للفرق التي اعتادت على عمليات التعلم الآلي التقليدية (MLOps).
مقارنة مفصلة للأداء
يُقارن الجدول التالي بين YOLOv6. YOLOv6 و RTDETRv2 عبر مؤشرات الأداء الرئيسية. لاحظ التباين الشديد بين كفاءة معلمات YOLOv6 الأولية لـ RTDETRv2.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
نصيحة حول النشر
إذا كنت تقوم بالنشر على CPU بحتة مثل Raspberry Pi، فإن النماذج القائمة على CNN تتفوق عمومًا على بنى المحولات في عدد الإطارات في الثانية (FPS). للحصول على أداء حافة مثالي، ضع في اعتبارك استخدام OpenVINO لتسريع الاستدلال.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv6 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv6
YOLOv6 خيار قوي لـ:
- النشر الصناعي المدرك للأجهزة: سيناريوهات حيث يوفر تصميم النموذج المدرك للأجهزة وإعادة التكوين الفعالة أداءً محسنًا على أجهزة مستهدفة محددة.
- detect سريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
- تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن مكدس تقنية Meituan والبنية التحتية للنشر.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
- سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
ميزة Ultralytics: تقديم YOLO26
بينما يتفوق YOLOv6. YOLOv6 و RTDETRv2 في مجالاتهما المحددة، فإن مجال التعلم الآلي الحديث يتطلب نماذج تجمع بين السرعة والدقة وخبرة المطورين. يلبي Ultralytics هذه الاحتياجات بشكل مثالي، لا سيما مع إصدار YOLO26.
صدر Ultralytics في يناير 2026، وهو يمثل المعيار النهائي للرؤية الحاسوبية، متفوقًا بشكل كبير على النماذج القديمة مثل YOLOv8 والمشتقات المجتمعية مثل YOLO12.
لماذا يتفوق YOLO26 على المنافسين
- تصميم خالٍ من NMS وشامل: تم ابتكاره لأول مرة في YOLOv10، يلغي YOLO26 معالجة NMS اللاحقة بشكل طبيعي. هذا يوفر بساطة نشر RTDETRv2 مع الحفاظ على السرعة الفائقة لشبكة CNN محسّنة للغاية.
- مُحسِّن MuSGD: مستوحى من ابتكارات نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD و Muon. يضمن هذا ديناميكيات تدريب مستقرة بشكل لا يصدق وتقاربًا سريعًا، مما يقلل من الوقت وموارد الحوسبة المطلوبة لمجموعات البيانات المخصصة.
- أداء حافة لا مثيل له: من خلال تنفيذ الإزالة الكاملة لـ DFL (Distribution Focal Loss)، يبسط YOLO26 بنيات التصدير. يؤدي هذا التحسين إلى استدلال أسرع بنسبة 43% على CPU مقارنة بالنماذج القديمة، مما يجعله البطل بلا منازع للذكاء الاصطناعي على الحافة وأجهزة إنترنت الأشياء.
- اكتشاف محسّن للأجسام الصغيرة: يوفر إدخال دوال الخسارة ProgLoss و STAL قفزة هائلة في اكتشاف الأجسام الصغيرة—وهو متطلب حاسم لتحليلات الطائرات بدون طيار والتصوير الجوي الذي عانى منه YOLOv6 تاريخيًا.
- تعدد استخدامات المهام: على عكس YOLOv6، الذي يركز بشكل صارم على detect، يدعم YOLO26 مسارات عمل متعددة الأنماط بما في ذلك تجزئة الكائنات (Instance Segmentation)، وتقدير الوضعيات، وتصنيف الصور، والصناديق المحيطة الموجهة (OBB)—كل ذلك من واجهة برمجة تطبيقات واحدة وموحدة.
كفاءة التدريب وسهولة الاستخدام
تم تصميمPython Ultralytics Python لزيادة إنتاجية المطورين إلى أقصى حد. يمكنك الانتقال من التدريب إلى النشر في بضع أسطر من التعليمات البرمجية، متجاوزًا تمامًا الإعداد المعقد للبيئة الذي تتطلبه مستودعات الأبحاث المستقلة.
فيما يلي مثال كامل وقابل للتشغيل لكيفية تدريب والتحقق من صحة نموذج YOLO26 المتطور باستخدام حزمة Ultralytics:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")
# Export the trained model to ONNX for production deployment
model.export(format="onnx")
الخلاصة
يعد كل من YOLOv6-3.0 وRTDETRv2 مساهمات رائعة لمجتمع الذكاء الاصطناعي. يظل YOLOv6-3.0 أداة قوية للأتمتة الصناعية الخام باستخدام GPU، ويثبت RTDETRv2 أن معماريات المحولات (transformer) يمكنها تحقيق زمن استجابة في الوقت الفعلي مع زيادة الدقة إلى أقصى حد.
ومع ذلك، بالنسبة للفرق التي تحتاج إلى إطار عمل موثوق وجاهز للإنتاج مع دعم مجتمعي نشط، فإن YOLO Ultralytics YOLO هي الخيار الأفضل دائمًا. التكامل السلس مع منصات مثل Hugging Face و TensorRT، إلى جانب استهلاك الذاكرة المنخفض للغاية أثناء التدريب، يجعل الوصول إلى الذكاء الاصطناعي المتطور متاحًا للجميع. من خلال الترقية إلى YOLO26، يمكن للمطورين الاستفادة من مُحسِّن MuSGD المبتكر والبنية NMS لبناء خطوط إنتاج رؤية حاسوبية أسرع وأكثر ذكاءً وقابلية للتوسع.