YOLOX مقابل YOLOv6.0: دليل شامل لاكتشاف الأجسام الصناعية بدون مرساة
لقد تم تحديد تطور الرؤية الحاسوبية إلى حد كبير من خلال التقدم السريع في YOLO . غالبًا ما يتعلق اختيار البنية المناسبة لنشر التطبيق بتحقيق التوازن بين الإنتاجية الأولية وبساطة البنية وكفاءة التدريب. ومن المعالم البارزة في هذه الرحلة التركيز على الأبحاث الخالية من المراسي في YOLOX والإنتاجية الصناعية عالية التحسين في YOLOv6. YOLOv6.
تحلل هذه المقارنة الفنية الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية، مع تقديم إمكانات الجيل التالي من Ultralytics للمطورين الباحثين عن الحل الأمثل لنشر الحوسبة السحابية.
YOLOX: سد الفجوة بين البحث والصناعة
تم تطوير YOLOX من قبل باحثين في Megvii، وقد تم تقديمه باعتباره تحولًا كبيرًا نحو تبسيط YOLO من خلال جعلها خالية تمامًا من المراسي.
- المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، Jian Sun
- المنظمة: Megvii
- التاريخ: 2021-07-18
- Arxiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
أبرز الملامح المعمارية
نجحت YOLOX في دمج تصميم بدون مرساة في YOLO . من خلال التخلص من مربعات المرساة المحددة مسبقًا، يقلل النموذج بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب أثناء التدريب. وهذا يجعل YOLOX قابلة للتكيف بدرجة كبيرة مع مجموعات البيانات المخصصة المتنوعة دون الحاجة إلى إعادة حساب المرساة يدويًا.
علاوة على ذلك، أدخل YOLOX بنية رأس منفصلة. من خلال فصل مهام التصنيف والانحدار إلى فروع مختلفة، يحل النموذج التضارب الكامن بين تحديد ماهية الكائن وموقعه. بالاقتران مع استراتيجية تعيين التسميات SimOTA، يحقق YOLOX تقاربًا أسرع ودقة متوسطة محسنة (mAP).
ميزة عدم وجود مرساة
غالبًا ما يكون أداء أجهزة الكشف غير المثبتة مثل YOLOX أفضل على مجموعات البيانات المخصصة ذات نسب العرض إلى الارتفاع غير العادية للأجسام، لأنها لا تعتمد على مربعات تحديد ثابتة مسبقًا قد لا تتطابق مع البيانات الجديدة.
YOLOv6-3.0: العملاق الصناعي
تم تطوير YOLOv6. YOLOv6 بواسطة قسم Vision AI في Meituan، وهو مصمم خصيصًا لتحقيق أقصى إنتاجية صناعية، لا سيما على NVIDIA التي تستخدم مسرعات الأجهزة مثل TensorRT.
- المؤلفون: تشوي لي، لولو لي، ييفي جينغ، وآخرون.
- المنظمة: ميتوان
- التاريخ: 2023-01-13
- أرخايف:2301.05586
- GitHub:meituan/YOLOv6
التحسين من أجل النشر
يركز YOLOv6.0 على تعظيم GPU . ويقدم وحدة تسلسل ثنائي الاتجاه (BiC) في العنق لتحسين دمج الميزات مع الحفاظ على سرعات استدلال عالية. في حين أن مرحلة الاستدلال خالية تمامًا من المراسي، يستخدم YOLOv6. YOLOv6 استراتيجية تدريب مبتكرة بمساعدة المراسي (AAT) للاستفادة من الاستقرار القائم على المراسي خلال مرحلة التدريب.
تم تصميم الهيكل الأساسي باستخدام بنية EfficientRep الملائمة للأجهزة، والتي صممت خصيصًا لتقليل تكاليف الوصول إلى الذاكرة وزيادة الكثافة الحسابية على المعجلات الحديثة. وهذا يجعل YOLOv6 قويًا بشكل استثنائي لتحليلات الفيديو من جانب الخادم.
مقارنة الأداء
عند مقارنة هذه النماذج، يجب على المطورين الموازنة بين الدقة الأولية وسرعة الاستدلال وعدد المعلمات. يوضح الجدول التالي أداء كلتا عائلتي النماذج عبر أحجام مختلفة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
بينما يُظهر YOLOv6. YOLOv6 أداءً فائقًا mAP TensorRT ممتازة للمتغيرات الأكبر حجمًا، يظل YOLOX منافسًا قويًا بفضل بساطته وأدائه القوي على الأجهزة القديمة.
حالات الاستخدام والتوصيات
YOLOv6 الاختيار بين YOLOX و YOLOv6 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOX
YOLOX هو خيار قوي لـ:
- أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
- دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.
متى تختار YOLOv6
YOLOv6 في الحالات التالية:
- النشر الصناعي المراعي للأجهزة: سيناريوهات يوفر فيها تصميم النموذج المراعي للأجهزة وإعادة تحديد المعلمات بكفاءة أداءً محسّنًا على أجهزة مستهدفة محددة.
- الكشف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الأولي على GPU الفيديو في الوقت الفعلي في البيئات الخاضعة للرقابة.
- تكامل نظام Meituan البيئي: فرق تعمل بالفعل ضمن مجموعة تقنيات Meituan وبنيتها التحتية للنشر.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
ميزة Ultralytics
في حين أن كل من Megvii و Meituan يوفران مستودعات بحثية قوية، فإن نشر هذه النماذج في الإنتاج غالبًا ما يتطلب تكاليف هندسية كبيرة. يعمل Ultralytics المتكامل Ultralytics على التغلب على هذه العقبات من خلال توفير واجهة برمجة تطبيقات موحدة وموثقة بشكل شامل.
من خلال الاستفادة من Ultralytics يحصل المطورون على تجربة مستخدم لا مثيل لها. ويشمل ذلك التوسيع التلقائي المدمج، وإدارة الذاكرة عالية الكفاءة أثناء التدريب (مما يقلل بشكل كبير من متطلبات VRAM مقارنة بنماذج المحولات مثل RTDETR)، وخطوط أنابيب تصدير سلسة إلى تنسيقات مثل ONNX و OpenVINO.
على عكس النماذج المتخصصة، تتميز Ultralytics بتنوعها المتأصل، حيث تدعم اكتشاف الكائنات، وتقسيم الحالات، وتقدير الوضع، وتصنيف الصور، والمربعات المحددة الموجهة (OBB) بشكل فوري.
أدخل YOLO26: الحل الأمثل للحافة
بالنسبة للفرق التي تبدأ مشاريع جديدة في مجال الرؤية الحاسوبية، نوصي بشدة بالترقية إلى Ultralytics الذي تم إصداره مؤخرًا. بناءً على نجاحات YOLO11 و YOLOv8، يقدم YOLO26 ابتكارات تغير النموذج:
- تصميم شامل NMS: تم استكشافه لأول مرة في YOLOv10 ويقضي YOLO26 بشكل أساسي على الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وهذا يضمن استنتاجًا حتميًا وذو زمن انتقال منخفض للغاية، وهو أمر بالغ الأهمية للروبوتات في الوقت الفعلي.
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب LLM مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مُحسِّن MuSGD (مزيج من SGD Muon) لتحقيق ديناميكيات تدريب مستقرة بشكل لا يصدق وتقارب أسرع.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة Distribution Focal Loss (DFL) وتبسيط رأس الشبكة، تم تحسين YOLO26 بشكل كبير للأجهزة الطرفية التي تعتمد على CPU ، مما يجعلها تتفوق بشكل كبير على YOLOv6 السيناريوهات الطرفية.
- ProgLoss + STAL: توفر هذه الصيغ المتقدمة للخسارة تحسينات ملحوظة في اكتشاف الأجسام الصغيرة، مما يجعل YOLO26 مثاليًا للصور الجوية وفحص العيوب المجهرية.
مثال على التدريب الموحد
باستخدامPython لا يتطلب تدريب النماذج المتطورة سوى بضع أسطر من التعليمات البرمجية. تنطبق هذه الواجهة البسيطة نفسها سواء كنت تختبر YOLO قديم أو تنشر إطار عمل YOLO26 المتطور.
from ultralytics import YOLO
# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the model for edge deployment
model.export(format="onnx")
منصة Ultralytics
للحصول على تجربة أكثر سلاسة، قم بإدارة مجموعات البيانات الخاصة بك، track وتدريب النماذج في السحابة باستخدام Ultralytics التي لا تتطلب كتابة أي أكواد برمجية.
توصيات حالات الاستخدام
عند الاختيار بين هذه البنى، ضع في اعتبارك قيود الأجهزة الخاصة بك ومتطلبات المشروع:
- اختر YOLOX إذا كنت تجري بحثًا أكاديميًا حول استراتيجيات تخصيص العلامات أو تحتاج إلى أساس مرجعي بسيط وسهل الفهم وخالٍ من المراسي لإجراء تعديلات معمارية مخصصة.
- اختر YOLOv6. YOLOv6 إذا كنت تقوم بالنشر على حامل خادم صناعي مزود NVIDIA متطورة (مثل A100 أو T4) حيث يمكنك استخدام أحجام دفعات كبيرة TensorRT لمعالجة مئات من تدفقات الفيديو في وقت واحد.
- اختر YOLO26 للغالبية العظمى من التطبيقات الحديثة. إذا كنت تقوم ببناء تطبيقات Edge AI لأجهزة IoT أو الطائرات بدون طيار أو الهواتف المحمولة، فإن تصميم YOLO26 الأصلي NMS CPU ودعم النظام البيئي الشامل يجعله الخيار الأفضل بلا منازع لسد الفجوة بين التدريب والإنتاج.