YOLOX مقابل YOLOv7: مقارنة تقنية شاملة
تطور الكشف عن الأجسام في الوقت الفعلي مدفوع بالتقدم المستمر في مجال الهندسة المعمارية. ومن المعالم البارزة في هذه الرحلة YOLOX و YOLOv7. تم إصدار كلا النموذجين في غضون عام واحد، وقد أدخل كلاهما أساليب جديدة في نموذج الكشف عن الأجسام القياسي، مما أدى إلى تحسين كبير في التوازن بين السرعة والدقة.
تقدم هذه الصفحة تحليلاً تقنياً متعمقاً لـ YOLOX و YOLOv7 حيث تقارن بين هياكلهما ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدة المطورين على اختيار الأداة المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم.
YOLOX: رائد في مجال الكشف بدون مرساة
قدم باحثو Megvii في يوليو 2021 نظام YOLOX الذي يمثل تحولًا كبيرًا عن التصميمات التقليدية القائمة على المراسي. من خلال سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي، بسط نظام YOLOX رأس الكشف وحسّن الأداء العام.
تفاصيل النموذج الرئيسية:
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 2021-07-18
- ورقة بحثية:arXiv:2107.08430
- كود المصدر:Megvii YOLOX GitHub
- الوثائق:YOLOX ReadTheDocs
الابتكارات المعمارية
قدم YOLOX نهجًا بدون مرساة ، مما أدى إلى تقليل عدد معلمات التصميم والتعديلات التجريبية المطلوبة لمجموعات البيانات المخصصة بشكل كبير. وقام بتنفيذ رأس منفصل، يفصل بين مهام التصنيف والانحدار، مما أدى إلى تحسين سرعة ودقة التقارب. بالإضافة إلى ذلك، استخدم YOLOX استراتيجيات متقدمة لزيادة البيانات مثل MixUp Mosaic لتعزيز متانة النموذج.
ميزة عدم وجود مرساة
من خلال التخلص من مربعات الربط، يقلل YOLOX من العبء الحسابي لحساب التقاطع على الاتحاد (IoU) بين التنبؤات والحقائق الأساسية أثناء التدريب، مما يؤدي إلى انخفاض متطلبات CUDA وزيادة سرعة أوقات التدريب.
YOLOv7: مجموعة الأدوات المجانية القابلة للتدريب
أطلق باحثون في معهد علوم المعلومات التابع لأكاديمية سينيكا في تايوان YOLOv7 في يوليو 2022، YOLOv7 حدود الكشف عن الأجسام في الوقت الفعلي. وقد أدخل هذا البرنامج مفهوم "حقيبة الهدايا القابلة للتدريب"، مما أدى إلى وضع معايير جديدة متطورة على COCO MS COCO عند إطلاقه.
تفاصيل النموذج الرئيسية:
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- ورقة بحثية:arXiv:2207.02696
- كود المصدر:WongKinYiu YOLOv7
- الوثائق:YOLOv7 Ultralytics YOLOv7
الابتكارات المعمارية
تم بناء بنية YOLOv7 حول شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN)، والتي تسمح للنموذج بتعلم ميزات أكثر تنوعًا بشكل مستمر دون إضعاف مسار التدرج. علاوة على ذلك، YOLOv7 تقنيات إعادة تحديد معلمات النموذج، مما سمح بتبسيط شبكات التدريب المعقدة متعددة الفروع إلى شبكات أسرع ذات مسار واحد أثناء الاستدلال.
مقارنة الأداء
عند تقييم هذه النماذج لتطبيقاتها في العالم الواقعي، من الضروري فهم أدائها على مستويات مختلفة. يقارن الجدول أدناه المقاييس القياسية لمختلف أحجام YOLOX و YOLOv7.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
تحليل
- الدقة: يحقق YOLOv7 دقة أعلى mAP مقارنةً بنماذج YOLOX المماثلة. على سبيل المثال، يحقق YOLOv7x 53.1 mAP بـ 51.1 لـ YOLOXx.
- السرعة: على الرغم من أن كلا النموذجين مُحسّنان بشكل كبير GPU باستخدام TensorRT، توفر بنية E-ELAN YOLOv7 إنتاجية أفضل قليلاً للتطبيقات المتطورة، على الرغم من أن YOLOX يحافظ على زمن انتقال ممتاز على الأجهزة الطرفية الأصغر حجماً.
- تعدد الاستخدامات: YOLOv7 نطاقه ليتجاوز مربعات الحدود من خلال توفير أوزان أصلية لتقسيم الأمثلة وتقدير الوضع، مما يجعله أكثر تنوعًا من مستودع YOLOX الأساسي.
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه النماذج على بيئة النشر الخاصة بك.
الحوسبة الطرفية وIoT
بالنسبة للأجهزة ذات الحواف المقيدة مثل Raspberry Pi أو المعالجات المحمولة القديمة، فإن YOLOX-Nano و YOLOX-Tiny تعتبران جذابتان للغاية. إن عدد معلماتهما المحدود وطبيعتهما الخالية من المراسي تجعلهما أسهل في النشر في بيئات منخفضة الطاقة لمهام مثل تتبع الحركة الأساسي أو تطبيقات جرس الباب الذكي.
تحليلات الفيديو عالية الدقة
لمعالجة التغذية عالية الدقة في الكشف عن العيوب الصناعية أو مراقبة حركة المرور الكثيفة، YOLOv7 متفوقة. تسمح ميزة تجميع الميزات القوية بالحفاظ على دقة عالية حتى عندما تكون الكائنات محجوبة جزئيًا أو متفاوتة بشكل كبير في الحجم.
حالات الاستخدام والتوصيات
YOLOv7 الاختيار بين YOLOX و YOLOv7 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOX
YOLOX هو خيار قوي لـ:
- أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
- دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.
متى تختار YOLOv7
YOLOv7 في الحالات التالية:
- المقارنة الأكاديمية: إعادة إنتاج أحدث النتائج لعام 2022 أو دراسة آثار E-ELAN وتقنيات bag-of-freebies القابلة للتدريب.
- أبحاث إعادة تحديد المعلمات: دراسة التلافيف المخطط لها المعاد تحديد معلماتها واستراتيجيات قياس النماذج المركبة.
- خطوط الأنابيب المخصصة الحالية: مشاريع ذات خطوط أنابيب مخصصة بشكل كبير ومبنية حول بنية YOLOv7 المحددة والتي لا يمكن إعادة هيكلتها بسهولة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
ميزة Ultralytics
على الرغم من أن YOLOX و YOLOv7 تطبيقان بحثيان قويان، إلا أن الانتقال من مستودع بحثي إلى بيئة إنتاج قابلة للتطوير قد يكون أمرًا صعبًا. وهنا تبرز أهمية Ultralytics .
توفر Ultralytics Python موحدة، تعامل تدريب النماذج والتحقق من صحتها ونشرها على أنها مهام مبسطة وموحدة. يمكنك تجنب عناء إدارة التبعيات المعقدة للجهات الخارجية أو مشغلي C++ المخصصين الشائعين في البنى القديمة.
علاوة على ذلك، تتطلبYOLO Ultralytics YOLO CUDA أقل بكثير أثناء التدريب مقارنة بأجهزة الكشف القائمة على المحولات مثل RT-DETR. وهذا يتيح للممارسين استخدام أحجام دفعات أكبر، مما يؤدي إلى استقرار التدريب وتسريع التقارب على مجموعات البيانات المخصصة.
التكاملات المدعومة
تدعم Ultralytics تصدير النماذج إلى تنسيقات قياسية في الصناعة مثل ONNXو OpenVINOو CoreML مع علامة منطقية بسيطة، مما يبسط عملية نشر النموذج بشكل كبير.
مثال على الكود: التدريب باستخدام Ultralytics
يتيح لك Ultralytics تحميل وتدريب وتشغيل الاستدلال بسهولة باستخدام YOLOv7 بنى أحدث باستخدام بضع أسطر من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on a custom dataset (e.g., COCO8)
# The API handles data loading, augmentation, and memory management automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
predictions = model("path/to/image.jpg")
predictions[0].show()
المستقبل: Ultralytics
في حين يمثل YOLOv7 YOLOX خطوات تاريخية مهمة، إلا أن أحدث التقنيات تتطور بسرعة. تم إصدار Ultralytics في يناير 2026، وهو يقدم نماذج مبتكرة تحل محل النماذج السابقة.
- تصميم NMS من البداية إلى النهاية: يزيل YOLO26 بشكل أساسي المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وهذا يقلل بشكل كبير من اختناقات زمن الوصول ويضمن أوقات تنفيذ حتمية عبر إعدادات الأجهزة المتنوعة.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة خسارة التركيز التوزيعي (DFL) وتحسين عمق الشبكة، تم تصميم YOLO26 خصيصًا للأجهزة الطرفية التي تفتقر إلى GPU مخصصة.
- محسّن MuSGD: مستوحى من تقنيات التدريب المتقدمة LLM، يوفر محسّن MuSGD (مزيج من SGD Muon) استقرارًا استثنائيًا في التدريب وتقاربًا أسرع.
- تحسين اكتشاف الأجسام الصغيرة: يوفر دمج وظائف الخسارة ProgLoss + STAL تحسينات كبيرة في التعرف على الأجسام الصغيرة والبعيدة، وهو أمر بالغ الأهمية لرسم الخرائط بواسطة الطائرات بدون طيار والمراقبة الأمنية.
- دعم المهام الأصلية: يدعم YOLO26 بشكل شامل الصناديق المحددة الموجهة (OBB) وتجزئة المثيلات وتقدير الوضع بشكل أصلي ضمن نفس واجهة برمجة التطبيقات المبسطة.
بالنسبة لأي مطور حديث يبدأ اليوم مشروعًا جديدًا في مجال الرؤية الحاسوبية، فإن تقييم Ultralytics على المنصة هو الطريق الموصى به لتحقيق أفضل توازن مطلق بين السرعة والدقة وسهولة النشر. بالنسبة لأولئك الذين يقومون بالترقية من الأجيال السابقة مثل YOLO11 أو YOLOv8، يتطلب الانتقال تغيير سلسلة النموذج فقط، مما يتيح على الفور إمكانيات فائقة.