YOLOX مقابل YOLOv7: مقارنة تقنية شاملة
تطور الكشف عن الأجسام في الوقت الفعلي مدفوع بالتقدم المستمر في مجال الهندسة المعمارية. ومن المعالم البارزة في هذه الرحلة YOLOX و YOLOv7. تم إصدار كلا النموذجين في غضون عام واحد، وقد أدخل كلاهما أساليب جديدة في نموذج الكشف عن الأجسام القياسي، مما أدى إلى تحسين كبير في التوازن بين السرعة والدقة.
تقدم هذه الصفحة تحليلاً تقنياً متعمقاً لـ YOLOX و YOLOv7 حيث تقارن بين هياكلهما ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدة المطورين على اختيار الأداة المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم.
YOLOX: رائد في مجال الكشف بدون مرساة
قدم باحثو Megvii في يوليو 2021 نظام YOLOX الذي يمثل تحولًا كبيرًا عن التصميمات التقليدية القائمة على المراسي. من خلال سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي، بسط نظام YOLOX رأس الكشف وحسّن الأداء العام.
تفاصيل النموذج الرئيسية:
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 2021-07-18
- ورقة بحثية:arXiv:2107.08430
- الكود المصدري:Megvii YOLOX GitHub
- التوثيق:YOLOX ReadTheDocs
الابتكارات المعمارية
قدم YOLOX نهجًا بدون مرساة ، مما أدى إلى تقليل عدد معلمات التصميم والتعديلات التجريبية المطلوبة لمجموعات البيانات المخصصة بشكل كبير. وقام بتنفيذ رأس منفصل، يفصل بين مهام التصنيف والانحدار، مما أدى إلى تحسين سرعة ودقة التقارب. بالإضافة إلى ذلك، استخدم YOLOX استراتيجيات متقدمة لزيادة البيانات مثل MixUp Mosaic لتعزيز متانة النموذج.
ميزة بلا مرساة
من خلال إلغاء صناديق الارتساء (anchor boxes)، يقلل YOLOX من الحمل الحسابي الزائد لحساب تقاطع الاتحاد (IoU) بين التنبؤات والحقائق الأساسية أثناء التدريب، مما يؤدي إلى متطلبات ذاكرة CUDA أقل وأوقات تدريب أسرع.
YOLOv7: مجموعة الأدوات المجانية القابلة للتدريب
أطلق باحثون في معهد علوم المعلومات التابع لأكاديمية سينيكا في تايوان YOLOv7 في يوليو 2022، YOLOv7 حدود الكشف عن الأجسام في الوقت الفعلي. وقد أدخل هذا البرنامج مفهوم "حقيبة الهدايا القابلة للتدريب"، مما أدى إلى وضع معايير جديدة متطورة على COCO MS COCO عند إطلاقه.
تفاصيل النموذج الرئيسية:
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- ورقة بحثية:arXiv:2207.02696
- الكود المصدري:WongKinYiu YOLOv7 GitHub
- التوثيق:وثائق Ultralytics YOLOv7
الابتكارات المعمارية
تم بناء بنية YOLOv7 حول شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN)، والتي تسمح للنموذج بتعلم ميزات أكثر تنوعًا بشكل مستمر دون إضعاف مسار التدرج. علاوة على ذلك، YOLOv7 تقنيات إعادة تحديد معلمات النموذج، مما سمح بتبسيط شبكات التدريب المعقدة متعددة الفروع إلى شبكات أسرع ذات مسار واحد أثناء الاستدلال.
مقارنة الأداء
عند تقييم هذه النماذج لتطبيقاتها في العالم الواقعي، من الضروري فهم أدائها على مستويات مختلفة. يقارن الجدول أدناه المقاييس القياسية لمختلف أحجام YOLOX و YOLOv7.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
تحليل
- الدقة: يحقق YOLOv7 عمومًا mAP أعلى مقارنة بنماذج YOLOX المكافئة. على سبيل المثال، يحقق YOLOv7x دقة 53.1 mAP مقارنة بـ 51.1 لـ YOLOXx.
- السرعة: بينما تم تحسين كلا النموذجين بشكل كبير لتنفيذ GPU باستخدام TensorRT، توفر بنية E-ELAN لـ YOLOv7 إنتاجية أفضل قليلاً للتطبيقات المتطورة، على الرغم من أن YOLOX يحافظ على زمن انتقال ممتاز على الأجهزة الطرفية الأصغر.
- تعدد الاستخدامات: وسع YOLOv7 ذخيرته إلى ما وراء الصناديق المحيطة من خلال توفير أوزان بشكل أصلي لـ تجزئة الكائنات وتقدير الوضعيات، مما يجعله أكثر تنوعًا من مستودع YOLOX الأساسي.
تطبيقات عملية في أرض الواقع
يتوقف الاختيار بين هذه النماذج غالبًا على بيئة النشر المحددة الخاصة بك.
الحوسبة الطرفية وIoT
بالنسبة للأجهزة ذات الحواف المقيدة مثل Raspberry Pi أو المعالجات المحمولة القديمة، فإن YOLOX-Nano و YOLOX-Tiny تعتبران جذابتان للغاية. إن عدد معلماتهما المحدود وطبيعتهما الخالية من المراسي تجعلهما أسهل في النشر في بيئات منخفضة الطاقة لمهام مثل تتبع الحركة الأساسي أو تطبيقات جرس الباب الذكي.
تحليلات الفيديو عالية الدقة
لمعالجة التغذية عالية الدقة في الكشف عن العيوب الصناعية أو مراقبة حركة المرور الكثيفة، YOLOv7 متفوقة. تسمح ميزة تجميع الميزات القوية بالحفاظ على دقة عالية حتى عندما تكون الكائنات محجوبة جزئيًا أو متفاوتة بشكل كبير في الحجم.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOX و YOLOv7 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOX
YOLOX هو خيار قوي لـ:
- أبحاث الكشف الخالي من المراسي: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة الحافة خفيفة الوزن للغاية: النشر على المتحكمات الدقيقة أو الأجهزة المحمولة القديمة حيث تعتبر البصمة الصغيرة للغاية لمتغير YOLOX-Nano (0.91 مليون معلمة) أمرًا بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: مشاريع بحثية تستكشف استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار YOLOv7
YOLOv7 في الحالات التالية:
- المقارنة المعيارية الأكاديمية: لإعادة إنتاج أحدث النتائج من حقبة 2022 أو دراسة تأثيرات E-ELAN وتقنيات "حقيبة المجانيات" القابلة للتدريب.
- أبحاث إعادة التوسيط (Reparameterization): التحقيق في الالتفافات المعاد توسيطها المخطط لها واستراتيجيات قياس النماذج المركبة.
- مسارات مخصصة موجودة: المشاريع ذات المسارات المخصصة بشكل كبير والمبنية حول بنية YOLOv7 المحددة والتي لا يمكن إعادة هيكلتها بسهولة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
ميزة Ultralytics
على الرغم من أن YOLOX و YOLOv7 تطبيقان بحثيان قويان، إلا أن الانتقال من مستودع بحثي إلى بيئة إنتاج قابلة للتطوير قد يكون أمرًا صعبًا. وهنا تبرز أهمية Ultralytics .
توفر Ultralytics Python موحدة، تعامل تدريب النماذج والتحقق من صحتها ونشرها على أنها مهام مبسطة وموحدة. يمكنك تجنب عناء إدارة التبعيات المعقدة للجهات الخارجية أو مشغلي C++ المخصصين الشائعين في البنى القديمة.
علاوة على ذلك، تتطلبYOLO Ultralytics YOLO CUDA أقل بكثير أثناء التدريب مقارنة بأجهزة الكشف القائمة على المحولات مثل RT-DETR. وهذا يتيح للممارسين استخدام أحجام دفعات أكبر، مما يؤدي إلى استقرار التدريب وتسريع التقارب على مجموعات البيانات المخصصة.
التكاملات المدعومة
تدعم Ultralytics تصدير النماذج إلى تنسيقات قياسية في الصناعة مثل ONNXو OpenVINOو CoreML مع علامة منطقية بسيطة، مما يبسط عملية نشر النموذج بشكل كبير.
مثال على الكود: التدريب باستخدام Ultralytics
يتيح لك Ultralytics تحميل وتدريب وتشغيل الاستدلال بسهولة باستخدام YOLOv7 بنى أحدث باستخدام بضع أسطر من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on a custom dataset (e.g., COCO8)
# The API handles data loading, augmentation, and memory management automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
predictions = model("path/to/image.jpg")
predictions[0].show()
المستقبل: Ultralytics
في حين يمثل YOLOv7 YOLOX خطوات تاريخية مهمة، إلا أن أحدث التقنيات تتطور بسرعة. تم إصدار Ultralytics في يناير 2026، وهو يقدم نماذج مبتكرة تحل محل النماذج السابقة.
- تصميم شامل بدون NMS: يلغي YOLO26 بطبيعته المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وهذا يقلل بشكل كبير من اختناقات زمن الاستجابة ويضمن أوقات تنفيذ محددة عبر إعدادات الأجهزة المتنوعة.
- سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%: عن طريق إزالة Distribution Focal Loss (DFL) وتحسين عمق الشبكة، تم تصميم YOLO26 بشكل كبير للأجهزة الطرفية التي تفتقر إلى أجهزة GPU مخصصة.
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغات الكبيرة (LLM) المتقدمة، يقدم مُحسِّن MuSGD (وهو هجين من SGD و Muon) استقرارًا استثنائيًا للتدريب وتقاربًا أسرع.
- تحسين اكتشاف الأجسام الصغيرة: يتيح دمج دالتي الخسارة ProgLoss + STAL تحسينات كبيرة في التعرف على الأجسام الصغيرة والبعيدة، وهو أمر بالغ الأهمية لخرائط الطائرات بدون طيار والمراقبة الأمنية.
- دعم المهام الأصلي: يدعم YOLO26 بشكل شامل صناديق الإحاطة الموجهة (obb)، وتجزئة الكائنات، وتقدير الوضعيات بشكل أصلي ضمن نفس واجهة برمجة التطبيقات المبسّطة.
بالنسبة لأي مطور حديث يبدأ اليوم مشروعًا جديدًا في مجال الرؤية الحاسوبية، فإن تقييم Ultralytics على المنصة هو الطريق الموصى به لتحقيق أفضل توازن مطلق بين السرعة والدقة وسهولة النشر. بالنسبة لأولئك الذين يقومون بالترقية من الأجيال السابقة مثل YOLO11 أو YOLOv8، يتطلب الانتقال تغيير سلسلة النموذج فقط، مما يتيح على الفور إمكانيات فائقة.