YOLOv7 مقابل YOLOX: مقارنة تقنية مفصلة
في المشهد سريع التطور في مجال الرؤية الحاسوبية، وضعت عائلة نماذج YOLO (أنت تنظر مرة واحدة فقط) باستمرار معيارًا لاكتشاف الأجسام في الوقت الفعلي. هناك إنجازان مهمان في هذا التاريخ هما YOLOv7 و YOLOX. في حين يهدف كلا النموذجين إلى تحقيق التوازن بين السرعة والدقة، إلا أنهما يختلفان بشكل كبير في فلسفتهما المعمارية - خاصةً فيما يتعلق بالمنهجيات القائمة على المرساة مقابل المنهجيات الخالية من المرساة.
يقدم هذا الدليل مقارنة تقنية متعمقة لمساعدة الباحثين والمهندسين على اختيار الأداة المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم. سنقوم بتحليل بنيتها، وقياس أدائها، واستكشاف سبب استخدام البدائل الحديثة مثل Ultralytics YOLO11 غالبًا ما توفر تجربة أفضل للمطورين.
مقاييس الأداء: السرعة والدقة
عند تقييم أجهزة الكشف عن الكائنات، تُعد المفاضلة بين زمن الاستنتاج ومتوسط الدقةmAP أمرًا بالغ الأهمية. يعرض الجدول أدناه مقارنة مباشرة بين متغيري YOLOv7 و YOLOv7 على مجموعة بياناتCOCO .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
تحليل النتائج
تسلط البيانات الضوء على المزايا المميزة لكل عائلة من الطرازات حسب قيود النشر. YOLOv7 كفاءة استثنائية في فئة الأداء العالي. على سبيل المثال، يحقق YOLOv7l كفاءة mAP بنسبة 51.4% مع 36.9 مليون معلمة فقط، متفوقًا بذلك على YOLOv7x (51.1% من الكفاءة mAP و99.1 مليون معلمة) مع استخدام موارد حاسوبية أقل بكثير. وهذا يجعل من YOLOv7 مرشحًا قويًا للسيناريوهات التي تكون فيها كفاءةGPU مهمة ولكن الذاكرة مقيدة.
وعلى العكس من ذلك، تتألق YOLOX في فئة الوزن الخفيف. يوفر نموذج YOLOX-Nano (0.91 مليون معلمة) حلاً قابلاً للتطبيق للأجهزة ذات الحافة منخفضة الطاقة للغاية حيث قد تكون أصغر نماذج YOLO القياسية ثقيلة للغاية. وتسمح مضاعفات العمق والعرض القابلة للتطوير بضبط دقيق عبر مجموعة واسعة من ملفات تعريف الأجهزة.
YOLOv7: حقيبة الهدايا المجانية المحسنة
تم إصدار YOLOv7 في يوليو 2022، وقد قدم YOLOv7 العديد من الابتكارات المعمارية المصممة لتحسين عملية التدريب دون تكبد تكاليف الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- ورقة بحثيةرابط Arxiv
- جيثب:مستودعYOLOv7
الملامح المعمارية البارزة
يركّز YOLOv7 على أساليب تحسين "حقيبة من الروابط المجانية القابلة للتدريب" التي تحسّن الدقة أثناء التدريب ولكن يتم إزالتها أو دمجها أثناء الاستدلال. تشمل الميزات الرئيسية ما يلي:
- E-ELAN (شبكة تجميع الطبقات الموسعة ذات الكفاءة الموسعة): هيكل أساسي محسّن يعزز قدرة النموذج على تعلم ميزات متنوعة من خلال التحكم في أقصر وأطول مسارات التدرج.
- تحجيم النموذج: بدلاً من مجرد تحجيم العمق أو العرض، يستخدم YOLOv7 طريقة تحجيم مركبة للنماذج القائمة على التسلسل، مما يحافظ على البنية المثلى أثناء الترقية.
- رأس مساعد خشن إلى دقيق: يتم استخدام رأس خسارة مساعد أثناء التدريب للمساعدة في الإشراف، ثم يتم إعادة ضبطه في الرأس الرئيسي للاستدلال.
إعادة التحديد
يستخدم YOLOv7 عملية إعادة المعلمة المخطط لها، حيث يتم دمج وحدات التدريب المتميزة رياضيًا في طبقة تلافيفية واحدة للاستدلال. يقلل هذا من زمن الاستدلال بشكل كبير دون التضحية بقدرة تعلم الميزات المكتسبة أثناء التدريب.
يولوكس: التطور الخالي من المرساة
مثّل YOLOX، الذي صدر في عام 2021، تحولاً في نموذج YOLO من خلال الابتعاد عن مربعات الارتكاز نحو آلية خالية من الارتكاز، على غرار مناهج التجزئة الدلالية.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 2021-07-18
- ورقة بحثيةرابط Arxiv
- جيثب:مستودع YOLOX
الملامح المعمارية البارزة
قام YOLOX بتبسيط خط أنابيب الكشف عن طريق إزالة الحاجة إلى ضبط صندوق الارتكاز يدويًا، والتي كانت نقطة ألم شائعة في الإصدارات السابقة مثل YOLOv4 و YOLOv5.
- آلية خالية من المراسي: من خلال التنبؤ بمركز الكائنات مباشرةً، يستبعد YOLOX المعلمات الفائقة المعقدة المرتبطة بالمرتكزات، مما يحسن التعميم على مجموعات البيانات المتنوعة.
- الرأس المنفصل: على عكس إصدارات YOLO السابقة التي كانت تجمع بين التصنيف والتوطين في رأس واحد، يفصل YOLOX بينهما. يؤدي ذلك إلى تقارب أسرع ودقة أفضل.
- SimOTA: استراتيجية متقدمة لتعيين التسميات تقوم بتعيين عينات إيجابية ديناميكيًا إلى الحقيقة الأساسية بأقل تكلفة، وتوازن بين خسائر التصنيف والانحدار بفعالية.
لماذا تعتبر نماذج Ultralytics هي الخيار المفضل
في حين أن YOLOv7 و YOLOX يختلفان في البنية، إلا أن كلاهما يتفوقان في سهولة الاستخدام ودعم النظام الإيكولوجي من خلال نماذجUltralytics YOLO الحديثة. بالنسبة للمطورين الذين يبحثون عن حل قوي ومستقبلي، فإن الانتقال إلى YOLO11 يوفر مزايا متميزة.
1. النظام البيئي الموحد وسهولة الاستخدام
غالبًا ما يتطلب YOLOv7 و YOLOX استنساخ مستودعات GitHub محددة، وإدارة متطلبات التبعية المعقدة، واستخدام تنسيقات متباينة للبيانات. في المقابل، تقدم Ultralytics حزمة قابلة للتثبيت عبر الأنابيب لتوحيد جميع المهام.
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
2. توازن الأداء الفائق
كما هو موضح في المعايير، تحقق نماذج Ultralytics الحديثة مفاضلة أفضل بين السرعة والدقة. YOLO11 يستخدم بنية محسّنة خالية من المراسي تتعلم من التطورات في كلٍ من YOLOX (تصميم خالٍ من المراسي) و YOLOv7 (تحسين مسار التدرج). وينتج عن ذلك نماذج لا تكون أسرع في الاستدلالCPU فحسب، بل تتطلب أيضًا ذاكرة CUDA أقل أثناء التدريب، مما يجعلها متاحة على نطاق أوسع من الأجهزة.
3. تعدد الاستخدامات عبر المهام
تم تصميم YOLOv7 و YOLOX بشكل أساسي لاكتشاف الأجسام. تعمل نماذج Ultralytics على توسيع هذه الإمكانية أصلاً لتشمل مجموعة من مهام الرؤية الحاسوبية دون تغيير واجهة برمجة التطبيقات:
- تجزئة المثيل: فهم الكائن على مستوى البكسل.
- تقدير الوضعية: اكتشاف النقاط الرئيسية على الأجسام البشرية.
- الكشف عن الأجسام الموجهة (OBB): الكشف عن الأجسام المدوّرة (مثل الصور الجوية).
- التصنيف: تعيين تسمية فئة لصورة كاملة.
4. النشر السلس وعمليات التشغيل الآلي المتكاملة
يمثل نقل نموذج من البحث إلى الإنتاج تحديًا مع الأطر القديمة. يتضمن نظام Ultralytics البيئي أوضاع تصدير مدمجة ل ONNX TensorRT CoreML OpenVINO مما يبسط نشر النموذج. علاوةً على ذلك، تسمح عمليات التكامل مع Ultralytics HUB بإدارة مجموعة البيانات المستندة إلى الويب، والتدريب عن بُعد، والنشر بنقرة واحدة على الأجهزة المتطورة.
الخلاصة
قدم كل من YOLOv7 و YOLOX مساهمات كبيرة في مجال الرؤية الحاسوبية. YOLOv7 بتحسين البنية لتحقيق أعلى أداء على أجهزة GPU مما أدى إلى زيادة كفاءة نهج "حقيبة الأجسام الحرة". أثبت YOLOX بنجاح جدوى الكشف الخالي من الارتكاز، مما أدى إلى تبسيط خط الأنابيب وتحسين التعميم.
ومع ذلك، بالنسبة لسير عمل التطوير الحديث, Ultralytics YOLO11 هو الخيار الأفضل. فهو يجمع بين نقاط القوة المعمارية لسابقاته مع واجهة برمجة تطبيقاتPython التي لا مثيل لها، ومتطلبات ذاكرة أقل، ودعم مجموعة شاملة من مهام الرؤية. وسواء أكنت تقوم بالنشر على جهاز متطور أو خادم سحابي، فإن المجتمع النشط والتوثيق الشامل لنظام Ultralytics البيئي يضمنان مسارًا أكثر سلاسة للإنتاج.
استكشف نماذج أخرى
إذا كنت مهتمًا بمزيد من المقارنات التقنية، استكشف هذه المصادر:
- YOLOv7 مقابل YOLOv8: نظرة على قفزة الأجيال في الأداء.
- RT-DETR مقابل YOLOv7: مقارنة المحولات مع CNNs.
- YOLO11 مقابل YOLOv10: أحدث التطورات في الكشف في الوقت الحقيقي.