تخطي إلى المحتوى

YOLOX ضد YOLOv7: مقارنة فنية مفصلة

يتطلب التنقل في مشهد نماذج الكشف عن الكائنات فهمًا عميقًا للفروق المعمارية والمفاضلات في الأداء. يقدم هذا الدليل مقارنة فنية شاملة بين YOLOX و YOLOv7، وهما بنيتان مؤثرتان شكلتا مجال رؤية الكمبيوتر بشكل كبير. نستكشف الابتكارات الهيكلية ومعايير القياس والتطبيقات العملية لمساعدتك في تحديد الأنسب لمشاريعك. في حين أن كلا النموذجين يمثلان أحدث التطورات في وقت إطلاقهما، غالبًا ما يتطلع المطورون المعاصرون إلى النظام البيئي Ultralytics للحصول على سير عمل موحد وأداء متطور.

مقارنة أداء مباشرة

عند اختيار نموذج، غالبًا ما يكون التوازن بين متوسط الدقة (mAP) وزمن انتقال الاستدلال هو العامل الحاسم. يقدم YOLOX مجموعة قابلة للتطوير بدرجة كبيرة من النماذج تتراوح من Nano إلى X، مع التركيز على البساطة من خلال تصميمه الخالي من المرساة. وعلى العكس من ذلك، يركز YOLOv7 على زيادة التوازن بين السرعة والدقة إلى أقصى حد للتطبيقات في الوقت الفعلي باستخدام التحسينات المعمارية المتقدمة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

توضح البيانات نقاط قوة متميزة. YOLOXnano خفيف الوزن بشكل لا يصدق، مما يجعله مثاليًا للبيئات ذات الموارد المحدودة للغاية. ومع ذلك، بالنسبة للسيناريوهات عالية الأداء، يُظهر YOLOv7x دقة وكفاءة فائقتين (53.1% mAP)، مما يوفر دقة أعلى من YOLOXx مع عدد أقل بكثير من عمليات النقطة العائمة (FLOPs) وأوقات استدلال أسرع على وحدات معالجة الرسومات T4.

YOLOX: البساطة من خلال تصميم خالٍ من الـ Anchor

مثلت YOLOX نقلة نوعية في سلسلة YOLO من خلال التخلي عن الآلية القائمة على المرساة لصالح نهج خالٍ من المرساة. يبسط خيار التصميم هذا عملية التدريب ويزيل الحاجة إلى الضبط اليدوي لمربعات المرساة، الأمر الذي يتطلب غالبًا تحسينًا تجريبيًا خاصًا بالمجال.

الهندسة المعمارية والابتكارات الرئيسية

يدمج YOLOX هيكل رأس مفصول، يفصل مهام التصنيف والانحدار. يسمح هذا الفصل للنموذج بتعلم ميزات مميزة للتعرف على ماهية الكائن مقابل مكان وجوده، مما يؤدي إلى تقارب أسرع ودقة أفضل. بالإضافة إلى ذلك، يستخدم YOLOX SimOTA، وهي إستراتيجية متقدمة لتعيين التسميات تقوم بمطابقة العينات الموجبة ديناميكيًا مع كائنات ground truth، مما يحسن قوة النموذج في المشاهد المزدحمة.

خالي من المرساة مقابل المرتكز على المرساة

استخدمت نماذج YOLO التقليدية (قبل YOLOX) "مربعات ارتكاز" محددة مسبقًا للتنبؤ بأبعاد الكائن. تتنبأ طريقة الخالية من الارتكاز الخاصة بـ YOLOX بمربعات الإحاطة مباشرةً من مواقع البكسل، مما يقلل من عدد المعلمات الفائقة ويجعل النموذج أكثر قابلية للتعميم على مجموعات البيانات المتنوعة.

حالات الاستخدام والقيود

يتفوق YOLOX في السيناريوهات التي تحتاج فيها عملية نشر النموذج إلى تبسيط عبر العديد من منصات الأجهزة دون ضبط مفرط للمعلمات الفائقة. تعتبر متغيراته خفيفة الوزن (Nano/Tiny) شائعة لتطبيقات الأجهزة المحمولة. ومع ذلك، فقد تم تجاوز ذروة أدائه على نطاقات أوسع من خلال بنيات أحدث مثل YOLOv7 و YOLO11، والتي تستخدم شبكات تجميع ميزات أكثر تعقيدًا.

تعرف على المزيد حول YOLOX

YOLOv7: قوة "حقيبة التحسينات المجانية"

تم إصدار YOLOv7 بعد عام من YOLOX، وقدم مجموعة من الإصلاحات المعمارية التي تهدف إلى تحسين عملية التدريب لتعزيز نتائج الاستدلال فقط من خلال "حقيبة الهدايا المجانية القابلة للتدريب".

الهندسة المعمارية والابتكارات الرئيسية

يكمن جوهر YOLOv7 في شبكة تجميع الطبقات الفعالة الممتدة (E-ELAN). تسمح هذه البنية للشبكة بتعلم المزيد من الميزات المتنوعة من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن التقارب الفعال للشبكات العميقة جدًا. علاوة على ذلك، تستخدم YOLOv7 تقنيات توسيع نطاق النموذج المصممة خصيصًا للنماذج القائمة على التسلسل، مما يضمن أن زيادة عمق النموذج وعرضه يترجم خطيًا إلى مكاسب في الأداء دون تناقص العوائد.

تستخدم YOLOv7 أيضًا بشكل فعال رؤوسًا مساعدة أثناء التدريب لتوفير إشراف من خشن إلى دقيق، وهي تقنية تعمل على تحسين دقة رأس الاكتشاف الرئيسي دون إضافة تكلفة حسابية أثناء النشر.

حالات الاستخدام والقيود

بفضل نسبة السرعة إلى الدقة الاستثنائية، يعتبر YOLOv7 منافسًا قويًا لتحليلات الفيديو في الوقت الفعلي ومهام الحوسبة الطرفية حيث يهم كل جزء من الثانية. لقد دفعت حدود ما كان ممكنًا على أجهزة GPU القياسية (مثل V100 و T4). ومع ذلك، فإن تعقيد بنيتها يمكن أن يجعل تعديلها أو ضبطها الدقيق لمهام مخصصة خارج نطاق الكشف عن الكائنات القياسي أمرًا صعبًا.

تعرف على المزيد حول YOLOv7

ميزة Ultralytics: لماذا التحديث؟

في حين أن YOLOX و YOLOv7 لا يزالان أدوات قادرة، إلا أن مجال رؤية الكمبيوتر يتحرك بسرعة. يفضل المطورون والباحثون العصريون بشكل متزايد النظام البيئي Ultralytics مع نماذج مثل YOLO11 و YOLOv8 نظرًا لدعمهم الشامل وتصميمهم الموحد وسهولة استخدامهم.

تجربة مطور مبسطة

تتمثل إحدى أكبر العقبات التي تواجه النماذج القديمة في تجزئة قواعد التعليمات البرمجية. تحل Ultralytics هذه المشكلة من خلال توفير Python API و CLI موحد يعمل باستمرار عبر جميع إصدارات النماذج. يمكنك التبديل بين الاكتشاف أو التقسيم أو التصنيف بسطر واحد من التعليمات البرمجية.

from ultralytics import YOLO

# Load a model (YOLO11 or YOLOv8)
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

المزايا الرئيسية لنماذج Ultralytics

  • تعدد الاستخدامات: على عكس YOLOX و YOLOv7، اللذين يركزان بشكل أساسي على الاكتشاف، تدعم نماذج Ultralytics كلاً من instance segmentation و pose estimation و classification و oriented object detection (OBB) خارج الصندوق.
  • نظام بيئي مُدار بشكل جيد: تضمن التحديثات المتكررة التوافق مع أحدث إصدارات PyTorch و CUDA و Python. يقلل المجتمع النشط و الوثائق التفصيلية من الوقت المستغرق في تصحيح مشكلات البيئة.
  • موازنة الأداء: تمثل نماذج مثل YOLO11 أحدث ما توصلت إليه التكنولوجيا، حيث تقدم دقة فائقة ووقت استجابة أقل من YOLOX و YOLOv7. وهي مُحسَّنة للاستدلال في الوقت الفعلي على أجهزة متنوعة، من الأجهزة الطرفية إلى الخوادم السحابية.
  • كفاءة التدريب: تم تصميم نماذج Ultralytics للتقارب بشكل أسرع، مما يوفر ساعات GPU قيمة. الأوزان المدربة مسبقًا متاحة بسهولة لمجموعة متنوعة من المهام، مما يجعل التعلم بالنقل أمرًا مباشرًا.
  • متطلبات الذاكرة: تم تصميم هذه النماذج لتحقيق الكفاءة، وعادةً ما تتطلب VRAM أقل أثناء التدريب والاستدلال مقارنةً بالبدائل القائمة على المحولات (مثل RT-DETR)، مما يجعلها في متناول الأجهزة الاستهلاكية.

تعرف على المزيد حول YOLO11

الخلاصة

اكتسب كل من YOLOX و YOLOv7 مكانتهما في تاريخ رؤية الكمبيوتر. لقد أضفى YOLOX طابعًا ديمقراطيًا على نهج عدم وجود anchor، مما يوفر مسارًا مبسطًا يسهل فهمه ونشره على الأجهزة الصغيرة. دفع YOLOv7 حدود الأداء، مما يثبت أن التصميم المعماري الفعال يمكن أن يحقق مكاسب هائلة في السرعة والدقة.

ومع ذلك، بالنسبة لأولئك الذين يقومون ببناء أنظمة الذكاء الاصطناعي ذات درجة الإنتاج اليوم، فإن التوصية تميل بشدة نحو عائلة Ultralytics YOLO. مع YOLO11، يمكنك الوصول إلى نظام أساسي متعدد الاستخدامات وقوي وسهل الاستخدام يتعامل مع تعقيدات MLOps، مما يسمح لك بالتركيز على حل المشكلات الواقعية.

استكشف مقارنات أخرى

لتعزيز عملية اختيار النموذج الخاص بك، ضع في اعتبارك استكشاف هذه المقارنات ذات الصلة:


تعليقات