YOLOv6-3.0 مقابل YOLOv7: استعراض معماريات اكتشاف الكائنات في الوقت الفعلي

تميز تطور رؤية الحاسوب في الوقت الفعلي بتقدم سريع في كفاءة المعمارية ومنهجيات التدريب. هناك نموذجان بارزان أثرا بشكل كبير على هذا المجال هما YOLOv6-3.0 و YOLOv7. قدم كلا الإطارين تقنيات جديدة لموازنة سرعة الاستدلال مع دقة الاكتشاف، مستهدفين عمليات النشر التي تتراوح من وحدات معالجة الرسومات (GPU) عالية الأداء في الخوادم إلى أجهزة الحافة.

تستكشف هذه المقارنة التقنية الشاملة معماريات هذه النماذج ومقاييس أدائها وحالات استخدامها المثالية، مع تسليط الضوء أيضاً على كيفية بناء Ultralytics Platform الحديث ونموذج YOLO26 الأحدث على هذه المفاهيم الأساسية لتقديم تجارب مطورين لا تضاهى.

YOLOv6-3.0: تحسين الإنتاجية الصناعية

تم تطوير YOLOv6-3.0 بواسطة قسم رؤية الذكاء الاصطناعي في Meituan، وقد تم تصميمه خصيصاً للتطبيقات الصناعية ذات الإنتاجية العالية. ويركز النموذج بشكل كبير على تعظيم الأداء على مسرعات الأجهزة، مما يجعله مرشحاً قوياً للبيئات التي تكون فيها معالجة الدفعات (batch processing) على وحدات GPU مخصصة أمراً فعالاً.

  • المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
  • المنظمة: Meituan
  • التاريخ: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

الابتكارات المعمارية

يعتمد YOLOv6-3.0 على العمود الفقري EfficientRep، وهي معمارية صديقة للأجهزة مصممة لتحسين تكاليف الوصول إلى الذاكرة على وحدات GPU. ولتعزيز دمج الميزات عبر مقاييس مختلفة، يقدم النموذج وحدة Bi-directional Concatenation (BiC) في منطقة الرقبة (neck) الخاصة به. وهذا يسمح للشبكة بالتقاط التسلسلات الهرمية المكانية المعقدة بشكل أكثر فعالية من التكرارات السابقة.

علاوة على ذلك، يطبق YOLOv6-3.0 استراتيجية Anchor-Aided Training (AAT). يجمع هذا النهج بين إشارات التدرج الغنية للتدريب القائم على المراسي (anchor-based) وبين فوائد النشر المبسطة للاستدلال الخالي من المراسي (anchor-free)، مما يساعد النموذج على التقارب بشكل أكثر استقراراً دون التضحية بسرعة المعالجة اللاحقة.

اعرف المزيد عن YOLOv6

اعتبارات الأجهزة

بينما يتفوق YOLOv6-3.0 على وحدات GPU من فئة الخوادم (مثل NVIDIA T4)، فإن اعتماده الكبير على إعادة المعاملة الهيكلية المحددة يمكن أن يؤدي أحياناً إلى زمن وصول دون المستوى الأمثل على أجهزة الحافة التي تعتمد كلياً على CPU مقارنة بالمعماريات الأحدث.

YOLOv7: رائد "مجموعة الهدايا" (Bag-of-Freebies)

أصدر باحثون في Academia Sinica نموذج YOLOv7، واتخذوا نهجاً مختلفاً من خلال التركيز بشكل كبير على تحليل مسار التدرج وتحسينات وقت التدريب التي لا تزيد من تكلفة الاستدلال—وهو مفهوم يشير إليه المؤلفون بـ "حقيبة مجانية قابلة للتدريب" (trainable bag-of-freebies).

  • المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
  • المنظمة: معهد علوم المعلومات، Academia Sinica، تايوان
  • التاريخ: 2022-07-06
  • Arxiv: 2207.02696
  • GitHub: WongKinYiu/yolov7

الابتكارات المعمارية

جوهر YOLOv7 هو شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). تعمل E-ELAN على تحسين مسار التدرج من خلال السماح للطبقات المختلفة بتعلم ميزات أكثر تنوعاً دون تعطيل هيكل الشبكة الأصلي. وينتج عن ذلك نموذج شديد التعبير قادر على تحقيق أفضل متوسط دقة (mAP) في فئته.

يستخدم YOLOv7 أيضاً بشكل مكثف إعادة معالمة النموذج، حيث يدمج طبقات الالتفاف (convolutional layers) مع تسوية الدفعات (batch normalization) أثناء الاستدلال. وهذا يقلل من عدد المعلمات ويسرع التمرير الأمامي عند النشر باستخدام أطر عمل مثل NVIDIA TensorRT أو ONNX.

اعرف المزيد عن YOLOv7

مقارنة الأداء

عند تقييم هذه النماذج على مجموعة بيانات MS COCO، نلاحظ مقايضة واضحة بين متغيرات YOLOv6 خفيفة الوزن للغاية ومعماريات YOLOv7 المليئة بالمعلمات والمركزة على الدقة.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

تكشف البيانات أن YOLOv6-3.0n يوفر سرعة استدلال استثنائية، مما يجعله مناسباً لتحليلات الفيديو عالية التردد. وعلى العكس من ذلك، يحقق YOLOv7x أعلى mAP، مسيطراً على المهام التي تكون فيها دقة الاكتشاف أهم من معدلات الإطارات الخام.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv6 و YOLOv7 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv6

يعتبر YOLOv6 خياراً قوياً لـ:

  • النشر المدرك للأجهزة الصناعية: السيناريوهات التي يوفر فيها التصميم المدرك للأجهزة وإعادة المعلمات الفعالة للنموذج أداءً محسناً على أجهزة مستهدفة محددة.
  • الاكتشاف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستنتاج الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
  • تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن كومة تقنيات Meituan وبنية النشر التحتية الخاصة بها.

متى تختار YOLOv7

يوصى بـ YOLOv7 في الحالات التالية:

  • قياس الأداء الأكاديمي: إعادة إنتاج نتائج متطورة من حقبة 2022 أو دراسة تأثيرات تقنيات E-ELAN والحقيبة القابلة للتدريب من الميزات المجانية.
  • أبحاث إعادة المعاملة: التحقيق في الالتفافات المخطط لها والمُعاد معاملتها واستراتيجيات تحجيم النماذج المركبة.
  • خطوط الأنابيب المخصصة الحالية: المشاريع ذات خطوط الأنابيب المخصصة بشكل كبير والمبنية حول معمارية YOLOv7 المحددة والتي لا يمكن إعادة هيكلتها بسهولة.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics: خطوة نحو المستقبل

على الرغم من أن YOLOv6-3.0 و YOLOv7 يمثلان معالم بارزة، إلا أن دمج المستودعات المتباينة في خطوط إنتاج العمليات غالباً ما يطرح تحديات في نشر النماذج وضبط المعلمات الفائقة. يحل نظام Ultralytics البيئي نقاط الألم هذه من خلال تقديم واجهة موحدة ومبسطة.

لماذا تختار Ultralytics؟

  • سهولة الاستخدام: تسمح واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics للمطورين بتحميل وتدريب وتصدير النماذج ببضعة أسطر من الكود فقط. يتطلب التبديل من نموذج قديم إلى أحدث معمارية تغيير سلسلة نصية واحدة فقط.
  • نظام بيئي مُصان جيداً: توفر Ultralytics تحديثات متكررة ودعم مجتمعي نشط ووثائق قوية.
  • تعدد الاستخدامات: على عكس النماذج السابقة التي ركزت بشكل أساسي على مربعات الإحاطة، تدعم نماذج Ultralytics بشكل أصلي التعلم متعدد المهام، بما في ذلك تجزئة المثيل، وتقدير الوضع، ومربعات الإحاطة الموجهة (OBB).
  • متطلبات الذاكرة: تحافظ نماذج YOLO من Ultralytics على استخدام أقل للذاكرة أثناء التدريب مقارنة بالمعماريات القائمة على Transformer مثل RT-DETR، مما يسمح للباحثين بالتدريب بفعالية على أجهزة المستهلك العادية.

الترقية إلى YOLO26

بالنسبة للمطورين الباحثين عن قمة الأداء، يُحدث YOLO26 (الذي تم إصداره في يناير 2026) تغييراً جذرياً في نموذج اكتشاف الكائنات. فهو يقدم تصميماً شاملاً خالياً من NMS، مما يلغي منطق المعالجة اللاحقة المعقد ويقلل بشكل كبير من تباين زمن الوصول على أجهزة الحافة.

تشمل الابتكارات الرئيسية في YOLO26 ما يلي:

  • مُحسّن MuSGD: مزيج متطور من SGD و Muon يضمن ديناميكيات تدريب مستقرة للغاية وتقارباً أسرع.
  • إزالة DFL: من خلال التخلص من Distribution Focal Loss، يبسط YOLO26 توافق التصدير ويعزز الأداء على الأجهزة منخفضة الطاقة.
  • ProgLoss + STAL: وظائف خسارة متقدمة تحقق تحسينات ملحوظة في التعرف على الكائنات الصغيرة.
  • سرعة لا تضاهى: تحقق استدلالاً على CPU أسرع بنسبة تصل إلى 43% مقارنة بالأجيال السابقة، مما يجعلها مثالية للأنظمة المضمنة مثل Raspberry Pi أو عمليات النشر على Apple CoreML.

تشمل النماذج الأخرى ذات القدرات العالية داخل النظام البيئي YOLO11 و YOLOv8، وكلاهما يوفر توازناً ممتازاً في الأداء لعمليات دمج الأجهزة القديمة.

اجعل خط أنابيبك جاهزاً للمستقبل

من خلال بناء تطبيقات رؤية الحاسوب الخاصة بك على Ultralytics Platform، فإنك تضمن الوصول الفوري إلى نماذج المستقبل المتطورة دون الحاجة إلى إعادة كتابة أدوات تحميل مجموعات البيانات أو نصوص النشر البرمجية.

مثال برمجي: تدريب مبسط

يوضح المقتطف التالي مدى سهولة تدريب نموذج YOLO26 متطور باستخدام واجهة برمجة تطبيقات Ultralytics. ينطبق سير العمل الدقيق هذا بسلاسة على YOLO11 أو YOLOv8، مما يغنيك عن الكود المكرر (boilerplate code) الذي تتطلبه المستودعات القديمة عادةً.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model for rapid training
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The API handles dataset downloading, augmentation, and hyperparameter configuration
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cuda:0",  # Automatically utilizes PyTorch GPU acceleration
)

# Run an end-to-end, NMS-free inference on a test image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for cross-platform deployment
model.export(format="onnx")

خاتمة

تعامل YOLOv6-3.0 و YOLOv7 بنجاح مع جوانب مختلفة من تحدي الاكتشاف في الوقت الفعلي. YOLOv6-3.0 هو قوة دافعة لبيئات GPU الصناعية المتخصصة، بينما يوفر YOLOv7 دقة عالية من خلال تحسين مسار التدرج الصارم.

ومع ذلك، بالنسبة للتطبيقات الحديثة التي تتطلب تنوعاً لا يضاهى، وقلة احتكاك النشر، وأداءً متطوراً، يبرز Ultralytics YOLO26 كخيار نهائي. إن معماريته الخالية من NMS، ومُحسّن MuSGD المتقدم، والتكامل العميق مع Ultralytics Platform تضمن للمطورين نشر حلول رؤية ذكاء اصطناعي قوية وقابلة للتوسع أسرع من أي وقت مضى.

تعليقات