YOLOv7 YOLOv6.0: مقارنة تقنية شاملة
يتطور مجال الرؤية الحاسوبية باستمرار، حيث تعمل نماذج الكشف عن الأجسام الجديدة على توسيع حدود السرعة والدقة باستمرار. يعد YOLOv7 YOLOv6. YOLOv6 من المعالم الهامة في هذه الرحلة. قدم كلا النموذجين ابتكارات معمارية فريدة مصممة لزيادة الإنتاجية والدقة إلى أقصى حد في التطبيقات الواقعية. توفر هذه الصفحة تحليلاً تقنياً متعمقاً لكلتا البنيتين، ومقارنة بين أدائهما ومنهجيات التدريب وحالات الاستخدام المثالية لمساعدتك في اتخاذ قرار مستنير بشأن مشروع الذكاء الاصطناعي التالي.
YOLOv7: رائد حقيبة الهدايا المجانية
صدر YOLOv7 في منتصف عام 2022، YOLOv7 عدة استراتيجيات مبتكرة لتحسين بنية الشبكة دون زيادة تكلفة الاستدلال. وركز بشكل كبير على "حقيبة الهدايا" القابلة للتدريب لتحسين الدقة مع الحفاظ على الأداء في الوقت الفعلي.
- المؤلفون: تشين-ياو وانغ، أليكسي بوتشكوفسكي، وهونغ-يوان مارك لياو
- المنظمة: معهد علوم المعلومات، أكاديمية سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv: 2207.02696
- GitHub: WongKinYiu/yolov7
- المستندات: YOLOv7 Ultralytics YOLOv7
أبرز ملامح الهيكلة
YOLOv7 بشبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). تسمح هذه البنية للنموذج بتعلم ميزات أكثر تنوعًا من خلال التحكم في أقصر مسار التدرج الأطول. علاوة على ذلك، YOLOv7 تقنيات إعادة تحديد المعلمات الهيكلية أثناء الاستدلال لدمج طبقات التلافيف، مما يقلل بشكل فعال من عدد المعلمات ووقت الحساب دون التضحية بالتمثيلات المكتسبة.
يتميز النموذج أيضًا باستراتيجية تدريب رأس مساعدة فريدة من نوعها. باستخدام "رأس رئيسي" للتنبؤات النهائية و"رأس مساعدة" لتوجيه التدريب في الطبقات الوسطى، YOLOv7 تقاربًا أفضل واستخراجًا أكثر ثراءً للميزات، وهو أمر مفيد بشكل خاص عند التعامل مع مهام الكشف عن الكائنات الصعبة.
YOLOv6.0: إنتاجية على مستوى صناعي
تم تطوير YOLOv6. YOLOv6 بواسطة قسم Meituan Vision AI، وقد صُمم بشكل صريح ليكون "كاشف كائنات من الجيل التالي للتطبيقات الصناعية". تم إصداره في أوائل عام 2023، ويركز بشكل كبير على تعظيم الاستفادة من الأجهزة، لا سيما على NVIDIA .
- المؤلفون: تشوي لي، لولو لي، ييفي جينغ، وآخرون.
- المنظمة: Meituan
- التاريخ: 2023-01-13
- Arxiv: 2301.05586
- GitHub: YOLOv6
- المستندات: YOLOv6 Ultralytics YOLOv6
أبرز ملامح الهيكلة
يتبنى YOLOv6 هيكل EfficientRep، وهو هيكل مُحسّن للغاية للمعالجة المتوازية على وحدات معالجة الرسومات (GPU). وهذا يجعله فعالاً للغاية في المعالجة المجمعة على نطاق واسع. وقد أدخلت النسخة 3.0 وحدة تسلسل ثنائي الاتجاه (BiC) في العنق لتعزيز دمج الميزات عبر نطاقات مختلفة، مما يحسن قدرة النموذج على detect ذات أحجام متفاوتة.
بالإضافة إلى ذلك، يستخدم YOLOv6-3.0 استراتيجية تدريب مدعومة بالمرتكزات (AAT). يجمع هذا النهج المبتكر بين فوائد التدريب القائم على المرتكزات والاستدلال الخالي من المرتكزات، مما يسمح للنموذج بالاستفادة من استقرار المرتكزات خلال مرحلة التعلم مع الحفاظ على سرعة وبساطة التصميم الخالي من المرتكزات أثناء النشر.
مقارنة الأداء
عند تقييم نماذج الإنتاج، من الضروري تحقيق التوازن بين الدقة (mAP) وسرعة الاستدلال والتكلفة الحسابية (FLOPs). فيما يلي مقارنة مفصلة بين المتغيرات القياسية لكلا النموذجين.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
اعتبارات متعلقة بالأجهزة
YOLOv6.0 مناسب بشكل استثنائي GPU عالية الإنتاجية (مثل TensorRT)، بينما YOLOv7 توازنًا قويًا للأنظمة التي تعطي أولوية كبيرة للاحتفاظ بالميزات.
ميزة Ultralytics
على الرغم من أن المستودعات المستقلة لـ YOLOv7 YOLOv6.0 قوية، إلا أن الاستفادة منها داخل نظام Ultralytics البيئي يغير تجربة المطورين. ultralytics تقوم Python بتوحيد هذه البنى المتنوعة تحت إطار عمل واحد بديهي.
- سهولة الاستخدام: ولت أيام نصوص الإعداد المعقدة. تتيح لك واجهة برمجة تطبيقات Ultralytics تحميل وتدريب ونشر نماذج YOLOv7 أو YOLOv6 بأقل قدر من التعليمات البرمجية المتكررة. يمكنك التبديل بسهولة بين البنى بمجرد تغيير ملف أوزان النموذج.
- نظام بيئي يتم صيانته جيدًا: توفر Ultralytics بيئة قوية مع تحديثات متكررة، مما يضمن التوافق الأصلي مع أحدث توزيعات PyTorch وإصدارات CUDA.
- كفاءة التدريب: تم تحسين مسارات التدريب بشكل عميق لاستخدام موارد GPU بفعالية. علاوة على ذلك، تتطلب نماذج Ultralytics YOLO عمومًا ذاكرة أقل أثناء التدريب مقارنة بالنماذج الثقيلة القائمة على المحولات (مثل RT-DETR)، مما يتيح أحجام دفعات أكبر على الأجهزة الاستهلاكية.
- تعدد الاستخدامات: بالإضافة إلى الكشف القياسي عن الصناديق المحيطة، يدعم إطار عمل Ultralytics بسلاسة المهام المتقدمة مثل تقدير الوضعيات وتجزئة الكائنات عبر عائلات النماذج المتوافقة، وهي ميزة غالبًا ما تفتقر إليها مستودعات البحث المعزولة.
مثال على الكود: التدريب والاستدلال
دمج هذه النماذج في Python الخاص بك أمر بسيط. تأكد من أن مجموعة البيانات الخاصة بك منسقة بشكل صحيح (على سبيل المثال، معيار COCO) وقم بتشغيل ما يلي:
from ultralytics import YOLO
# Load a pretrained YOLOv7 model (or 'yolov6n.pt' for YOLOv6)
model = YOLO("yolov7.pt")
# Train the model with built-in hyperparameter management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image URL or local path
predictions = model("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
predictions[0].show()
حالات الاستخدام المثالية
متى تختار YOLOv7
YOLOv7 في السيناريوهات التي تتطلب دقة عالية واستخراج ميزات كثيفة.
- المراقبة المعقدة: قدرتها على الاحتفاظ بالتفاصيل الدقيقة تجعلها مناسبة لمراقبة المشاهد المزدحمة أو detect الشذوذات الصغيرة في البنية التحتية للمدن الذكية.
- المقارنة المعيارية الأكاديمية: غالبًا ما يُستخدم كخط أساس قوي في الأبحاث نظرًا لفلسفة تصميمه الشاملة "حقيبة المجانيات" (bag-of-freebies).
متى تختار YOLOv6-3.0
YOLOv6.0 هو المحرك الأساسي للخطوط الإنتاجية عالية الحجم GPU.
- الأتمتة الصناعية: مثالي لخطوط المصانع واكتشاف عيوب التصنيع حيث تقوم وحدات معالجة الرسوميات (GPUs) من فئة الخوادم بمعالجة تدفقات فيديو متعددة في وقت واحد.
- تحليلات الإنتاجية العالية: ممتاز لمعالجة أرشيفات الفيديو غير المتصلة بالإنترنت حيث يكون تعظيم عدد الإطارات في الثانية هو الهدف الأساسي.
المستقبل: YOLO26
على الرغم من أن YOLOv7 YOLOv6. YOLOv6 يتمتعان بقدرات عالية، إلا أن الوتيرة السريعة للابتكار في مجال الذكاء الاصطناعي تتطلب كفاءة أكبر. تم إصدار Ultralytics في يناير 2026، وهو يمثل قفزة جيلية في مجال الرؤية الحاسوبية، حيث يعالج بشكل منهجي قيود البنى القديمة.
إذا كنت تبدأ مشروعًا جديدًا، فإن YOLO26 موصى به بشدة مقارنة بالأجيال السابقة. فهو يقدم العديد من الميزات الرائدة:
- تصميم خالٍ من NMS وشامل: استنادًا إلى الأسس التي وضعها YOLOv10، يلغي YOLO26 قمع غير الحد الأقصى (NMS) بشكل طبيعي. هذا يقلل من الحمل الزائد للمعالجة اللاحقة، مما يبسط النشر لتطبيقات الهاتف المحمول ويضمن استدلالًا محددًا للغاية ومنخفض زمن الانتقال.
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغات الكبيرة (LLM) المتقدمة (مثل تلك المستخدمة في Kimi K2 من Moonshot AI)، يستخدم YOLO26 مُحسِّنًا هجينًا يجمع بين SGD و Muon. يضمن ذلك ديناميكيات تدريب أكثر استقرارًا وتقاربًا أسرع بشكل كبير.
- سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: من خلال الإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يحقق YOLO26 تسريعًا هائلاً على وحدات CPU. وهذا يجعله البطل بلا منازع للبيئات الطرفية مثل Raspberry Pi ومستشعرات إنترنت الأشياء البعيدة.
- ProgLoss + STAL: دوال خسارة متقدمة مصممة خصيصًا لتحسين التعرف على الأجسام الصغيرة، وهي نقطة ضعف تاريخية في كاشفات المرحلة الواحدة.
من خلال الجمع بين هذه الابتكارات ومنصة Ultralytics القوية، يقدم YOLO26 أداءً لا مثيل له، وتنوعًا، وسهولة في النشر لمهندس تعلم الآلة الحديث.