YOLOv10 مقابل YOLOv7: تطور الكشف عن الأجسام في الوقت الفعلي
أدى التقدم السريع في الرؤية الحاسوبية خلال السنوات القليلة الماضية إلى إنتاج معماريات أكثر كفاءة للتطبيقات التي تعمل في الوقت الفعلي. تسلط المقارنة بين YOLOv10 و YOLOv7 الضوء على فترة انتقالية حاسمة في هذا التطور. فبينما قدمت YOLOv7 استراتيجيات تدريب فعالة للغاية وتحجيم معماري، أحدثت YOLOv10 ثورة في النشر من خلال التخلص من الاعتماد طويل الأمد على كبت العناصر غير القصوى (NMS).
لقد دفع كلا النموذجين حدود الكشف عن الأجسام عند إصدار كل منهما، ومع ذلك فإن نظام Ultralytics البيئي الحديث وإدخال نماذج الجيل التالي مثل YOLO26 يوفر سير عمل متفوقًا بكثير لممارسي الذكاء الاصطناعي اليوم.
ملفات تعريف النماذج وأصولها
يوفر فهم أصول هذه النماذج سياقًا قيِّمًا فيما يتعلق بخيارات التصميم المعماري والأبحاث الأكاديمية التي تقودها.
تفاصيل YOLOv10
- المؤلفون: Ao Wang، Hui Chen، Lihao Liu، وآخرون.
- المؤسسة: جامعة تسينغوا
- التاريخ: 23-05-2024
- Arxiv: YOLOv10: الكشف عن الأجسام في الوقت الفعلي من البداية إلى النهاية
- GitHub: THU-MIG/yolov10
- التوثيق: توثيق Ultralytics YOLOv10
تفاصيل YOLOv7
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المؤسسة: معهد علوم المعلومات، أكاديمية سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv: YOLOv7: حقيبة قابلة للتدريب من الميزات المجانية تضع معياراً جديداً
- GitHub: WongKinYiu/yolov7
- التوثيق: توثيق Ultralytics YOLOv7
الابتكارات المعمارية
نهج YOLOv7
تم إطلاق YOLOv7 في عام 2022، وركزت بشكل كبير على تحسين مسارات التدرج. وقدمت شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN)، والتي سمحت للنموذج بتعلم ميزات أكثر تنوعًا دون تدمير مسار التدرج الأصلي. علاوة على ذلك، طبق المؤلفون منهجية "حقيبة قابلة للتدريب من الميزات المجانية"، مستخدمين تقنيات إعادة المعاملة أثناء التدريب التي يمكن دمجها بعيدًا أثناء الاستدلال للحفاظ على سرعات تنفيذ سريعة. على الرغم من هذه التحسينات المثيرة للإعجاب، لا تزال YOLOv7 تعتمد بشكل كبير على NMS للمعالجة اللاحقة، مما يخلق زمن وصول متغير أثناء تحليل المشاهد الكثيفة.
اختراق YOLOv10
عالجت YOLOv10 عنق زجاجة NMS بشكل مباشر. من خلال تقديم تعيينات مزدوجة متسقة أثناء التدريب، مكّن فريق جامعة تسينغوا من الكشف من البداية إلى النهاية بدون NMS. يستخدم هذا النهج ثنائي الرأس فرعًا واحدًا مع تعيينات واحد إلى متعدد لإشارات إشراف غنية أثناء التدريب، وفرعًا آخر مع تعيينات واحد إلى واحد للاستدلال بدون NMS. يضمن هذا التحول المعماري زمن وصول استدلال منخفض للغاية ومتسق زمن وصول الاستدلال مناسب لتحليلات الفيديو عالية السرعة. علاوة على ذلك، توظف YOLOv10 تصميم نموذج موجه نحو كفاءة الدقة الشاملة، مما يزيل التكرار الحسابي الموجود في الأجيال السابقة.
إزالة معالجة NMS اللاحقة لا تسرع الاستدلال فحسب، بل تبسط النشر بشكل كبير على أجهزة الذكاء الاصطناعي الطرفية، مثل مسرعات الذكاء الاصطناعي وNPUs حيث يصعب برمجيًا تجميع عمليات NMS المخصصة.
مقارنة الأداء
عند مقارنة المقاييس الأولية على مجموعة بيانات MS COCO، تصبح الفجوة بين الأجيال واضحة. تحقق YOLOv10 مقايضة أكثر ملاءمة بكثير بين المعلمات والمتطلبات الحسابية والدقة.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
كما هو موضح أعلاه، يوفر نموذج YOLOv10x دقة mAP متفوقة بنسبة 54.4% مقارنة بـ 53.1% لنموذج YOLOv7x، مع استخدام معلمات أقل بنسبة 20% تقريبًا. علاوة على ذلك، توفر نماذج YOLOv10 خفيفة الوزن (Nano و Small) سرعات نشر TensorRT استثنائية، مما يجعلها جذابة للغاية للنشر على الأجهزة المحمولة.
ميزة نظام Ultralytics البيئي
بينما تعد دراسة الأوراق المعمارية مفيدة، يعتمد تطوير الرؤية الحاسوبية الحديثة على أطر عمل قوية ومصانة جيدًا. يوفر اختيار نموذج مدعوم من Ultralytics ميزة هائلة للمطورين الذين يتطلعون إلى الانتقال من النموذج الأولي إلى الإنتاج بسرعة.
تطوير مبسط
يمكن الوصول إلى كل من YOLOv10 و YOLOv7 عبر حزمة Python القياسية من Ultralytics. يوفر هذا سهولة في الاستخدام لا مثيل لها، حيث يستبدل آلاف الأسطر من الكود المتكرر بواجهة برمجة تطبيقات (API) بسيطة وبديهية. علاوة على ذلك، تتطلب نماذج Ultralytics YOLO ذاكرة CUDA أقل بشكل ملحوظ أثناء التدريب مقارنة بنماذج Transformer الثقيلة، مما يتيح استخدام أحجام دفعات أكبر على أجهزة المستهلكين.
تعدد استخدامات لا مثيل له
بينما تركز المستودعات القديمة غالبًا بشكل صارم على كشف الصناديق المحيطة، يدعم إطار عمل Ultralytics المتكامل بسلاسة مجموعة متنوعة من المهام. سواء كنت تقوم بـ تجزئة المثيلات، أو تقدير الوضع، أو كشف الصندوق المحيط الموجه (OBB)، يظل سير العمل متطابقًا.
مثال على الكود: سير عمل تدريب متسق
يوضح مقتطف الكود التالي عملية التدريب السلسة، والتي تتعامل تلقائيًا مع تعزيز البيانات وجدولة معدل التعلم:
from ultralytics import YOLO
# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")
# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export to ONNX format for rapid deployment
model.export(format="onnx")حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv10 و YOLOv7 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv10
يعد YOLOv10 خياراً قوياً لـ:
- اكتشاف الوقت الفعلي الخالي من NMS: التطبيقات التي تستفيد من الاكتشاف الشامل دون Non-Maximum Suppression، مما يقلل من تعقيد النشر.
- موازنة مقايضات السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الاكتشاف عبر مختلف مقاييس النماذج.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
متى تختار YOLOv7
يوصى بـ YOLOv7 في الحالات التالية:
- قياس الأداء الأكاديمي: إعادة إنتاج نتائج متطورة من حقبة 2022 أو دراسة تأثيرات تقنيات E-ELAN والحقيبة القابلة للتدريب من الميزات المجانية.
- أبحاث إعادة المعاملة: التحقيق في الالتفافات المخطط لها والمُعاد معاملتها واستراتيجيات تحجيم النماذج المركبة.
- خطوط الأنابيب المخصصة الحالية: المشاريع ذات خطوط الأنابيب المخصصة بشكل كبير والمبنية حول معمارية YOLOv7 المحددة والتي لا يمكن إعادة هيكلتها بسهولة.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
المعيار الجديد: تقديم YOLO26
بينما كانت YOLOv10 قفزة هائلة إلى الأمام في عام 2024، فإن مشهد الرؤية الحاسوبية يتحرك بسرعة مذهلة. لجميع عمليات التطوير الجديدة، نوصي بشدة بأحدث نموذج من الجيل: Ultralytics YOLO26. تم إطلاقه في يناير 2026، ويمثل قمة الذكاء الاصطناعي للرؤية في الوقت الفعلي، متجاوزًا بشكل كبير كلاً من YOLOv7 و YOLOv10.
تأتي YOLO26 بابتكارات غير مسبوقة مصممة خصيصًا لبيئات النشر الحديثة:
- تصميم من البداية إلى النهاية بدون NMS: بناءً على الأساس الذي وضعته YOLOv10، تلغي YOLO26 محليًا معالجة NMS اللاحقة لخطوط أنابيب نشر أبسط واستدلال عالي السرعة ومتسق.
- استدلال وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43%: محسن بشكل كبير للحوسبة الطرفية والأجهزة التي تفتقر إلى وحدات معالجة الرسومات المخصصة، مما يوفر وفورات هائلة في تكاليف الأجهزة.
- إزالة DFL: تمت إزالة Distribution Focal Loss تمامًا، مما يبسط منطق التصدير بشكل جذري ويحسن التوافق بشكل كبير مع أجهزة الحافة منخفضة الطاقة والمتحكمات الدقيقة.
- مُحسِّن MuSGD: مستوحى من Kimi K2 التابع لشركة Moonshot AI، يجلب هذا الهجين من SGD و Muon ابتكارات تدريب نماذج اللغة الكبيرة (LLM) مباشرة إلى الرؤية الحاسوبية، مما ينتج ديناميكيات تدريب مستقرة بشكل لا يصدق وتقاربًا أسرع.
- ProgLoss + STAL: تقدم وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مجال كان يمثل تحديًا تاريخيًا وهو أمر بالغ الأهمية للطائرات بدون طيار والروبوتات ومراقبة المدن الذكية.
- تحسينات خاصة بالمهام: YOLO26 ليست مجرد كاشف. فهي تتضمن خسارة تجزئة دلالية متخصصة، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتتبع الوضع بدقة فائقة، وخوارزميات خسارة زاوية متخصصة للقضاء على مشكلات حدود OBB.
للحصول على أفضل تجربة على الإطلاق في إدارة مجموعات البيانات الخاصة بك، وتدريب YOLO26، ونشر النماذج في السحابة، استكشف منصة Ultralytics. إنها توفر واجهة بدون كود تكمل Python SDK بشكل مثالي.
حالات الاستخدام الواقعية
يعتمد اختيار المعمارية الصحيحة بشكل كبير على قيود الأجهزة والتطبيقات الخاصة بك.
متى تستخدم YOLOv7
تظل YOLOv7 خيارًا موثوقًا للحفاظ على خطوط الأنابيب القديمة التي تم دمجها بالفعل بعمق مع هياكل التنسور الخاصة بها أو عند تكرار المعايير الأكاديمية من عامي 2022 و 2023. وهي تعمل بشكل رائع على وحدات معالجة الرسومات الخادمة المتطورة.
متى تستخدم YOLOv10
تتألق YOLOv10 في السيناريوهات التي تتطلب زمن وصول صارم وغير متغير. نظرًا لكونها خالية من NMS، فهي ممتازة لعد الحشود عالي الكثافة أو كشف عيوب التصنيع حيث يتقلب عدد الأجسام بشكل كبير ولكن يجب أن يظل وقت المعالجة لكل إطار ثابتًا.
متى تستخدم YOLO26
تعتبر YOLO26 الخيار النهائي لأي مشروع جديد تمامًا. من نشر أنظمة إنذار أمني متطورة على Raspberry Pi أساسي إلى تشغيل تحليلات فيديو ضخمة قائمة على السحابة، فإن سرعات وحدة المعالجة المركزية المتفوقة والكشف المتقدم عن الأجسام الصغيرة تجعلها متفوقة بشكل كبير على الأجيال الأقدم.
للمطورين المهتمين باستكشاف معماريات حديثة بديلة، نوفر أيضًا دعمًا واسع النطاق للكواشف القائمة على المحولات (Transformers) مثل RT-DETR وأساسيات الجيل السابق مثل Ultralytics YOLO11.