YOLOv10 YOLOv7: نظرة متعمقة على تطور الهندسة المعمارية

لقد تغير مشهد اكتشاف الأجسام بشكل كبير خلال السنوات القليلة الماضية، حيث تتصدر عائلة YOLO You Only Look Once) باستمرار الأداء في الوقت الفعلي. وهناك معلمان هامان في هذا المجال هما YOLOv10، الذي تم إصداره في مايو 2024، و YOLOv7، الذي وضع المعيار في منتصف عام 2022. في حين أن كلا النموذجين يهدفان إلى تحقيق أقصى قدر من التوازن بين السرعة والدقة، إلا أنهما يستخدمان استراتيجيات مختلفة تمامًا لتحقيق هذا الهدف.

يقدم هذا الدليل مقارنة تقنية شاملة لمساعدة المطورين والباحثين والمهندسين على اختيار البنية المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم. نقوم بتحليل البنى ومقاييس الأداء وسير عمل النشر، مع تسليط الضوء على الأسباب التي تجعل التكرارات الحديثة المدعومة من قبل Ultralytics — بما في ذلك YOLO11 و YOLO26الرائدة - توفر المسار الأقوى لإنتاج الذكاء الاصطناعي.

YOLOv10: ثورة NMS-Free

YOLOv10 يمثل تحولًا جذريًا في الكشف في الوقت الفعلي من خلال إدخال قدرة تدريب أصلية شاملة. على عكس الإصدارات السابقة التي كانت تعتمد على المعالجة اللاحقة الاستدلالية، YOLOv10 الحاجة إلى القمع غير الأقصى (NMS)، مما يقلل بشكل كبير من زمن الاستدلال ويبسط خط أنابيب النشر.

التفاصيل الفنية الرئيسية

المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
المؤسسة:جامعة تسينغ - هوا
التاريخ: 2024-05-23
روابط:ورقة بحثية على ArXiv | مستودع GitHub

YOLOv10 أداءه من خلال التعيينات المزدوجة المتسقة، وهي استراتيجية تجمع بين التعيينات ذات التسمية الواحدة إلى العديد من التسميات من أجل الإشراف الغني أثناء التدريب مع المطابقة الفردية من أجل الاستدلال الفعال. وهذا يسمح للنموذج بالاستفادة من الاسترجاع العالي لـ YOLOs التقليدية دون العبء الحسابي لـ NMS التنبؤ. بالإضافة إلى ذلك، يستخدم تصميمًا شاملاً يعتمد على الكفاءة والدقة، ويحسن مختلف المكونات مثل العمود الفقري ورأس الكشف لتقليل عدد المعلمات وعمليات FLOP (عمليات النقطة العائمة في الثانية).

تعرف على المزيد حول YOLOv10

حالات الاستخدام المثالية

التداول عالي التردد وتحليلات الرياضة: حيث كل مللي ثانية من زمن الاستجابة مهمة، يوفر التصميم NMS ميزة سرعة حاسمة.
الأنظمة المدمجة: إن انخفاض التكلفة العامة يجعلها مناسبة للأجهزة ذات الميزانية الحاسوبية المحدودة، مثل وحدات Raspberry Pi أو NVIDIA .
مشاهد الحشود المعقدة: NMS إزالة NMS تجنب المشكلة الشائعة المتمثلة في قمع عمليات الكشف المتداخلة الصالحة في البيئات المكتظة.

تحذير: كفاءة البنى الهندسية NMS

إن إزالة الكبت غير الأقصى (NMS) لا يقتصر على تسريع الاستدلال فحسب. بل إنه يجعل النموذج قابلاً للتفاضل من البداية إلى النهاية، مما يتيح إمكانية تحسين التحسين أثناء التدريب. ومع ذلك، فإنه يعني أيضًا أن النموذج يجب أن يتعلم كبت المربعات المكررة داخليًا، الأمر الذي يتطلب استراتيجيات تعيين متطورة مثل تلك الموجودة في YOLOv10 YOLO26.

YOLOv7: قوة "حقيبة التحسينات المجانية"

صدر في يوليو 2022، YOLOv7 خطوة هائلة إلى الأمام، حيث أدخل مفهوم "حقيبة الهدايا القابلة للتدريب". ركز هذا النهج على تحسين عملية التدريب والبنية لتعزيز الدقة دون زيادة تكلفة الاستدلال.

التفاصيل الفنية الرئيسية

المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
الجهة المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
روابط:ورقة بحثية على ArXiv | مستودع GitHub

YOLOv7 شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN)، والتي تسمح للشبكة بتعلم ميزات أكثر تنوعًا من خلال التحكم في أطوال مسارات التدرج. وهي تستخدم بفعالية تقنيات مثل إعادة معايرة النموذج (RepConv) لدمج وحدات التدريب المعقدة في هياكل استدلال بسيطة. على الرغم من فعاليته العالية، YOLOv7 كاشفًا قائمًا على المراسي يتطلب NMS مما قد يشكل عائقًا في سيناريوهات زمن الوصول المنخفض للغاية مقارنةً بالنماذج الأحدث الخالية من المراسي أو النماذج الشاملة.

تعرف على المزيد حول YOLOv7

حالات الاستخدام المثالية

الكشف للأغراض العامة: ممتاز للمهام القياسية التي لا تتطلب تحسينًا شديدًا ولكن الموثوقية فيها أمر أساسي.
أساسيات البحث: لا تزال معيارًا شائعًا للأوراق الأكاديمية التي تقارن التحسينات المعمارية.
عمليات النشر القديمة: قد تجد الأنظمة التي تم إنشاؤها بالفعل على Darknet أو PyTorch الأقدم أن الترقية إلى YOLOv7 من التحول إلى نموذج جديد تمامًا.

مقارنة الأداء

عند مقارنة هذين العملاقين، تصبح المقايضات واضحة. يوفر YOLOv10 كفاءة معلمات فائقة وزمن انتقال أقل بسبب NMS بينما YOLOv7 دقة قوية حددت أحدث ما توصلت إليه التكنولوجيا في ذلك الوقت.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

تحليل المقاييس

الدقة مقابل الحجم: YOLOv10 دقة مماثلة أو أفضل mAP (متوسط الدقة) مع عدد أقل بكثير من المعلمات. على سبيل المثال، يتفوق YOLOv10L على YOLOv7L في الدقة مع وجود عدد أقل بنسبة 20٪ تقريبًا من المعلمات.
سرعة الاستدلال: YOLOv10 تصميم YOLOv10 NMS معالجة لاحقة أسرع، والتي غالبًا ما تكون العائق الخفي في خطوط الإنتاج الواقعية.
كفاءة الذاكرة: عادةً ما تتطلب Ultralytics ، بما في ذلك YOLOv10 CUDA أقل أثناء التدريب مقارنةً بالتطبيقات القديمة أو البنى الثقيلة للمحولات مثل RT-DETR.

ميزة Ultralytics

أحد الأسباب الأكثر إقناعًا لاستخدام هذه النماذج من خلال Ultralytics هو التكامل السلس والدعم المقدم. سواء كنت تستخدم YOLOv7 أو YOLOv10 أو أحدث إصدار YOLO26، فإن التجربة موحدة.

سهولة الاستخدام: تتيح Python البسيطة للمطورين تدريب النماذج والتحقق من صحتها ونشرها باستخدام الحد الأدنى من التعليمات البرمجية. يمكنك التبديل بين YOLOv10 YOLOv7 تغيير سلسلة واحدة في البرنامج النصي الخاص بك.
Ultralytics : يمكن للمستخدمين الاستفادة من Ultralytics لإدارة مجموعات البيانات، وتصور عمليات التدريب، وتنفيذ عمليات تصدير النماذج بنقرة واحدة إلى تنسيقات مثل ONNX و TensorRT.
تعدد الاستخدامات: يدعم النظام البيئي مجموعة واسعة من المهام التي تتجاوز الكشف البسيط، بما في ذلك تقسيم المثيلات وتقدير الوضع و OBB (Oriented Bounding Box)، مما يضمن نمو مشروعك مع تطور المتطلبات.
كفاءة التدريب: تضمن Ultralytics تقارب النماذج بشكل أسرع، مما يوفر GPU قيّمة ويقلل من تكاليف الطاقة.

from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

المستقبل: لماذا YOLO26 هو الخيار الأمثل

على الرغم من أن YOLOv7 YOLOv10 نموذجان ممتازان، إلا أن هذا المجال يتطور بسرعة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة في عام 2026، فإن الخيار الموصى به هو YOLO26.

صدر YOLO26 في يناير 2026، وهو يعتمد على الاختراق الذي حققه YOLOv10 NMS YOLOv10 يحسنه ليحقق سرعة واستقرارًا أكبر.

تصميم شامل NMS: مثل YOLOv10 YOLO26 شامل بطبيعته، ولكن مع وظائف خسارة محسنة تعمل على استقرار التدريب.
CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة Distribution Focal Loss (DFL) وتحسين البنية، تم ضبط YOLO26 خصيصًا للحوسبة الطرفية والأجهزة التي لا تحتوي على وحدات معالجة رسومات قوية.
MuSGD Optimizer: مزيج من SGD Muon، يجلب هذا المحسن ابتكارات من تدريب LLM إلى الرؤية الحاسوبية، مما يضمن تقاربًا أسرع.
ProgLoss + STAL: توفر وظائف الخسارة المتقدمة تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة مهمة للغاية في قطاعات مثل الزراعة والتصوير الجوي.

بالنسبة لأولئك الذين يسعون إلى تأمين تطبيقاتهم للمستقبل، فإن الانتقال إلى YOLO26 يوفر أفضل توازن بين الأبحاث المتطورة والموثوقية العملية الجاهزة للإنتاج.

الخلاصة

كلاهما YOLOv10 و YOLOv7 مكانتهما في تاريخ الرؤية الحاسوبية. YOLOv7 خيارًا قويًا وموثوقًا للكشف العام، بينما YOLOv10 لمحة عن كفاءة البنى الشاملة. ومع ذلك، للحصول على أفضل أداء مطلق وسهولة الاستخدام والدعم طويل الأمد، فإن Ultralytics يمثل الخيار الأفضل لتطوير الذكاء الاصطناعي الحديث.

YOLOv10 YOLOv7: نظرة متعمقة على تطور الهندسة المعمارية

YOLOv10: ثورة NMS-Free

التفاصيل الفنية الرئيسية

حالات الاستخدام المثالية

YOLOv7: قوة "حقيبة التحسينات المجانية"

التفاصيل الفنية الرئيسية

حالات الاستخدام المثالية

مقارنة الأداء

تحليل المقاييس

ميزة Ultralytics

المستقبل: لماذا YOLO26 هو الخيار الأمثل

الخلاصة

مزيد من القراءة

تعليقات