YOLOv10 YOLO26: تطور الكشف عن الكائنات من البداية إلى النهاية
شهد مجال الرؤية الحاسوبية تطورات ملحوظة في السنوات الأخيرة، حيث تحول من هياكل معقدة تتطلب معالجة لاحقة مكثفة إلى نماذج مبسطة وشاملة. تتعمق هذه المقارنة التقنية في معلمتين رئيسيتين في هذه الرحلة: الاختراق الأكاديمي لـ YOLOv10 YOLO26 المتطور والجاهز للاستخدام في المؤسسات. من خلال دراسة هياكلهما ومنهجيات التدريب وقدرات النشر في العالم الحقيقي، يمكن للمطورين اتخاذ قرارات مستنيرة عند إنشاء تطبيق الرؤية الاصطناعية التالي.
YOLOv10: رائد في مجال الكشف الشامل عن الأجسام
المؤلفون: Ao Wang، Hui Chen، Lihao Liu، وآخرون.
المنظمة: جامعة تسينغهوا
التاريخ: 2024-05-23
الروابط: ورقة arXiv | مستودع GitHub
صدر YOLOv10 في منتصف عام 2024، YOLOv10 قفزة كبيرة إلى الأمام في مجال أبحاث الرؤية الحاسوبية الأكاديمية من خلال معالجة أحد أكثر العقبات استمرارًا في الكشف عن الكائنات في الوقت الفعلي: القمع غير الأقصى (NMS). كانت أجهزة الكشف عن الكائنات التقليدية تعتمد بشكل كبير على NMS المربعات المحيطة الزائدة، مما أضاف زمن انتقال متغير أثناء الاستدلال وعقد عملية النشر على الحافة.
قدم فريق جامعة تسينغهوا استراتيجية مزدوجة متسقة للتدريب NMS. سمح ذلك للنموذج بالتنبؤ بدقة بمربعات الحدود دون الحاجة إلى خطوة تصفية ما بعد المعالجة، مما أدى إلى تحسين زمن الاستدلال بشكل مباشر وتقليل العوائق التي تحول دون نشره على مسرعات الأجهزة. على الرغم من كفاءته العالية في مهام الكشف القياسية، ركز النموذج بشكل أساسي على التنبؤ بمربعات الحدود وافتقر إلى الدعم الأصلي للمهام الأكثر تعقيدًا مثل تقسيم الحالات أو تقدير الوضع.
YOLO26: المعيار الجديد للذكاء الاصطناعي للرؤية السحابية والحافة
المؤلفون: جلين جوشر وجينغ تشيو
المنظمة: Ultralytics
التاريخ: 2026-01-14
الروابط: مستودع GitHub | Ultralytics
بناءً على المفاهيم NMS التي تم طرحها في وقت سابق، يمثل الإصدار الجديد YOLO26 قمة الأداء والتنوع. تم تصميمه للبحث الأكاديمي والنشر على مستوى المؤسسات، ويشتمل بشكل أساسي على تصميم شامل NMS، مما يلغي تمامًا NMS من أجل نشر أسرع وأبسط عبر جميع الأجهزة المدعومة.
يقدم YOLO26 العديد من التحسينات المعمارية الرائدة. إن إزالة Distribution Focal Loss (DFL) يبسط بشكل كبير عملية تصدير النموذج ويعزز التوافق مع الأجهزة الطرفية منخفضة الطاقة. إلى جانب هذه التغييرات الهيكلية، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله خيارًا استثنائيًا لتطبيقات إنترنت الأشياء والروبوتات حيث قد لا يتوفر GPU .
علاوة على ذلك، تم إحداث ثورة في استقرار التدريب وسرعة التقارب من خلال استخدام MuSGD Optimizer، وهو مزيج من SGD Muon مستوحى من تقنيات تدريب LLM. بالاقتران مع وظائف الخسارة المتقدمة مثل ProgLoss + STAL، يتميز YOLO26 بتحسينات ملحوظة في التعرف على الأجسام الصغيرة. كما يقدم تحسينات خاصة بالمهام، بما في ذلك النماذج الأولية متعددة المقاييس للتجزئة، وتقدير احتمالية السجل المتبقي (RLE) لتقدير الوضع، وخسارة زاوية متخصصة لحل مشكلات الحدود في الكشف عن الصندوق المحيط الموجه (OBB).
نشر المؤسسة
بالنسبة للفرق التي تسعى إلى توسيع نطاق سير عمل الرؤية الحاسوبية، توفر Ultralytics تكاملاً سلسًا مع YOLO26، حيث توفر تعليقات بيانات بديهية وتدريبًا آليًا على السحابة وخيارات نشر بنقرة واحدة دون الحاجة إلى بنية تحتية واسعة النطاق لعمليات التعلم الآلي (MLOps).
مقارنة الأداء الفني
عند تقييم هذه النماذج، فإن التوازن بين الدقة وحجم النموذج وسرعة الاستدلال أمر بالغ الأهمية. يوضح الجدول أدناه أداء كلتا عائلتي النماذج عبر مختلف المقاييس، والتي تم تقييمها على COCO القياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
تُظهر البيانات بوضوح الميزة التطورية للبنية الأحدث. يحقق YOLO26 متوسط دقة أعلى mAP ) في جميع مستويات الحجم مع الحفاظ على سرعات استدلال تنافسية للغاية. تساهم إزالة DFL في YOLO26 بشكل خاص فيONNX CPU ONNX الاستثنائي، وهو مقياس كانت الأجيال السابقة تعاني منه في كثير من الأحيان.
منهجيات التدريب والنظام البيئي
فائدة النموذج تعتمد على النظام البيئي الذي يدعمه. في حين أن YOLOv10 تطبيقًا أكاديميًا ممتازًا استنادًا إلى PyTorch، إلا أنه غالبًا ما يتطلب تكوينًا يدويًا للمهام التي تتجاوز الكشف الأساسي.
في المقابل، تم دمج YOLO26 بالكامل في Ultralytics الذي يتم صيانته جيدًا. وهذا يضمن متطلبات ذاكرة أقل بكثير أثناء التدريب مقارنة بالنماذج القائمة على المحولات مثل RT-DETR، مما يسمح للباحثين بتدريب شبكات متطورة على أجهزة من فئة المستهلكين. سهولة الاستخدام لا مثيل لها، حيث يوفر واجهة برمجة تطبيقات موحدة تتعامل مع زيادة البيانات وضبط المعلمات الفائقة والتسجيل تلقائيًا.
مثال على الكود: تدريب YOLO26
يتطلب تدريب نموذج متعدد الاستخدامات وعالي الدقة بضع أسطر فقط من Python :
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")
التطبيقات الواقعية وحالات الاستخدام
يعتمد اختيار البنية المناسبة بشكل كامل على قيود النشر.
الحوسبة الطرفية عالية السرعة
بالنسبة للتطبيقات التي تتطلب نشرًا سريعًا على وحدات التحكم الدقيقة أو الروبوتات أو الأجهزة المحمولة القديمة، فإن CPU الأسرع بنسبة 43٪ في YOLO26 يجعله الخيار الأمثل. تعمل بنيته NMS و DFL على التحويل بسلاسة إلى تنسيقات مثل OpenVINO و TensorRT، مما يجعلها مثالية لتحليلات الفيديو في الوقت الفعلي في البنية التحتية للمدن الذكية.
رؤية متقدمة متعددة المهام
بينما YOLOv10 في الكشف عن الصناديق المحددة البحتة، فإن المشاريع التي تتطلب فهمًا بصريًا غنيًا يجب أن تعتمد على YOLO26. من تقسيم الحالات في التصوير الطبي إلى تقدير الدقة في تحليلات الرياضة، يوفر YOLO26 وظائف خسارة خاصة بالمهام تضمن دقة فائقة عبر مجالات متنوعة.
خيارات بديلة
إذا كان مشروعك يتطلب كشفًا قويًا للمفردات المفتوحة، ففكر في استكشاف YOLO. بالنسبة للمستخدمين الذين يحتفظون بخطوط إنتاج قديمة، YOLO11 بديلاً قوياً ومدعومًا بالكامل ضمن Ultralytics .
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv10 YOLO26 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv10
YOLOv10 خيار قوي لـ:
- الكشف في الوقت الفعليNMS: تطبيقات تستفيد من الكشف الشامل بدون قمع غير أقصى، مما يقلل من تعقيد النشر.
- التوازن بين السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الكشف عبر نماذج مختلفة.
- تطبيقات ذات زمن انتقال ثابت: سيناريوهات النشر التي يكون فيها زمن الاستدلال المتوقع أمرًا بالغ الأهمية، مثل الروبوتات أو الأنظمة المستقلة.
متى تختار YOLO26
يوصى باستخدام YOLO26 في الحالات التالية:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
الخلاصة
يُبرز الانتقال من YOLOv10 YOLO26 تحولًا حاسمًا من إثبات المفهوم الأكاديمي إلى حلول مؤسسية جاهزة للإنتاج. من خلال اعتماد التصميم الرائد NMS وتعزيزه بمحسّن MuSGD و ProgLoss والتوافق المبسط مع الحافة، يضع YOLO26 معيارًا جديدًا لما يمكن تحقيقه في الرؤية الحاسوبية في الوقت الفعلي. بالنسبة للمطورين الذين يهدفون إلى تحقيق أفضل توازن بين السرعة والدقة وسهولة الاستخدام، يبرز YOLO26 باعتباره التوصية النهائية.