YOLOv10 في مواجهة YOLO26: تطور اكتشاف الكائنات من الطرف إلى الطرف
شهد مجال الرؤية الحاسوبية تطورات ملحوظة في السنوات الأخيرة، حيث تحول من بنيات معقدة تعتمد بشكل مكثف على المعالجة اللاحقة إلى نماذج انسيابية تعمل من الطرف إلى الطرف. تتعمق هذه المقارنة التقنية في علامتين فارقتين في هذه الرحلة: الإنجاز الأكاديمي YOLOv10 ونموذج YOLO26 المتطور الجاهز للمؤسسات. من خلال فحص بنياتهما، ومنهجيات التدريب، وقدرات النشر في العالم الحقيقي، يمكن للمطورين اتخاذ قرارات مستنيرة عند بناء تطبيقهم القادم للرؤية بالذكاء الاصطناعي.
YOLOv10: ريادة اكتشاف الكائنات من الطرف إلى الطرف
المؤلفون: Ao Wang, Hui Chen, Lihao Liu, وآخرون. المنظمة: جامعة تسينغهوا التاريخ: 2024-05-23 الروابط: ورقة arXiv | مستودع GitHub
مُثل نموذج YOLOv10، الذي أُصدر في منتصف عام 2024، قفزة نوعية في أبحاث الرؤية الحاسوبية الأكاديمية من خلال معالجة واحدة من أكثر العقبات استمراراً في اكتشاف الكائنات في الوقت الفعلي، وهي: خوارزمية كبح العناصر غير القصوى (NMS). اعتمدت مكتشفات الكائنات التقليدية بشكل كبير على NMS لتصفية صناديق التحديد الزائدة، مما أضاف زمن وصول متغيراً أثناء الاستدلال وعقد عملية النشر على الحافة.
قدم فريق جامعة تسينغهوا استراتيجية تخصيص مزدوجة متسقة للتدريب بدون NMS. سمح هذا للنموذج بالتنبؤ بصناديق التحديد بدقة دون الحاجة إلى خطوة تصفية لاحقة، مما أدى إلى تحسين زمن وصول الاستدلال مباشرة وتقليل حاجز النشر على مسرعات الأجهزة. على الرغم من كفاءته العالية في مهام الاكتشاف القياسية، ركز النموذج بشكل أساسي على التنبؤ بصندوق التحديد وافتقر إلى الدعم الأصلي للمهام الأكثر تعقيداً مثل تقسيم المثيلات أو تقدير الوضعية.
YOLO26: المعيار الجديد للرؤية بالذكاء الاصطناعي على الحافة والسحابة
المؤلفون: Glenn Jocher و Jing Qiu المنظمة: Ultralytics التاريخ: 2026-01-14 الروابط: مستودع GitHub | منصة Ultralytics
بناءً على المفاهيم الخالية من NMS التي تم ريادتها سابقاً، يمثل YOLO26 المُصدر حديثاً قمة الأداء وتعدد الاستخدامات. تم تصميمه ليناسب كلاً من البحث الأكاديمي والنشر على مستوى المؤسسات، حيث يدمج أصلياً تصميماً من الطرف إلى الطرف بدون NMS، مما يلغي تماماً معالجة NMS اللاحقة لنشر أسرع وأبسط عبر جميع الأجهزة المدعومة.
يقدم YOLO26 العديد من التحسينات المعمارية الرائدة. إزالة دالة توزيع الخسارة البؤرية (DFL) تبسط عملية تصدير النموذج بشكل كبير وتعزز التوافق مع أجهزة الحافة منخفضة الطاقة. إلى جانب هذه التغييرات الهيكلية، يحقق YOLO26 سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%، مما يجعله خياراً استثنائياً لتطبيقات إنترنت الأشياء والروبوتات حيث قد لا يكون تسريع GPU متاحاً.
علاوة على ذلك، أحدث استخدام مُحسن MuSGD، وهو هجين من SGD و Muon مستوحى من تقنيات تدريب النماذج اللغوية الكبيرة (LLM)، ثورة في استقرار التدريب وسرعة التقارب. وبالاقتران مع دوال خسارة متقدمة مثل ProgLoss + STAL، يتميز YOLO26 بتحسينات ملحوظة في التعرف على الكائنات الصغيرة. كما يقدم تحسينات خاصة بالمهام، بما في ذلك النماذج الأولية متعددة المقاييس للتقسيم، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضعية، ودالة خسارة زاوية متخصصة لحل مشكلات الحدود في اكتشاف صناديق التحديد الموجهة (OBB).
بالنسبة للفرق التي تتطلع إلى توسيع نطاق سير عمل الرؤية الحاسوبية الخاصة بها، توفر منصة Ultralytics تكاملاً سلساً مع YOLO26، مما يوفر ترميزاً بديهياً للبيانات، وتدريباً مؤتمتاً في السحابة، وخيارات نشر بنقرة واحدة دون الحاجة إلى بنية تحتية واسعة لعمليات تعلم الآلة (MLOps).
مقارنة الأداء التقني
عند تقييم هذه النماذج، يعد التوازن بين الدقة وحجم النموذج وسرعة الاستدلال أمراً بالغ الأهمية. يسلط الجدول أدناه الضوء على أداء كلتا عائلتي النماذج عبر مقاييس مختلفة، والتي تم تقييمها على مجموعة بيانات COCO القياسية.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
تُظهر البيانات بوضوح الميزة التطورية للبنية الأحدث. يحقق YOLO26 متوسط دقة (mAP) أعلى عبر جميع فئات الحجم مع الحفاظ على سرعات استدلال تنافسية للغاية. تساهم إزالة DFL في YOLO26 بشكل خاص في أدائه الاستثنائي على ONNX عبر CPU، وهو مقياس كانت الأجيال السابقة تعاني فيه غالباً.
منهجيات التدريب والنظام البيئي
النموذج مفيد بقدر النظام البيئي الذي يدعمه. بينما قدم YOLOv10 تنفيذاً أكاديمياً ممتازاً يعتمد على PyTorch، فإنه غالباً ما يتطلب تكويناً يدوياً للمهام التي تتجاوز الاكتشاف الأساسي.
في المقابل، تم دمج YOLO26 بالكامل في نظام Ultralytics البيئي المتمتع بصيانة جيدة. يضمن ذلك متطلبات ذاكرة أقل بكثير أثناء التدريب مقارنة بالنماذج القائمة على المحولات (Transformer) مثل RT-DETR، مما يسمح للباحثين بتدريب شبكات متطورة على أجهزة استهلاكية. سهولة الاستخدام لا مثيل لها، حيث توفر واجهة برمجة تطبيقات (API) موحدة تتعامل مع تعزيز البيانات، وضبط المعاملات الفائقة، والتسجيل تلقائياً.
مثال برمجي: تدريب YOLO26
يتطلب تدريب نموذج متعدد الاستخدامات وعالي الدقة بضعة أسطر فقط من كود Python:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")التطبيقات وحالات الاستخدام في العالم الحقيقي
يعتمد اختيار البنية الصحيحة تماماً على قيود النشر.
حوسبة الحافة عالية السرعة
للتطبيقات التي تتطلب نشراً سريعاً على المتحكمات الدقيقة، أو الروبوتات، أو الأجهزة المحمولة القديمة، فإن سرعة استدلال YOLO26 على CPU الأسرع بنسبة 43% تجعله الخيار الحاسم. تتحول بنيته الخالية من NMS و DFL بسلاسة إلى تنسيقات مثل OpenVINO و TensorRT، وهي مثالية لتحليلات الفيديو في الوقت الفعلي في البنية التحتية للمدن الذكية.
رؤية متقدمة متعددة المهام
بينما يتفوق YOLOv10 في اكتشاف صناديق التحديد البحتة، يجب على المشاريع التي تتطلب فهماً مرئياً غنياً الاعتماد على YOLO26. من تقسيم المثيلات في التصوير الطبي إلى تقدير الوضعية الدقيق لتحليلات الرياضة، يوفر YOLO26 دوال خسارة خاصة بالمهام تضمن دقة فائقة عبر مجالات متنوعة.
إذا كان مشروعك يتطلب اكتشافاً قوياً للمفردات المفتوحة، ففكر في استكشاف YOLO-World. بالنسبة للمستخدمين الذين يحافظون على خطوط أنابيب قديمة، يظل YOLO11 بديلاً قوياً ومدعوماً بالكامل ضمن إطار عمل Ultralytics.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv10 و YOLO26 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv10
يعد YOLOv10 خياراً قوياً لـ:
- اكتشاف الوقت الفعلي الخالي من NMS: التطبيقات التي تستفيد من الاكتشاف الشامل دون Non-Maximum Suppression، مما يقلل من تعقيد النشر.
- موازنة مقايضات السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الاكتشاف عبر مختلف مقاييس النماذج.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
متى تختار YOLO26
يُنصح باستخدام YOLO26 لـ:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
خاتمة
يسلط الانتقال من YOLOv10 إلى YOLO26 الضوء على تحول حاسم من إثبات المفهوم الأكاديمي إلى حلول مؤسسية جاهزة للإنتاج. من خلال تبني التصميم الرائد الخالي من NMS وتعزيزه بمُحسن MuSGD، و ProgLoss، وتوافق الحافة المبسط، يضع YOLO26 معياراً جديداً لما هو ممكن في الرؤية الحاسوبية في الوقت الفعلي. بالنسبة للمطورين الذين يهدفون إلى تحقيق أفضل توازن بين السرعة والدقة وسهولة الاستخدام، يبرز YOLO26 كتوصية نهائية.