YOLO YOLO26: تحليل بنى الجيل التالي من أنظمة الكشف عن الأجسام في الوقت الحقيقي
يتطور مجال الرؤية الحاسوبية باستمرار، مدفوعًا بالحاجة إلى بنى هندسية توازن بين الدقة العالية والاستدلال منخفض التأخير. تتعمق هذه المقارنة في التعقيدات التقنية لـ YOLO و Ultralytics وتستكشف ابتكاراتهما الهندسية ومنهجيات التدريب وحالات الاستخدام المثالية.
سواء كنت تقوم بنشر نماذج الرؤية على الأجهزة الطرفية أو إنشاء خطوط أنابيب سحابية عالية الإنتاجية، فإن فهم الفروق الدقيقة بين هذه النماذج أمر بالغ الأهمية لاتخاذ قرارات معمارية مستنيرة في مجال تطوير الذكاء الاصطناعي الحديث.
YOLO: البحث عن بنية عصبية على نطاق واسع
تم إطلاق YOLO طورته مجموعة Alibaba Group، في 23 نوفمبر 2022. صمم هذا النموذج كل من Xianzhe Xu و Yiqi Jiang و Weihua Chen و Yilun Huang و Yuan Zhang و Xiuyu Sun، وهو يركز بشكل كبير على الاكتشاف الآلي للبنى الفعالة باستخدام البحث العصبي عن البنية (NAS).
يمكنك مراجعة البحث الأصلي في ورقة ArXiv الخاصة بهم أو استكشاف شفرة المصدر في مستودعYOLO .
الميزات المعمارية الرئيسية
YOLO العديد من الابتكارات التقنية المصممة لتوسيع حدود الكشف عن الأجسام في الوقت الفعلي:
- البنى الأساسية MAE-NAS:YOLO بحثًا تطوريًا متعدد الأهداف للعثور على البنى الأساسية المثلى. تكتشف طريقة NAS هذه البنى التي تحقق توازنًا دقيقًا بين دقة الكشف وسرعة الاستدلال على أجهزة معينة.
- RepGFPN الفعال: تصميم ثقيل الرقبة يحسن بشكل كبير من دمج الميزات، وهو أمر مفيد للغاية عند تحليل المشاهد المعقدة مثل تلك الموجودة في الصور الجوية.
- تصميم ZeroHead: رأس كشف مبسط للغاية يقلل من تعقيد الحسابات في طبقات التنبؤ النهائية.
- AlignedOTA والتقطير:YOLO التخصيص الأمثل للنقل المتوافق (AlignedOTA) لحل غموض تخصيص التسميات، إلى جانب استراتيجية قوية لتحسين تقطير المعرفة لتعزيز دقة النماذج الصغيرة باستخدام شبكات تعليمية أكبر.
ميزة Ultralytics: YOLO26
صدر في 14 يناير 2026، بقلم جلين جوشر وجينغ تشيو في Ultralytics، يمثل YOLO26 قمة الذكاء الاصطناعي البصري عالي الأداء والمتاح للجميع. بناءً على إرث YOLO11 و YOLOv10، تم تصميم YOLO26 من الألف إلى الياء من أجل النشر المتطور، والتنوع متعدد الوسائط، وسهولة الاستخدام التي لا مثيل لها.
ابتكارات YOLO26
يقدم Ultralytics العديد من الميزات الرائدة التي تجعله الخيار الأمثل لتطبيقات الرؤية الحاسوبية الحديثة:
- تصميم شامل NMS: يزيل YOLO26 بشكل أساسي المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). تم طرح هذا النهج الشامل لأول مرة في YOLOv10، وهو يبسط بشكل كبير خطوط الإنتاج ويضمن استنتاجات حتمية ومنخفضة التأخير.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : تم تحسين YOLO26 من الناحية الهندسية لتناسب الحوسبة الطرفية، ويوفر سرعة استثنائية على الأجهزة الطرفية ووحدات المعالجة المركزية القياسية، مما يجعله مثاليًا لأجهزة إنترنت الأشياء التي تعمل بالبطارية.
- MuSGD Optimizer: مستوحى من تدريب LLM (مثل Kimi K2 من Moonshot AI)، يدمج YOLO26 مزيجًا من SGD Muon. وهذا يوفر استقرارًا كبيرًا في تدريب نماذج اللغة للرؤية الحاسوبية، مما يؤدي إلى تقارب أسرع وأكثر موثوقية.
- إزالة DFL: من خلال إزالة Distribution Focal Loss (فقدان بؤرة التوزيع)، يتم تبسيط الرسم البياني للنموذج، مما يسمح بالتصدير السلس إلى تنسيقات مثل ONNX و TensorRT.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة مهمة لعمليات الطائرات بدون طيار والزراعة.
تحسينات خاصة بالمهام
يتضمن YOLO26 تحسينات متخصصة عبر طرق متعددة: نموذج أولي متعدد المقاييس لتقسيم المثيلات، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع، وفقدان الزاوية المتقدم للتخفيف من مشاكل الحدود في الكشف عن الصندوق المحيط الموجه (OBB).
مقارنة الأداء
عند تقييم هذه النماذج، فإن التوازن بين الدقة (mAP) وكفاءة الحوسبة (السرعة/FLOPs) أمر بالغ الأهمية. يوضح الجدول أدناه مقارنة بين هذه النماذج باستخدام COCO القياسية في الصناعة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
كما هو موضح أعلاه، يوفر YOLO26 دقة أعلى باستمرار مع عدد أقل بكثير من المعلمات وعمليات FLOP، مما ينتج عنه بنية أكثر كفاءة لكل من التدريب والاستدلال.
كفاءة التدريب وسهولة الاستخدام
تعقيداتYOLO
بينماYOLO دقة تنافسية، فإن منهجية التدريب الخاصة به معقدة للغاية. الاعتماد على البحث في البنية العصبية (NAS) والتقطير المعرفي المكثف يعني أن تدريب نموذج مخصص غالبًا ما يتطلب GPU كبيرة ومعرفة متخصصة. هذه العملية متعددة المراحل — تدريب نموذج معلم ضخم لتقطيره إلى نموذج طالب أصغر — يمكن أن تشكل عائقًا أمام فرق الهندسة الرشيقة التي تحاول التكرار السريع على مجموعات البيانات المخصصة.
Ultralytics المبسطة
على العكس من ذلك، تم تصميم Ultralytics ليكون سهل الاستخدام "من الصفر إلى القمة". يتم تجريد دورة حياة التدريب والتحقق والنشر بالكامل خلف Python CLI موحدة ونظيفة. علاوة على ذلك، يتطلب YOLO26 عددًا أقل بكثير من CUDA أقل بكثير أثناء التدريب مقارنة بالنماذج القائمة على المحولات مثل RT-DETR، مما يسمح للباحثين بتدريب نماذج متطورة على أجهزة من فئة المستهلكين.
فيما يلي مثال على مدى سهولة تدريب وتقييم وتصدير نموذج YOLO26 باستخدام Ultralytics :
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")
بالنسبة للفرق التي تفضل بيئة خالية من الأكواد، توفر Ultralytics واجهة سهلة الاستخدام لتعليق مجموعات البيانات والتدريب السحابي والنشر السلس.
تطبيقات عملية في أرض الواقع
يعتمد اختيار البنية المناسبة بشكل كبير على بيئة النشر المستهدفة وقيود الأجهزة.
مراقبة الجودة الصناعية
بالنسبة لأتمتة التصنيع عالية السرعة، يمكن لـ YOLO أن يعمل بشكل جيد على GPU المخصصة. ومع ذلك، فإن YOLO26 هو الخيار المفضل لخطوط التجميع الحديثة. يضمن تصميمه الشامل NMS زمن انتقال حتمي وخالي من التذبذب، وهو أمر ضروري عند مزامنة البيانات المرئية مع المشغلات الروبوتية في الوقت الفعلي.
الذكاء الاصطناعي الحافة والأجهزة المحمولة
يتطلب نشر الرؤية الحاسوبية على الأجهزة التي تعمل بالبطاريات كفاءة فائقة. بينماYOLO على رقاب RepGFPN محددة، فإن YOLO26n (Nano) مُحسّن خصيصًا للحوسبة الطرفية. إن إزالة DFL CPU الأسرع بنسبة 43٪ يجعلانه الحل الأمثل للكاميرات الذكية والتطبيقات المحمولة وأنظمة الإنذار الأمني.
متطلبات المشروع متعدد الوسائط
إذا كان المشروع يتطلب أكثر من مجرد اكتشاف الكائنات — مثل تحليل آليات اللاعبين في الرياضة باستخدام تقدير الوضع، أو استخراج حدود البكسل الدقيقة باستخدام تقسيم المثيل —فإن YOLO26 يوفر دعمًا أصليًا لجميع هذه المهام ضمن قاعدة كود واحدة موحدة.YOLO بشكل صارم على اكتشاف المربعات المحيطة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بينYOLO YOLO26 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
YOLO خيار قوي لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات في الثانية علىGPU NVIDIA GPU الثابتة حيث يكون إنتاجية الدفعة 1 هو المقياس الأساسي.
- خطوط التصنيع الصناعي: سيناريوهات ذات قيود صارمة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث الآلي عن البنية (MAE-NAS) والبنى الأساسية المعاد معايرتها بكفاءة على أداء الكشف.
متى تختار YOLO26
يوصى باستخدام YOLO26 في الحالات التالية:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
الخلاصة
تمثل كلتا البنيتين إنجازات مهمة في مجال التعلم العميق. يقدم YOLO لمحة رائعة عن قوة تقنيات البحث عن البنية العصبية والتقطير المصممة خصيصًا لمعايير أداء أجهزة معينة.
ومع ذلك، بالنسبة للمطورين والباحثين والشركات التي تبحث عن حل جاهز للإنتاج، فإن Ultralytics يبرز كخيار متميز. إن الجمع بين تصميمه الشامل NMS، ومكاسب CPU الهائلة CPU ، وتعدد الاستخدامات المتعددة الوسائط، والتكامل في Ultralytics الذي يتم صيانته جيدًا، يجعله الأداة الأكثر قوة وعملية لحل تحديات الرؤية الحاسوبية في العالم الواقعي اليوم.
للمستخدمين المهتمين باستكشاف نماذج أخرى ضمن Ultralytics تتوفر وثائق شاملة عن YOLO11و YOLOv8و RT-DETR.