YOLO26 مقابلYOLO: مقارنة تقنية بين أجهزة الكشف عن الأجسام في الوقت الفعلي
عند اختيار نموذج رؤية حاسوبية متطور، من الضروري إيجاد التوازن الأمثل بين سرعة الاستدلال والدقة وسهولة النشر. يقارن هذا الدليل الشامل بين نموذجين بارزين في مجال الذكاء الاصطناعي للرؤية: Ultralytics و YOLO. في حين أن كلا البنيتين توسعان حدود الكشف عن الكائنات في الوقت الفعلي، فإن فلسفات التصميم الأساسية وحالات الاستخدام المقصودة تختلف بشكل كبير.
الابتكارات والتصميم المعماري
Ultralytics : معيار الرؤية الذي يركز على الحافة أولاً
تم تطويره بواسطة Glenn Jocher و Jing Qiu في Ultralytics وأُطلق في 14 يناير 2026، يمثل YOLO26 قفزة هائلة إلى الأمام في YOLO . وقد تم تصميمه من الألف إلى الياء للحوسبة المتطورة، حيث يمزج بسلاسة بين ممارسات التدريب المتطورة LLM وبنيات الرؤية المتقدمة.
تشمل الإنجازات المعمارية الرئيسية لـ YOLO26 ما يلي:
- تصميم شامل خالٍ من NMS: استنادًا إلى العمل الرائد من YOLOv10، يتميز YOLO26 بتصميم شامل أصيل. من خلال الإلغاء التام للتثبيط غير الأقصى (NMS) أثناء المعالجة اللاحقة، فإنه يضمن زمن انتقال حتميًا ويبسط بشكل كبير مسارات النشر.
- إزالة DFL: تبسط إزالة Distribution Focal Loss مخطط النموذج. وهذا يجعل التصدير إلى أطر النشر مثل ONNX و TensorRT أكثر سلاسة بكثير ويضمن توافقاً أفضل مع الأجهزة الطرفية منخفضة الطاقة.
- مُحسِّن MuSGD: مستوحى من Kimi K2 من Moonshot AI، يجلب هذا المزيج الهجين من الانحدار التدرجي العشوائي (SGD) و Muon ابتكارات تدريب نماذج LLM إلى الرؤية الحاسوبية، مما يؤدي إلى تدريب مستقر بشكل ملحوظ وتقارب سريع.
- ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو ضرورة حاسمة لـتحليل الصور الجوية القائم على الطائرات بدون طيار ومسارات عمل الروبوتات المعقدة.
YOLO: البحث عن بنية عصبية على نطاق واسع
تم تطويرYOLO بواسطة Xianzhe Xu و Yiqi Jiang و Weihua Chen و Yilun Huang و Yuan Zhang و Xiuyu Sun من مجموعة Alibaba (تم إصداره في 23 نوفمبر 2022)،YOLO بشكل كبير على اكتشاف البنية التلقائية. تستخدم الأبحاث، التي تم تفصيلها في ورقة arXiv الخاصة بهم، البحث العصبي في البنية (NAS) للعثور على الهياكل الأساسية المثلى في ظل ميزانيات زمن انتقال صارمة.
YOLO الميزات المعمارية الرئيسية لـYOLO ما يلي:
- العمود الفقري MAE-NAS: يستخدم بحثًا تطوريًا متعدد الأهداف لتصميم أعمدة فقرية تلقائيًا توازن بين الدقة وسرعة النشر المستهدفة.
- RepGFPN الفعال: تصميم قوي ذو عنق ثقيل يحسن دمج الميزات عبر مقاييس مختلفة، مما يجعله عالي الكفاءة في معالجة المشاهد البصرية المعقدة.
- ZeroHead: رأس detect مبسط بشكل جذري مصمم لتقليل الحمل الحسابي في طبقات التنبؤ النهائية.
اختيار البنية الصحيحة
في حين أن بنيةYOLO المدعومة بـ NAS ممتازة لقيود الأجهزة المحددة مسبقًا، فإن التصميمNMS وإزالة DFL في YOLO26 يجعلها خيارًا أكثر تنوعًا وقابلية للتنبؤ عبر مجموعة واسعة من بيئات الحافة والسحابة المتنوعة.
مقارنة الأداء والمقاييس
تكشف مقارنة مباشرة بين متغيرات النموذج المدربة على مجموعة بيانات COCO القياسية عن ملفات تعريف أداء مميزة. يوضح الجدول أدناه المفاضلات بين الدقة (mAP) والسرعة والبصمة الحاسوبية (المعلمات وعمليات FLOPs).
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
تحليل الأداء
عند تحليل البيانات، يميل ميزان الأداء بشكل كبير نحو YOLO26 للتطبيقات الحديثة. يتميز الإصدار Nano (YOLO26n) بخفة وزنه الاستثنائية حيث يبلغ عدد معلماته 2.4 مليون معلمة فقط، ويوفر سرعات فائقة تصل إلى 1.7 مللي ثانية على GPU NVIDIA . علاوة على ذلك، تم تصميم YOLO26 خصيصًا لتوفير CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله البطل بلا منازع للأجهزة المتطورة التي تفتقر إلى GPU المخصصة.
في حين أن DAMO-YOLO يتفوق قليلاً على YOLO26n في mAP الخالص، إلا أنه يفعل ذلك على حساب الحاجة إلى ما يقرب من أربعة أضعاف عدد المعلمات (8.5 مليون). مع انتقالنا إلى المتغيرات الأكبر حجماً، يتفوق YOLO26 باستمرار علىYOLO الدقة مع الحفاظ على مساحة ذاكرة أصغر، و CUDA أثناء التدريب، TensorRT أسرع بشكل كبير.
النظام البيئي وقابلية الاستخدام وكفاءة التدريب
تكمن القوة الحقيقية لنموذج التعلم الآلي ليس فقط في مقاييسه الأولية، بل في سهولة استخدامه من قبل المطورين والباحثين.
ميزة Ultralytics
يضمن اختيار نموذج Ultralytics الوصول إلى نظام بيئي متطور للغاية وموجه نحو المطورين. يتم تجريد سير العمليات المعقدة التي تتضمن زيادة البيانات، وضبط المعلمات الفائقة، وتتبع التجارب القوي إلى أوامر بديهية.
علاوة على ذلك، يوفر YOLO26 تنوعًا لا مثيل له. في حين أنYOLO مجرد كاشف للأجسام، فإن YOLO26 يوفر تحسينات شاملة ومخصصة للمهام في مجالات متعددة جاهزة للاستخدام:
- تجزئة الكائنات (Instance Segmentation): استخدام خسارة تجزئة دلالية متخصصة ونمذجة أولية متعددة المقاييس.
- تقدير الوضعيات: يستفيد من تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) المتقدم.
- صندوق الإحاطة الموجه (OBB): دمج دوال خسارة زاوية متخصصة لحل مشكلات الحدود المعقدة بشكل مثالي.
- تصنيف الصور: لتسمية الصور العالمية السريعة والخفيفة.
منهجيات التدريب
YOLO يتضمن تدريبYOLO عملية تقطير معقدة حيث يقوم نموذج "مدرس" كبير بتدريب نموذج "طالب" أصغر. في حين أن هذه التقنية تحقق مكاسب هامشية في الدقة، إلا أنها تتطلب GPU واسعة ودورات تدريب أطول.
على العكس من ذلك، فإن متطلبات الذاكرة لـ YOLO26 أقل بكثير. مدعومًا بمحسّن MuSGD، يتدرب YOLO26 بسرعة وكفاءة على الأجهزة الاستهلاكية القياسية. إليك مدى سهولة تدريب نموذج YOLO26 باستخدام واجهة برمجة تطبيقات Ultralytics Python المدعومة بـ PyTorch:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the optimized, NMS-free model
model.export(format="onnx")
استكشاف نماذج أخرى
إذا كنت مهتمًا باستكشاف هياكل حديثة أخرى ضمن نظام Ultralytics ، فإن YOLO11 خيارًا رائعًا للخطوط القديمة. أو يمكن للباحثين المهتمين بالبنى القائمة على المحولات استكشاف RT-DETR .
تطبيقات عملية في أرض الواقع
يعتمد الاختيار بين هذه البنى المعمارية في النهاية على بيئة النشر الخاصة بك.
أجهزة الذكاء الاصطناعي الحافة وأجهزة إنترنت الأشياء
بالنسبة للكاميرات الذكية المستخدمة في متاجر البيع بالتجزئة، وأجهزة المراقبة الزراعية الآلية، أو الروبوتات، فإن موارد الحوسبة محدودة للغاية. هنا، يعد YOLO26 الخيار الأمثل. CPU الأسرع بنسبة 43٪، وخط الأنابيب NMS تمامًا NMS، والمساحة الصغيرة التي تشغلها المعلمات، تسمح له بالعمل بسلاسة على الأجهزة الطرفية مثل Raspberry Pi دون التضحية بالدقة الحاسمة.
التصنيع عالي السرعة ومراقبة الجودة
في خطوط أتمتة التصنيع سريعة الوتيرة، يتطلب اكتشاف العيوب على سيور النقل سريعة الحركة زمن انتقال حتميًا ضئيلًا. في حين أنYOLO يعمل بشكل مناسب على GPU محددة، فإن زمن الانتقال المتقلب الناتج عن NMS التقليدية NMS يمكن أن يؤدي إلى عدم تزامن المشغلات الروبوتية. تضمن طبيعة YOLO26 الشاملة أوقات معالجة إطارات متسقة ويمكن التنبؤ بها، مما يضمن تكاملًا لا تشوبه شائبة في الروبوتات الصناعية عالية السرعة.
الصور الملتقطة بواسطة الطائرات بدون طيار والطائرات
يعد اكتشاف الأهداف الصغيرة من الارتفاعات العالية أمرًا صعبًا للغاية. يؤدي دمج ProgLoss و STAL في YOLO26 إلى تحسين كبير في التعرف على الكائنات الصغيرة. سواء كان الأمر يتعلق بتتبع الحياة البرية أو تحليل الازدحام المروري من الطائرات بدون طيار، فإن YOLO26 يحدد باستمرار الكائنات ذات مساحة البكسل الأصغر التي غالبًا ما تفوتها البنى القديمة، بما في ذلك DAMO-YOLO.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLO26 و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLO26
YOLO26 هو خيار قوي لـ:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
متى تختار DAMO-YOLO
يوصى بـ DAMO-YOLO لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.
الخلاصة
بينماYOLO دراسة رائعة في قدرات البحث عن البنية العصبية لأهداف أجهزة محددة، فإن Ultralytics يمثل الحل المتفوق والشامل لممارسي الذكاء الاصطناعي المعاصرين. بفضل بنيته الشاملة NMS ومتطلبات الذاكرة المنخفضة بشكل ملحوظ، ومحسن MuSGD الهجين، ونظام بيئي يتم صيانته بشكل لا تشوبه شائبة، يتيح YOLO26 للمطورين إنشاء ونشر أنظمة رؤية متطورة بشكل أسرع وأكثر موثوقية من أي وقت مضى.