تخطي إلى المحتوى

YOLOX مقابل YOLOv6.0: دليل شامل لاكتشاف الأجسام الصناعية بدون مرساة

لقد تم تحديد تطور الرؤية الحاسوبية إلى حد كبير من خلال التقدم السريع في YOLO . غالبًا ما يتعلق اختيار البنية المناسبة لنشر التطبيق بتحقيق التوازن بين الإنتاجية الأولية وبساطة البنية وكفاءة التدريب. ومن المعالم البارزة في هذه الرحلة التركيز على الأبحاث الخالية من المراسي في YOLOX والإنتاجية الصناعية عالية التحسين في YOLOv6. YOLOv6.

تحلل هذه المقارنة الفنية الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية، مع تقديم إمكانات الجيل التالي من Ultralytics للمطورين الباحثين عن الحل الأمثل لنشر الحوسبة السحابية.

YOLOX: سد الفجوة بين البحث والصناعة

تم تطوير YOLOX من قبل باحثين في Megvii، وقد تم تقديمه باعتباره تحولًا كبيرًا نحو تبسيط YOLO من خلال جعلها خالية تمامًا من المراسي.

أبرز الملامح المعمارية

نجحت YOLOX في دمج تصميم بدون مرساة في YOLO . من خلال التخلص من مربعات المرساة المحددة مسبقًا، يقلل النموذج بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب أثناء التدريب. وهذا يجعل YOLOX قابلة للتكيف بدرجة كبيرة مع مجموعات البيانات المخصصة المتنوعة دون الحاجة إلى إعادة حساب المرساة يدويًا.

علاوة على ذلك، أدخل YOLOX بنية رأس منفصلة. من خلال فصل مهام التصنيف والانحدار إلى فروع مختلفة، يحل النموذج التضارب الكامن بين تحديد ماهية الكائن وموقعه. بالاقتران مع استراتيجية تعيين التسميات SimOTA، يحقق YOLOX تقاربًا أسرع ودقة متوسطة محسنة (mAP).

تعرف على المزيد حول YOLOX

ميزة بلا مرساة

غالبًا ما تعمل الكاشفات الخالية من المرساة مثل YOLOX بشكل أفضل على مجموعات البيانات المخصصة ذات نسب أبعاد الكائنات غير العادية لأنها لا تعتمد على أولويات مربعات الإحاطة الثابتة التي قد لا تتطابق مع البيانات الجديدة.

YOLOv6-3.0: العملاق الصناعي

تم تطوير YOLOv6. YOLOv6 بواسطة قسم Vision AI في Meituan، وهو مصمم خصيصًا لتحقيق أقصى إنتاجية صناعية، لا سيما على NVIDIA التي تستخدم مسرعات الأجهزة مثل TensorRT.

  • المؤلفون: تشوي لي، لولو لي، ييفي جينغ، وآخرون.
  • المنظمة: ميتوان
  • التاريخ: 2023-01-13
  • أرخايف:2301.05586
  • GitHub:meituan/YOLOv6

التحسين من أجل النشر

يركز YOLOv6.0 على تعظيم GPU . ويقدم وحدة تسلسل ثنائي الاتجاه (BiC) في العنق لتحسين دمج الميزات مع الحفاظ على سرعات استدلال عالية. في حين أن مرحلة الاستدلال خالية تمامًا من المراسي، يستخدم YOLOv6. YOLOv6 استراتيجية تدريب مبتكرة بمساعدة المراسي (AAT) للاستفادة من الاستقرار القائم على المراسي خلال مرحلة التدريب.

تم تصميم الهيكل الأساسي باستخدام بنية EfficientRep الملائمة للأجهزة، والتي صممت خصيصًا لتقليل تكاليف الوصول إلى الذاكرة وزيادة الكثافة الحسابية على المعجلات الحديثة. وهذا يجعل YOLOv6 قويًا بشكل استثنائي لتحليلات الفيديو من جانب الخادم.

تعرف على المزيد حول YOLOv6

مقارنة الأداء

عند مقارنة هذه النماذج، يجب على المطورين الموازنة بين الدقة الأولية وسرعة الاستدلال وعدد المعلمات. يوضح الجدول التالي أداء كلتا عائلتي النماذج عبر أحجام مختلفة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

بينما يُظهر YOLOv6. YOLOv6 أداءً فائقًا mAP TensorRT ممتازة للمتغيرات الأكبر حجمًا، يظل YOLOX منافسًا قويًا بفضل بساطته وأدائه القوي على الأجهزة القديمة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOX و YOLOv6 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOX

YOLOX هو خيار قوي لـ:

  • أبحاث الكشف الخالي من المراسي: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
  • أجهزة الحافة خفيفة الوزن للغاية: النشر على المتحكمات الدقيقة أو الأجهزة المحمولة القديمة حيث تعتبر البصمة الصغيرة للغاية لمتغير YOLOX-Nano (0.91 مليون معلمة) أمرًا بالغ الأهمية.
  • دراسات تعيين التسميات SimOTA: مشاريع بحثية تستكشف استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.

متى تختار YOLOv6

YOLOv6 في الحالات التالية:

  • النشر الصناعي المدرك للأجهزة: سيناريوهات حيث يوفر تصميم النموذج المدرك للأجهزة وإعادة التكوين الفعالة أداءً محسنًا على أجهزة مستهدفة محددة.
  • detect سريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
  • تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن مكدس تقنية Meituan والبنية التحتية للنشر.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
  • بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

ميزة Ultralytics

في حين أن كل من Megvii و Meituan يوفران مستودعات بحثية قوية، فإن نشر هذه النماذج في الإنتاج غالبًا ما يتطلب تكاليف هندسية كبيرة. يعمل Ultralytics المتكامل Ultralytics على التغلب على هذه العقبات من خلال توفير واجهة برمجة تطبيقات موحدة وموثقة بشكل شامل.

بالاستفادة من حزمة Ultralytics، يكتسب المطورون وصولاً إلى تجربة مستخدم لا مثيل لها. يتضمن ذلك التعزيز التلقائي (auto-augmentation) المدمج، وإدارة الذاكرة عالية الكفاءة أثناء التدريب (مما يقلل بشكل كبير من متطلبات VRAM مقارنة بنماذج المحولات مثل RTDETR)، ومسارات تصدير سلسة إلى تنسيقات مثل ONNX و OpenVINO.

على عكس النماذج المتخصصة، تتميز Ultralytics بتنوعها المتأصل، حيث تدعم اكتشاف الكائنات، وتقسيم الحالات، وتقدير الوضع، وتصنيف الصور، والمربعات المحددة الموجهة (OBB) بشكل فوري.

أدخل YOLO26: الحل الأمثل للحافة

بالنسبة للفرق التي تبدأ مشاريع جديدة في مجال الرؤية الحاسوبية، نوصي بشدة بالترقية إلى Ultralytics الذي تم إصداره مؤخرًا. بناءً على نجاحات YOLO11 و YOLOv8، يقدم YOLO26 ابتكارات تغير النموذج:

  • تصميم خالٍ من NMS وشامل: تم استكشافه لأول مرة في YOLOv10، يلغي YOLO26 بشكل طبيعي الحاجة إلى معالجة قمع غير الحد الأقصى (NMS) اللاحقة. هذا يضمن استدلالًا محددًا ومنخفض زمن الانتقال للغاية وهو أمر بالغ الأهمية للروبوتات في الوقت الفعلي.
  • مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مُحسِّن MuSGD (وهو هجين من SGD و Muon) لتحقيق ديناميكيات تدريب مستقرة بشكل لا يصدق وتقارب أسرع.
  • سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%: عن طريق إزالة Distribution Focal Loss (DFL) وتبسيط رأس الشبكة، تم تحسين YOLO26 بشكل كبير للأجهزة الطرفية التي تعتمد على تنفيذ CPU، متفوقًا بشكل كبير على YOLOv6 في السيناريوهات الطرفية.
  • ProgLoss + STAL: تقدم صيغ الخسارة المتقدمة هذه تحسينات رائعة في اكتشاف الأجسام الصغيرة، مما يجعل YOLO26 مثاليًا للتصوير الجوي وفحص العيوب المجهرية.

تعرف على المزيد حول YOLO26

مثال على التدريب الموحد

باستخدامPython لا يتطلب تدريب النماذج المتطورة سوى بضع أسطر من التعليمات البرمجية. تنطبق هذه الواجهة البسيطة نفسها سواء كنت تختبر YOLO قديم أو تنشر إطار عمل YOLO26 المتطور.

from ultralytics import YOLO

# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment
model.export(format="onnx")

منصة Ultralytics

للحصول على تجربة أكثر سلاسة، قم بإدارة مجموعات البيانات الخاصة بك، track وتدريب النماذج في السحابة باستخدام Ultralytics التي لا تتطلب كتابة أي أكواد برمجية.

توصيات حالات الاستخدام

عند الاختيار بين هذه البنى، ضع في اعتبارك قيود الأجهزة الخاصة بك ومتطلبات المشروع:

  • اختر YOLOX إذا كنت تجري بحثًا أكاديميًا حول استراتيجيات تعيين التسميات أو تتطلب خط أساس نقيًا وسهل الفهم خالٍ من الارتساء لتعديلات معمارية مخصصة.
  • اختر YOLOv6-3.0 إذا كنت تقوم بالنشر على رف خادم صناعي مزود بوحدات معالجة الرسوميات (GPUs) عالية الأداء من NVIDIA (مثل A100 أو T4) حيث يمكنك الاستفادة من أحجام الدُفعات الكبيرة وتحسينات TensorRT لمعالجة مئات تدفقات الفيديو في وقت واحد.
  • اختر YOLO26 للغالبية العظمى من التطبيقات الحديثة. إذا كنت تبني تطبيقات الذكاء الاصطناعي الحافي (Edge AI) لأجهزة إنترنت الأشياء (IoT)، أو الطائرات بدون طيار، أو الهواتف المحمولة، فإن تصميم YOLO26 الأصلي الخالي من NMS، وتحسينات CPU، ودعم النظام البيئي الشامل يجعله الخيار الأفضل بلا منازع لسد الفجوة بين التدريب والإنتاج.

تعليقات