YOLOX مقابل YOLOv6-3.0: دليل شامل لاكتشاف الأشياء بدون مرساة وللأغراض الصناعية

لقد تم تحديد تطور الرؤية الحاسوبية إلى حد كبير من خلال التقدم السريع في سلسلة YOLO. غالباً ما يتلخص اختيار البنية المناسبة للنشر الخاص بك في الموازنة بين الإنتاجية الخام، وبساطة البنية، وكفاءة التدريب. هناك علامتان فارقتان في هذه الرحلة هما التركيز البحثي على التصميم بدون مرساة في YOLOX والإنتاجية الصناعية عالية التحسين في YOLOv6-3.0.

تستعرض هذه المقارنة التقنية اختلافات البنية، ومقاييس الأداء، وحالات الاستخدام المثالية، مع تقديم إمكانات الجيل التالي من Ultralytics YOLO26 للمطورين الذين يبحثون عن الحل الأمثل للنشر على الحافة وفي السحابة.

YOLOX: سد الفجوة بين البحث والصناعة

تم تطوير YOLOX بواسطة باحثين في Megvii، وتم تقديمه كتحول كبير نحو تبسيط بنية YOLO بجعلها خالية تماماً من المراسي (anchor-free).

  • المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، Jian Sun
  • المنظمة: Megvii
  • التاريخ: 2021-07-18
  • Arxiv: 2107.08430
  • GitHub: Megvii-BaseDetection/YOLOX

أبرز الخصائص المعمارية

نجحت YOLOX في دمج تصميم خالٍ من المراسي في عائلة YOLO. من خلال التخلص من صناديق المراسي المحددة مسبقاً، يقلل النموذج بشكل كبير من عدد معاملات التصميم والضبط التجريبي المطلوب أثناء التدريب. وهذا يجعل YOLOX قابلاً للتكيف بشكل كبير مع مجموعات بيانات مخصصة ومتنوعة دون الحاجة إلى إعادة حساب المراسي يدوياً.

علاوة على ذلك، قدمت YOLOX بنية رأس مفككة. فمن خلال فصل مهام التصنيف والانحدار إلى فروع مختلفة، يحل النموذج الصراع المتأصل بين تحديد ما هو الكائن وأين يقع. وبالاقتران مع استراتيجية تعيين التسميات SimOTA، تحقق YOLOX تقارباً أسرع وتحسناً في متوسط دقة الدقة (mAP).

تعرف على المزيد حول YOLOX

ميزة الخلو من المراسٍ

غالباً ما تعمل الكاشفات الخالية من المراسي مثل YOLOX بشكل أفضل على مجموعات البيانات المخصصة ذات نسب العرض إلى الارتفاع غير المعتادة للأشياء لأنها لا تعتمد على أولويات صناديق التحديد الثابتة التي قد لا تتطابق مع البيانات الجديدة.

YOLOv6-3.0: الوزن الثقيل الصناعي

تم تطوير YOLOv6-3.0 بواسطة قسم الرؤية بالذكاء الاصطناعي في Meituan، وقد تم تصميمه دون أي تهاون لتحقيق أقصى إنتاجية صناعية، لا سيما على وحدات معالجة الرسومات NVIDIA باستخدام مسرعات الأجهزة مثل TensorRT.

  • المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, وآخرون.
  • المؤسسة: Meituan
  • التاريخ: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

التحسين للنشر

يركز YOLOv6-3.0 على زيادة استخدام GPU إلى أقصى حد. وهو يقدم وحدة ربط ثنائية الاتجاه (BiC) في العنق لتعزيز دمج الميزات مع الحفاظ على سرعات استنتاج عالية. وبينما تكون مرحلة الاستنتاج خالية تماماً من المراسي، يستخدم YOLOv6-3.0 استراتيجية مبتكرة للتدريب بمساعدة المراسي (AAT) للاستفادة من استقرار التصميم المعتمد على المراسي أثناء مرحلة التدريب.

تم بناء العمود الفقري باستخدام بنية EfficientRep الصديقة للأجهزة، والتي صُممت عمداً لتقليل تكاليف الوصول إلى الذاكرة وتعظيم كثافة الحوسبة على المسرعات الحديثة. وهذا يجعل YOLOv6 مرشحاً قوياً بشكل استثنائي لتحليلات الفيديو من جانب الخادم.

اعرف المزيد عن YOLOv6

مقارنة الأداء

عند مقارنة هذه النماذج، يجب على المطورين الموازنة بين الدقة الخام وسرعة الاستنتاج وعدد المعلمات. يسلط الجدول التالي الضوء على أداء كلتا عائلتي النماذج عبر أحجام مختلفة.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

بينما يُظهر YOLOv6-3.0 دقة mAP متفوقة وسرعات TensorRT ممتازة للمتغيرات الأكبر، تظل YOLOX تنافسية للغاية نظراً لبساطتها وأدائها القوي على الأجهزة القديمة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOX وYOLOv6 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOX

يعد YOLOX خياراً قوياً لـ:

  • أبحاث الاكتشاف الخالي من المراسي: البحث الأكاديمي الذي يستخدم بنية YOLOX النظيفة والخالية من المراسي كقاعدة لتجربة رؤوس اكتشاف جديدة أو دوال خسارة (loss functions).
  • أجهزة الحافة خفيفة الوزن للغاية: النشر على وحدات التحكم الدقيقة أو أجهزة الهاتف المحمول القديمة حيث يعد البصمة الصغيرة جداً لمتغير YOLOX-Nano (0.91M معامل) أمراً بالغ الأهمية.
  • دراسات تعيين التسميات SimOTA: المشاريع البحثية التي تبحث في استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.

متى تختار YOLOv6

يوصى بـ YOLOv6 لـ:

  • النشر المدرك للأجهزة الصناعية: السيناريوهات التي يوفر فيها التصميم المدرك للأجهزة وإعادة المعلمات الفعالة للنموذج أداءً محسناً على أجهزة مستهدفة محددة.
  • الاكتشاف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستنتاج الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
  • تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن كومة تقنيات Meituan وبنية النشر التحتية الخاصة بها.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics

بينما توفر كل من Megvii وMeituan مستودعات بحثية قوية، فإن نشر هذه النماذج في الإنتاج غالباً ما يتطلب عبئاً هندسياً كبيراً. يلغي نظام Ultralytics البيئي هذه العقبات من خلال تقديم واجهة برمجة تطبيقات موحدة وموثقة بشكل موسع.

من خلال الاستفادة من حزمة Ultralytics، يحصل المطورون على تجربة مستخدم لا مثيل لها. ويشمل ذلك التوسيع التلقائي المدمج، وإدارة فعالة للغاية للذاكرة أثناء التدريب (مما يقلل بشكل كبير من متطلبات VRAM مقارنة بنماذج المحولات مثل RTDETR)، وخطوط تصدير سلسة إلى تنسيقات مثل ONNX وOpenVINO.

على عكس النماذج المتخصصة، تتميز بنيات Ultralytics بتعدد الاستخدامات بطبيعتها، حيث تدعم اكتشاف الأشياء، وتجزئة المثيلات، وتقدير الوضعية، وتصنيف الصور، وصناديق التحديد الموجهة (OBB) بشكل جاهز.

نقدم YOLO26: الحل الأمثل للحافة

بالنسبة للفرق التي تبدأ مشاريع رؤية حاسوبية جديدة، نوصي بشدة بالترقية إلى Ultralytics YOLO26 الذي تم إصداره حديثاً. بناءً على نجاحات YOLO11 وYOLOv8، يقدم YOLO26 ابتكارات تغير النماذج الفكرية:

  • End-to-End NMS-Free Design: First explored in YOLOv10, YOLO26 natively eliminates the need for Non-Maximum Suppression (NMS) post-processing. This guarantees deterministic, ultra-low latency inference critical for real-time robotics.
  • مُحسِّن MuSGD: مستوحى من تقنيات تدريب النماذج اللغوية الكبيرة مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مُحسِّن MuSGD (هجين من SGD وMuon) لتحقيق ديناميكيات تدريب مستقرة بشكل لا يصدق وتقارب أسرع.
  • Up to 43% Faster CPU Inference: By removing Distribution Focal Loss (DFL) and streamlining the network head, YOLO26 is heavily optimized for edge devices relying on CPU execution, drastically outperforming YOLOv6 in edge scenarios.
  • ProgLoss + STAL: These advanced loss formulations deliver remarkable improvements in small object detection, making YOLO26 ideal for aerial imagery and microscopic defect inspection.

اعرف المزيد عن YOLO26

مثال تدريب موحد

باستخدام واجهة برمجة تطبيقات Python من Ultralytics، يتطلب تدريب أحدث النماذج بضعة أسطر فقط من التعليمات البرمجية. تنطبق نفس الواجهة النظيفة سواء كنت تختبر نموذج YOLO قديماً أو تنشر إطار عمل YOLO26 المتطور.

from ultralytics import YOLO

# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment
model.export(format="onnx")
منصة Ultralytics

للحصول على تجربة أكثر سلاسة، قم بإدارة مجموعات البيانات الخاصة بك، وتتبع التجارب، وتدريب النماذج في السحابة باستخدام منصة Ultralytics التي لا تتطلب كتابة تعليمات برمجية.

توصيات حالات الاستخدام

عند اتخاذ قرار بشأن هذه البنيات، ضع في اعتبارك قيود الأجهزة ومتطلبات المشروع الخاصة بك:

  • اختر YOLOX إذا كنت تجري أبحاثاً أكاديمية حول استراتيجيات تعيين التسميات أو تحتاج إلى أساس نقي وسهل الفهم بدون مرساة للتعديلات الهيكلية المخصصة.
  • اختر YOLOv6-3.0 إذا كنت تنشر على خادم صناعي مزود بوحدات معالجة رسومات NVIDIA عالية الأداء (مثل A100 أو T4) حيث يمكنك استخدام أحجام دفعات كبيرة وتحسينات TensorRT لمعالجة مئات تدفقات الفيديو في وقت واحد.
  • Choose YOLO26 for the vast majority of modern applications. If you are building Edge AI applications for IoT devices, drones, or mobile phones, YOLO26's native NMS-free design, CPU optimizations, and comprehensive ecosystem support make it the undisputed best choice for bridging the gap between training and production.

التعليقات