تخطي إلى المحتوى

YOLO12: الكشف عن الكائنات التي تركز على الانتباه

لمحة عامة

يقدم نموذج YOLO12 بنية تتمحور حول الانتباه تبتعد عن الأساليب التقليدية القائمة على شبكة CNN المستخدمة في نماذج YOLO السابقة، ومع ذلك يحتفظ بسرعة الاستدلال في الوقت الحقيقي الضرورية للعديد من التطبيقات. يحقق هذا النموذج دقة فائقة في الكشف عن الأجسام من خلال ابتكارات منهجية جديدة في آليات الانتباه والبنية الشاملة للشبكة، مع الحفاظ على الأداء في الوقت الحقيقي.



شاهد: كيفية استخدام YOLO12 للكشف عن الكائنات باستخدام حزمة Ultralytics | هل YOLO12 سريع أم بطيء؟ 🚀

الميزات الرئيسية

  • آلية انتباه المنطقة: نهج جديد للانتباه الذاتي يعالج الحقول الاستقبالية الكبيرة بكفاءة. يقسم خرائط الميزات إلى مناطق متساوية الحجم (افتراضيًا إلى 4)، إما أفقيًا أو رأسيًا، مما يؤدي إلى تجنب العمليات المعقدة والحفاظ على مجال استقبالي كبير فعال. يقلل هذا الأمر من التكلفة الحسابية بشكل كبير مقارنةً بالاستقبال الذاتي القياسي.
  • شبكات تجميع الطبقات ذات الكفاءة المتبقية (R-ELAN): وحدة تجميع محسّنة للميزات تعتمد على ELAN، مصممة لمعالجة تحديات التحسين، خاصةً في النماذج التي تركز على الانتباه على نطاق أوسع. تقدم R-ELAN:
    • الاتصالات المتبقية على مستوى الكتلة مع التحجيم (على غرار تحجيم الطبقة).
    • طريقة تجميع الميزات المعاد تصميمها لإنشاء بنية تشبه عنق الزجاجة.
  • بنية الانتباه الأمثل: يعمل YOLO12 على تبسيط آلية الانتباه القياسية لزيادة الكفاءة والتوافق مع إطار عمل YOLO . وهذا يشمل:
    • استخدام FlashAttention لتقليل الحمل الزائد للوصول إلى الذاكرة.
    • إزالة الترميز الموضعي للحصول على نموذج أنظف وأسرع.
    • تعديل نسبة MLP (من 4 إلى 1.2 أو 1.2 أو 2) لتحقيق توازن أفضل في الحساب بين طبقات الانتباه والتغذية الأمامية.
    • تقليل عمق الكتل المكدسة لتحسين التحسين.
    • الاستفادة من عمليات الالتفاف (عند الاقتضاء) لكفاءتها الحسابية.
    • إضافة التفاف 7 × 7 قابل للفصل ("مدرك الموضع") إلى آلية الانتباه لتشفير المعلومات الموضعية ضمنيًا.
  • دعم شامل للمهام: يدعم YOLO12 مجموعة من مهام الرؤية الحاسوبية الأساسية: اكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB).
  • كفاءة محسّنة: يحقق دقة أعلى مع عدد أقل من المعلمات مقارنةً بالعديد من النماذج السابقة، مما يدل على تحسين التوازن بين السرعة والدقة.
  • نشر مرن: مصممة للنشر عبر منصات متنوعة، من الأجهزة المتطورة إلى البنية التحتية السحابية.

تصور المقارنة بين YOLO12

المهام والأوضاع المدعومة

يدعم YOLO12 مجموعة متنوعة من مهام الرؤية الحاسوبية. يوضح الجدول أدناه دعم المهام والأوضاع التشغيلية (الاستدلال والتحقق من الصحة والتدريب والتصدير) الممكّنة لكل منها:

نوع الموديل المهمة الاستدلال التحقق من الصحة التدريب التصدير
يولو 12 الكشف
YOLO12-سيج التقسيم
YOLO12-وضعية YOLO12 الوضعية
YOLO12-cls التصنيف
YOLO12-obb OBB

مقاييس الأداء

يُظهر YOLO12 تحسينات كبيرة في الدقة في جميع نطاقات النموذج، مع بعض المفاضلة في السرعة مقارنةً بأسرع نماذج YOLO السابقة. فيما يلي النتائج الكمية لاكتشاف الأجسام على مجموعة بيانات التحقق من صحة COCO:

أداء الاكتشاف (COCO val2017)

الأداء

الطراز الحجم
(بكسل)
مافال
50-95
السرعة
CPU ONNX
(مللي ثانية)
السرعة
T4 T4 TensorRT
(مللي ثانية)
بارامز
(م)

(ب)
المقارنة
(mAP/Speed)
يولو 12 ن 640 40.6 - 1.64 2.6 6.5 +2.1%/-9% (مقابل YOLOv10n)
YOLO12s 640 48.0 - 2.61 9.3 21.4 + 0.1%/+42% (مقابل RT-DETRv2)
يولو12م 640 52.5 - 4.86 20.2 67.5 +1.0٪ / 3٪ (مقابل YOLO11 م)
YOLO12l 640 53.7 - 6.77 26.4 88.9 + 0.4%/ 8% (مقابل YOLO11l)
YOLO12x 640 55.2 - 11.79 59.1 199.0 + 0.6%/-4% (مقابل YOLO11x)
  • تم قياس سرعة الاستدلال على GPU NVIDIA T4 مع دقة TensorRT FP16.
  • تُظهر المقارنات التحسن النسبي في mAP والنسبة المئوية للتغير في السرعة (موجب يشير إلى سرعة أكبر؛ وسالب يشير إلى بطء). تُجرى المقارنات مع النتائج المنشورة ل YOLOv10 و YOLO11 و RT-DETR حيثما كان ذلك متاحًا.

أمثلة على الاستخدام

يقدم هذا القسم أمثلة للتدريب والاستدلال باستخدام YOLO12. لمزيد من الوثائق الشاملة حول هذه الأوضاع وغيرها من الأوضاع (بما في ذلك التحقق من الصحة والتصدير)، راجع الصفحات المخصصة للتنبؤ والتدريب.

تركز الأمثلة أدناه على نماذج YOLO12 Detect (لاكتشاف الأجسام). بالنسبة للمهام الأخرى المدعومة (التجزئة، والتصنيف، والكشف عن الأجسام الموجهة، وتقدير الوضعية)، راجع الوثائق الخاصة بالمهام المعنية: التجزئة، والتصنيف، و OBB، والوضعية.

مثال على ذلك

التدريب المسبق *.pt النماذج (باستخدام PyTorch) والتكوين *.yaml يمكن تمرير الملفات إلى YOLO() لإنشاء مثيل للنموذج في Python:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

تتوفر أيضاً أوامر واجهة سطر الأوامرCLI:

# Load a COCO-pretrained YOLO12n model and train on the COCO8 example dataset for 100 epochs
yolo train model=yolo12n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO12n model and run inference on the 'bus.jpg' image
yolo predict model=yolo12n.pt source=path/to/bus.jpg

التحسينات الرئيسية

  1. استخراج الميزات المحسّنة:

    • الانتباه للمساحة: تتعامل بكفاءة مع مجالات الاستقبال الكبيرة، مما يقلل من التكلفة الحسابية.
    • التوازن الأمثل: تحسين التوازن بين الانتباه وحسابات شبكة التغذية الأمامية.
    • R-ELAN: يعزز تجميع الميزات باستخدام بنية R-ELAN.
  2. ابتكارات التحسين:

    • الروابط المتبقية: يقدم اتصالات متبقية مع التحجيم لتثبيت التدريب، خاصةً في النماذج الأكبر حجمًا.
    • تكامل الميزات المحسّن: ينفذ طريقة محسنة لتكامل الميزات داخل R-ELAN.
    • انتباه الفلاش: يدمج FlashAttention لتقليل النفقات الزائدة للوصول إلى الذاكرة.
  3. الكفاءة المعمارية:

    • معلمات مخفضة: يحقق عدد معلمات أقل مع الحفاظ على الدقة أو تحسينها مقارنةً بالعديد من النماذج السابقة.
    • انتباه مبسط: يستخدم تطبيق انتباه مبسط، مع تجنب الترميز الموضعي.
    • نسب MLP المحسّنة: ضبط نسب MLP لتخصيص الموارد الحاسوبية بشكل أكثر فعالية.

المتطلبات

لا يتطلب تطبيق Ultralytics YOLO12، بشكل افتراضي، FlashAttention. ومع ذلك، يمكن تجميع FlashAttention اختياريًا واستخدامه مع YOLO12. لتجميع FlashAttention، يلزم توفر إحدى وحدات معالجة الرسومات NVIDIA التالية:

الاستشهادات والشكر والتقدير

إذا كنت تستخدم YOLO12 في بحثك، يُرجى الاستشهاد بالعمل الأصلي لجامعة بافالو وجامعة الأكاديمية الصينية للعلوم:

@article{tian2025yolov12,
  title={YOLOv12: Attention-Centric Real-Time Object Detectors},
  author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
  journal={arXiv preprint arXiv:2502.12524},
  year={2025}
}

@software{yolo12,
  author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
  title = {YOLOv12: Attention-Centric Real-Time Object Detectors},
  year = {2025},
  url = {https://github.com/sunsmarterjie/yolov12},
  license = {AGPL-3.0}
}

الأسئلة الشائعة

كيف يحقق YOLO12 اكتشاف الأجسام في الوقت الفعلي مع الحفاظ على دقة عالية؟

يتضمن YOLO12 العديد من الابتكارات الرئيسية لتحقيق التوازن بين السرعة والدقة. تعالج آلية انتباه المنطقة مجالات الاستقبال الكبيرة بكفاءة، مما يقلل من التكلفة الحسابية مقارنةً بالانتباه الذاتي القياسي. تعمل شبكات تجميع الطبقات المتبقية ذات الكفاءة المتبقية (R-ELAN) على تحسين تجميع الميزات، ومعالجة تحديات التحسين في النماذج الأكبر المتمحورة حول الانتباه. تعمل بنية الانتباه المُحسّنة، بما في ذلك استخدام خاصية FlashAttention وإزالة الترميز الموضعي، على تعزيز الكفاءة. تسمح هذه الميزات لـ YOLO12 بتحقيق دقة فائقة مع الحفاظ على سرعة الاستدلال في الوقت الحقيقي الضرورية للعديد من التطبيقات.

ما هي مهام الرؤية الحاسوبية التي يدعمها YOLO12؟

YOLO12 هو نموذج متعدد الاستخدامات يدعم مجموعة واسعة من مهام الرؤية الحاسوبية الأساسية. فهو يتفوق في اكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور، وتقدير الوضع، واكتشاف الأجسام الموجهة (OBB)(انظر التفاصيل). يجعل هذا الدعم الشامل للمهام من YOLO12 أداة قوية لتطبيقات متنوعة، بدءًا من الروبوتات والقيادة الذاتية إلى التصوير الطبي والفحص الصناعي. يمكن تنفيذ كل مهمة من هذه المهام في أوضاع الاستدلال والتحقق من الصحة والتدريب والتصدير.

كيف يمكن مقارنة YOLO12 بطرازات YOLO الأخرى والمنافسين مثل RT-DETR

يُظهر YOLO12 تحسينات كبيرة في الدقة عبر جميع مقاييس النموذج مقارنةً بنماذج YOLO و YOLOv11 السابقة، مع بعض المفاضلة في السرعة مقارنةً بأسرع النماذج السابقة. على سبيل المثال، يحقق نموذج YOLO12n تحسنًا بنسبة +2.1% في دقة النماذج على YOLOv10n و +1.2% على YOLOv11n على مجموعة بيانات COCO val2017. مقارنةً بنماذج مثل RT-DETRيوفر YOLO12s تحسّنًا بنسبة +1.5% في خريطة المسافة المقطوعة وزيادة كبيرة في السرعة بنسبة 42%. تُبرز هذه المقاييس توازن YOLO12 القوي بين الدقة والكفاءة. راجع قسم مقاييس الأداء للاطلاع على مقارنات مفصلة.

ما هي متطلبات الأجهزة لتشغيل YOLO12، خاصةً لاستخدام FlashAttention؟

بشكل افتراضي، لا يتطلب تطبيق Ultralytics YOLO12 تطبيق FlashAttention. ومع ذلك، يمكن تجميع FlashAttention اختياريًا واستخدامه مع YOLO12 لتقليل نفقات الوصول إلى الذاكرة. لتجميع FlashAttention، يلزم وجود إحدى وحدات معالجة الرسومات NVIDIA GPU التالية: وحدات معالجة الرسومات Turing (على سبيل المثال T4 وسلسلة Quadro RTX) أو وحدات معالجة الرسومات Ampere (على سبيل المثال سلسلة RTX30 وA30/40/100) أو وحدات معالجة الرسومات Ada Lovelace (على سبيل المثال سلسلة RTX40) أو وحدات معالجة الرسومات Hopper (على سبيل المثال H100/H200). تتيح هذه المرونة للمستخدمين الاستفادة من مزايا FlashAttention عندما تسمح موارد الأجهزة بذلك.

أين يمكنني العثور على أمثلة استخدام ووثائق أكثر تفصيلاً ل YOLO12؟

توفر هذه الصفحة أمثلة استخدام أساسية للتدريب والاستدلال. للحصول على وثائق شاملة حول هذه الأوضاع وغيرها، بما في ذلك التحقق من الصحة والتصدير، راجع الصفحات المخصصة للتنبؤ والتدريب. للحصول على معلومات خاصة بمهمة محددة (التجزئة، والتصنيف، والكشف عن الأجسام الموجهة، وتقدير الوضعية)، راجع الوثائق الخاصة بكل منها: التجزئة، والتصنيف، وOBB، والوضعية. توفر هذه الموارد إرشادات متعمقة لاستخدام YOLO12 بفعالية في سيناريوهات مختلفة.

📅 تم الإنشاء منذ 24 يومًا ✏️ تم التحديث منذ 18 يومًا

التعليقات