Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 مقابل RTDETRv2: تحليل تقني متعمق في الكشف الحديث عن الكائنات#

شهد مشهد الكشف عن الكائنات في الوقت الفعلي تحولاً جذرياً في السنوات الأخيرة. وقد ظهرت فلسفتان معماريتان متميزتان للسيطرة على هذا المجال: الشبكات العصبية التلافيفية (CNNs) عالية التحسين، ومحولات الكشف (DETRs) التي تعمل في الوقت الفعلي. وتمثل YOLOv9 و RTDETRv2 قمة هذين النهجين.

يقارن هذا الدليل الشامل بين هذين النموذجين القويين، ويحلل ابتكاراتهما المعمارية، ومقاييس الأداء، وسيناريوهات النشر المثالية لمساعدتك في اختيار النموذج المناسب لخط أنابيب رؤية الحاسوب الخاص بك.

Link to this sectionملخص تنفيذي#

يحقق كلا النموذجين نتائج متطورة، لكنهما يلبيان قيود نشر وبيئات تطوير مختلفة قليلاً.

  • اختر YOLOv9 إذا كنت: تحتاج إلى استخدام فعال للغاية للمعاملات واستدلال سريع على أجهزة الحافة. تدفع YOLOv9 الحدود النظرية لكفاءة CNN، مما يجعلها مثالية للبيئات التي تكون فيها الموارد الحسابية محدودة للغاية.
  • اختر RTDETRv2 إذا كنت: تحتاج إلى فهم السياق الدقيق الذي توفره المحولات (Transformers)، خاصة في المشاهد التي تحتوي على انسداد شديد أو علاقات معقدة بين الكائنات، وكان لديك العتاد اللازم لدعم معمارية أثقل قليلاً.
  • اختر YOLO26 (موصى به) إذا كنت: تريد الجمع بين أفضل ما في العالمين. بصفتها أحدث جيل متاح على منصة Ultralytics، تتميز YOLO26 بتصميم End-to-End NMS-Free أصلي (مشابه لنماذج DETR ولكن أسرع بكثير)، مما يزيل اختناقات المعالجة اللاحقة ويوفر استدلالاً على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43% مقارنة بالأجيال السابقة.

Link to this sectionالمواصفات الفنية والتأليف#

يوفر فهم أصول هذه النماذج وهدف تصميمها سياقاً حاسماً لخياراتها المعمارية.

Link to this sectionYOLOv9#

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

اعرف المزيد عن YOLOv9

Link to this sectionRTDETRv2#

المؤلفون: Wenyu Lv و Yian Zhao و Qinyao Chang و Kui Huang و Guanzhong Wang و Yi Liu
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

تعرف على المزيد حول RTDETR

Link to this sectionالابتكارات المعمارية#

Link to this sectionYOLOv9: حل اختناق المعلومات#

يقدم Ultralytics YOLOv9 ابتكارين رئيسيين مصممين لمعالجة فقدان المعلومات أثناء مرور البيانات عبر الشبكات العصبية العميقة:

  1. معلومات التدرج القابلة للبرمجة (PGI): يضمن إطار الإشراف المساعد هذا توليد تدرجات موثوقة لتحديث أوزان الشبكة، مما يحافظ على معلومات الميزات الحاسمة حتى في طبقات الشبكة العميقة جداً.
  2. شبكة تجميع الطبقات الفعالة المعممة (GELAN): معمارية جديدة تجمع بين نقاط قوة CSPNet و ELAN. تعمل GELAN على تحسين كفاءة المعاملات، مما يسمح لـ YOLOv9 بتحقيق دقة أعلى مع عدد أقل من FLOPs مقارنة بـ CNNs التقليدية.

Link to this sectionRTDETRv2: تحسين المحولات في الوقت الفعلي#

بناءً على نجاح RT-DETR الأصلي، يستخدم RTDETRv2 معمارية قائمة على المحولات تتجنب بطبيعتها الحاجة إلى كبت غير الحد الأقصى (NMS). تشمل تحسيناتها:

  1. استراتيجية حقيبة الهدايا (Bag-of-Freebies): تتضمن نسخة v2 تقنيات تدريب متقدمة وتعزيزات بيانات تعزز الدقة بشكل كبير دون إضافة أي عبء على زمن استجابة الاستدلال.
  2. المشفر الهجين الفعال: من خلال معالجة الميزات متعددة النطاقات عبر آلية انتباه مفصولة داخل النطاق وعبر النطاقات، يدير RTDETRv2 بكفاءة التكلفة الحسابية العالية التقليدية لمحولات الرؤية (Vision Transformers).
الكشف الأصلي من النهاية إلى النهاية (End-to-End)

بينما يستفيد RTDETRv2 من المحولات للكشف بدون NMS، تحقق معمارية YOLO26 الجديدة ذلك أصلاً ضمن هيكل CNN عالي التحسين، مما يوفر نفس النشر المبسط ولكن بسرعات استدلال على الحافة متفوقة بشكل كبير.

Link to this sectionمقارنة الأداء#

عند تقييم النماذج للإنتاج، يعد المقايضة بين الدقة والمتطلبات الحسابية أمراً بالغ الأهمية. يوضح الجدول أدناه أداء أحجام النماذج المختلفة عبر المعايير القياسية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionتحليل#

كما تظهر البيانات، تحتفظ YOLOv9 بميزة صارمة في كفاءة المعاملات. يحقق نموذج YOLOv9c دقة mAP مثيرة للإعجاب تبلغ 53.0 بـ 25.3 مليون معامل فقط، مما يجعله خفيف الوزن بشكل لا يصدق.

على العكس من ذلك، يوفر RTDETRv2 منافسة قوية في فئات النماذج المتوسطة إلى الكبيرة. ومع ذلك، يأتي هذا على حساب أعداد معاملات أعلى و FLOPs أكبر بكثير، وهو أمر نموذجي لـ نماذج المحولات. يترجم هذا الاختلاف المعماري أيضاً إلى استخدام الذاكرة: تتطلب نماذج YOLO عادةً ذاكرة CUDA أقل بكثير أثناء التدريب والاستدلال مقارنة بنظيراتها من المحولات.

Link to this sectionميزة Ultralytics: النظام البيئي وتعدد الاستخدامات#

على الرغم من أهمية المقاييس المعمارية البحتة، إلا أن نظام البرمجيات غالباً ما يحدد نجاح مشروع الذكاء الاصطناعي. يوفر الوصول إلى هذه النماذج المتقدمة من خلال واجهة برمجة تطبيقات Ultralytics Python مزايا لا مثيل لها.

Link to this sectionتدريب ونشر مبسط#

يتطلب تدريب محول كشف (Detection Transformer) عادةً ملفات تكوين معقدة ووحدات GPU متطورة. من خلال استخدام إطار عمل Ultralytics، يمكن للمطورين تدريب كل من نماذج YOLOv9 و RTDETR ببناء جملة متطابق وبسيط، مع الاستفادة من خطوط أنابيب تدريب فعالة للغاية وأوزان مدربة مسبقاً متاحة بسهولة.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this sectionتعدد مهام لا مثيل له#

أحد القيود الرئيسية للنماذج المتخصصة مثل RTDETRv2 هو تركيزها الضيق على كشف المربعات المحيطة. في المقابل، يدعم نظام Ultralytics البيئي الأوسع، الذي يشمل نماذج مثل YOLO11 و YOLOv8، مجموعة واسعة من مهام رؤية الحاسوب. ويشمل ذلك تجزئة المثيل بدقة البكسل، وتقدير الوضعية الهيكلية، وتصنيف الصورة بالكامل، ومربع محيط موجه (OBB) للكشف في الصور الجوية.

Link to this sectionتطبيقات العالم الحقيقي#

Link to this sectionتحليلات الحافة عالية السرعة#

بالنسبة لبيئات البيع بالتجزئة أو خطوط التصنيع التي تتطلب التعرف على المنتجات في الوقت الفعلي على أجهزة الحافة، فإن YOLOv9 هي الخيار المتفوق. تضمن معمارية GELAN الخاصة بها إنتاجية عالية على الأجهزة المقيدة مثل سلسلة NVIDIA Jetson، مما يتيح مراقبة الجودة المؤتمتة دون تأخير كبير.

Link to this sectionتحليل المشاهد المعقدة#

في سيناريوهات مثل مراقبة الحشود الكثيفة أو تقاطعات المرور المعقدة حيث تحجب الكائنات بعضها البعض بشكل متكرر، تتألق آليات الانتباه العالمية لـ RTDETRv2. تسمح قدرة النموذج على الاستدلال أصلاً حول سياق الصورة بالكامل له بالحفاظ على تتبع وكشف قوي حتى عندما تكون الكائنات مخفية جزئياً.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين YOLOv9 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

Link to this sectionمتى تختار YOLOv9#

YOLOv9 هي خيار قوي لـ:

  • أبحاث اختناق المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • قياس أداء الكشف عالي الدقة: السيناريوهات التي تكون فيها أداء معيار COCO القوي لـ YOLOv9 مطلوباً كنقطة مرجعية للمقارنات المعمارية.

Link to this sectionمتى تختار RT-DETR#

يوصى بـ RT-DETR لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
  • اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
  • بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionالمستقبل: دخول YOLO26#

بينما تمثل YOLOv9 و RTDETRv2 إنجازات ضخمة، يتحرك مجال رؤية الحاسوب بسرعة. بالنسبة للمطورين الذين يتطلعون لبدء مشاريع جديدة، فإن YOLO26 هي الحل الأحدث الموصى به.

تم إصدار YOLO26 في عام 2026، وهي تدمج أفضل ميزات CNNs و DETRs. تتميز بتصميم End-to-End NMS-Free، مما يلغي زمن استجابة المعالجة اللاحقة تماماً—وهي تقنية تم ريادتها لأول مرة في YOLOv10. علاوة على ذلك، تزيل YOLO26 فقدان البؤرة التوزيعي (DFL) من أجل توافق أفضل مع الحافة وتقدم MuSGD Optimizer الثوري. مستوحى من تدريب نماذج اللغات الكبيرة (تحديداً Kimi K2 من Moonshot AI)، يضمن هذا المحسن الهجين استقراراً غير مسبوق في التدريب وتقارباً أسرع.

إلى جانب وظائف فقدان محسنة مثل ProgLoss و STAL للتعرف الاستثنائي على الكائنات الصغيرة، توفر YOLO26 استدلالاً على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43%، مما يعزز مكانتها كنموذج نهائي لنشرات الذكاء الاصطناعي الحديثة.

التعليقات