Link to this sectionRTDETRv2 مقابل YOLOv6-3.0#

يشهد مجال الرؤية الحاسوبية تطوراً مستمراً، مما يضع المطورين أمام مجموعة واسعة من الخيارات المعمارية لاكتشاف الأجسام. النموذجان البارزان اللذان يمثلان نهجين متباينين هما RTDETRv2، وهو نموذج محول رؤية (Vision Transformer) متطور، وYOLOv6-3.0، وهي شبكة عصبية تلافيفية (CNN) مُحسّنة للغاية ومصممة للتطبيقات الصناعية.

تستكشف هذه المقارنة التقنية الشاملة معماريات كل منهما، ومقاييس الأداء، وسيناريوهات النشر المثالية. سنبحث أيضاً في كيفية توفير نظام Ultralytics البيئي لتجربة مطور فائقة، مع نظرة مستقبلية على قدرات الجيل التالي من Ultralytics YOLO26.

Link to this sectionRTDETRv2: نهج محول الرؤية (Vision Transformer)#

تم تطوير RTDETRv2 من قبل باحثين في شركة Baidu، وهو يعتمد على أساس نموذج RT-DETR الأصلي، مما يمثل قفزة نوعية في مجال اكتشاف الأجسام القائم على المحولات.

المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المؤسسة: Baidu
التاريخ: 2024-07-24
Arxiv: 2407.17140
GitHub: lyuwenyu/RT-DETR
التوثيق: RTDETRv2 GitHub README

Link to this sectionأبرز ميزات البنية#

يستخدم RTDETRv2 معمارية هجينة تجمع بين مستخرج ميزات CNN ومفكك تشفير محول قوي. السمة الأكثر تميزاً لهذا النموذج هي تصميمه الذي لا يحتاج إلى NMS بشكل أصلي. ومن خلال التخلص من كبت غير الأقصى (NMS) أثناء المعالجة اللاحقة، يتنبأ النموذج بصناديق الإحاطة (Bounding Boxes) مباشرة، مما يبسط عملية النشر ويحقق استقراراً في زمن انتقال الاستنتاج.

تعزز "مجموعة المزايا المجانية" (Bag-of-Freebies) المدمجة في RTDETRv2 قدرته على التعامل مع المشاهد المعقدة والأجسام المتداخلة، حيث تفهم آليات الانتباه العالمية العلاقات المكانية بشكل أفضل بطبيعتها مقارنة بالتلافيف الموضعية.

استخدام ذاكرة المحول

على الرغم من تفوق المحولات في فهم المشاهد المعقدة، إلا أنها تتطلب عادةً ذاكرة CUDA أعلى بكثير أثناء التدريب مقارنة بشبكات CNN. وهذا يمكن أن يحد من أحجام الدفعات (batch sizes) على وحدات معالجة الرسوميات (GPU) الاستهلاكية العادية ويزيد من وقت التدريب الإجمالي.

تعرف على المزيد حول RTDETR

Link to this sectionYOLOv6-3.0: تعظيم الإنتاجية الصناعية#

نشأ YOLOv6-3.0 في قسم الرؤية بالذكاء الاصطناعي في شركة Meituan، وقد تم تصميمه صراحة ليكون كاشفاً من الجيل التالي لخطوط الإنتاج الصناعية حيث تعتبر إنتاجية GPU أمراً بالغ الأهمية.

المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
المؤسسة: Meituan
التاريخ: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6

Link to this sectionالتركيز الهيكلي#

يعتمد YOLOv6-3.0 على العمود الفقري EfficientRep، المصمم بدقة لتقليل تكاليف الوصول إلى الذاكرة على مسرعات الأجهزة مثل NVIDIA GPUs. وتتميز معمارية العنق بوحدة تسلسل ثنائي الاتجاه (BiC) لتحسين دمج الميزات عبر مقاييس مختلفة.

أثناء التدريب، يستخدم استراتيجية التدريب المدعوم بالمرساة (Anchor-Aided Training) للاستفادة من نماذج المراسي مع الحفاظ على وضع استنتاج خالٍ من المراسي لتنفيذ أسرع. ورغم تحقيقه إنتاجية استثنائية على وحدات GPU من فئة الخوادم (مثل T4، A100)، إلا أن معماريته المتخصصة قد تؤدي إلى زمن انتقال غير مثالي عند النشر على أجهزة الحافة التي تعتمد على CPU فقط.

اعرف المزيد حول YOLOv6

Link to this sectionمقارنة الأداء#

عند تقييم النماذج للإنتاج، يعد تحقيق التوازن بين الدقة (mAP) وسرعة الاستنتاج والتكلفة الحسابية (FLOPs) أمراً بالغ الأهمية. يوضح الجدول أدناه كيفية مقارنة هذه النماذج ببعضها البعض.

النموذج	الحجم ^(بكسل)	mAP^val 50-95	السرعة ^{CPU ONNX (ms)}	السرعة ^{T4 TensorRT10 (ms)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

بينما يتفوق YOLOv6-3.0 في سرعة المعالجة المطلقة على TensorRT، يحقق RTDETRv2 درجات mAP أعلى، خاصة مع توسيع نطاق النماذج الأكبر. ومع ذلك، يفتقر كلا النموذجين إلى التنوع الكبير الموجود في الأطر الموحدة الحديثة. YOLOv6-3.0 هو متخصص في الاكتشاف بشكل أساسي، ويفتقد إلى دعم أصلي لمهام مثل تجزئة الأجسام وتقدير الوضعية بشكل جاهز.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين RT-DETR وYOLOv6 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

Link to this sectionمتى تختار RT-DETR#

RT-DETR خيار قوي لـ:

أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

Link to this sectionمتى تختار YOLOv6#

يوصى بـ YOLOv6 لـ:

النشر المدرك للأجهزة الصناعية: السيناريوهات التي يوفر فيها التصميم المدرك للأجهزة وإعادة تحديد المعلمات الفعال للنموذج أداءً محسناً على أجهزة مستهدفة محددة.
الكشف السريع في مرحلة واحدة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الخام على GPU لمعالجة الفيديو الفوري في بيئات خاضعة للتحكم.
تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن مكدس التكنولوجيا والبنية التحتية للنشر الخاصة بـ Meituan.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionميزة Ultralytics#

يتضمن اختيار النموذج الصحيح أكثر من مجرد أرقام قياسية خام؛ فتجربة المطور، ومرونة النشر، ودعم النظام البيئي كلها أمور حاسمة بنفس القدر. ومن خلال استخدام النماذج المتكاملة ضمن منصة Ultralytics، يكتسب المستخدمون مزايا كبيرة مقارنة بمستودعات الأبحاث الثابتة.

سهولة الاستخدام: توفر حزمة ultralytics بلغة Python واجهة برمجة تطبيقات (API) سلسة. يستغرق تدريب النماذج والتحقق منها وتصديرها بضعة أسطر فقط من الكود.
نظام بيئي مُصان جيداً: على عكس المستودعات الأكاديمية المعزولة، يتم تحديث منصة Ultralytics بشكل نشط. وهي تتميز بتكاملات قوية لأدوات مثل ONNX وOpenVINO وCoreML.
كفاءة التدريب: تستهلك نماذج Ultralytics عادةً ذاكرة VRAM أقل بكثير أثناء التدريب مقارنة بمعماريات المحولات مثل RTDETRv2، مما يسمح بأحجام دفعات أكبر على الأجهزة الاستهلاكية.
التنوع: على عكس النطاق المركز لـ YOLOv6-3.0، فإن نماذج Ultralytics متعددة الوسائط، وتدعم أصلاً تصنيف الصور وصناديق الإحاطة الموجهة (OBB) والتجزئة ضمن إطار عمل واحد موحد.

نشر مبسط

باستخدام واجهة سطر الأوامر (CLI) الخاصة بـ Ultralytics، يكون تصدير نموذج مدرب لنشر الحافة بسيطاً مثل تشغيل: yolo export model=yolo11n.pt format=tensorrt.

Link to this sectionأدخل YOLO26: الحل الأمثل#

بينما يقدم كل من RTDETRv2 وYOLOv6-3.0 فوائد محددة، فإن المجال يتحرك بسرعة. بالنسبة للفرق التي تبدأ مشاريع رؤية حاسوبية جديدة، نوصي بشدة بـ YOLO26، الذي أطلقته Ultralytics في يناير 2026.

يجمع YOLO26 بين نقاط قوة شبكات CNN الصناعية والمحولات الحديثة مع التخلص من نقاط ضعف كل منهما:

تصميم شامل خالٍ من NMS: بتبني الاختراق الذي تم تقديمه لأول مرة في YOLOv10، يلغي YOLO26 معالجة NMS اللاحقة بشكل أصلي، مما يضمن نشراً مستقراً ويمكن التنبؤ به مشابهاً لـ RTDETRv2 ولكن مع حمل إضافي أقل بكثير.
مُحسّن MuSGD: مستوحى من تقنيات تدريب LLM المتقدمة (مثل Kimi K2 من Moonshot AI)، يضمن هذا المُحسّن الهجين تدريباً مستقراً وتقارباً أسرع، متجاوزاً عدم الاستقرار المعروف لمحولات الرؤية التقليدية.
مُحسّن للحافة: مع سرعة تصل إلى 43% أسرع في استنتاج CPU مقارنة بالأجيال السابقة والإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يعد YOLO26 مناسباً تماماً للأجهزة المحمولة وأجهزة IoT حيث لا يتوفر تسريع GPU.
ProgLoss + STAL: تحقق هذه الدوال الخسارية المتقدمة تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو تحد تاريخي لشبكات CNN، مما يجعل YOLO26 مثالياً للتصوير الجوي والروبوتات.

Link to this sectionمثال على التدريب#

تتيح لك واجهة برمجة تطبيقات Ultralytics البديهية تدريب نماذج متطورة بسلاسة. فيما يلي مثال قابل للتشغيل يوضح كيفية تدريب نموذج YOLO26 Nano على مجموعة بيانات COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Link to this sectionملخص#

عند مقارنة RTDETRv2 وYOLOv6-3.0، يعتمد القرار إلى حد كبير على أجهزتك المحددة وقيود زمن الانتقال. يتألق RTDETRv2 في بيئات البحث ومعالجة جانب الخادم حيث يكون التعامل مع الأجسام المتداخلة المعقدة أمراً بالغ الأهمية. بينما يظل YOLOv6-3.0 خياراً قوياً لخطوط التصنيع عالية الإنتاجية المجهزة بوحدات NVIDIA GPU قوية.

ومع ذلك، بالنسبة للمطورين الذين يسعون للحصول على أفضل ما في العالمين—الجمع بين أناقة المحولات الخالية من NMS والسرعة الفائقة وبصمة الذاكرة المنخفضة لشبكات CNN—فإن YOLO26 لا يضاهى. مدعوماً بالتوثيق الشامل والمجتمع النشط لـ نظام Ultralytics البيئي، يضمن YOLO26 أن تكون مشاريعك في الذكاء الاصطناعي للرؤية قوية وقابلة للتوسع ومستعدة للمستقبل.

المساهمون

GLglenn-jocher¹⁴ PDpderrenger¹

تم الإنشاء 27 يناير 2025تم التحديث قبل 4 أسابيع