Link to this sectionمقارنة بين YOLO11 و RTDETRv2#
توسع مشهد رؤية الحاسوب بسرعة، مما وفر للمطورين عدداً لا يحصى من الخيارات لبناء تطبيقات قوية تعتمد على الرؤية. وفي مجال اكتشاف الكائنات في الوقت الفعلي، أصبحت المناقشة بين الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs) أكثر بروزاً من أي وقت مضى. تتعمق هذه المقارنة التقنية في بنيتين رائدتين: YOLO11، التي تمثل ذروة أطر عمل CNN المحسنة للغاية، و RTDETRv2، وهي إصدار قوي من عائلة Detection Transformer.
من خلال تحليل بنيتها، ومقاييس الأداء، وسيناريوهات النشر المثالية، يهدف هذا الدليل إلى مساعدة مهندسي تعلم الآلة على اتخاذ قرارات مستنيرة. وفي حين أن كلا النموذجين يدفع حدود الدقة، فإن نماذج Ultralytics YOLO تقدم عادةً توازناً متفوقاً بين السرعة، ودعم النظام البيئي، وسهولة الاستخدام للإنتاج الواقعي.
Link to this sectionYOLO11: المعيار القياسي لتعدد الاستخدامات في العالم الحقيقي#
تم تطوير YOLO11 بواسطة Ultralytics، وهو يعتمد على سنوات من الأبحاث التأسيسية لتقديم نموذج سريع ودقيق ومتعدد الاستخدامات بشكل لا يصدق. لقد تم تصميمه للتعامل بسلاسة مع اكتشاف الكائنات، وتقسيم المثيلات، وتصنيف الصور، وتقدير الوضعية، واستخراج صندوق التحديد الموجه (OBB) بشكل أصلي.
- المؤلفون: Glenn Jocher و Jing Qiu
- المنظمة: Ultralytics
- التاريخ: 2024-09-27
- GitHub: مستودع Ultralytics
- المستندات: توثيق YOLO11
Link to this sectionالمعمارية ونقاط القوة#
يتميز YOLO11 بهيكل CNN محسّن وأهرامات ميزات مكانية متقدمة، مما يجعله فعالاً للغاية في استهلاك الموارد. وهو يزدهر في البيئات ذات القيود الصارمة على الأجهزة، مما يوفر بصمة ذاكرة ضئيلة أثناء التدريب والاستدلال. توفر منصة Ultralytics دعماً أصلياً لـ YOLO11، مما يتيح مراقبة النموذج، وتصنيف البيانات، والتدريب السحابي بشكل مبسط دون الحاجة إلى تجميع أدوات MLOps متباينة.
بالنسبة للمطورين الذين يستهدفون الحوسبة الطرفية، يتميز YOLO11 بزمن استجابة منخفض للغاية. تسمح طبيعته خفيفة الوزن بالعمل بكفاءة على الأجهزة التي تتراوح من Raspberry Pi إلى الهواتف المحمولة الموجهة للمستهلكين، مما يجعله معياراً لتجارة التجزئة الذكية، ومراقبة جودة التصنيع، وإدارة المرور الآلية.
Link to this sectionRTDETRv2: محولات الوقت الفعلي من Baidu#
يمثل RTDETRv2 (محول اكتشاف الوقت الفعلي الإصدار 2) جهود Baidu لجعل البنى القائمة على المحولات قابلة للتطبيق في مهام الوقت الفعلي. وهو يعتمد على RT-DETR الأصلي من خلال دمج نهج "bag-of-freebies" لتحسين دقة خط الأساس دون زيادة زمن استجابة الاستدلال.
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 24-07-2024
- Arxiv: 2407.17140
- GitHub: مستودع RT-DETRv2
- المستندات: README الخاص بـ RTDETRv2
Link to this sectionالمعمارية ونقاط القوة#
على عكس شبكات CNN التقليدية، يستخدم RTDETRv2 بنية مشفر-فك تشفير (encoder-decoder) مع آليات الانتباه الذاتي، مما يسمح له بالتقاط السياق العالمي عبر الصورة. وهذا مفيد بشكل خاص في المشاهد المزدحمة حيث تتكرر عمليات الانسداد. يلغي RTDETRv2 الحاجة إلى كبح غير الحد الأقصى (NMS) في المعالجة اللاحقة، ويعتمد بدلاً من ذلك على مطابقة المجرية (Hungarian matching) أثناء التدريب للمطابقة الثنائية الفردية.
ومع ذلك، تشتهر نماذج المحولات باستهلاكها الكبير لـ VRAM وذاكرة CUDA. غالباً ما يتطلب تدريب RTDETRv2 من الصفر أو الضبط الدقيق على مجموعات بيانات مخصصة مجموعات GPU قوية وعالية الأداء، وهو ما قد يمثل عائقاً أمام الفرق الصغيرة والمرنة مقارنة ببصمة التدريب خفيفة الوزن لنماذج Ultralytics.
Link to this sectionتحليل الأداء والمقاييس#
عند تقييم هذه النماذج على مجموعة بيانات COCO القياسية، نلاحظ مقايضات واضحة بين المعلمات، وFLOPs، والدقة الخام.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionتحليل النتائج#
كما يظهر في الجدول، يوفر YOLO11 نسبة أداء إلى حجم مذهلة. يحقق YOLO11x قيمة mAPval أعلى (54.7) مقارنة بـ RTDETRv2-x (54.3)، بينما يستخدم عدداً أقل بكثير من المعلمات (56.9 مليون مقابل 76 مليون) وعدد أقل بكثير من عمليات FLOPs الحسابية (194.9 مليار مقابل 259 مليار).
علاوة على ذلك، فإن سرعات استدلال YOLO11 على TensorRT من نوع T4 سريعة للغاية. يكمل YOLO11s الاستدلال في 2.5 مللي ثانية فقط، بينما يستغرق أصغر نموذج RTDETRv2-s حوالي 5.03 مللي ثانية. وهذا يجعل YOLO11 الخيار الأمثل لتحليلات الفيديو عالية السرعة في الوقت الفعلي حيث يكون وقت معالجة الإطارات هو عنق الزجاجة الأساسي.
بينما يحقق RTDETRv2 دقة ممتازة من خلال طبقات الانتباه الخاصة به، فإن هذه الآليات تتوسع تربيعياً مع دقة الصورة، مما يؤدي إلى زيادة استهلاك VRAM أثناء التدريب والاستدلال. يتجاوز YOLO11 هذا من خلال كتله التلافيفية فائقة الكفاءة.
Link to this sectionنظام التدريب البيئي وسهولة الاستخدام#
تكمن الميزة الأساسية لتبني نموذج Ultralytics في النظام البيئي المحيط. غالباً ما يتضمن تدريب RTDETRv2 التنقل في مستودعات معقدة على مستوى البحث، وتعديل أوزان فقدان المطابقة الثنائية المعقدة، وإدارة حمل ذاكرة كبير.
في المقابل، تركز Ultralytics بشدة على تجربة المطورين. تعمل واجهة برمجة تطبيقات Python الموحدة على اختصار التعليمات البرمجية المتكررة، وتتكامل بسلاسة مع أدوات مثل Weights & Biases لـ تتبع التجارب، وتتعامل مع تحسينات البيانات تلقائياً.
إليك مدى بساطة تدريب وتصدير نموذج باستخدام حزمة ultralytics:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")بمجرد التدريب، يتطلب تصدير نموذج YOLO11 إلى تنسيقات مثل ONNX، أو OpenVINO، أو CoreML أمراً واحداً فقط، مما يضمن أن خط أنابيب الرؤية الخاص بك يمكنه التوسع بسهولة عبر مختلف خوادم الأجهزة.
تذكر أنه بينما يركز RTDETRv2 حصرياً على اكتشاف صندوق التحديد، فإن بنية YOLO11 تدعم أصلياً تقدير الوضعية وتقسيم المثيلات، مما يسمح لك بدمج مهام رؤية متعددة في عائلة نموذج واحدة.
Link to this sectionحالات الاستخدام والتوصيات#
يعتمد الاختيار بين YOLO11 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
Link to this sectionمتى تختار YOLO11#
يعد YOLO11 خياراً قوياً لـ:
- نشر الإنتاج عند الحافة: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث تكون الموثوقية والصيانة النشطة أمراً بالغ الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب اكتشافاً، وتجزئة، وتقدير وضعية، وOBB ضمن إطار عمل واحد موحد.
- النماذج الأولية السريعة والنشر: الفرق التي تحتاج إلى التحرك بسرعة من جمع البيانات إلى الإنتاج باستخدام Ultralytics Python API الانسيابي.
Link to this sectionمتى تختار RT-DETR#
يوصى بـ RT-DETR لـ:
- أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
- سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.
Link to this sectionمتى تختار Ultralytics (YOLO26)#
بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
- بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
Link to this sectionنظرة إلى المستقبل: قوة YOLO26#
بينما يظل YOLO11 خياراً ممتازاً للإنتاج، يجب على الفرق التي تبحث عن أحدث ما توصلت إليه التكنولوجيا التفكير بجدية في YOLO26. تم إطلاق YOLO26 في يناير 2026، وهو يسد الفجوة المعمارية من خلال دمج تصميم NMS-Free من الطرف إلى الطرف (الذي تم ريادته لأول مرة في YOLOv10) مباشرة في جوهره، مما يلغي زمن استجابة المعالجة اللاحقة وتعقيد منطق النشر تماماً.
يقدم YOLO26 أيضاً العديد من الميزات الثورية:
- محسن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) الخاصة بـ Moonshot AI's Kimi K2، يضمن هذا الهجين من SGD و Muon تدريباً مستقراً بشكل لا يصدق وتقارباً أسرع بشكل كبير.
- إزالة DFL: تم إزالة Distribution Focal Loss لعملية تصدير أنظف وأبسط، مما يحسن بشكل كبير من توافق أجهزة الحافة منخفضة الطاقة.
- ProgLoss + STAL: تحقق وظائف الفقد المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو مطلب حاسم لمراقبة الطائرات بدون طيار، والمراقبة الزراعية، ومستشعرات إنترنت الأشياء الطرفية.
- أسرع بنسبة تصل إلى 43% في استدلال CPU: بالنسبة لعمليات النشر التي تفتقر إلى وحدات GPU مخصصة، تم تحسين YOLO26 خصيصاً لتنفيذ CPU، مما يتفوق بشكل كبير على الأجيال السابقة.
للمهتمين باستكشاف مجموعة أوسع من البنى، توفر وثائق Ultralytics أيضاً رؤى حول YOLOv8، وYOLOv5 المعتمد على نطاق واسع، ونماذج متخصصة مثل YOLO-World لتطبيقات الاكتشاف ذي المفردات المفتوحة. في النهاية، سواء كنت تعطي الأولوية للاستقرار المثبت لـ YOLO11 أو الابتكارات الرائدة لـ YOLO26، فإن نظام Ultralytics البيئي يقدم أدوات لا تضاهى لإحياء حلول الرؤية الحاسوبية الخاصة بك.