YOLO11 مقابل RTDETRv2: مقارنة تطور الشبكات العصبية التلافيفية ومحولات الرؤية
لقد توسع مشهد الرؤية الحاسوبية بسرعة، مما وفر للمطورين خيارات لا حصر لها لبناء تطبيقات قوية تعتمد على الرؤية. وفي مجال اكتشاف الأشياء في الوقت الفعلي، أصبح الجدل بين الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs) أكثر بروزاً من أي وقت مضى. تتعمق هذه المقارنة التقنية في بنيتين رائدتين: YOLO11، التي تمثل ذروة أطر عمل CNN المحسنة للغاية، وRTDETRv2، وهي نسخة قوية من عائلة Detection Transformer.
من خلال تحليل بنيتها ومقاييس الأداء وسيناريوهات النشر المثالية، يهدف هذا الدليل إلى مساعدة مهندسي تعلم الآلة على اتخاذ قرارات مستنيرة. وفي حين يدفع كلا النموذجين حدود الدقة، توفر نماذج Ultralytics YOLO عادةً توازناً متفوقاً بين السرعة ودعم النظام البيئي وسهولة الاستخدام للإنتاج في العالم الحقيقي.
YOLO11: المعيار القياسي لتعدد الاستخدامات في العالم الحقيقي
بناءً على سنوات من البحث التأسيسي، قدمت Ultralytics نموذج YOLO11 ليصبح سريعاً ودقيقاً ومتعدد الاستخدامات بشكل لا يصدق. لقد تم تصميمه للتعامل بسلاسة مع اكتشاف الأشياء وتجزئة الحالات وتصنيف الصور وتقدير الوضعية واستخراج صندوق التحديد الموجه (OBB) بشكل أصلي.
- المؤلفون: Glenn Jocher و Jing Qiu
- المنظمة: Ultralytics
- التاريخ: 2024-09-27
- GitHub: مستودع Ultralytics
- الوثائق: توثيق YOLO11
الهيكلية ونقاط القوة
يتميز YOLO11 بهيكل CNN متطور وأهرامات ميزات مكانية متقدمة، مما يجعله فعالاً للغاية في استهلاك الموارد. وهو يزدهر في البيئات ذات القيود الصارمة على الأجهزة، حيث يوفر حداً أدنى من استهلاك الذاكرة أثناء التدريب والاستدلال. توفر منصة Ultralytics دعماً أصلياً لـ YOLO11، مما يتيح مراقبة النموذج بشكل مبسط، وتصنيف البيانات، والتدريب السحابي دون الحاجة إلى تجميع أدوات MLOps متفرقة.
بالنسبة للمطورين الذين يستهدفون الحوسبة الطرفية، يتميز YOLO11 بزمن انتقال منخفض للغاية. تسمح طبيعته خفيفة الوزن بالعمل بكفاءة على أجهزة تتراوح من Raspberry Pi إلى الهواتف المحمولة الموجهة للمستهلكين، مما يجعله معياراً لتجارة التجزئة الذكية، ومراقبة جودة التصنيع، وإدارة حركة المرور الآلية.
RTDETRv2: محولات الوقت الفعلي من Baidu
يمثل RTDETRv2 (محول اكتشاف الوقت الفعلي الإصدار 2) جهود Baidu لجعل البنيات المعتمدة على المحولات قابلة للتطبيق في مهام الوقت الفعلي. وهو يبني على RT-DETR الأصلي من خلال دمج نهج "حقيبة الهدايا المجانية" (bag-of-freebies) لتحسين الدقة الأساسية دون زيادة زمن انتقال الاستدلال.
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 2024-07-24
- Arxiv: 2407.17140
- GitHub: مستودع RT-DETRv2
- المستندات: README لـ RTDETRv2
الهيكلية ونقاط القوة
على عكس شبكات CNN التقليدية، يستخدم RTDETRv2 بنية مشفر-فك تشفير مع آليات الانتباه الذاتي، مما يسمح له بالتقاط السياق العالمي عبر الصورة. وهذا مفيد بشكل خاص في المشاهد المزدحمة حيث تكثر عمليات الحجب. يلغي RTDETRv2 الحاجة إلى كبت غير الحد الأقصى (NMS) في المعالجة اللاحقة، ويعتمد بدلاً من ذلك على المطابقة المجرية أثناء التدريب للمطابقة الثنائية الفردية.
ومع ذلك، تشتهر نماذج المحولات باستهلاكها الكبير لـ VRAM وذاكرة CUDA. غالباً ما يتطلب تدريب RTDETRv2 من الصفر أو الضبط الدقيق على مجموعات بيانات مخصصة مجموعات GPU متطورة وقوية، وهو ما قد يمثل عائقاً للفرق الصغيرة الرشيقة مقارنة ببصمة التدريب خفيفة الوزن لنماذج Ultralytics.
تحليل الأداء والمقاييس
عند تقييم هذه النماذج على مجموعة بيانات COCO القياسية، نلاحظ مقايضات واضحة بين المعلمات وFLOPs والدقة الخام.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
استعراض النتائج
كما يظهر في الجدول، يوفر YOLO11 نسبة أداء إلى حجم مذهلة. يحقق YOLO11x مستوى mAPval أعلى (54.7) مقارنة بـ RTDETRv2-x (54.3)، بينما يستخدم عدداً أقل بكثير من المعلمات (56.9 مليون مقابل 76 مليون) وعدداً أقل بكثير من FLOPs الحسابية (194.9 مليار مقابل 259 مليار).
علاوة على ذلك، تعد سرعات استدلال YOLO11 على TensorRT عبر T4 سريعة للغاية. يكمل YOLO11s الاستدلال في 2.5 مللي ثانية فقط، بينما يستغرق أصغر نموذج RTDETRv2-s حوالي 5.03 مللي ثانية. وهذا يجعل YOLO11 الخيار الأمثل لتدفقات تحليلات الفيديو عالية السرعة في الوقت الفعلي حيث يكون وقت معالجة الإطار هو عنق الزجاجة الأساسي.
بينما يحقق RTDETRv2 دقة ممتازة من خلال طبقات الانتباه الخاصة به، فإن هذه الآليات تتوسع بشكل تربيعي مع دقة الصورة، مما يؤدي إلى استهلاك أعلى لـ VRAM أثناء التدريب والاستدلال. يتجنب YOLO11 هذا من خلال كتله التلافيفية فائقة الكفاءة.
النظام البيئي للتدريب وسهولة الاستخدام
الميزة الأساسية لاعتماد نموذج Ultralytics تكمن في النظام البيئي المحيط به. غالباً ما يتضمن تدريب RTDETRv2 التنقل في مستودعات بحثية معقدة، وتعديل أوزان فقدان المطابقة الثنائية المعقدة، وإدارة عبء الذاكرة الكبير.
في المقابل، تركز Ultralytics بشكل كبير على تجربة المطور. تقوم واجهة برمجة تطبيقات Python الموحدة بتجريد الكود المكرر، والتكامل بسلاسة مع أدوات مثل Weights & Biases لـ تتبع التجارب، والتعامل مع زيادات البيانات تلقائياً.
إليك مدى بساطة تدريب وتصدير نموذج باستخدام حزمة ultralytics:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")بمجرد التدريب، يتطلب تصدير نموذج YOLO11 إلى تنسيقات مثل ONNX أو OpenVINO أو CoreML أمراً واحداً فقط، مما يضمن إمكانية توسيع نطاق خط رؤيتك بسهولة عبر بيئات أجهزة متنوعة.
تذكر أنه بينما يركز RTDETRv2 حصرياً على اكتشاف صندوق التحديد، تدعم بنية YOLO11 محلياً تقدير الوضعية وتجزئة الحالات، مما يسمح لك بدمج مهام رؤية متعددة في عائلة نموذج واحدة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLO11 وRT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLO11
يعد YOLO11 خياراً قوياً لـ:
- نشر الحافة في الإنتاج: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث الموثوقية والصيانة النشطة أمران بالغ الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب اكتشاف، تجزئة، تقدير وضع، وOBB ضمن إطار عمل واحد موحد.
- النماذج الأولية السريعة والنشر: الفرق التي تحتاج إلى التحرك بسرعة من جمع البيانات إلى الإنتاج باستخدام Python API المبسط من Ultralytics.
متى تختار RT-DETR
يُوصى بـ RT-DETR لـ:
- أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
- سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
- اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
نظرة مستقبلية: قوة YOLO26
بينما يظل YOLO11 خيار إنتاج ممتاز، يجب على الفرق التي تبحث عن أحدث ما توصلت إليه التكنولوجيا التفكير بجدية في YOLO26. تم إصدار YOLO26 في يناير 2026، وهو يسد الفجوة الهيكلية من خلال دمج تصميم شامل خالٍ من NMS (تمت ريادته لأول مرة في YOLOv10) مباشرة في جوهره، مما يلغي زمن انتقال المعالجة اللاحقة وتعقيد منطق النشر تماماً.
يقدم YOLO26 أيضاً العديد من الميزات الثورية:
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب LLM الخاصة بـ Moonshot AI's Kimi K2، يضمن هذا الهجين من SGD وMuon تدريباً مستقراً بشكل لا يصدق وتقارباً أسرع بشكل كبير.
- إزالة DFL: تمت إزالة Distribution Focal Loss لعملية تصدير أنظف ومبسطة، مما يحسن بشكل كبير من توافق أجهزة الحافة منخفضة الطاقة.
- ProgLoss + STAL: تحقق وظائف الفقد المتقدمة هذه تحسينات ملحوظة في التعرف على الأشياء الصغيرة، وهو متطلب أساسي للمراقبة بالطائرات بدون طيار والمراقبة الزراعية ومستشعرات إنترنت الأشياء الطرفية.
- أسرع بنسبة تصل إلى 43% في استدلال CPU: بالنسبة لعمليات النشر التي تفتقر إلى وحدات معالجة الرسوميات المخصصة، تم تحسين YOLO26 خصيصاً لتنفيذ CPU، متفوقاً بشكل كبير على الأجيال السابقة.
بالنسبة للمهتمين باستكشاف مجموعة واسعة من البنيات، توفر وثائق Ultralytics أيضاً رؤى حول YOLOv8 وYOLOv5 المعتمد على نطاق واسع، ونماذج متخصصة مثل YOLO-World لتطبيقات الاكتشاف مفتوح المفردات. في النهاية، سواء كنت تعطي الأولوية للاستقرار المثبت لـ YOLO11 أو الابتكارات الرائدة لـ YOLO26، فإن نظام Ultralytics البيئي يقدم أدوات لا مثيل لها لتحويل حلول الرؤية الحاسوبية الخاصة بك إلى واقع.