Link to this sectionRTDETRv2 مقابل YOLOv7#
لقد توسع مشهد الرؤية الحاسوبية بشكل كبير على مدى السنوات القليلة الماضية، مدفوعاً بالابتكارات المستمرة في كل من الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs). يتطلب اختيار البنية المناسبة لنشر نماذجك فهم المقايضات الدقيقة بين السرعة والدقة والحمل الحسابي. يستكشف هذا الدليل الاختلافات التقنية بين اثنتين من البنيات المرموقة: RTDETRv2 و YOLOv7، مع تسليط الضوء أيضاً على التطورات الحديثة المتاحة في نموذج Ultralytics YOLO26 الأحدث.
Link to this sectionRTDETRv2: نهج المحولات (Transformer) للكشف في الوقت الفعلي#
يعتمد نموذج RTDETRv2 (نسخة محول الكشف في الوقت الفعلي 2) على أساس سابقه ليثبت أن البنيات القائمة على المحولات يمكنها المنافسة بفعالية في سيناريوهات الوقت الفعلي دون الاعتماد على خطوات المعالجة اللاحقة التقليدية.
المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
المؤسسة: Baidu
التاريخ: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: مستودع RTDETRv2
Link to this sectionأبرز ميزات البنية#
RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.
Link to this sectionنقاط القوة والقيود#
تكمن القوة الأساسية لـ RTDETRv2 في قدرته على التعامل مع الكائنات الكثيفة والمتداخلة في المشاهد المعقدة. السياق العالمي الذي توفره طبقات انتباه المحول يجعله دقيقاً للغاية، خاصة في السيناريوهات التي تكون فيها الانسدادات متكررة.
However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.
Link to this sectionYOLOv7: نموذج CNN الأساسي للسرعة#
تم إصدار YOLOv7 قبل عام من RTDETRv2، وقد قدم العديد من التحسينات الهيكلية لإطار عمل YOLO الكلاسيكي، مما وضع معياراً قوياً للكاشفات التي تعتمد على CNN في الوقت الفعلي وقت نشره.
المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, و Hong-Yuan Mark Liao
المؤسسة: معهد علوم المعلومات، أكاديمية سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: مستودع YOLOv7
Link to this sectionأبرز ميزات البنية#
YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.
Link to this sectionنقاط القوة والقيود#
يظل YOLOv7 نموذجاً عالي القدرة لمهام اكتشاف الكائنات القياسية، حيث يوفر سرعات معالجة ممتازة على وحدات معالجة الرسومات (GPUs) الاستهلاكية. تعني طبيعة CNN الخاصة به أنه يتطلب عادةً ذاكرة CUDA أقل أثناء التدريب مقارنة بنماذج المحولات مثل RTDETRv2.
على الرغم من هذه المزايا، لا يزال YOLOv7 يعتمد على NMS للمعالجة اللاحقة. في البيئات ذات الكثافة العالية للتنبؤات، يمكن لخطوة NMS أن تسبب تقلبات في وقت المعالجة، مما يجعل ضمانات الوقت الفعلي الصارمة صعبة التحقيق. بالإضافة إلى ذلك، مقارنة بالأطر الحديثة، قد تكون عملية التعامل مع مهام متنوعة مثل تجزئة المثيلات وتقدير الوضعية مجزأة.
Link to this sectionمقارنة الأداء#
Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
بينما يحقق RTDETRv2-x أعلى mAP، فإنه يحمل أيضاً أكبر عدد من المعلمات وعمليات FLOPs. توفر المتغيرات الأصغر مثل RTDETRv2-s سرعة تنافسية على TensorRT، ولكن يجب على المستخدمين الذين يستهدفون بيئات الطاقة المنخفضة بدون وحدات معالجة رسومات مخصصة تقييم قدرات استدلال وحدة المعالجة المركزية (CPU) بعناية.
Link to this sectionالحل الحديث: YOLO26#
في حين كان RTDETRv2 و YOLOv7 محوريين في دفع حدود تطبيقات الرؤية الحاسوبية، يتطور مشهد الذكاء الاصطناعي بسرعة. تم إصدار YOLO26 في يناير 2026، وهو يجمع بين أفضل جوانب كفاءة CNN وبنيات المحولات الخالية من NMS.
بالنسبة للمطورين والباحثين الذين يبنون أنظمة جديدة، توفر منصة Ultralytics المتكاملة ونظام Python البيئي تجربة موحدة تقلل بشكل كبير من الديون التقنية.
Link to this sectionالابتكارات الرئيسية في YOLO26#
- تصميم شامل وخالٍ من NMS: يتميز YOLO26 بأنه شامل (end-to-end) بشكل أصلي، مما يلغي المعالجة اللاحقة لـ NMS لنشر أسرع وأبسط. تم ابتكار هذا النهج الرائد لأول مرة في YOLOv10، مما يضمن استقرار زمن الاستجابة بغض النظر عن كثافة الكائنات.
- Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
- مُحسِّن MuSGD: هجين من SGD و Muon (مستوحى من Kimi K2 لشركة Moonshot AI)، مما يجلب ابتكارات تدريب النماذج اللغوية الكبيرة (LLMs) إلى الرؤية الحاسوبية من أجل تدريب أكثر استقراراً وتقارب أسرع.
- إزالة DFL: تمت إزالة توزيع الخسارة البؤرية (Distribution Focal Loss)، مما أدى إلى رسم بياني حسابي مبسط لتصدير أكثر سلاسة إلى وحدات NPU المدمجة وبيئات TensorRT.
- ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
- تحسينات خاصة بالمهام: YOLO26 ليس للاكتشاف فقط. فهو يتميز بنماذج أولية متعددة المقاييس للتجزئة، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتتبع الوضعية، وخسارة زاوية متخصصة تعالج مشكلات حدود مربع التحديد الموجه (OBB).
Link to this sectionتجربة مطور مبسطة#
الميزة الحقيقية لاختيار نموذج Ultralytics مثل YOLO26 (أو YOLO11 الشهير للغاية) هي النظام البيئي الذي يتم صيانته جيداً. يتطلب تدريب مجموعة بيانات مخصصة الحد الأدنى من الكود المكرر:
from ultralytics import YOLO
# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)Link to this sectionحالات الاستخدام والتطبيقات المثالية#
يعتمد الاختيار بين هذه البنيات بشكل كبير على الأجهزة المستهدفة والمتطلبات التشغيلية المحددة.
Link to this sectionمتى يجب التفكير في RTDETRv2#
يعد RTDETRv2 فعالاً للغاية في بيئات المعالجة من جانب الخادم المجهزة بوحدات معالجة رسومات قوية. آلية الانتباه العالمية تجعله مناسباً لفهم المشاهد المعقدة، مثل مراقبة الأحداث المزدحمة للغاية أو التصوير الطبي المتخصص حيث تتطلب الميزات المتداخلة تحليلاً سياقياً عميقاً.
Link to this sectionمتى يجب التفكير في YOLOv7#
غالباً ما يتم الاحتفاظ بـ YOLOv7 في البحث الأكاديمي القديم كنموذج مقارنة أساسي. كما يوجد في عمليات النشر الصناعية القديمة حيث تكون خطوط الأنابيب الحالية مشفرة بإصدارات PyTorch محددة ولا تتطلب مرونة المهام المتعددة للأطر الأحدث.
Link to this sectionلماذا يعد YOLO26 هو المعيار الموصى به#
For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.
هل أنت مهتم بكيفية مقارنة هذه النماذج بالبنيات الأخرى؟ تحقق من أدلتنا التفصيلية حول YOLO11 مقابل RTDETR و YOLOv8 مقابل YOLOv7 للعثور على الخيار الأمثل لمشروع رؤية الذكاء الاصطناعي الخاص بك.