تخطي إلى المحتوى

YOLO EfficientDet: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات

أدى تطور الرؤية الحاسوبية إلى ظهور مجموعة من البنى القوية المصممة خصيصًا لتلبية متطلبات العالم الواقعي المتنوعة. في حين تركز بعض الأطر على قابلية التوسع الهائلة، تركز أطر أخرى بشكل كبير على سرعة الاستدلال في الوقت الفعلي. في هذه المقارنة الفنية، نستكشف YOLO و EfficientDet، وهما نموذجان مؤثران للغاية يقدمان نهجين متميزين لحل مشكلة اكتشاف الكائنات. سنقوم بتحليل هندستهما، ومقارنة أدائهما المعياري، وفي النهاية استكشاف سبب كون Ultralytics الذي تم إصداره مؤخرًا هو الخيار الأمثل لنشر الإنتاج الحديث.

نظرة عامة معمارية

تم تصميم كلا النموذجين لمعالجة التوازن بين الكفاءة والدقة، لكنهما يعتمدان على آليات مختلفة تمامًا لتحقيق أهدافهما.

تم تطويرYOLO لتوسيع حدود الكشف في الوقت الفعلي،YOLO تقنيات البحث الآلي لبناء شبكات عالية الكفاءة مصممة خصيصًا للبيئات منخفضة التأخير.

YOLO :
المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة: Alibaba Group
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO

YOLO بناءYOLO على أساس بنية البحث العصبي (NAS) التي تعمل على تحسين السرعة والدقة. ويقدم RepGFPN (شبكة هرمية عامة معاد تقييمها)، والتي تعزز دمج الميزات مع الحفاظ على سرعات استدلال عالية. علاوة على ذلك، يقلل تصميم ZeroHead من الحمل الحسابي الذي يرتبط عادة برؤوس الكشف. يستفيد النموذج أيضًا من AlignedOTA (تخصيص النقل الأمثل المتوافق) وتحسين التقطير، مما يضمن أن حتى أصغر المتغيرات تتعلم تمثيلات غنية من النماذج الأكبر.

تعرف على المزيد حول DAMO-YOLO

EfficientDet: قابلية التوسع من خلال التوسع المركب

على عكس النهج الذي يركز على السرعة أولاً، يركز EfficientDet على قابلية التوسع المنهجية عبر مختلف ميزانيات الحوسبة.

تفاصيل EfficientDet:
المؤلفون: Mingxing Tan و Ruoming Pang و Quoc V. Le
المنظمة: Google
التاريخ: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google

يقدم EfficientDet شبكة BiFPN (شبكة هرمية ثنائية الاتجاه للميزات)، والتي تتيح دمج الميزات متعددة المستويات بسهولة وسرعة. على عكس الطرق التقليدية التي تعمل على توسيع نطاق البنى عن طريق إضافة طبقات أو قنوات بشكل عشوائي، تستخدم EfficientDet طريقة توسيع نطاق مركبة تعمل على توسيع نطاق الدقة والعمق والعرض للبنية الأساسية وشبكة الميزات وشبكات التنبؤ بالصناديق/الفئات بشكل موحد في وقت واحد. وهذا يتيح لها تحقيق دقة متطورة على الأجهزة المتطورة مع توفير متغيرات أصغر للبيئات المقيدة.

تعرف على المزيد حول EfficientDet

مقارنة الأداء والمقاييس

عند مقارنة هذه النماذج جنبًا إلى جنب، يتضح التوازن بين الدقة المطلقة وسرعة الاستدلال. يوضح الجدول أدناه مقاييس الأداء الرئيسية، ويسلط الضوء على كيفية مقارنة قدرات الاستدلالYOLO مع عائلة نماذج EfficientDet.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

كما هو موضح أعلاه، يحقق EfficientDet-d7 أعلى دقة إجمالية، مما يجعله مناسبًا للتطبيقات الصارمة المستندة إلى السحابة. على العكس من ذلك، توفرYOLO دقة تنافسية للغاية مع زمن انتقال أقل بكثير على GPU ، مما يجعلها مرشحًا أقوى لعمليات النشر في الوقت الفعلي.

حالات الاستخدام والتوصيات

يعتمد الاختيار بينYOLO EfficientDet على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار DAMO-YOLO

YOLO خيار قوي لـ:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات في الثانية علىGPU NVIDIA GPU الثابتة حيث يكون إنتاجية الدفعة 1 هو المقياس الأساسي.
  • خطوط التصنيع الصناعي: سيناريوهات ذات قيود صارمة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث الآلي عن البنية (MAE-NAS) والبنى الأساسية المعاد معايرتها بكفاءة على أداء الكشف.

متى تختار EfficientDet

يوصى باستخدام EfficientDet في الحالات التالية:

  • Google و TPU : أنظمة متكاملة بشكل عميق مع واجهات برمجة تطبيقات Google Vision أو TPU حيث يتمتع EfficientDet بتحسين أصلي.
  • أبحاث التوسع المركب: مقارنة أكاديمية تركز على دراسة آثار التوازن بين عمق الشبكة وعرضها وتوسع الدقة.
  • النشر عبر الأجهزة المحمولة باستخدام TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow لأجهزة Android أجهزة Linux المدمجة.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

البديل الحديث: Ultralytics

في حين أن كل منYOLO EfficientDet يمثلان إنجازين أكاديميين مهمين، فإن التطبيق العملي في العالم الحقيقي غالبًا ما يتطلب نهجًا أكثر توازنًا وغنيًا بالميزات وسهل الاستخدام للمطورين. وهنا يأتي دور Ultralytics ليضع معيارًا جديدًا في هذا المجال.

صدر YOLO26 في يناير 2026، وهو يعتمد على إرث سابقيه، بما في ذلك Ultralytics YOLO11 و YOLOv8، مما أدى إلى تحول جذري في طريقة تعاملنا مع اكتشاف الأجسام.

بساطة من البداية إلى النهاية

يتميز YOLO26 بتصميم أصلي من طرف إلى طرف NMS. من خلال التخلص من Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة — وهو عنق الزجاجة الذي عانى منه كاشفات الأجسام لسنوات — يوفر YOLO26 خط أنابيب نشر أبسط وأسرع بكثير، خاصة على الأجهزة المتطورة.

أداء لا مثيل له وتعدد الاستخدامات

لا يقتصر دور YOLO26 على تحسين السرعة فحسب، بل إنه يعيد تعريف استقرار التدريب ودقته. فهو يقدم MuSGD Optimizer، وهو مزيج من SGD Muon مستوحى من ابتكارات تدريب LLM، مما يؤدي إلى معدلات تقارب أسرع بشكل كبير وكفاءة تدريب فائقة. على عكس البدائل الثقيلة القائمة على المحولات مثل RT-DETR، يحافظ YOLO26 على متطلبات ذاكرة منخفضة للغاية، مما يضمن إمكانية تدريبه على أجهزة من فئة المستهلكين.

علاوة على ذلك، يدمج YOLO26 ProgLoss + STAL، مما يحسن بشكل كبير التعرف على الأجسام الصغيرة، وهو أمر حيوي لحالات الاستخدام مثل الصور الجوية للطائرات بدون طيار والروبوتات. من أجل تحسين الأجهزة منخفضة الطاقة، أزال YOLO26 Distribution Focal Loss (DFL)، مما أدى إلى زيادة سرعة CPU بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة.

النظام البيئي وسهولة الاستخدام

تعد عملية التكامل المعقدة واحدة من أكبر العقبات التي تواجه نماذج مثل EfficientDet. في المقابل، توفر Ultralytics نظامًا بيئيًا متكاملًا ومُحكمًا. بفضل واجهة برمجة التطبيقات الموحدة، يمكن للمستخدمين التنقل بسهولة بين الكشف وتقسيم الحالات وتقدير الوضع وتصنيف الصور ومربعات الحدود الموجهة (OBB).

إليك مدى سهولة التدريب وتشغيل الاستدلال باستخدام YOLO26 باستخدامPython Ultralytics Python :

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

تعرف على المزيد حول YOLO26

الخلاصة

بينما يوفر استكشاف YOLO EfficientDet رؤى ممتازة حول المفاضلات بين البحث في الهندسة العصبية والتوسع المركب، يحتاج المطورون المعاصرون إلى أدوات تسد الفجوة بين البحث الأكاديمي وواقع الإنتاج.

بالنسبة للمطورين الذين يولون الأولوية لسهولة الاستخدام ومجتمع مفتوح المصدر نشط وتوازن لا مثيل له بين السرعة والدقة، فإن Ultralytics هو الخيار الأمثل. إن بنيته NMS وتكاليف التدريب المنخفضة والتكامل السلس مع Ultralytics الشامل يجعله الإطار المثالي لمشروع الرؤية الحاسوبية التالي.


تعليقات