YOLOv9 YOLO: التطورات في مجال الكشف عن الأجسام في الوقت الفعلي

تميز تطور الكشف عن الأجسام في الوقت الفعلي بالسعي المستمر لتحقيق التوازن الأمثل بين الدقة والكمون. في هذه المقارنة التفصيلية، نستكشف بنيةين مهمتين: YOLOv9، المعروفة بمعلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN)، و YOLO وهي عائلة نماذج تم تحسينها من خلال البحث عن البنية العصبية (NAS) وتقنيات إعادة المعلمات.

كما نقدم أحدث جيل، YOLO26، الذي يوسع هذه الحدود بشكل أكبر من خلال تصميم شامل NMS وتحسين للأجهزة الطرفية.

مقاييس الأداء المقارنة

يعرض الجدول التالي مقارنة مباشرة لمقاييس الأداء الرئيسية في مجموعة بيانات COCO . YOLOv9 كفاءة فائقة في المعلمات ودقة أعلى في كثير من الأحيان بالنسبة لأحجام النماذج المماثلة.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9: معلومات التدرج القابلة للبرمجة

YOLOv9 يمثل قفزة كبيرة في تصميم بنية التعلم العميق، حيث يعالج مشكلة اختناق المعلومات المتأصلة في الشبكات العميقة.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 2024-02-21
Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
GitHub:WongKinYiu/yolov9

الابتكارات المعمارية الرئيسية

معلومات التدرج القابلة للبرمجة (PGI): مع ازدياد عمق الشبكات، غالبًا ما تضيع المعلومات المهمة عن الميزات أثناء عملية التغذية الأمامية. تقدم PGI فرعًا مساعدًا قابلًا للانعكاس يوفر معلومات تدرج موثوقة للفرع الرئيسي أثناء التدريب. وهذا يضمن احتفاظ الشبكة بالميزات الأساسية للكشف الدقيق، مما يحل مشكلة "اختناق المعلومات" بشكل فعال دون إضافة تكلفة الاستدلال.
GELAN Backbone: تجمع شبكة التجميع الطبقي الفعالة المعممة (GELAN) بين أفضل جوانب CSPNet و ELAN. وهي تتيح اختيارات مرنة للكتل الحسابية (مثل ResBlocks أو كتل CSP) مع تعظيم الاستفادة من المعلمات. وينتج عن ذلك نماذج خفيفة الوزن ولكنها قوية للغاية.

هذه الابتكارات تجعل YOLOv9 فعالاً YOLOv9 في الكشف عن الأجسام للأغراض العامة، ومتميزاً بشكل خاص في الاحتفاظ بالتفاصيل الدقيقة في المشاهد المعقدة.

تعرف على المزيد حول YOLOv9

YOLO: تحسين البحث في الهندسة العصبية

يركز YOLO على اكتشاف البنى الفعالة تلقائيًا واستخدام تقنيات التقطير لتعزيز الأداء.

المؤلفون: شيانزه شو، ييكي جيانغ، ويهوا تشين، ييلون هوانغ، يوان تشانغ، شيويو سون
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:DAMO-YOLO: تقرير عن تصميم كشف الأجسام في الوقت الفعلي
GitHub:tinyvision/DAMO-YOLO

أبرز ملامح الهيكلة

YOLO تقنية تسمى Neural Architecture Search (NAS) لبناء العمود الفقري الخاص به، MAE-NAS. يهدف هذا النهج إلى إيجاد بنية الشبكة المثلى ضمن قيود زمنية محددة. بالإضافة إلى ذلك، يستخدم Efficient RepGFPN (شبكة هرمية عامة معاد تقييمها) لدمج الميزات عبر مستويات مختلفة. يعتمد النموذج أيضًا بشكل كبير على "ZeroHead" وتحسين التقطير، حيث يوجه نموذج المعلم الأكبر تدريب نموذج الطالب الأصغر لتحسين دقته.

على الرغم من طابعها المبتكر، فإن الاعتماد على NAS وخطوط التقطير المعقدة يمكن أن يجعل إعادة إنتاج النتائج أو تعديل البنية لمهام مخصصة أكثر صعوبة مقارنة بالتصميم المعياري لـ YOLOv9.

Ultralytics : النظام البيئي وسهولة الاستخدام

في حين أن كلا البنيتين تقدمان مساهمات نظرية قوية، فإن التجربة العملية للمطورين تختلف بشكل كبير. توفر Ultralytics بما في ذلك YOLOv9 YOLO26، تجربة سلسة "خالية من الاحتكاك".

سير عمل مبسط

غالبًا ما يتطلب تدريبYOLO ملفات تكوين معقدة وإعدادات بيئة محددة (مثل PaddlePaddle CUDA محددة). في المقابل، تعملPython Ultralytics Python على توحيد سير العمل. يمكنك تحميل وتدريب ونشر أحدث النماذج في غضون دقائق.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

التنوع ودعم المهام

لا تقتصر Ultralytics على المربعات المحددة. يدعم الإطار بشكل أساسي تقسيم الحالات وتقدير الوضع وكشف المربعات المحددة الموجهة (OBB). تتيح هذه المرونة للفرق التنقل بين المهام دون الحاجة إلى تعلم مكتبات جديدة. على العكس من ذلك،YOLO بشكل أساسي على الكشف القياسي، مع دعم أقل تكاملاً لهذه المهام المعقدة.

كفاءة التدريب والذاكرة

تم تصميمYOLO Ultralytics YOLO لتحقيق الكفاءة. وعادةً ما تتطلب GPU أقل أثناء التدريب مقارنةً بالبنى الثقيلة المحولة أو النماذج التي تم إنشاؤها بواسطة NAS والتي قد يكون لها أنماط وصول غير منتظمة إلى الذاكرة. وهذا يتيح للباحثين تدريب نماذج قوية على أجهزة من فئة المستهلكين، مما يتيح الوصول إلى الرؤية الحاسوبية المتطورة للجميع.

تطبيقات عملية في أرض الواقع

يعتمد اختيار النموذج المناسب على قيود النشر وأهداف الأداء.

حالات الاستخدام المثالية لـ YOLOv9

تحليلات البيع بالتجزئة: الدقة العالية لـ YOLOv9c تجعله ممتازًا لاكتشاف المنتجات على الرفوف المزدحمة حيث يكون الحجب شائعًا.
التصوير الطبي: تساعد بنية PGI في الاحتفاظ بالمعلومات الهامة عن السمات، وهو أمر حيوي عند الكشف عن الشذوذات الصغيرة في الفحوصات الطبية أو تحديد الكسور.
المراقبة للأغراض العامة: للتغذية الأمنية القياسية التي تتطلب توازنًا بين mAP عالي mAP FPS معقول.

حالات الاستخدام المثالية لـYOLO

البحث عن الأجهزة المقيدة: إذا كنت تجري بحثًا عن NAS للعثور على بنية أساسية مصممة خصيصًا لتناسب قيود الأجهزة الفريدة جدًا التي تفشل فيها البنى الأساسية القياسية.
المقارنة الأكاديمية: للباحثين الذين يقارنون فعالية تقنيات التقطير مقابل إعادة تحديد المعلمات الهيكلية.

لماذا YOLO26 هو المستقبل

بالنسبة للمطورين الذين يبدؤون مشاريع جديدة في عام 2026، يوفر YOLO26 مجموعة الميزات الأكثر جاذبية. فهو يعتمد على نقاط قوة YOLOv9 يقدم تصميمًا شاملاً NMS مما يلغي الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression. وهذا يبسط النشر بشكل كبير ويقلل من زمن الاستجابة، خاصة على الأجهزة الطرفية.

تعرف على المزيد حول YOLO26

تشمل ابتكارات YOLO26 الرئيسية ما يلي:

MuSGD Optimizer: مزيج من SGD Muon يعمل على استقرار التدريب وتسريع التقارب، مما يوفر استقرار تدريب نموذج اللغة الكبيرة (LLM) للرؤية.
إزالة DFL: تعمل إزالة فقدان بؤرة التوزيع على تبسيط الرسم البياني للنموذج، مما يسهل التصدير إلى تنسيقات مثل ONNX و TensorRT أكثر سلاسة.
كشف محسّن للأجسام الصغيرة: من خلال ProgLoss و STAL، يتفوق YOLO26 في تطبيقات الصور الجوية والطائرات بدون طيار.

تأمين نشرك للمستقبل

يضمن الانتقال إلى YOLO26 استفادة تطبيقك من أحدث التطورات في مجال تحسين الحافة. يعني التصميم الأصلي الشامل استنتاجًا أسرع على وحدات المعالجة المركزية ووحدات المعالجة العصبية، وهو أمر بالغ الأهمية لأجهزة إنترنت الأشياء التي تعمل بالبطارية.

الخلاصة

بينماYOLO مفاهيم مثيرة للاهتمام فيما يتعلق بالبحث عن البنية العصبية والتقطير، YOLOv9 و YOLO26 الأحدث يقدمان حلاً أكثر عملية وقوة وسهولة في الاستخدام للغالبية العظمى من تطبيقات الرؤية الحاسوبية. يضمن Ultralytics للمطورين الوصول إلى أفضل الأدوات للتدريب والتتبع ونشر النماذج، مدعومة بوثائق شاملة ودعم من المجتمع.

لمزيد من الاستكشاف حول بنى النماذج، يمكنك مراجعة مقارناتنا بين YOLOv10 YOLO أو YOLO11 YOLOv9.