تخطي إلى المحتوى

SAM 3: segment أي شيء باستخدام المفاهيم

تم الإصدار — تكامل Ultralytics قيد التقدم

أصدرت Meta الإصدار SAM-3 في 20 نوفمبر 2025. تقوم Ultralytics بدمج النماذج الآن وستقوم بشحن تحديث للحزمة مع دعم أصلي قريبًا. في غضون ذلك، يمكنك اتباع خطوات SAM 3 الرسمية الموضحة في ملف README أدناه لتجربة الإصدار الأولي.

نظرة عامة على SAM 3

SAM 3 (نموذج تجزئة أي شيء 3) هو نموذج الأساس الذي تم إصداره من Meta لتجزئة المفاهيم القابلة للمطالبات (PCS). استنادًا إلى SAM 2، يقدم SAM 3 قدرة جديدة بشكل أساسي: اكتشاف وتجزئة وتتبع جميع مثيلات المفهوم المرئي المحدد بواسطة مطالبات نصية أو نماذج صور أو كليهما. على عكس الإصدارات السابقة من SAM التي تقوم segment كائنات مفردة لكل مطالبة، يمكن SAM 3 العثور على كل تكرار لمفهوم يظهر في أي مكان في الصور أو مقاطع الفيديو segment بما يتماشى مع أهداف المفردات المفتوحة في تجزئة النماذج الحديثة.

تعمل Ultralytics بنشاط على دمج SAM-3 في ultralytics حزمة. حتى يتم إصدار هذا الإصدار، يمكنك تجربة تطبيق Meta الأولي باستخدام خطوات التثبيت والاستخدام الرسمية أدناه.

نظرة عامة

يحقق SAM 3 مكسبًا في الأداء بمقدار الضعف مقارنة بالأنظمة الحالية في تقسيم المفاهيم القابلة للمطالبة مع الحفاظ على قدرات SAM 2 وتحسينها للـ تقسيم المرئي التفاعلي. يتفوق النموذج في تقسيم المفردات المفتوحة، مما يسمح للمستخدمين بتحديد المفاهيم باستخدام عبارات اسمية بسيطة (مثل "حافلة مدرسية صفراء"، "قطة مخططة") أو عن طريق تقديم أمثلة لصور الجسم المستهدف. تكمل هذه القدرات خطوط الإنتاج الجاهزة التي تعتمد على التنبؤ و تتبع سير العمل المبسط.

تجزئة SAM 3

ما هو تجزئة المفهوم القابل للتوجيه (PCS)؟

تأخذ مهمة PCS موجه مفهوم كمدخل وتعيد أقنعة تجزئة بهويات فريدة لـ جميع مثيلات الكائنات المطابقة. يمكن أن تكون مطالبات المفهوم:

  • نص: عبارات اسمية بسيطة مثل "تفاحة حمراء" أو "شخص يرتدي قبعة"، على غرار التعلم الصفري
  • أمثلة الصور: مربعات إحاطة حول أمثلة للكائنات (إيجابية أو سلبية) لتعميم سريع
  • مدمج: كل من النصوص والنماذج التصويرية معًا لتحكم دقيق.

يختلف هذا عن المطالبات المرئية التقليدية (النقاط والمربعات والأقنعة) التي تقوم بتقسيم مثيل كائن معين واحد فقط، كما هو شائع في عائلة SAM الأصلية.

مقاييس الأداء الرئيسية

مقياس (Metric)إنجاز SAM 3
LVIS Zero-Shot Mask AP47.0 (مقابل أفضل رقم سابق 38.5، تحسن +22%)
معيار SA-Coأفضل بمرتين من الأنظمة الحالية
سرعة الاستدلال (H200 GPU)30 مللي ثانية لكل صورة مع الكشف عن 100+ كائن
أداء الفيديوشبه فوري لما يقرب من 5 كائنات متزامنة
MOSEv2 VOS Benchmark60.1 J&F (+25.5% مقارنة بـ SAM 2.1، +17% مقارنة بـ SOTA السابق)
التحسين التفاعليتحسين +18.6 CGF1 بعد 3 مطالبات نموذجية
فجوة الأداء البشريتحقق 88% من الحد الأدنى المقدر على SA-Co/Gold

للاطلاع على سياق حول مقاييس النموذج والمفاضلات في الإنتاج، راجع رؤى تقييم النموذج و مقاييس أداء YOLO.

البنية

يتكون SAM 3 من detector و tracker يشتركان في العمود الفقري للرؤية Perception Encoder (PE). يتجنب هذا التصميم المنفصل تعارضات المهام مع تمكين كل من الكشف على مستوى الصورة وتتبع الفيديو على مستوى الفيديو، مع واجهة متوافقة مع استخدام python و استخدام CLI من Ultralytics.

المكونات الأساسية

  • الكاشف: بنية تعتمد على DETR للكشف عن المفاهيم على مستوى الصورة

    • ترميز النص لمطالبات العبارات الاسمية
    • ترميز نموذجي للمطالبات المستندة إلى الصور
    • ترميز الاندماج لتهيئة ميزات الصورة على المطالبات
    • رأس وجود جديد يفصل التعرف ("ماذا") عن التوطين ("أين")
    • رأس القناع لتوليد أقنعة تجزئة المثيل
  • أداة التتبع: تجزئة الفيديو المستندة إلى الذاكرة والموروثة من SAM 2

    • ترميز المطالبة، فك ترميز القناع، ترميز الذاكرة
    • بنك الذاكرة لتخزين مظهر الكائن عبر الإطارات
    • إزالة الغموض الزمني بمساعدة تقنيات مثل مرشح كالمان (Kalman filter) في إعدادات الكائنات المتعددة
  • رمز الحضور: رمز عام مُدرَّب يتنبأ بما إذا كان المفهوم المستهدف موجودًا في الصورة/الإطار، مما يحسن الـ detect عن طريق فصل التعرف على الموقع.

بنية SAM 3

الابتكارات الرئيسية

  1. التعرف والتوطين غير المقترنين: يتوقع رأس الوجود وجود المفهوم عالميًا، بينما تركز استعلامات الاقتراح فقط على التوطين، وتتجنب الأهداف المتضاربة.
  2. مطالبات مرئية ومفهومية موحدة: يدعم كلاً من PCS (مطالبات المفهوم) و PVS (مطالبات مرئية مثل نقرات / مربعات SAM 2) في نموذج واحد.
  3. تحسين المثال التفاعلي: يمكن للمستخدمين إضافة أمثلة صور إيجابية أو سلبية لتحسين النتائج بشكل متكرر، مع تعميم النموذج على كائنات مماثلة بدلاً من مجرد تصحيح الحالات الفردية.
  4. إزالة الغموض الزمني: يستخدم درجات اكتشاف masklet وإعادة المطالبة الدورية للتعامل مع الانسدادات والمشاهد المزدحمة وإخفاقات التتبع في الفيديو، بما يتماشى مع أفضل الممارسات في تقسيم وتتبع المثيلات.

مجموعة بيانات SA-Co

تم تدريب SAM 3 على Segment Anything with Concepts (SA-Co)، وهي أكبر مجموعة بيانات تجزئة وأكثرها تنوعًا حتى الآن من Meta، والتي تتوسع لتتجاوز المعايير الشائعة مثل COCO و LVIS.

بيانات التدريب

مكون مجموعة البياناتالوصفمقياس
SA-Co/HQبيانات صور ذات جودة عالية مشروحة بشرياً من محرك بيانات رباعي المراحل5.2 مليون صورة، 4 ملايين عبارة اسمية فريدة
SA-Co/SYNمجموعة بيانات اصطناعية مصنفة بواسطة الذكاء الاصطناعي دون تدخل بشري38 مليون عبارة اسمية، 1.4 مليار قناع
SA-Co/EXT15 مجموعة بيانات خارجية مُثرية بسلبيات صعبةيختلف حسب المصدر
SA-Co/VIDEOشروحات الفيديو مع التتبع الزمني52.5 ألف مقطع فيديو، 24.8 ألف عبارة اسمية فريدة

بيانات مرجعية

يحتوي معيار تقييم SA-Co على 214 ألف عبارة فريدة من نوعها عبر 126 ألف صورة ومقطع فيديو، مما يوفر أكثر من 50 ضعفاً من المفاهيم مقارنةً بالمعايير الحالية. وهو يتضمن:

  • SA-Co/Gold: 7 نطاقات ثلاثية لقياس حدود الأداء البشري
  • SA-Co/Silver: 10 مجالات، شرح بشري واحد
  • SA-Co/Bronze وSA-Co/Bio: 9 مجموعات بيانات موجودة تم تكييفها لتجزئة المفاهيم
  • SA-Co/VEval: معيار الفيديو مع 3 نطاقات (SA-V، YT-Temporal-1B، SmartGlasses)

ابتكارات محرك البيانات

محرك بيانات SAM 3 القابل للتطوير الذي يعتمد على الإنسان والنموذج في الحلقة يحقق إنتاجية تعليقات توضيحية مضاعفة من خلال:

  1. أدوات الشرح بالذكاء الاصطناعي: تقترح النماذج المستندة إلى Llama عبارات اسمية متنوعة بما في ذلك السلبيات الصعبة.
  2. أدوات التحقق بالذكاء الاصطناعي: تقوم نماذج اللغة الكبيرة متعددة الوسائط المدربة تدريبًا دقيقًا بالتحقق من جودة الإخفاء والاكتمال بأداء قريب من أداء الإنسان.
  3. تعدين نشط: يركز الجهد البشري على حالات الفشل الصعبة حيث يعاني الذكاء الاصطناعي
  4. مدفوعة بعلم الوجود: تستفيد من علم الوجود الكبير المرتكز على Wikidata لتغطية المفهوم

التثبيت

سيكون SAM 3 متاحًا مباشرةً في حزمة Ultralytics بمجرد وصول التكامل. سيظل التثبيت:

pip install ultralytics

سيتم تنزيل النماذج تلقائيًا عند استخدامها لأول مرة. يمكنك بعد ذلك استخدام وضع التوقع predict القياسي ولاحقًا تصدير export النماذج إلى تنسيقات مثل ONNX و TensorRT للنشر. ترقبوا تحديث الحزمة مع أوزان وتكوينات SAM-3 قريبًا.

كيفية استخدام SAM 3: تعدد الاستخدامات في تقسيم المفاهيم

معاينة Ultralytics API

تعرض الأمثلة التالية واجهة برمجة تطبيقات Ultralytics API المتوقعة بمجرد شحن SAM 3 في الحزمة. وحتى يتم الانتهاء من التكامل، قد تتغير التفاصيل.

المهام والنماذج المدعومة

يدعم SAM 3 كلاً من مهام Promptable Concept Segmentation (PCS) و Promptable Visual Segmentation (PVS):

نوع المهمةأنواع المطالباتالناتج
تجزئة المفاهيم (PCS)نص (عبارات اسمية)، أمثلة صورجميع الحالات المطابقة للمفهوم
التقسيم المرئي (PVS)النقاط، الصناديق، الأقنعةمثيل كائن واحد (نمط SAM 2)
التحسين التفاعليإضافة/إزالة الأمثلة أو النقرات بشكل متكررتحسين التجزئة بدقة محسنة

أمثلة على تجزئة المفاهيم

التقسيم باستخدام مطالبات نصية

تقسيم المفاهيم المستندة إلى النصوص

ابحث عن جميع مثيلات المفهوم وقسمها باستخدام وصف نصي.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

معاينة API

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي معلق بتكامل Ultralytics.

التقسيم باستخدام نماذج صور

تقطيع قائم على نموذج الصورة

استخدم كائنًا واحدًا أو أكثر من الكائنات النموذجية للعثور على جميع الحالات المماثلة.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

معاينة API

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي معلق بتكامل Ultralytics.

التحسين التفاعلي

التحسين التكراري باستخدام النماذج

تحسين النتائج تدريجيًا عن طريق إضافة مطالبات نموذجية بناءً على المخرجات الأولية.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

معاينة API

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي معلق بتكامل Ultralytics.

تقسيم مفاهيم الفيديو

تتبع المفاهيم عبر الفيديو

detect وتتبع جميع الحالات لمفهوم ما عبر الفيديو.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

معاينة API

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي معلق بتكامل Ultralytics.

لإعدادات البث والإنتاج الأوسع، راجع تتبع الكائنات و عرض النتائج في الوحدة الطرفية (terminal).

الموجهات المرئية (توافق SAM 2)

يحافظ SAM 3 على التوافق الكامل مع الإصدارات السابقة مع المطالبة المرئية SAM 2:

مطالبات مرئية بنمط SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

معاينة API

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي معلق بتكامل Ultralytics.

معايير الأداء

تقطيع الصور

يحقق SAM 3 نتائج متطورة عبر معايير متعددة، بما في ذلك مجموعات البيانات الواقعية مثل LVIS و COCO للتقسيم:

قياس الأداءمقياس (Metric)SAM 3الأفضل سابقًاتحسين
LVIS (لقطة صفرية)قناع AP47.038.5+22.1%
SA-Co/GoldCGF165.034.3 (OWLv2)+89.5%
COCO (بدون تدريب مسبق)مربع AP53.552.2 (T-Rex2)+2.5%
ADE-847 (تقسيم دلالي)mIoU14.79.2 (APE-D)+59.8%
PascalConcept-59mIoU59.458.5 (APE-D)+1.5%
Cityscapes (تقسيم دلالي)mIoU65.144.2 (APE-D)+47.3%

استكشف خيارات مجموعة البيانات للتجربة السريعة في مجموعات بيانات Ultralytics.

أداء تقسيم الفيديو

يُظهر SAM 3 تحسينات كبيرة مقارنة بـ SAM 2 وأحدث التقنيات عبر معايير الفيديو مثل DAVIS 2017 و YouTube-VOS:

قياس الأداءمقياس (Metric)SAM 3SAM 2.1 Lتحسين
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

تكييف قليل الطلقات

يتفوق SAM 3 في التكيف مع المجالات الجديدة بأقل عدد ممكن من الأمثلة، وهو أمر ذو صلة بسير عمل الذكاء الاصطناعي المرتكز على البيانات:

قياس الأداء0-shot AP10-shot APالأفضل سابقًا (10 لقطات)
ODinW1359.971.667.9 (gDino1.5-Pro)
RF100-VL14.335.733.7 (gDino-T)

فعالية التحسين التفاعلي

التحفيز المفهومي في SAM 3 مع النماذج يتقارب بسرعة أكبر بكثير من التحفيز البصري:

تمت إضافة مطالباتنتيجة CGF1الكسب مقابل النص فقطالكسب مقابل خط الأساس PVS
نص فقط46.4خط الأساسخط الأساس
+1 مثال57.6+11.2+6.7
+2 مثال62.2+15.8+9.7
+3 أمثلة65.0+18.6+11.2
+4 أمثلة65.7+19.3+11.5 (هضبة)

دقة عد الكائنات

يوفر SAM 3 عدًا دقيقًا عن طريق تقسيم جميع الحالات، وهو مطلب شائع في عد الكائنات:

قياس الأداءالدقةMAEمقابل أفضل MLLM
CountBench95.6%0.1192.4% (Gemini 2.5)
PixMo-Count87.3%0.2288.8% (Molmo-72B)

مقارنة SAM 3 مقابل SAM 2 مقابل YOLO

هنا نقارن قدرات SAM 3 مع SAM 2 ونماذج YOLO11:

القدرةSAM 3SAM 2YOLO11n-seg
تجزئة المفاهيم✅ كل النسخ من نص / أمثلة❌ غير مدعوم❌ غير مدعوم
التقسيم المرئي✅ نسخة واحدة (SAM 2 متوافقة)✅ نسخة واحدة✅ كل النسخ
القدرة على التصوير الصفري✅ مفردات مفتوحة✅ موجهات هندسية❌ مجموعة مغلقة
التحسين التفاعلي✅ أمثلة + نقرات✅ نقرات فقط❌ غير مدعوم
تتبع الفيديو✅ متعدد الكائن مع هويات✅ متعدد الكائن✅ متعدد الكائن
LVIS Mask AP (لقطة صفرية)47.0غير متاحغير متاح
MOSEv2 J&F60.147.9غير متاح
سرعة الاستدلال (H200)30 مللي ثانية (100+ كائن)~23 مللي ثانية (لكل كائن)2-3 مللي ثانية (صورة)
حجم النموذجكبير (~400+ ميجابايت متوقعة)162 ميجابايت (الأساسي)5.9 ميجابايت

النقاط الرئيسية:

  • SAM 3: الأفضل لتجزئة المفاهيم ذات المفردات المفتوحة، والعثور على جميع حالات المفهوم مع النص أو النماذج النموذجية
  • SAM 2: الأفضل للتجزئة التفاعلية للكائن الواحد في الصور ومقاطع الفيديو مع مطالبات هندسية
  • YOLO11: الأفضل للتقطيع عالي السرعة في الوقت الفعلي في عمليات النشر ذات الموارد المحدودة باستخدام خطوط أنابيب التصدير الفعالة مثل ONNX و TensorRT

مقاييس التقييم

يقدم SAM 3 مقاييس جديدة مصممة لمهمة PCS، تكمل المقاييس المألوفة مثل F1 score و precision و recall.

تصنيف-Gated F1 (CGF1)

المقياس الأساسي الذي يجمع بين التوطين والتصنيف:

CGF1 = 100 × pmF1 × IL_MCC

حيث:

  • pmF1 (إيجابي Macro F1): يقيس جودة تحديد الموقع على أمثلة إيجابية
  • IL_MCC (معامل ارتباط ماثيوز على مستوى الصورة): يقيس دقة التصنيف الثنائي ("هل المفهوم موجود؟")

لماذا هذه المقاييس؟

لا تأخذ مقاييس AP التقليدية في الاعتبار المعايرة، مما يجعل استخدام النماذج صعبًا في الممارسة العملية. من خلال تقييم التوقعات التي تزيد عن 0.5 من الثقة فقط، تفرض مقاييس SAM 3 معايرة جيدة وتحاكي أنماط الاستخدام الواقعية في حلقات predict و track التفاعلية.

الاستئصال والرؤى الرئيسية

تأثير وجود الرأس

يفصل رأس التواجد بين التعرف والتموضع، مما يوفر تحسينات كبيرة:

التكوينCGF1IL_MCCpmF1
بدون وجود57.60.7774.7
مع وجود63.30.8277.1

يوفر رأس التواجد +5.7 CGF1 boost (+9.9%)، مما يحسن بشكل أساسي قدرة التعرف (IL_MCC +6.5%).

تأثير السلبيات الصعبة

السلبيات الصعبة / الصورةCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

تعتبر السلبيات الصعبة ضرورية للتعرف على المفردات المفتوحة، مما يحسن IL_MCC بنسبة 54.5% (0.44 → 0.68).

توسيع نطاق بيانات التدريب

مصادر البياناتCGF1IL_MCCpmF1
خارجي فقط30.90.4666.3
خارجي + اصطناعي39.70.5770.6
خارجي + HQ51.80.7173.2
جميع الثلاثة54.30.7473.5

توفر التعليقات التوضيحية البشرية عالية الجودة مكاسب كبيرة مقارنة بالبيانات الاصطناعية أو الخارجية وحدها. للحصول على خلفية عن ممارسات جودة البيانات، انظر جمع البيانات والتعليقات التوضيحية.

التطبيقات

تتيح إمكانية تجزئة المفاهيم في SAM 3 حالات استخدام جديدة:

  • الإشراف على المحتوى: البحث عن جميع مثيلات أنواع محتوى معينة عبر مكتبات الوسائط
  • التجارة الإلكترونية: segment جميع منتجات نوع معين في صور الكتالوج، ودعم الترميز التلقائي
  • التصوير الطبي: تحديد جميع حالات أنواع الأنسجة أو التشوهات المحددة
  • الأنظمة الذاتية: track جميع مثيلات إشارات المرور أو المشاة أو المركبات حسب الفئة
  • تحليلات الفيديو: عد وتتبع جميع الأشخاص الذين يرتدون ملابس معينة أو يقومون بأفعال معينة
  • شرح مجموعة البيانات: شرح سريع لجميع مثيلات فئات الكائنات النادرة
  • البحث العلمي: تحديد وتحليل جميع العينات التي تطابق معايير محددة

وكيل SAM 3: استدلال لغوي موسع

يمكن دمج SAM 3 مع نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) للتعامل مع الاستعلامات المعقدة التي تتطلب الاستدلال، على غرار الأنظمة مفتوحة المفردات مثل OWLv2 و T-Rex.

الأداء في مهام الاستدلال

قياس الأداءمقياس (Metric)وكيل SAM 3 (Gemini 2.5 Pro)الأفضل سابقًا
ReasonSeg (التحقق)gIoU76.065.0 (SoTA)
ReasonSeg (اختبار)gIoU73.861.3 (SoTA)
OmniLabel (التحقق)AP46.736.5 (REAL)
RefCOCO+تسريع91.289.3 (LISA)

أمثلة على الاستعلامات المعقدة

يمكن لوكيل SAM 3 التعامل مع الاستعلامات التي تتطلب الاستدلال:

  • "أشخاص يجلسون ولكن لا يحملون صندوق هدايا في أيديهم"
  • "الكلب الأقرب إلى الكاميرا الذي لا يرتدي طوقًا"
  • "أشياء حمراء أكبر من يد الشخص"

يقترح MLLM استعلامات بسيطة للعبارة الاسمية إلى SAM 3، ويحلل الأقنعة التي تم إرجاعها، ويكرر حتى يتم تحقيق الرضا.

القيود

في حين أن SAM 3 يمثل تقدمًا كبيرًا، إلا أن لديه بعض القيود:

  • تعقيد العبارة: الأنسب لعبارات اسمية بسيطة؛ قد تتطلب التعبيرات المرجعية الطويلة أو الاستدلال المعقد تكامل MLLM
  • التعامل مع الغموض: تظل بعض المفاهيم غامضة بطبيعتها (مثل "نافذة صغيرة"، "غرفة مريحة")
  • المتطلبات الحسابية: أكبر وأبطأ من نماذج الكشف المتخصصة مثل YOLO
  • نطاق المفردات: يركز على المفاهيم المرئية الذرية؛ الاستدلال التركيبي محدود بدون مساعدة MLLM
  • المفاهيم النادرة: قد يتدهور الأداء في المفاهيم النادرة للغاية أو الدقيقة التي لا يتم تمثيلها بشكل جيد في بيانات التدريب

اقتباس

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

الأسئلة الشائعة

متى سيتم إصدار SAM 3؟

تم إصدار SAM 3 بواسطة Meta في 20 نوفمبر 2025. دعم Ultralytics قيد التقدم وسيتم شحنه في تحديث حزمة قادم مع وثائق كاملة لـ وضع التنبؤ و وضع التتبع.

هل سيتم دمج SAM 3 في Ultralytics؟

نعم. سيتم دعم SAM 3 في حزمة Ultralytics Python عند الإصدار، بما في ذلك تجزئة المفاهيم، والمطالبات المرئية بنمط SAM 2، وتتبع الفيديو متعدد الكائنات. ستتمكن من التصدير إلى تنسيقات مثل ONNX و TensorRT للنشر، مع سير عمل Python و CLI مبسط.

الجدول الزمني للتنفيذ

أمثلة التعليمات البرمجية في هذا المستند هي إصدارات معاينة تعرض أنماط الاستخدام المقصودة. سيكون التنفيذ الفعلي متاحًا بعد إكمال Ultralytics لعملية الدمج.

ما هو تجزئة المفهوم القابل للتوجيه (PCS)؟

PCS هي مهمة جديدة تم تقديمها في SAM 3 والتي تقوم بعملية segment لـ جميع الحالات لمفهوم مرئي في صورة أو مقطع فيديو. على عكس عملية segmentation التقليدية التي تستهدف مثيل كائن معين، تجد PCS كل تكرار لفئة. على سبيل المثال:

  • نص موجه: "حافلة مدرسية صفراء" → يقسم جميع الحافلات المدرسية الصفراء في المشهد
  • مثال الصورة: مربع حول كلب واحد → يحدد جميع الكلاب في الصورة
  • مدمج: "قط مخطط" + مربع نموذجي → يقوم بتقطيع جميع القطط المخططة المطابقة للمثال

اطلع على معلومات أساسية ذات صلة حول الكشف عن الأجسام و تقسيم المثيلات.

كيف يختلف SAM 3 عن SAM 2؟

ميزةSAM 2SAM 3
المهمةكائن واحد لكل مطالبةجميع حالات المفهوم
أنواع المطالباتالنقاط، الصناديق، الأقنعة+ عبارات نصية، أمثلة صور
إمكانية الكشفيتطلب كاشف خارجيكاشف مدمج للمفردات المفتوحة
التعرفيعتمد على الهندسة فقطالتعرف على النصوص والمرئيات
البنيةمتتبع فقطكاشف + متتبع مع رأس تواجد
أداء التصوير الصفريغير متاح (يتطلب مطالبات مرئية)47.0 AP على LVIS، أفضل بـ 2× على SA-Co
التحسين التفاعلينقرات فقطنقرات + تعميم نموذجي

يحافظ SAM 3 على التوافق مع الإصدارات السابقة مع المطالبة المرئية SAM 2 مع إضافة إمكانات قائمة على المفهوم.

ما هي مجموعات البيانات المستخدمة لتدريب SAM 3؟

تم تدريب SAM 3 على مجموعة البيانات Segment Anything with Concepts (SA-Co):

بيانات التدريب:

  • 5.2 مليون صورة مع 4 ملايين عبارة اسمية فريدة (SA-Co/HQ) - تعليقات توضيحية بشرية عالية الجودة
  • 52.5 ألف مقطع فيديو مع 24.8 ألف عبارة اسمية فريدة (SA-Co/VIDEO)
  • 1.4 مليار قناع اصطناعي عبر 38 مليون عبارة اسمية (SA-Co/SYN)
  • 15 مجموعة بيانات خارجية مُثرية بسلبيات صعبة (SA-Co/EXT)

بيانات القياس:

  • 214 ألف مفهوم فريد عبر 126 ألف صورة/فيديو
  • مفاهيم أكثر بـ 50 مرة من المعايير الحالية (على سبيل المثال، لدى LVIS ~4 آلاف مفهوم)
  • تعليق توضيحي ثلاثي على SA-Co/Gold لقياس حدود الأداء البشري

يمكّن هذا الحجم والتنوع الهائلان التعميم الصفري الفائق لـ SAM 3 عبر مفاهيم المفردات المفتوحة.

كيف تتم مقارنة SAM 3 بـ YOLO11 لـ segmentation؟

يخدم SAM 3 و YOLO11 حالات استخدام مختلفة:

مزاياSAM 3:

  • مفردات مفتوحة: يقوم بتقسيم أي مفهوم عبر مطالبات نصية دون تدريب
  • Zero-shot: يعمل على فئات جديدة على الفور
  • تفاعلي: التعزيز القائم على المثال يعمم على كائنات مماثلة
  • قائم على المفهوم: يعثر تلقائيًا على جميع مثيلات الفئة
  • الدقة: 47.0 AP في تجزئة مثيلات LVIS بدون تدريب مسبق

مزايا YOLO11:

  • السرعة: استدلال أسرع بـ 10-15 مرة (2-3 مللي ثانية مقابل 30 مللي ثانية لكل صورة)
  • الكفاءة: نماذج أصغر بـ 70 مرة (5.9 ميجابايت مقابل ~ 400 ميجابايت متوقعة)
  • صديقة للموارد: تعمل على الأجهزة الطرفية والهواتف المحمولة
  • آني: مُحسَّن لعمليات النشر في بيئات الإنتاج

توصية:

  • استخدم SAM 3 لتقطيع مرن ومفتوح المفردات حيث تحتاج إلى العثور على جميع مثيلات المفاهيم الموصوفة بالنص أو الأمثلة.
  • استخدم YOLO11 لعمليات النشر عالية السرعة والإنتاج حيث تكون الفئات معروفة مسبقًا.
  • استخدم SAM 2 لتقطيع الأجسام المفردة بشكل تفاعلي باستخدام مطالبات هندسية.

هل يمكن لـ SAM 3 التعامل مع استعلامات اللغة المعقدة؟

تم تصميم SAM 3 لعبارات اسمية بسيطة (مثل "تفاحة حمراء"، "شخص يرتدي قبعة"). للاستعلامات المعقدة التي تتطلب الاستدلال، ادمج SAM 3 مع MLLM كـ SAM 3 Agent:

استعلامات بسيطة (SAM 3 الأصلي):

  • "حافلة مدرسية صفراء"
  • "قط مخطط"
  • "شخص يرتدي قبعة حمراء"

استعلامات معقدة (SAM 3 Agent مع MLLM):

  • "أشخاص يجلسون ولكن لا يحملون صندوق هدايا"
  • "الكلب الأقرب إلى الكاميرا بدون طوق"
  • "أشياء حمراء أكبر من يد الشخص"

يحقق وكيل SAM 3 76.0 gIoU في التحقق من صحة ReasonSeg (مقابل 65.0 الأفضل سابقًا، تحسن بنسبة +16.9٪) من خلال الجمع بين تقسيم SAM 3 وقدرات الاستدلال MLLM.

ما مدى دقة SAM 3 مقارنة بالأداء البشري؟

في معيار SA-Co/Gold مع التعليقات التوضيحية البشرية الثلاثية:

  • الحد الأدنى البشري: 74.2 CGF1 (أكثر المعلقين تحفظًا)
  • أداءSAM 3: 65.0 CGF1
  • الإنجاز: 88% من الحد الأدنى البشري المقدر
  • الحد الأعلى البشري: 81.4 CGF1 (أكثر المعلقين تحررًا)

يحقق SAM 3 أداءً قويًا يقترب من دقة المستوى البشري في تقسيم المفاهيم ذات المفردات المفتوحة، مع وجود فجوة في المقام الأول في المفاهيم الغامضة أو الذاتية (مثل "نافذة صغيرة"، "غرفة مريحة").



📅 تم إنشاؤه منذ شهر واحد ✏️ تم التحديث منذ 9 أيام
glenn-jocherY-T-G

تعليقات