تخطي إلى المحتوى

SAM 3: تقسيم أي شيء بالمفاهيم

تم الإصدار - تكامل Ultralytics قيد التنفيذ

أصدرت Meta إصدار SAM في 20 نوفمبر 2025. تعمل Ultralytics على دمج النماذج الآن وستقوم بشحن تحديث الحزمة مع الدعم الأصلي قريبًا. في هذه الأثناء، يمكنك اتباع خطوات SAM 3 README الرسمية أدناه لتجربة الإصدار الأصلي.

نظرة عامة على SAM 3

SAM 3 (نموذج تجزئة أي شيء 3) هو نموذج الأساس الذي تم إصداره من Meta لتجزئة المفاهيم القابلة للمطالبات (PCS). استنادًا إلى SAM 2، يقدم SAM 3 قدرة جديدة بشكل أساسي: اكتشاف وتجزئة وتتبع جميع مثيلات المفهوم المرئي المحدد بواسطة مطالبات نصية أو نماذج صور أو كليهما. على عكس الإصدارات السابقة من SAM التي تقوم segment كائنات مفردة لكل مطالبة، يمكن SAM 3 العثور على كل تكرار لمفهوم يظهر في أي مكان في الصور أو مقاطع الفيديو segment بما يتماشى مع أهداف المفردات المفتوحة في تجزئة النماذج الحديثة.

تعمل شركة Ultralytics بنشاط على دمج SAM في ultralytics الحزمة. إلى أن يصل هذا الإصدار، يمكنك تجربة تطبيق Meta المنبع باستخدام خطوات التثبيت والاستخدام الرسمية أدناه.

نظرة عامة

يحقق SAM 3 زيادة في الأداء بمقدار ضعفين مقارنةً بالأنظمة الحالية في تجزئة المفاهيم القابلة للمطالبات مع الحفاظ على قدرات SAM 2 في التجزئة البصرية التفاعلية وتحسينها. ويتفوق النموذج في تجزئة المفردات المفتوحة، مما يسمح للمستخدمين بتحديد المفاهيم باستخدام عبارات اسمية بسيطة (على سبيل المثال، "حافلة المدرسة الصفراء"، "قطة مخططة") أو من خلال توفير أمثلة على صور الكائن المستهدف. هذه القدرات تكمل خطوط الإنتاج الجاهزة التي تعتمد على التنبؤ المبسط و track سير العمل.

تجزئة SAM 3

ما هو تجزئة المفهوم القابل للموجّه (PCS)؟

تأخذ مهمة PCS مطالبة المفهوم كمدخلات وتقوم بإرجاع أقنعة التجزئة مع هويات فريدة لجميع مثيلات الكائنات المطابقة. يمكن أن تكون مطالبات المفاهيم:

  • النص: العبارات الاسمية البسيطة مثل "تفاحة حمراء" أو "شخص يرتدي قبعة"، على غرار التعلم من دون إطلاق النار
  • نماذج الصور: المربعات المحدودة حول أمثلة الأجسام (موجبة أو سالبة) للتعميم السريع
  • مدمجة: كلا النموذجين النصي والصوري معاً للتحكم الدقيق

يختلف هذا الأمر عن المطالبات المرئية التقليدية (النقاط، والمربعات، والأقنعة) التي segment مثيل كائن واحد محدد فقط، كما هو شائع في عائلةSAM الأصلية.

مقاييس الأداء الرئيسية

مقياس (Metric)إنجاز SAM 3 Achievement
قناع LVIS Zero-Shot Mask AP47.0 (مقابل أفضل مستوى سابق 38.5، + 22% تحسن)
المعيار SA-Co Benchmark2× أفضل من الأنظمة الحالية
سرعة الاستدلال ( GPU H200)30 مللي ثانية لكل صورة مع أكثر من 100 جسم مكتشف
أداء الفيديوفي الوقت الفعلي تقريباً لحوالي 5 كائنات متزامنة
معيار MOSEv2 VOS Benchmark60.1 J&F (+ 25.5% عن SAM 2.1 + 25.5% عن SAM 2.1، + 17% عن SOTA السابقة)
التحسين التفاعلي+18.6 +18.6 تحسن في عامل التهيئة 1 بعد 3 مطالبات نموذجية
فجوة الأداء البشرييحقق 88% من الحد الأدنى المقدر لـ SA-Co/Gold

للحصول على سياق حول مقاييس النموذج والمفاضلة في الإنتاج، راجع رؤى تقييم النموذج ومقاييس أداء نموذج YOLO .

البنية

يتألف SAM 3 من كاشف ومتعقب يشتركان في العمود الفقري للرؤية (PE). يتجنب هذا التصميم المنفصل تعارض المهام مع تمكين كل من الكشف على مستوى الصورة والتتبع على مستوى الفيديو، مع واجهة متوافقة معاستخدام Ultralytics Python واستخدامCLI .

المكونات الأساسية

  • الكاشف: البنية القائمة على DETR للكشف عن المفاهيم على مستوى الصورة

    • أداة ترميز النص لمطالبات العبارات الاسمية
    • أداة تشفير نموذجية للمطالبات المستندة إلى الصور
    • مشفر الاندماج لتكييف ميزات الصورة على المطالبات
    • رأس التواجد الجديد الذي يفصل بين التعرف ("ماذا") عن التوطين ("أين")
    • رأس القناع لتوليد أقنعة تجزئة المثيل
  • تعقب: تجزئة الفيديو المستندة إلى الذاكرة الموروثة من SAM 2

    • أداة تشفير الموجه، وحدة فك تشفير القناع، وحدة تشفير الذاكرة
    • بنك الذاكرة لتخزين مظهر الكائن عبر الإطارات
    • التفكيك الزمني بمساعدة تقنيات مثل مرشح كالمان في إعدادات متعددة الأجسام
  • رمز التواجد: رمز رمزي عالمي مكتسب يتنبأ بما إذا كان المفهوم المستهدف موجودًا في الصورة/الإطار، مما يحسن من عملية الكشف عن طريق فصل التعرف عن التوطين.

هندسة SAM 3

الابتكارات الرئيسية

  1. الفصل بين التعرّف والتوطين: يتنبأ رأس التواجد بتوقع وجود المفهوم على مستوى العالم، بينما تركز استعلامات الاقتراح على التوطين فقط، مما يؤدي إلى تجنب الأهداف المتضاربة.
  2. مفهوم موحد ومطالبات مرئية: يدعم كلاً من PCS (موجهات المفاهيم) و PVS (موجهات مرئية مثل نقرات/مربعات SAM 2) في نموذج واحد.
  3. تنقيح النماذج التفاعلية: يمكن للمستخدمين إضافة نماذج إيجابية أو سلبية للصور لتحسين النتائج بشكل متكرر، مع تعميم النموذج على كائنات مماثلة بدلاً من مجرد تصحيح الحالات الفردية.
  4. التفكيك الزمني: يستخدم درجات الكشف عن الأقنعة وإعادة العرض الدورية للتعامل مع حالات الانسداد، والمشاهد المزدحمة، وفشل التتبع في الفيديو، بما يتماشى مع أفضل ممارسات تجزئة المثيل والتتبع.

مجموعة بيانات SA-Co Dataset

تم تدريب SAM 3 على مجموعة بيانات SAM 3 على Segment Anything with Concepts (SA-Co)، وهي أكبر مجموعة بيانات تجزئة من Meta وأكثرها تنوعًا حتى الآن، حيث تتوسع إلى ما هو أبعد من المعايير الشائعة مثل COCOوLVIS.

بيانات التدريب

مكون مجموعة البياناتالوصفالمقياس
SA-Co/HQبيانات صور ذات جودة عالية مشروحة بشرياً من محرك بيانات رباعي المراحل5.2 مليون صورة، 4 مليون عبارة اسمية فريدة من نوعها
SA-Co/SYNمجموعة بيانات اصطناعية تم تصنيفها بواسطة الذكاء الاصطناعي دون تدخل بشري38 مليون عبارة اسمية، 1.4 مليار قناع
SA-Co/EXT15 مجموعة بيانات خارجية غنية بالسلبيات الصلبةتختلف حسب المصدر
SA-كو/فيديوالتعليقات التوضيحية للفيديو مع التتبع الزمني52.5 ألف مقطع فيديو، 24.8 ألف عبارة اسمية فريدة من نوعها

البيانات المعيارية

يحتوي معيار تقييم SA-Co على 214 ألف عبارة فريدة من نوعها عبر 126 ألف صورة ومقطع فيديو، مما يوفر أكثر من 50 ضعفاً من المفاهيم مقارنةً بالمعايير الحالية. وهو يتضمن:

  • SA-Co/Gold: 7 نطاقات ثلاثية لقياس حدود الأداء البشري
  • SA-Co/Silver: 10 مجالات، شرح بشري واحد
  • SA-Co/Bronze وSA-Co/Bio: 9 مجموعات بيانات موجودة تم تكييفها لتجزئة المفاهيم
  • SA-Co/VEval: معيار الفيديو مع 3 نطاقات (SA-V، YT-Temporal-1B، SmartGlasses)

ابتكارات محرك البيانات

يحقق محرك بيانات SAM 3 القابل للتطوير البشري والنموذج في الحلقة محرك بيانات قابل للتطوير البشري والنموذج في الحلقة إنتاجية شروح توضيحية بمعدل 2× من خلال

  1. شروح الذكاء الاصطناعي: تقترح النماذج القائمة على اللاما عبارات اسمية متنوعة بما في ذلك النكرات الصلبة
  2. أدوات التحقق من الذكاء الاصطناعي: تتحقق أدوات التحقق من جودة القناع واستنفاد القناع بأداء يقارب الأداء البشري
  3. التعدين النشط: يركز الجهد البشري على حالات الفشل الصعبة التي يعاني فيها الذكاء الاصطناعي
  4. قائم على علم الوجود: يستفيد من أنطولوجيا كبيرة ترتكز على ويكيبيديا لتغطية المفاهيم

التثبيت

سيكون SAM 3 متاحًا مباشرةً في حزمة Ultralytics بمجرد وصول التكامل. سيبقى التثبيت:

pip install ultralytics

سيتم تنزيل النماذج تلقائيًا عند استخدامها لأول مرة. يمكنك بعد ذلك استخدام وضع التنبؤ القياسي وتصدير النماذج لاحقًا إلى تنسيقات مثل ONNX و TensorRT للنشر. انتظر تحديث الحزمة مع أوزان وتكوينات SAM قريبًا.

كيفية استخدام SAM 3: تعدد الاستخدامات في تجزئة المفاهيم

معاينة واجهة برمجة تطبيقات Ultralytics

توضّح الأمثلة التالية واجهة برمجة تطبيقات Ultralytics المقصودة بمجرد شحن SAM 3 في الحزمة. وحتى يتم التكامل، قد تتغير التفاصيل.

المهام والنماذج المدعومة

يدعم SAM 3 كلاً من مهام التجزئة المفاهيمية القابلة للموجّه (PCS) ومهام التجزئة البصرية القابلة للموجّه (PVS):

نوع المهمةأنواع الموجهاتالمخرجات
تجزئة المفهوم (PCS)النص (العبارات الاسمية)، نماذج الصورجميع الحالات المطابقة للمفهوم
التقسيم البصري (PVS)النقاط والصناديق والأقنعةمثيل كائن واحدSAM نمطSAM 2)
التحسين التفاعليإضافة/إزالة نماذج أو نقرات بشكل متكررتجزئة منقحة مع تحسين الدقة

أمثلة على تجزئة المفاهيم

مقطع مع موجهات نصية

تجزئة المفاهيم المستندة إلى النص

ابحث عن جميع مثيلات المفهوم وقم segment باستخدام وصف نصي.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

معاينة واجهة برمجة التطبيقات

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار تكامل Ultralytics .

جزء مع نماذج الصور

التجزئة المستندة إلى نماذج الصور

استخدم مثالًا واحدًا أو أكثر من الأمثلة للعثور على جميع المثيلات المتشابهة.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

معاينة واجهة برمجة التطبيقات

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار تكامل Ultralytics .

التحسين التفاعلي

التنقيح التكراري باستخدام النماذج

تحسين النتائج تدريجيًا عن طريق إضافة مطالبات نموذجية بناءً على المخرجات الأولية.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

معاينة واجهة برمجة التطبيقات

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار تكامل Ultralytics .

تجزئة مفهوم الفيديو

تتبع المفاهيم عبر الفيديو

كشف track جميع حالات المفهوم في الفيديو.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

معاينة واجهة برمجة التطبيقات

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار تكامل Ultralytics .

بالنسبة لإعدادات البث والإنتاج على نطاق أوسع، راجع تتبع الكائنات وعرض النتائج في المنصة.

الموجهات المرئيةSAM توافقSAM 2)

يحافظ SAM 3 على التوافق الكامل مع SAM 2 في المطالبة المرئية:

موجهات مرئية بنمط SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

معاينة واجهة برمجة التطبيقات

يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار تكامل Ultralytics .

معايير الأداء

تجزئة الصور

يحقق SAM 3 أحدث النتائج عبر العديد من المعايير، بما في ذلك مجموعات بيانات العالم الحقيقي مثل LVIS COCO للتجزئة:

قياس الأداءمقياس (Metric)SAM 3السابق الأفضلالتحسينات
LVIS (الطلقة الصفرية)قناع AP47.038.5+22.1%
SA-Co/GoldCGF165.034.3 (OWLv2)+89.5%
COCO (طلقة الصفر)صندوق AP53.552.2 (T-Rex2)+2.5%
ADE-847 (سيج دلالي)ميوو14.79.2 (APE-D)+59.8%
باسكالكونسيبت-59ميوو59.458.5 (APE-D)+1.5%
مناظر المدينة (seg الدلالي)ميوو65.144.2 (APE-D)+47.3%

استكشف خيارات مجموعة البيانات لإجراء تجارب سريعة في مجموعات بياناتUltralytics .

أداء تجزئة الفيديو

يُظهر SAM 3 تحسينات كبيرة مقارنةً بـ SAM 2 والأحدث السابقة عبر معايير الفيديو مثل DAVIS 2017 و YouTube-VOS:

قياس الأداءمقياس (Metric)SAM 3SAM 2.1 Lالتحسينات
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

تكييف اللقطات القليلة

تتفوق SAM 3 في التكيف مع المجالات الجديدة بأقل قدر من الأمثلة، وهي ذات صلة بسير عمل الذكاء الاصطناعي المرتكز على البيانات:

قياس الأداء0 طلقة في AP10 طلقات APالأفضل في السابق (10 طلقات)
أودين دبليو 1359.971.667.9 (gDino1.5-Pro)
RF100-VL14.335.733.7 (gDino-T)

فعالية التنقيح التفاعلي

يتقارب توجيه SAM 3 القائم على المفاهيم مع النماذج بشكل أسرع بكثير من التوجيه البصري:

الموجهات المضافةنتيجة CGF1المكسب مقابل النص فقطالمكاسب مقابل خط الأساس PVS
النص فقط46.4خط الأساسخط الأساس
نموذج +157.6+11.2+6.7
+2 من النماذج62.2+15.8+9.7
+3 أمثلة65.0+18.6+11.2
+4 أمثلة65.7+19.3+11.5 (هضبة)

دقة عد الكائنات

يوفر SAM 3 عدًا دقيقًا من خلال تجزئة جميع المثيلات، وهو مطلب شائع في عد الكائنات:

قياس الأداءالدقةMAEمقابل أفضل MLLM
كاونت بينش95.6%0.1192.4% (الجوزاء 2.5)
بيكسمو-كاونت87.3%0.2288.8% (مولمو-72 ب)

مقارنة بين SAM 3 و SAM 2 و YOLO

نقارن هنا إمكانيات SAM 3 مع SAM 2 و YOLO11 و YOLO11:

القدرةSAM 3SAM 2YOLO11n-seg
تجزئة المفاهيم✅ جميع الحالات من النص/النماذج❌ غير مدعوم❌ غير مدعوم
التقسيم البصري✅ مثيل واحدSAM متوافق معSAM 2)✅ مثيل واحد✅ جميع الحالات
إمكانية الطلقة الصفرية✅ مفردات مفتوحة✅ مطالبات هندسية❌ مجموعة مغلقة
التحسين التفاعلي✅ النماذج + النقرات✅ النقرات فقط❌ غير مدعوم
تتبع الفيديو✅ متعدد الكائنات مع الهويات✅ متعدد الكائنات✅ متعدد الكائنات
قناع LVIS Mask AP (طلقة صفرية)47.0غير متاحغير متاح
MOSEv2 J&F60.147.9غير متاح
سرعة الاستدلال (H200)30 مللي ثانية (أكثر من 100 كائن)~حوالي 23 مللي ثانية (لكل كائن)2-3 مللي ثانية (صورة)
حجم الموديلكبير (حوالي 400+ ميغابايت متوقع)162 ميغابايت (أساسي)5.9 ميغابايت

الوجبات السريعة الرئيسية:

  • SAM 3: الأفضل لتجزئة المفاهيم ذات المفردات المفتوحة، والعثور على جميع حالات المفهوم مع النص أو النماذج النموذجية
  • SAM 2: الأفضل للتجزئة التفاعلية للكائن الواحد في الصور ومقاطع الفيديو مع مطالبات هندسية
  • YOLO11: الأفضل للتجزئة عالية السرعة في الوقت الحقيقي في عمليات النشر المحدودة الموارد باستخدام خطوط أنابيب تصدير فعالة مثل ONNX و TensorRT

مقاييس التقييم

يقدم SAM 3 مقاييس جديدة مصممة لمهمة PCS، مكمّلةً المقاييس المألوفة مثل درجة F1 والدقة والاسترجاع.

تصنيف-بوابة F1 (CGF1)

المقياس الأساسي الذي يجمع بين التوطين والتصنيف:

CGF1 = 100 × pmF1 × IL_MCC

حيث:

  • pmF1 (F1 الكلي الإيجابي): يقيس جودة التوطين على الأمثلة الإيجابية
  • IL_MCC (معامل ارتباط ماثيوز على مستوى الصورة): يقيس دقة التصنيف الثنائي ("هل المفهوم موجود؟")

لماذا هذه المقاييس؟

لا تأخذ مقاييس AP التقليدية في الحسبان المعايرة، مما يجعل من الصعب استخدام النماذج عملياً. من خلال تقييم التنبؤات التي تزيد عن 0.5 ثقة فقط، تفرض مقاييس SAM 3 معايرة جيدة وتحاكي أنماط الاستخدام في العالم الحقيقي في التنبؤ التفاعلي و track الحلقات.

الاستئصالات والرؤى الرئيسية

تأثير رئيس الحضور

يفصل رأس التواجد بين التعرّف على الهوية عن التوطين، مما يوفر تحسينات كبيرة:

التكوينCGF1IL_MCCم.م.ف1
بدون حضور57.60.7774.7
مع التواجد63.30.8277.1

يوفر رأس التواجد تعزيزًا بنسبة +5.7 + 5.7 CGF1 (+9.9%)، مما يحسن بشكل أساسي القدرة على التعرف (IL_MCC +6.5%).

تأثير السلبيات الصلبة

السلبيات الصلبة/الصورةCGF1IL_MCCم.م.ف1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

تُعد السلبيات الصعبة أمرًا حاسمًا في التعرف على المفردات المفتوحة، حيث تعمل على تحسين IL_MCC بنسبة 54.5% (0.44 → 0.68).

تحجيم بيانات التدريب

مصادر البياناتCGF1IL_MCCم.م.ف1
خارجي فقط30.90.4666.3
خارجي + اصطناعي39.70.5770.6
خارجي + المقر الرئيسي51.80.7173.2
جميع الثلاثة54.30.7473.5

توفر التعليقات التوضيحية البشرية عالية الجودة مكاسب كبيرة مقارنة بالبيانات الاصطناعية أو الخارجية وحدها. للحصول على خلفية عن ممارسات جودة البيانات، انظر جمع البيانات والتعليقات التوضيحية.

التطبيقات

تتيح إمكانية تجزئة المفهوم في SAM 3 إمكانية استخدام حالات استخدام جديدة:

  • إدارة المحتوى: ابحث عن جميع مثيلات أنواع المحتوى المحددة عبر مكتبات الوسائط
  • التجارة الإلكترونية: تجزئة جميع المنتجات من نوع معين في صور الكتالوج، ودعم التعليق التلقائي
  • التصوير الطبي: تحديد جميع حالات حدوث أنواع محددة من الأنسجة أو التشوهات
  • الأنظمة المستقلة: تتبع جميع حالات إشارات المرور أو المشاة أو المركبات حسب الفئة
  • تحليلات الفيديو: عدّ track جميع الأشخاص الذين يرتدون ملابس معينة أو يؤدون أفعالاً معينة
  • شرح مجموعة البيانات: التعليق التوضيحي السريع لجميع حالات فئات الكائنات النادرة
  • البحث العلمي: تحديد وتحليل جميع العينات التي تطابق معايير محددة

وكيل SAM 3: الاستدلال اللغوي الموسع

يمكن دمج SAM 3 مع نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) للتعامل مع الاستفسارات المعقدة التي تتطلب الاستدلال، على غرار أنظمة المفردات المفتوحة مثل OWLv2 و T-Rex.

الأداء في مهام الاستدلال

قياس الأداءمقياس (Metric)وكيل SAM 3 (Gemini 2.5 Pro)السابق الأفضل
ReasonSeg (التحقق من صحة)جيوو76.065.0 (اتفاق التجارة التفضيلية)
السبب(اختبار)جيوو73.861.3 (سوتا)
أومني ليبل (التحقق من الصحة)AP46.736.5 (حقيقي)
ريفكو+أك91.289.3 (LISA)

أمثلة على الاستعلامات المعقدة

يمكن لوكيل SAM 3 التعامل مع الاستعلامات التي تتطلب الاستدلال:

  • "أشخاص يجلسون ولا يحملون صندوق هدايا في أيديهم"
  • "الكلب الأقرب إلى الكاميرا الذي لا يرتدي طوقاً"
  • "أجسام حمراء أكبر من يد الشخص"

يقترح MLLM استعلامات عبارة اسمية بسيطة على SAM 3، ويحلل الأقنعة المرتجعة ويكرر العملية حتى يتم استيفاءها.

القيود

على الرغم من أن SAM 3 يمثل تقدمًا كبيرًا، إلا أن له بعض القيود:

  • تعقيد العبارة: الأنسب للعبارات الاسمية البسيطة؛ قد تتطلب تعابير الإحالة الطويلة أو التعليلات المعقدة تكامل MLLM
  • معالجة الغموض: تظل بعض المفاهيم غامضة بطبيعتها (على سبيل المثال، "نافذة صغيرة"، "غرفة مريحة")
  • المتطلبات الحسابية: أكبر وأبطأ من نماذج الكشف المتخصصة مثل YOLO
  • نطاق المفردات: يركز على المفاهيم البصرية الذرية؛ الاستدلال التركيبي محدود دون مساعدة من MLLM
  • المفاهيم النادرة: قد يتدهور الأداء في المفاهيم النادرة للغاية أو المفاهيم الدقيقة غير الممثلة بشكل جيد في بيانات التدريب

اقتباس

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

الأسئلة الشائعة

متى سيتم إصدار SAM 3؟

تم إصدار SAM 3 بواسطة Meta في 20 نوفمبر 2025. يجري العمل على دعم Ultralytics وسيتم شحنه في تحديث قادم للحزمة مع مستندات كاملة لوضع التنبؤ ووضعtrack .

هل سيتم دمج SAM 3 في Ultralytics

نعم. سيتم دعم SAM 3 في حزمة Ultralytics Python عند الإصدار، بما في ذلك تجزئة المفاهيم، والمطالبات المرئية على غرار SAM 2، وتتبع الفيديو متعدد الكائنات. ستتمكن من التصدير إلى تنسيقات مثل ONNX و TensorRT للنشر، مع تبسيط Python و CLI مبسطة.

الجدول الزمني للتنفيذ

أمثلة التعليمات البرمجية في هذه الوثائق هي إصدارات معاينة توضح أنماط الاستخدام المقصودة. سيتوفر التنفيذ الفعلي بعد اكتمال تكامل Ultralytics .

ما هو تجزئة المفهوم القابل للتوجيه (PCS)؟

تُعد PCS مهمة جديدة تم تقديمها في SAM 3 والتي تقوم بتقسيم جميع حالات المفهوم المرئي في صورة أو مقطع فيديو. على عكس التجزئة التقليدية التي تستهدف مثيل كائن معين، تجد PCS كل تكرار لفئة ما. على سبيل المثال:

  • موجه النص: "حافلة مدرسية صفراء" → شرائح جميع الحافلات المدرسية الصفراء في المشهد
  • نموذج الصورة: مربع حول كلب واحد → شرائح جميع الكلاب في الصورة
  • مجتمعة: "قطة مخططة" + مربع المثال → شرائح جميع القطط المخططة المطابقة للمثال

راجع الخلفية ذات الصلة باكتشاف الكائنات وتجزئة المثيل.

كيف يختلف SAM 3 عن SAM 2؟

الميزةSAM 2SAM 3
المهمةكائن واحد لكل موجهجميع حالات المفهوم
أنواع الموجهاتالنقاط والصناديق والأقنعة+ عبارات نصية ونماذج صور
القدرة على الكشفيتطلب كاشف خارجيكاشف المفردات المفتوحة المدمج
الاعترافعلى أساس هندسي فقطالنص والتعرف البصري
البنيةالمتتبع فقطكاشف + جهاز تعقب مع رأس التواجد
أداء الطلقة الصفريةغير متاح (يتطلب مطالبات بصرية)47.0 AP إلى 47.0 AP على نظام تحديد مستوى الصوت المنخفض، و2× أفضل على نظام SA-Co
التحسين التفاعليالنقرات فقطالنقرات + التعميم النموذجي

يحافظ SAM 3 على التوافق مع الإصدارات السابقة مع SAM 2 مع إضافة إمكانات قائمة على المفاهيم.

ما هي مجموعات البيانات المستخدمة لتدريب SAM 3؟

تم تدريب SAM 3 على مجموعة بيانات Segment Anything with Concepts (SA-Co):

بيانات التدريب:

  • 5.2 مليون صورة مع 4 ملايين عبارة اسمية فريدة (SA-Co/HQ) - شروح بشرية عالية الجودة
  • 52.5 ألف فيديو مع 24.8 ألف عبارة اسمية فريدة (SA-Co/VIDEO)
  • 1.4 مليار قناع اصطناعي عبر 38 مليون عبارة اسمية (SA-Co/SYN)
  • 15 مجموعة بيانات خارجية غنية بالسلبيات الصلبة (SA-Co/EXT)

البيانات المعيارية:

  • 214 ألف مفهوم فريد من نوعه عبر 126 ألف صورة/فيديو
  • مفاهيم أكثر ب 50 ضعفًا من المفاهيم الموجودة حاليًا (على سبيل المثال، يحتوي LVIS على حوالي 4 آلاف مفهوم)
  • التعليق التوضيحي الثلاثي على SA-Co/Gold لقياس حدود الأداء البشري

يتيح هذا النطاق الهائل والتنوع الهائل تعميم SAM 3 المتفوق في التعميم الصفري عبر مفاهيم المفردات المفتوحة.

كيف يمكن مقارنة SAM 3 بـ YOLO11 للتجزئة؟

يخدم SAM 3 و YOLO11 حالات استخدام مختلفة:

مزاياSAM 3:

  • مفردات مفتوحة: تجزئة أي مفهوم عبر مطالبات نصية دون تدريب
  • لقطة صفرية: تعمل على الفئات الجديدة على الفور
  • تفاعلي: يعمم التنقيح القائم على النماذج على الأجسام المتشابهة
  • قائم على المفهوم: العثور تلقائيًا على جميع مثيلات الفئة تلقائيًا
  • الدقة: 47.0 AP على تجزئة مثيل اللقطة الصفرية في نظام تحديد مستوى الحياة

مزاياYOLO11 :

  • السرعة: استنتاج أسرع بمعدل 10-15 مرة (2-3 مللي ثانية مقابل 30 مللي ثانية لكل صورة)
  • الكفاءة: نماذج أصغر بـ 70 ضعفًا (5.9 ميغابايت مقابل 400 ميغابايت تقريبًا متوقعة)
  • ملائم للموارد: يعمل على الأجهزة المتطورة والمحمولة
  • في الوقت الفعلي: مُحسّن لعمليات نشر الإنتاج

التوصية:

  • استخدم SAM 3 للتجزئة المرنة والمفتوحة للمفردات حيث تحتاج إلى العثور على جميع حالات المفاهيم الموضحة في النص أو الأمثلة
  • الاستخدام YOLO11 لعمليات النشر عالية السرعة والإنتاج حيث تكون الفئات معروفة مسبقًا
  • استخدام SAM 2 للتجزئة التفاعلية أحادية العنصر مع مطالبات هندسية

هل يمكن SAM 3 التعامل مع الاستعلامات اللغوية المعقدة؟

تم تصميم SAM 3 للعبارات الاسمية البسيطة (على سبيل المثال، "تفاحة حمراء"، "شخص يرتدي قبعة"). بالنسبة للاستعلامات المعقدة التي تتطلب الاستدلال، ادمج SAM 3 مع SAM 3 مع MLLM كوكيلSAM 3:

الاستعلامات البسيطة ( SAM 3 الأصلي):

  • "حافلة المدرسة الصفراء"
  • "قطة مخططة"
  • "شخص يرتدي قبعة حمراء"

الاستعلامات المعقدة (وكيلSAM 3 مع MLLM):

  • "أشخاص يجلسون ولكن لا يحملون صندوق هدايا"
  • "الكلب الأقرب إلى الكاميرا بدون طوق"
  • "أجسام حمراء أكبر من يد الشخص"

يحقق وكيل SAM 3 76.0 وحدة قياس جغرافية في التحقق من صحة ReasonSeg (مقابل 65.0 الأفضل سابقًا، أي بتحسن بنسبة 16.9%) من خلال الجمع بين تجزئة SAM 3 وقدرات الاستدلال في آلية MLLM.

ما مدى دقة SAM 3 مقارنة بالأداء البشري؟

على معيار SA-Co/Gold مع شرح بشري ثلاثي:

  • الحد الأدنى البشري: 74.2 CGF1 (الشارح الأكثر تحفظًا)
  • أداءSAM 3: 65.0 CGF1
  • الإنجاز: 88% من الحد الأدنى البشري المقدر
  • الحد الأعلى البشري: 81.4 CGF1 (الشارح الأكثر تحرراً)

تحقق SAM 3 أداءً قويًا يقترب من الدقة على المستوى البشري في تجزئة المفاهيم ذات المفردات المفتوحة، مع وجود فجوة في المقام الأول في المفاهيم الغامضة أو الذاتية (مثل "نافذة صغيرة" و"غرفة مريحة").



📅 تم الإنشاء منذ 1 شهر مضى ✏️ تم التحديث منذ 1 يوم
glenn-jocherY-T-G

تعليقات