SAM 3: تقسيم أي شيء بالمفاهيم
قريباً ⚠️
SAM لم يتم إصدار نماذج SAM 3 علنًا من قبل Meta. تستند المعلومات الواردة أدناه إلى الورقة البحثية المقدمة إلى ICLR 2026. ستكون تنزيلات النماذج والمعايير النهائية متاحة بعد إصدار Meta الرسمي.
يمثل SAM 3 (نموذج تجزئة أي شيء 3) نموذج أساس الجيل التالي من Meta لتجزئة المفاهيم القابلة للمطالبات (PCS). استنادًا إلى SAM 2، يقدم SAM 3 قدرة جديدة بشكل أساسي: اكتشاف جميع مثيلات المفهوم المرئي المحدد بواسطة مطالبات نصية أو نماذج صور أو كليهما وتجزئتها وتتبعها. على عكس الإصدارات السابقة من SAM التي تقوم بتجزئة كائنات مفردة لكل مطالبة، يمكن SAM 3 العثور على كل تكرار لمفهوم يظهر في أي مكان في الصور أو مقاطع الفيديو وتجزئته، بما يتماشى مع أهداف المفردات المفتوحة في تجزئة النماذج الحديثة.
نظرة عامة
يحقق SAM 3 زيادة في الأداء بمقدار ضعفين مقارنةً بالأنظمة الحالية في تجزئة المفاهيم القابلة للمطالبات مع الحفاظ على قدرات SAM 2 في التجزئة البصرية التفاعلية وتحسينها. يتفوق النموذج في تجزئة المفردات المفتوحة، مما يسمح للمستخدمين بتحديد المفاهيم باستخدام عبارات اسمية بسيطة (على سبيل المثال، "حافلة المدرسة الصفراء"، "قطة مخططة") أو من خلال توفير أمثلة على صور الكائن المستهدف. وتكمل هذه الإمكانات خطوط الإنتاج الجاهزة التي تعتمد على التنبؤ المبسط وتتبع سير العمل.
ما هو تجزئة المفهوم القابل للموجّه (PCS)؟
تأخذ مهمة PCS مطالبة المفهوم كمدخلات وتقوم بإرجاع أقنعة التجزئة مع هويات فريدة لجميع مثيلات الكائنات المطابقة. يمكن أن تكون مطالبات المفاهيم:
- النص: العبارات الاسمية البسيطة مثل "تفاحة حمراء" أو "شخص يرتدي قبعة"، على غرار التعلم من دون إطلاق النار
- نماذج الصور: المربعات المحدودة حول أمثلة الأجسام (موجبة أو سالبة) للتعميم السريع
- مدمجة: كلا النموذجين النصي والصوري معاً للتحكم الدقيق
يختلف هذا الأمر عن المطالبات المرئية التقليدية (النقاط، والمربعات، والأقنعة) التي تقسم مثيل كائن واحد محدد فقط، كما هو شائع في عائلةSAM الأصلية.
مقاييس الأداء الرئيسية
مقياس (Metric) | إنجاز SAM 3 Achievement |
---|---|
قناع LVIS Zero-Shot Mask AP | 47.0 (مقابل أفضل مستوى سابق 38.5، + 22% تحسن) |
المعيار SA-Co Benchmark | 2× أفضل من الأنظمة الحالية |
سرعة الاستدلال ( GPU H200) | 30 مللي ثانية لكل صورة مع أكثر من 100 جسم مكتشف |
أداء الفيديو | في الوقت الفعلي تقريباً لحوالي 5 كائنات متزامنة |
معيار MOSEv2 VOS Benchmark | 60.1 J&F (+ 25.5% عن SAM 2.1 + 25.5% عن SAM 2.1، + 17% عن SOTA السابقة) |
التحسين التفاعلي | +18.6 +18.6 تحسن في عامل التهيئة 1 بعد 3 مطالبات نموذجية |
فجوة الأداء البشري | يحقق 88% من الحد الأدنى المقدر لـ SA-Co/Gold |
للحصول على سياق حول مقاييس النموذج والمفاضلة في الإنتاج، راجع رؤى تقييم النموذج ومقاييس أداء نموذج YOLO .
البنية
يتألف SAM 3 من كاشف ومتعقب يشتركان في العمود الفقري للرؤية (PE). يتجنب هذا التصميم المنفصل تعارض المهام مع تمكين كل من الكشف على مستوى الصورة والتتبع على مستوى الفيديو، مع واجهة متوافقة معاستخدام Ultralytics Python واستخدامCLI .
المكونات الأساسية
-
الكاشف: البنية القائمة على DETR للكشف عن المفاهيم على مستوى الصورة
- أداة ترميز النص لمطالبات العبارات الاسمية
- أداة تشفير نموذجية للمطالبات المستندة إلى الصور
- مشفر الاندماج لتكييف ميزات الصورة على المطالبات
- رأس التواجد الجديد الذي يفصل بين التعرف ("ماذا") عن التوطين ("أين")
- رأس القناع لتوليد أقنعة تجزئة المثيل
-
تعقب: تجزئة الفيديو المستندة إلى الذاكرة الموروثة من SAM 2
- أداة تشفير الموجه، وحدة فك تشفير القناع، وحدة تشفير الذاكرة
- بنك الذاكرة لتخزين مظهر الكائن عبر الإطارات
- التفكيك الزمني بمساعدة تقنيات مثل مرشح كالمان في إعدادات متعددة الأجسام
-
رمز التواجد: رمز رمزي عالمي مكتسب يتنبأ بما إذا كان المفهوم المستهدف موجودًا في الصورة/الإطار، مما يحسن من عملية الكشف عن طريق فصل التعرف عن التوطين.
الابتكارات الرئيسية
- الفصل بين التعرّف والتوطين: يتنبأ رأس التواجد بتوقع وجود المفهوم على مستوى العالم، بينما تركز استعلامات الاقتراح على التوطين فقط، مما يؤدي إلى تجنب الأهداف المتضاربة.
- مفهوم موحد ومطالبات مرئية: يدعم كلاً من PCS (موجهات المفاهيم) و PVS (موجهات مرئية مثل نقرات/مربعات SAM 2) في نموذج واحد.
- تنقيح النماذج التفاعلية: يمكن للمستخدمين إضافة نماذج إيجابية أو سلبية للصور لتحسين النتائج بشكل متكرر، مع تعميم النموذج على كائنات مماثلة بدلاً من مجرد تصحيح الحالات الفردية.
- التفكيك الزمني: يستخدم درجات الكشف عن الأقنعة وإعادة العرض الدورية للتعامل مع حالات الانسداد، والمشاهد المزدحمة، وفشل التتبع في الفيديو، بما يتماشى مع أفضل ممارسات تجزئة المثيل والتتبع.
مجموعة بيانات SA-Co Dataset
تم تدريب SAM 3 على مجموعة بيانات SAM 3 على Segment Anything with Concepts (SA-Co)، وهي أكبر مجموعة بيانات تجزئة من Meta وأكثرها تنوعًا حتى الآن، مما يتعدى المعايير الشائعة مثل COCO وLVIS.
بيانات التدريب
مكون مجموعة البيانات | الوصف | المقياس |
---|---|---|
SA-Co/HQ | بيانات صور ذات جودة عالية مشروحة بشرياً من محرك بيانات رباعي المراحل | 5.2 مليون صورة، 4 مليون عبارة اسمية فريدة من نوعها |
SA-Co/SYN | مجموعة بيانات اصطناعية تم تصنيفها بواسطة الذكاء الاصطناعي دون تدخل بشري | 38 مليون عبارة اسمية، 1.4 مليار قناع |
SA-Co/EXT | 15 مجموعة بيانات خارجية غنية بالسلبيات الصلبة | تختلف حسب المصدر |
SA-كو/فيديو | التعليقات التوضيحية للفيديو مع التتبع الزمني | 52.5 ألف مقطع فيديو، 24.8 ألف عبارة اسمية فريدة من نوعها |
البيانات المعيارية
يحتوي معيار تقييم SA-Co على 214 ألف عبارة فريدة من نوعها عبر 126 ألف صورة ومقطع فيديو، مما يوفر أكثر من 50 ضعفاً من المفاهيم مقارنةً بالمعايير الحالية. وهو يتضمن:
- SA-Co/Gold: 7 نطاقات ثلاثية لقياس حدود الأداء البشري
- SA-Co/Silver: 10 مجالات، شرح بشري واحد
- SA-Co/Bronze وSA-Co/Bio: 9 مجموعات بيانات موجودة تم تكييفها لتجزئة المفاهيم
- SA-Co/VEval: معيار الفيديو مع 3 نطاقات (SA-V، YT-Temporal-1B، SmartGlasses)
ابتكارات محرك البيانات
يحقق محرك بيانات SAM 3 القابل للتطوير البشري والنموذج في الحلقة محرك بيانات قابل للتطوير البشري والنموذج في الحلقة إنتاجية شروح توضيحية بمعدل 2× من خلال
- شروح الذكاء الاصطناعي: تقترح النماذج القائمة على اللاما عبارات اسمية متنوعة بما في ذلك النكرات الصلبة
- أدوات التحقق من الذكاء الاصطناعي: تتحقق أدوات التحقق من جودة القناع واستنفاد القناع بأداء يقارب الأداء البشري
- التعدين النشط: يركز الجهد البشري على حالات الفشل الصعبة التي يعاني فيها الذكاء الاصطناعي
- قائم على علم الوجود: يستفيد من أنطولوجيا كبيرة ترتكز على ويكيبيديا لتغطية المفاهيم
التثبيت
سيتم دعم SAM 3 محليًا في حزمة Ultralytics عند إصدارها:
pip install ultralytics
سيتم تنزيل النماذج تلقائيًا عند استخدامها لأول مرة. يمكنك بعد ذلك استخدام وضع التنبؤ القياسي وتصدير النماذج لاحقًا إلى تنسيقات مثل ONNX و TensorRT للنشر.
كيفية استخدام SAM 3: تعدد الاستخدامات في تجزئة المفاهيم
معاينة واجهة برمجة التطبيقات - خاضعة للتغيير
توضح أمثلة التعليمات البرمجية أدناه أنماط الاستخدام المقصودة بناءً على الورقة البحثية. ستتوفر واجهة برمجة التطبيقات الفعلية بعد ذلك:
- أوزان نموذج SAM 3 المفتوح المصدر من Meta
- تدمج Ultralytics SAM 3 في الحزمة
قد تختلف الصيغة والمعلمات في التنفيذ النهائي. هذه الأمثلة بمثابة معاينة للوظائف المتوقعة.
المهام والنماذج المدعومة
يدعم SAM 3 كلاً من مهام التجزئة المفاهيمية القابلة للموجّه (PCS) ومهام التجزئة البصرية القابلة للموجّه (PVS):
نوع المهمة | أنواع الموجهات | المخرجات |
---|---|---|
تجزئة المفهوم (PCS) | النص (العبارات الاسمية)، نماذج الصور | جميع الحالات المطابقة للمفهوم |
التقسيم البصري (PVS) | النقاط والصناديق والأقنعة | مثيل كائن واحدSAM نمطSAM 2) |
التحسين التفاعلي | إضافة/إزالة نماذج أو نقرات بشكل متكرر | تجزئة منقحة مع تحسين الدقة |
أمثلة على تجزئة المفاهيم
مقطع مع موجهات نصية
تجزئة المفاهيم المستندة إلى النص
ابحث عن جميع مثيلات المفهوم وقم بتقسيمها باستخدام وصف نصي.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
معاينة واجهة برمجة التطبيقات
يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار إصدار Meta وتكامل Ultralytics .
جزء مع نماذج الصور
التجزئة المستندة إلى نماذج الصور
استخدم مثالًا واحدًا أو أكثر من الأمثلة للعثور على جميع المثيلات المتشابهة.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
معاينة واجهة برمجة التطبيقات
يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار إصدار Meta وتكامل Ultralytics .
التحسين التفاعلي
التنقيح التكراري باستخدام النماذج
تحسين النتائج تدريجيًا عن طريق إضافة مطالبات نموذجية بناءً على المخرجات الأولية.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
معاينة واجهة برمجة التطبيقات
يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار إصدار Meta وتكامل Ultralytics .
تجزئة مفهوم الفيديو
تتبع المفاهيم عبر الفيديو
كشف وتتبع جميع حالات المفهوم في الفيديو.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
معاينة واجهة برمجة التطبيقات
يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار إصدار Meta وتكامل Ultralytics .
بالنسبة لإعدادات البث والإنتاج على نطاق أوسع، راجع تتبع الكائنات وعرض النتائج في المنصة.
الموجهات المرئيةSAM توافقSAM 2)
يحافظ SAM 3 على التوافق الكامل مع SAM 2 في المطالبة المرئية:
موجهات مرئية بنمط SAM 2
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
معاينة واجهة برمجة التطبيقات
يوضح هذا المثال الاستخدام المقصود. التنفيذ الفعلي في انتظار إصدار Meta وتكامل Ultralytics .
معايير الأداء
تجزئة الصور
يحقق SAM 3 أحدث النتائج عبر العديد من المعايير، بما في ذلك مجموعات البيانات الواقعية مثل LVIS وCOCO للتجزئة:
قياس الأداء | مقياس (Metric) | SAM 3 | السابق الأفضل | التحسينات |
---|---|---|---|---|
LVIS (الطلقة الصفرية) | قناع AP | 47.0 | 38.5 | +22.1% |
SA-Co/Gold | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
COCO (طلقة الصفر) | صندوق AP | 53.5 | 52.2 (T-Rex2) | +2.5% |
ADE-847 (سيج دلالي) | ميوو | 14.7 | 9.2 (APE-D) | +59.8% |
باسكالكونسيبت-59 | ميوو | 59.4 | 58.5 (APE-D) | +1.5% |
مناظر المدينة (seg الدلالي) | ميوو | 65.1 | 44.2 (APE-D) | +47.3% |
استكشف خيارات مجموعة البيانات لإجراء تجارب سريعة في مجموعات بياناتUltralytics .
أداء تجزئة الفيديو
يُظهر SAM 3 تحسينات كبيرة مقارنةً بـ SAM 2 والأحدث السابقة عبر معايير الفيديو مثل DAVIS 2017 و YouTube-VOS:
قياس الأداء | مقياس (Metric) | SAM 3 | SAM 2.1 L | التحسينات |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
تكييف اللقطات القليلة
تتفوق SAM 3 في التكيف مع المجالات الجديدة بأقل قدر من الأمثلة، وهي ذات صلة بسير عمل الذكاء الاصطناعي المرتكز على البيانات:
قياس الأداء | 0 طلقة في نقطة الوصول إلى الهدف | 10 طلقات AP | الأفضل في السابق (10 طلقات) |
---|---|---|---|
أودين دبليو 13 | 59.9 | 71.6 | 67.9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33.7 (gDino-T) |
فعالية التنقيح التفاعلي
يتقارب توجيه SAM 3 القائم على المفاهيم مع النماذج بشكل أسرع بكثير من التوجيه البصري:
الموجهات المضافة | نتيجة CGF1 | المكسب مقابل النص فقط | المكاسب مقابل خط الأساس PVS |
---|---|---|---|
النص فقط | 46.4 | خط الأساس | خط الأساس |
نموذج +1 | 57.6 | +11.2 | +6.7 |
+2 من النماذج | 62.2 | +15.8 | +9.7 |
+3 أمثلة | 65.0 | +18.6 | +11.2 |
+4 أمثلة | 65.7 | +19.3 | +11.5 (هضبة) |
دقة عد الكائنات
يوفر SAM 3 عدًا دقيقًا من خلال تجزئة جميع المثيلات، وهو مطلب شائع في عد الكائنات:
قياس الأداء | الدقة | MAE | مقابل أفضل MLLM |
---|---|---|---|
كاونت بينش | 95.6% | 0.11 | 92.4% (الجوزاء 2.5) |
بيكسمو-كاونت | 87.3% | 0.22 | 88.8% (مولمو-72 ب) |
مقارنة بين SAM 3 و SAM 2 و YOLO
نقارن هنا إمكانيات SAM 3 مع SAM 2 و YOLO11 و YOLO11:
القدرة | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
تجزئة المفاهيم | ✅ جميع الحالات من النص/النماذج | ❌ غير مدعوم | ❌ غير مدعوم |
التقسيم البصري | ✅ مثيل واحدSAM متوافق معSAM 2) | ✅ مثيل واحد | ✅ جميع الحالات |
إمكانية الطلقة الصفرية | ✅ مفردات مفتوحة | ✅ مطالبات هندسية | ❌ مجموعة مغلقة |
التحسين التفاعلي | ✅ النماذج + النقرات | ✅ النقرات فقط | ❌ غير مدعوم |
تتبع الفيديو | ✅ متعدد الكائنات مع الهويات | ✅ متعدد الكائنات | ✅ متعدد الكائنات |
قناع LVIS Mask AP (طلقة صفرية) | 47.0 | غير متاح | غير متاح |
MOSEv2 J&F | 60.1 | 47.9 | غير متاح |
سرعة الاستدلال (H200) | 30 مللي ثانية (أكثر من 100 كائن) | ~حوالي 23 مللي ثانية (لكل كائن) | 2-3 مللي ثانية (صورة) |
حجم الموديل | كبير (حوالي 400+ ميغابايت متوقع) | 162 ميغابايت (أساسي) | 5.9 ميغابايت |
الوجبات السريعة الرئيسية:
- SAM 3: الأفضل لتجزئة المفاهيم ذات المفردات المفتوحة، والعثور على جميع حالات المفهوم مع النص أو النماذج النموذجية
- SAM 2: الأفضل للتجزئة التفاعلية للكائن الواحد في الصور ومقاطع الفيديو مع مطالبات هندسية
- YOLO11: الأفضل للتجزئة عالية السرعة في الوقت الحقيقي في عمليات النشر المحدودة الموارد باستخدام خطوط أنابيب تصدير فعالة مثل ONNX و TensorRT
مقاييس التقييم
يقدم SAM 3 مقاييس جديدة مصممة لمهمة PCS، مكمّلةً المقاييس المألوفة مثل درجة F1 والدقة والاسترجاع.
تصنيف-بوابة F1 (CGF1)
المقياس الأساسي الذي يجمع بين التوطين والتصنيف:
CGF1 = 100 × pmF1 × IL_MCC
حيث:
- pmF1 (F1 الكلي الإيجابي): يقيس جودة التوطين على الأمثلة الإيجابية
- IL_MCC (معامل ارتباط ماثيوز على مستوى الصورة): يقيس دقة التصنيف الثنائي ("هل المفهوم موجود؟")
لماذا هذه المقاييس؟
لا تأخذ مقاييس AP التقليدية في الحسبان المعايرة، مما يجعل من الصعب استخدام النماذج عملياً. من خلال تقييم التنبؤات التي تزيد عن 0.5 ثقة فقط، تفرض مقاييس SAM 3 معايرة جيدة وتحاكي أنماط الاستخدام في العالم الحقيقي في حلقات التنبؤ والتتبع التفاعلية.
الاستئصالات والرؤى الرئيسية
تأثير رئيس الحضور
يفصل رأس التواجد بين التعرّف على الهوية عن التوطين، مما يوفر تحسينات كبيرة:
التكوين | CGF1 | IL_MCC | م.م.ف1 |
---|---|---|---|
بدون حضور | 57.6 | 0.77 | 74.7 |
مع التواجد | 63.3 | 0.82 | 77.1 |
يوفر رأس التواجد تعزيزًا بنسبة +5.7 + 5.7 CGF1 (+9.9%)، مما يحسن بشكل أساسي القدرة على التعرف (IL_MCC +6.5%).
تأثير السلبيات الصلبة
السلبيات الصلبة/الصورة | CGF1 | IL_MCC | م.م.ف1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
تُعد السلبيات الصعبة أمرًا حاسمًا في التعرف على المفردات المفتوحة، حيث تعمل على تحسين IL_MCC بنسبة 54.5% (0.44 → 0.68).
تحجيم بيانات التدريب
مصادر البيانات | CGF1 | IL_MCC | م.م.ف1 |
---|---|---|---|
خارجي فقط | 30.9 | 0.46 | 66.3 |
خارجي + اصطناعي | 39.7 | 0.57 | 70.6 |
خارجي + المقر الرئيسي | 51.8 | 0.71 | 73.2 |
جميع الثلاثة | 54.3 | 0.74 | 73.5 |
توفر التعليقات التوضيحية البشرية عالية الجودة مكاسب كبيرة مقارنة بالبيانات الاصطناعية أو الخارجية وحدها. للحصول على خلفية عن ممارسات جودة البيانات، انظر جمع البيانات والتعليقات التوضيحية.
التطبيقات
تتيح إمكانية تجزئة المفهوم في SAM 3 إمكانية استخدام حالات استخدام جديدة:
- إدارة المحتوى: ابحث عن جميع مثيلات أنواع المحتوى المحددة عبر مكتبات الوسائط
- التجارة الإلكترونية: تجزئة جميع المنتجات من نوع معين في صور الكتالوج، ودعم التعليق التلقائي
- التصوير الطبي: تحديد جميع حالات حدوث أنواع محددة من الأنسجة أو التشوهات
- الأنظمة المستقلة: تتبع جميع حالات إشارات المرور أو المشاة أو المركبات حسب الفئة
- تحليلات الفيديو: عدّ وتتبع جميع الأشخاص الذين يرتدون ملابس معينة أو يؤدون أفعالاً معينة
- شرح مجموعة البيانات: التعليق التوضيحي السريع لجميع حالات فئات الكائنات النادرة
- البحث العلمي: تحديد وتحليل جميع العينات التي تطابق معايير محددة
وكيل SAM 3: الاستدلال اللغوي الموسع
يمكن دمج SAM 3 مع نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) للتعامل مع الاستفسارات المعقدة التي تتطلب الاستدلال، على غرار أنظمة المفردات المفتوحة مثل OWLv2 و T-Rex.
الأداء في مهام الاستدلال
قياس الأداء | مقياس (Metric) | وكيل SAM 3 (Gemini 2.5 Pro) | السابق الأفضل |
---|---|---|---|
ReasonSeg (التحقق من صحة) | جيوو | 76.0 | 65.0 (اتفاق التجارة التفضيلية) |
السبب(اختبار) | جيوو | 73.8 | 61.3 (سوتا) |
أومني ليبل (التحقق من الصحة) | أسوشيتد برس | 46.7 | 36.5 (حقيقي) |
ريفكو+ | أك | 91.2 | 89.3 (LISA) |
أمثلة على الاستعلامات المعقدة
يمكن لوكيل SAM 3 التعامل مع الاستعلامات التي تتطلب الاستدلال:
- "أشخاص يجلسون ولا يحملون صندوق هدايا في أيديهم"
- "الكلب الأقرب إلى الكاميرا الذي لا يرتدي طوقاً"
- "أجسام حمراء أكبر من يد الشخص"
يقترح MLLM استعلامات عبارة اسمية بسيطة على SAM 3، ويحلل الأقنعة المرتجعة ويكرر العملية حتى يتم استيفاءها.
القيود
على الرغم من أن SAM 3 يمثل تقدمًا كبيرًا، إلا أن له بعض القيود:
- تعقيد العبارة: الأنسب للعبارات الاسمية البسيطة؛ قد تتطلب تعابير الإحالة الطويلة أو التعليلات المعقدة تكامل MLLM
- معالجة الغموض: تظل بعض المفاهيم غامضة بطبيعتها (على سبيل المثال، "نافذة صغيرة"، "غرفة مريحة")
- المتطلبات الحسابية: أكبر وأبطأ من نماذج الكشف المتخصصة مثل YOLO
- نطاق المفردات: يركز على المفاهيم البصرية الذرية؛ الاستدلال التركيبي محدود دون مساعدة من MLLM
- المفاهيم النادرة: قد يتدهور الأداء في المفاهيم النادرة للغاية أو المفاهيم الدقيقة غير الممثلة بشكل جيد في بيانات التدريب
اقتباس
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
الأسئلة الشائعة
متى سيتم إصدار SAM 3؟
يخضع SAM 3 حاليًا للمراجعة في المؤتمر الدولي للبحوث الزراعية الدولية 2026 (المؤتمر في 2026، والمراجعة في 2025). سيتم إصدار النماذج والأوزان والمعايير الرسمية علنًا بعد عملية المراجعة، على الأرجح في عام 2026. ستوفر Ultralytics دعمًا فوريًا لدمج SAM 3 عند إصدار Meta وتوثيق الاستخدام في وضع التنبؤ ووضع التتبع.
هل سيتم دمج SAM 3 في Ultralytics
نعم. سيتم دعم SAM 3 في حزمة Ultralytics Python عند الإصدار، بما في ذلك تجزئة المفاهيم، والمطالبات المرئية على غرار SAM 2، وتتبع الفيديو متعدد الكائنات. ستتمكن من التصدير إلى تنسيقات مثل ONNX و TensorRT للنشر، مع تبسيط Python و CLI مبسطة.
الجدول الزمني للتنفيذ
أمثلة التعليمات البرمجية في هذه الوثائق هي إصدارات معاينة توضح أنماط الاستخدام المقصودة. سيكون التنفيذ الفعلي متاحًا بعد أن تصدر Meta إصدارات SAM 3 للأوزان وتكمل Ultralytics التكامل.
ما هو تجزئة المفهوم القابل للتوجيه (PCS)؟
تُعد PCS مهمة جديدة تم تقديمها في SAM 3 والتي تقوم بتقسيم جميع حالات المفهوم المرئي في صورة أو مقطع فيديو. على عكس التجزئة التقليدية التي تستهدف مثيل كائن معين، تجد PCS كل تكرار لفئة ما. على سبيل المثال:
- موجه النص: "حافلة مدرسية صفراء" → شرائح جميع الحافلات المدرسية الصفراء في المشهد
- نموذج الصورة: مربع حول كلب واحد → شرائح جميع الكلاب في الصورة
- مجتمعة: "قطة مخططة" + مربع المثال → شرائح جميع القطط المخططة المطابقة للمثال
راجع الخلفية ذات الصلة باكتشاف الكائنات وتجزئة المثيل.
كيف يختلف SAM 3 عن SAM 2؟
الميزة | SAM 2 | SAM 3 |
---|---|---|
المهمة | كائن واحد لكل موجه | جميع حالات المفهوم |
أنواع الموجهات | النقاط والصناديق والأقنعة | + عبارات نصية ونماذج صور |
القدرة على الكشف | يتطلب كاشف خارجي | كاشف المفردات المفتوحة المدمج |
الاعتراف | على أساس هندسي فقط | النص والتعرف البصري |
البنية | المتتبع فقط | كاشف + جهاز تعقب مع رأس التواجد |
أداء الطلقة الصفرية | غير متاح (يتطلب مطالبات بصرية) | 47.0 نقطة وصول إلى 47.0 نقطة وصول على نظام تحديد مستوى الصوت المنخفض، و2× أفضل على نظام SA-Co |
التحسين التفاعلي | النقرات فقط | النقرات + التعميم النموذجي |
يحافظ SAM 3 على التوافق مع الإصدارات السابقة مع SAM 2 مع إضافة إمكانات قائمة على المفاهيم.
ما هي مجموعات البيانات المستخدمة لتدريب SAM 3؟
تم تدريب SAM 3 على مجموعة بيانات Segment Anything with Concepts (SA-Co):
بيانات التدريب:
- 5.2 مليون صورة مع 4 ملايين عبارة اسمية فريدة (SA-Co/HQ) - شروح بشرية عالية الجودة
- 52.5 ألف فيديو مع 24.8 ألف عبارة اسمية فريدة (SA-Co/VIDEO)
- 1.4 مليار قناع اصطناعي عبر 38 مليون عبارة اسمية (SA-Co/SYN)
- 15 مجموعة بيانات خارجية غنية بالسلبيات الصلبة (SA-Co/EXT)
البيانات المعيارية:
- 214 ألف مفهوم فريد من نوعه عبر 126 ألف صورة/فيديو
- مفاهيم أكثر ب 50 ضعفًا من المفاهيم الموجودة حاليًا (على سبيل المثال، يحتوي LVIS على حوالي 4 آلاف مفهوم)
- التعليق التوضيحي الثلاثي على SA-Co/Gold لقياس حدود الأداء البشري
يتيح هذا النطاق الهائل والتنوع الهائل تعميم SAM 3 المتفوق في التعميم الصفري عبر مفاهيم المفردات المفتوحة.
كيف يمكن مقارنة SAM 3 بـ YOLO11 للتجزئة؟
يخدم SAM 3 و YOLO11 حالات استخدام مختلفة:
مزاياSAM 3:
- مفردات مفتوحة: تجزئة أي مفهوم عبر مطالبات نصية دون تدريب
- لقطة صفرية: تعمل على الفئات الجديدة على الفور
- تفاعلي: يعمم التنقيح القائم على النماذج على الأجسام المتشابهة
- قائم على المفهوم: العثور تلقائيًا على جميع مثيلات الفئة تلقائيًا
- الدقة: 47.0 نقطة في الثانية على تجزئة مثيل اللقطة الصفرية في نظام تحديد مستوى الحياة
مزاياYOLO11 :
- السرعة: استنتاج أسرع بمعدل 10-15 مرة (2-3 مللي ثانية مقابل 30 مللي ثانية لكل صورة)
- الكفاءة: نماذج أصغر بـ 70 ضعفًا (5.9 ميغابايت مقابل 400 ميغابايت تقريبًا متوقعة)
- ملائم للموارد: يعمل على الأجهزة المتطورة والمحمولة
- في الوقت الفعلي: مُحسّن لعمليات نشر الإنتاج
التوصية:
- استخدم SAM 3 للتجزئة المرنة والمفتوحة للمفردات حيث تحتاج إلى العثور على جميع حالات المفاهيم الموضحة في النص أو الأمثلة
- الاستخدام YOLO11 لعمليات النشر عالية السرعة والإنتاج حيث تكون الفئات معروفة مسبقًا
- استخدام SAM 2 للتجزئة التفاعلية أحادية العنصر مع مطالبات هندسية
هل يمكن SAM 3 التعامل مع الاستعلامات اللغوية المعقدة؟
تم تصميم SAM 3 للعبارات الاسمية البسيطة (على سبيل المثال، "تفاحة حمراء"، "شخص يرتدي قبعة"). بالنسبة للاستعلامات المعقدة التي تتطلب الاستدلال، ادمج SAM 3 مع SAM 3 مع MLLM كوكيلSAM 3:
الاستعلامات البسيطة ( SAM 3 الأصلي):
- "حافلة المدرسة الصفراء"
- "قطة مخططة"
- "شخص يرتدي قبعة حمراء"
الاستعلامات المعقدة (وكيلSAM 3 مع MLLM):
- "أشخاص يجلسون ولكن لا يحملون صندوق هدايا"
- "الكلب الأقرب إلى الكاميرا بدون طوق"
- "أجسام حمراء أكبر من يد الشخص"
يحقق وكيل SAM 3 76.0 وحدة قياس جغرافية في التحقق من صحة ReasonSeg (مقابل 65.0 الأفضل سابقًا، أي بتحسن بنسبة 16.9%) من خلال الجمع بين تجزئة SAM 3 وقدرات الاستدلال في آلية MLLM.
ما مدى دقة SAM 3 مقارنة بالأداء البشري؟
على معيار SA-Co/Gold مع شرح بشري ثلاثي:
- الحد الأدنى البشري: 74.2 CGF1 (الشارح الأكثر تحفظًا)
- أداءSAM 3: 65.0 CGF1
- الإنجاز: 88% من الحد الأدنى البشري المقدر
- الحد الأعلى البشري: 81.4 CGF1 (الشارح الأكثر تحرراً)
تحقق SAM 3 أداءً قويًا يقترب من الدقة على المستوى البشري في تجزئة المفاهيم ذات المفردات المفتوحة، مع وجود فجوة في المقام الأول في المفاهيم الغامضة أو الذاتية (مثل "نافذة صغيرة" و"غرفة مريحة").