Chuyển đến nội dung

SAM 3: Phân đoạn mọi thứ bằng các khái niệm

Sắp ra mắt ⚠️

🚧 SAM Meta hiện vẫn chưa công bố 3 mô hình. Thông tin dưới đây dựa trên bài nghiên cứu đã nộp cho ICLR 2026. Việc tải xuống mô hình và đánh giá chuẩn cuối cùng sẽ có sau khi Meta chính thức phát hành.

SAM 3 Tổng quan

SAM 3 (Mô hình Phân khúc Bất kỳ 3) đại diện cho mô hình nền tảng thế hệ tiếp theo của Meta dành cho Phân khúc Khái niệm Có thể Nhắc nhở (PCS) . Dựa trên SAM 2 , SAM Phiên bản 3 giới thiệu một khả năng hoàn toàn mới: phát hiện, phân đoạn và theo dõi tất cả các trường hợp của một khái niệm trực quan được chỉ định bởi lời nhắc văn bản, ví dụ hình ảnh hoặc cả hai. Không giống như trước đây SAM các phiên bản phân đoạn các đối tượng riêng lẻ theo lời nhắc, SAM 3 có thể tìm và phân đoạn mọi lần xuất hiện của một khái niệm ở bất kỳ đâu trong hình ảnh hoặc video, phù hợp với các mục tiêu từ vựng mở trong phân đoạn trường hợp hiện đại.

Tổng quan

SAM 3 đạt được hiệu suất tăng gấp 2 lần so với các hệ thống hiện có trong Phân đoạn khái niệm có thể nhắc nhở trong khi vẫn duy trì và cải thiện SAM 2. Mô hình này nổi trội về khả năng phân đoạn trực quan tương tác. Nó cho phép người dùng xác định các khái niệm bằng cách sử dụng các cụm danh từ đơn giản (ví dụ: "xe buýt trường học màu vàng", "mèo sọc") hoặc bằng cách cung cấp hình ảnh ví dụ về đối tượng mục tiêu. Các khả năng này bổ sung cho các quy trình sản xuất sẵn sàng dựa trên quy trình làm việc dự đoántheo dõi được tinh giản.

SAM 3 Phân đoạn

Phân khúc khái niệm có thể nhắc nhở (PCS) là gì?

Nhiệm vụ PCS lấy một gợi ý khái niệm làm đầu vào và trả về các mặt nạ phân đoạn với danh tính duy nhất cho tất cả các phiên bản đối tượng khớp . Gợi ý khái niệm có thể là:

  • Văn bản : Cụm danh từ đơn giản như "táo đỏ" hoặc "người đội mũ", tương tự như học không bắn
  • Ví dụ hình ảnh : Hộp giới hạn xung quanh các đối tượng ví dụ (tích cực hoặc tiêu cực) để khái quát hóa nhanh
  • Kết hợp : Cả văn bản và hình ảnh mẫu cùng nhau để kiểm soát chính xác

Điều này khác với các gợi ý trực quan truyền thống (điểm, hộp, mặt nạ) chỉ phân đoạn một trường hợp đối tượng cụ thể duy nhất, được phổ biến bởi họ SAM ban đầu.

Các chỉ số hiệu suất chính

Chỉ số SAM 3 Thành tựu
Mặt nạ LVIS Zero-Shot AP 47,0 (so với mức tốt nhất trước đó là 38,5, cải thiện +22%)
Điểm chuẩn SA-Co Tốt hơn 2 lần so với các hệ thống hiện có
Tốc độ suy luận (H200 GPU ) 30 ms cho mỗi hình ảnh với hơn 100 đối tượng được phát hiện
Hiệu suất video Gần như thời gian thực cho ~5 đối tượng đồng thời
Điểm chuẩn MOSEv2 VOS 60,1 J&F (+25,5% so với SAM 2.1, +17% so với SOTA trước đó)
Tinh chỉnh Tương tác Cải thiện CGF1 +18,6 sau 3 lần nhắc nhở mẫu
Khoảng cách hiệu suất của con người Đạt 88% giới hạn dưới ước tính trên SA-Co/Vàng

Để biết bối cảnh về số liệu mô hình và sự đánh đổi trong sản xuất, hãy xem thông tin chi tiết về đánh giá mô hìnhsố liệu hiệu suất YOLO .

Kiến trúc

SAM 3 bao gồm một bộ phát hiệnbộ theo dõi chia sẻ xương sống thị giác của Bộ mã hóa Nhận thức (PE). Thiết kế tách biệt này tránh xung đột tác vụ, đồng thời cho phép phát hiện ở cấp độ hình ảnh và theo dõi ở cấp độ video, với giao diện tương thích với Ultralytics Sử dụng Pythonsử dụng CLI .

Các Thành phần Cốt lõi

  • Máy dò : Kiến trúc dựa trên DETR để phát hiện khái niệm ở cấp độ hình ảnh

    • Bộ mã hóa văn bản cho lời nhắc cụm danh từ
    • Bộ mã hóa mẫu cho lời nhắc dựa trên hình ảnh
    • Bộ mã hóa hợp nhất để điều kiện hóa các đặc điểm hình ảnh theo lời nhắc
    • Sự hiện diện mới lạ tách biệt sự nhận dạng ("cái gì") khỏi sự định vị ("ở đâu")
    • Đầu mặt nạ để tạo mặt nạ phân đoạn phiên bản
  • Tracker : Phân đoạn video dựa trên bộ nhớ được kế thừa từ SAM 2

    • Bộ mã hóa nhắc nhở, bộ giải mã mặt nạ, bộ mã hóa bộ nhớ
    • Ngân hàng bộ nhớ để lưu trữ hình dạng của vật thể trên các khung hình
    • Sự phân biệt thời gian được hỗ trợ bởi các kỹ thuật như bộ lọc Kalman trong các thiết lập nhiều đối tượng
  • Mã thông báo hiện diện : Mã thông báo toàn cục đã học được dùng để dự đoán xem khái niệm mục tiêu có xuất hiện trong hình ảnh/khung hình hay không, cải thiện khả năng phát hiện bằng cách tách biệt nhận dạng khỏi định vị.

SAM 3 Kiến trúc

Những đổi mới quan trọng

  1. Nhận dạng và bản địa hóa tách biệt : Tiêu đề hiện diện dự đoán sự hiện diện của khái niệm trên toàn cầu, trong khi các truy vấn đề xuất chỉ tập trung vào bản địa hóa, tránh các mục tiêu xung đột.
  2. Khái niệm thống nhất và lời nhắc trực quan : Hỗ trợ cả PCS (lời nhắc khái niệm) và PVS (lời nhắc trực quan như SAM 2 nút bấm/hộp) trong một mô hình duy nhất.
  3. Tinh chỉnh mẫu tương tác : Người dùng có thể thêm mẫu hình ảnh dương hoặc âm để tinh chỉnh kết quả theo từng lần, với mô hình tổng quát hóa thành các đối tượng tương tự thay vì chỉ sửa từng trường hợp riêng lẻ.
  4. Phân biệt sự mơ hồ về thời gian : Sử dụng điểm phát hiện masklet và nhắc lại định kỳ để xử lý hiện tượng che khuất, cảnh đông đúc và lỗi theo dõi trong video, phù hợp với phân đoạn trường hợp và các phương pháp theo dõi tốt nhất.

Bộ dữ liệu SA-Co

SAM 3 được đào tạo trên Segment Anything with Concepts (SA-Co) , bộ dữ liệu phân đoạn lớn nhất và đa dạng nhất của Meta cho đến nay, mở rộng ra ngoài các chuẩn mực phổ biến như COCOLVIS .

Dữ liệu đào tạo

Thành phần tập dữ liệu Mô tả Tỉ lệ
SA-Co/HQ Dữ liệu hình ảnh chất lượng cao được chú thích bởi con người từ công cụ dữ liệu 4 pha 5,2 triệu hình ảnh, 4 triệu cụm danh từ độc đáo
SA-Co/SYN Bộ dữ liệu tổng hợp được gắn nhãn bởi AI mà không có sự tham gia của con người 38 triệu cụm danh từ, 1,4 tỷ mặt nạ
SA-Co/EXT 15 tập dữ liệu bên ngoài được làm giàu với các kết quả âm tính cứng Thay đổi tùy theo nguồn
SA-Co/VIDEO Chú thích video với tính năng theo dõi thời gian 52,5 nghìn video, 24,8 nghìn cụm danh từ độc đáo

Dữ liệu chuẩn

Tiêu chuẩn đánh giá SA-Co bao gồm 214.000 cụm từ độc đáo trên 126.000 hình ảnh và video , cung cấp nhiều khái niệm hơn gấp 50 lần so với các tiêu chuẩn hiện có. Tiêu chuẩn này bao gồm:

  • SA-Co/Gold : 7 miền, được chú thích ba lần để đo lường giới hạn hiệu suất của con người
  • SA-Co/Silver : 10 miền, chú thích của một người
  • SA-Co/BronzeSA-Co/Bio : 9 tập dữ liệu hiện có được điều chỉnh để phân đoạn khái niệm
  • SA-Co/VEval : Điểm chuẩn video với 3 miền (SA-V, YT-Temporal-1B, SmartGlasses)

Đổi mới công cụ dữ liệu

SAM Công cụ dữ liệu vòng lặp có thể mở rộng của con người và mô hình 3 đạt được thông lượng chú thích gấp 2 lần thông qua:

  1. AI Annotators : Các mô hình dựa trên lạc đà không bướu đề xuất các cụm danh từ đa dạng bao gồm cả các từ phủ định cứng
  2. Trình xác minh AI : Các LLM đa phương thức được tinh chỉnh xác minh chất lượng và độ toàn diện của mặt nạ ở hiệu suất gần bằng con người
  3. Khai thác chủ động : Tập trung nỗ lực của con người vào các trường hợp thất bại khó khăn mà AI gặp phải
  4. Dựa trên Ontology : Tận dụng một ontology lớn dựa trên Wikidata để bao quát khái niệm

Cài đặt

SAM 3 sẽ được hỗ trợ gốc trong Ultralytics gói khi phát hành:

pip install ultralytics

Các mô hình sẽ tự động tải xuống khi sử dụng lần đầu. Sau đó, bạn có thể sử dụng chế độ dự đoán tiêu chuẩn và sau đó xuất mô hình sang các định dạng như ONNXTensorRT để triển khai.

Cách sử dụng SAM 3: Tính linh hoạt trong phân khúc khái niệm

API xem trước - Có thể thay đổi

Các ví dụ mã dưới đây minh họa các mẫu sử dụng dự kiến dựa trên bài nghiên cứu. API thực tế sẽ khả dụng sau:

  1. Siêu nguồn mở SAM 3 trọng lượng mô hình
  2. Ultralytics tích hợp SAM 3 vào gói

Cú pháp và tham số có thể khác nhau trong bản triển khai cuối cùng. Những ví dụ này chỉ mang tính chất tham khảo về chức năng dự kiến.

Nhiệm vụ và mô hình được hỗ trợ

SAM Phiên bản 3 hỗ trợ cả tác vụ Phân đoạn khái niệm có thể nhắc nhở (PCS) và Phân đoạn hình ảnh có thể nhắc nhở (PVS):

Loại nhiệm vụ Các loại nhắc nhở Đầu ra
Phân khúc khái niệm (PCS) Văn bản (cụm danh từ), hình ảnh mẫu Tất cả các trường hợp phù hợp với khái niệm
Phân đoạn thị giác (PVS) Điểm, hộp, mặt nạ Một thể hiện đối tượng đơn lẻ ( SAM 2 phong cách)
Tinh chỉnh Tương tác Thêm/xóa các mẫu hoặc nhấp chuột theo từng bước Phân đoạn tinh chỉnh với độ chính xác được cải thiện

Ví dụ về phân đoạn khái niệm

Phân đoạn với lời nhắc văn bản

Phân đoạn khái niệm dựa trên văn bản

Tìm và phân đoạn tất cả các trường hợp của một khái niệm bằng cách sử dụng mô tả văn bản.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Xem trước API

Ví dụ này cho thấy mục đích sử dụng dự kiến. Việc triển khai thực tế đang chờ phát hành Meta và Ultralytics sự tích hợp.

Phân đoạn với các ví dụ hình ảnh

Phân đoạn dựa trên mẫu hình ảnh

Sử dụng một hoặc nhiều đối tượng ví dụ để tìm tất cả các trường hợp tương tự.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Xem trước API

Ví dụ này cho thấy mục đích sử dụng dự kiến. Việc triển khai thực tế đang chờ phát hành Meta và Ultralytics sự tích hợp.

Tinh chỉnh Tương tác

Tinh chỉnh lặp lại với các ví dụ

Cải thiện kết quả một cách dần dần bằng cách thêm lời nhắc mẫu dựa trên kết quả ban đầu.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Xem trước API

Ví dụ này cho thấy mục đích sử dụng dự kiến. Việc triển khai thực tế đang chờ phát hành Meta và Ultralytics sự tích hợp.

Phân khúc khái niệm video

Theo dõi các khái niệm trên video

Phát hiện và theo dõi mọi trường hợp của một khái niệm trong toàn bộ video.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Xem trước API

Ví dụ này cho thấy mục đích sử dụng dự kiến. Việc triển khai thực tế đang chờ phát hành Meta và Ultralytics sự tích hợp.

Để thiết lập phát trực tuyến và sản xuất rộng hơn, hãy xem theo dõi đối tượngxem kết quả trong thiết bị đầu cuối .

Lời nhắc trực quan ( SAM 2 Khả năng tương thích)

SAM 3 duy trì khả năng tương thích ngược hoàn toàn với SAM Gợi ý trực quan của 2:

SAM 2 Lời nhắc trực quan về phong cách

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Xem trước API

Ví dụ này cho thấy mục đích sử dụng dự kiến. Việc triển khai thực tế đang chờ phát hành Meta và Ultralytics sự tích hợp.

Điểm chuẩn hiệu suất

Phân đoạn hình ảnh

SAM 3 đạt được kết quả tiên tiến nhất trên nhiều tiêu chuẩn, bao gồm các tập dữ liệu thực tế như LVISCOCO để phân đoạn :

Điểm chuẩn Chỉ số SAM 3 Tốt nhất trước đó Sự cải tiến
LVIS (không bắn) Mặt nạ AP 47.0 38.5 +22.1%
SA-Co/Vàng CGF1 65.0 34.3 (OWLv2) +89.5%
COCO (không bắn) Hộp AP 53.5 52.2 (T-Rex2) +2.5%
ADE-847 (phân đoạn ngữ nghĩa) mIoU 14.7 9.2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Cảnh quan thành phố (phân đoạn ngữ nghĩa) mIoU 65.1 44.2 (APE-D) +47.3%

Khám phá các tùy chọn tập dữ liệu để thử nghiệm nhanh trong tập dữ liệu Ultralytics .

Hiệu suất phân đoạn video

SAM 3 cho thấy sự cải thiện đáng kể so với SAM 2 và các tiêu chuẩn tiên tiến trước đó trên các video như DAVIS 2017YouTube-VOS :

Điểm chuẩn Chỉ số SAM 3 SAM 2.1 L Sự cải tiến
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Chuyển thể ít cảnh quay

SAM 3 vượt trội trong việc thích ứng với các lĩnh vực mới với số lượng ví dụ tối thiểu, phù hợp với quy trình làm việc AI lấy dữ liệu làm trung tâm :

Điểm chuẩn AP 0 phát AP 10 phát Thành tích tốt nhất trước đó (10 lần bắn)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

Hiệu quả tinh chỉnh tương tác

SAM Việc gợi ý dựa trên khái niệm của 3 với các ví dụ hội tụ nhanh hơn nhiều so với gợi ý trực quan:

Đã thêm lời nhắc Điểm CGF1 Tăng so với Chỉ văn bản Lợi nhuận so với PVS cơ sở
Chỉ văn bản 46.4 đường cơ sở đường cơ sở
+1 ví dụ 57.6 +11.2 +6.7
+2 mẫu 62.2 +15.8 +9.7
+3 mẫu 65.0 +18.6 +11.2
+4 mẫu 65.7 +19.3 +11,5 (cao nguyên)

Độ chính xác đếm đối tượng

SAM 3 cung cấp khả năng đếm chính xác bằng cách phân đoạn tất cả các trường hợp, một yêu cầu chung trong việc đếm đối tượng :

Điểm chuẩn Sự chính xác MAE so với MLLM tốt nhất
Đếm Bench 95.6% 0.11 92,4% (Song Tử 2,5)
PixMo-Count 87.3% 0.22 88,8% (Molmo-72B)

SAM 3 đấu với SAM 2 đấu với YOLO So sánh

Ở đây chúng ta so sánh SAM Khả năng của 3 với SAM 2 và các mẫu YOLO11 :

Khả năng SAM 3 SAM 2 YOLO11n-seg
Phân khúc khái niệm ✅ Tất cả các trường hợp từ văn bản/ví dụ ❌ Không được hỗ trợ ❌ Không được hỗ trợ
Phân đoạn thị giác ✅ Một trường hợp duy nhất ( SAM 2 tương thích) ✅ Một trường hợp duy nhất ✅ Tất cả các trường hợp
Khả năng bắn không phát nào ✅ Mở rộng vốn từ vựng ✅ Gợi ý hình học ❌ Bộ đóng
Tinh chỉnh Tương tác ✅ Mẫu + nhấp chuột ✅ Chỉ nhấp chuột ❌ Không được hỗ trợ
Theo dõi video ✅ Nhiều đối tượng có danh tính ✅ Nhiều đối tượng ✅ Nhiều đối tượng
Mặt nạ LVIS AP (không bắn) 47.0 Không áp dụng Không áp dụng
MOSEv2 J&F 60.1 47.9 Không áp dụng
Tốc độ suy luận (H200) 30 ms (hơn 100 đối tượng) ~23 ms (mỗi đối tượng) 2-3 ms (hình ảnh)
Kích thước mô hình Lớn (dự kiến ~400+ MB) 162 MB (cơ sở) 5,9 MB

Những điểm chính cần ghi nhớ :

  • SAM 3 : Tốt nhất cho việc phân đoạn khái niệm từ vựng mở, tìm tất cả các trường hợp của một khái niệm có văn bản hoặc lời nhắc mẫu
  • SAM 2 : Tốt nhất cho phân đoạn đối tượng đơn lẻ tương tác trong hình ảnh và video với lời nhắc hình học
  • YOLO11 : Tốt nhất cho phân đoạn thời gian thực, tốc độ cao trong các triển khai hạn chế tài nguyên bằng cách sử dụng các đường ống xuất hiệu quả như ONNXTensorRT

Chỉ số đánh giá

SAM Phiên bản 3 giới thiệu các số liệu mới được thiết kế cho nhiệm vụ PCS, bổ sung cho các số liệu quen thuộc như điểm F1 , độ chính xáckhả năng thu hồi .

F1 có cổng phân loại (CGF1)

Chỉ số chính kết hợp giữa bản địa hóa và phân loại:

CGF1 = 100 × pmF1 × IL_MCC

Trong đó:

  • pmF1 (F1 vĩ mô tích cực): Đo chất lượng bản địa hóa trên các ví dụ tích cực
  • IL_MCC (Hệ số tương quan Matthews cấp độ hình ảnh): Đo độ chính xác của phân loại nhị phân ("khái niệm có tồn tại không?")

Tại sao lại có những số liệu này?

Các số liệu AP truyền thống không tính đến hiệu chuẩn, khiến các mô hình khó sử dụng trong thực tế. Bằng cách chỉ đánh giá các dự đoán có độ tin cậy trên 0,5, SAM Các số liệu của 3 thực thi hiệu chuẩn tốt và mô phỏng các mẫu sử dụng trong thế giới thực trong các vòng lặp theo dõi và dự đoán tương tác .

Những sự cắt bỏ quan trọng và hiểu biết sâu sắc

Tác động của sự hiện diện

Đầu hiện diện tách biệt khả năng nhận dạng khỏi khả năng định vị, mang lại những cải tiến đáng kể:

Cấu hình CGF1 IL_MCC chiềuF1
Không có sự hiện diện 57.6 0.77 74.7
Với sự hiện diện 63.3 0.82 77.1

Đầu hiện diện cung cấp sự tăng cường CGF1 +5,7 (+9,9%), chủ yếu cải thiện khả năng nhận dạng (IL_MCC +6,5%).

Tác động của những điều tiêu cực cứng

Âm bản cứng/Hình ảnh CGF1 IL_MCC chiềuF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Những phủ định cứng rất quan trọng đối với việc nhận dạng từ vựng mở, cải thiện IL_MCC lên 54,5% (0,44 → 0,68).

Đào tạo dữ liệu mở rộng

Nguồn dữ liệu CGF1 IL_MCC chiềuF1
Chỉ bên ngoài 30.9 0.46 66.3
Bên ngoài + Tổng hợp 39.7 0.57 70.6
Bên ngoài + HQ 51.8 0.71 73.2
Cả ba 54.3 0.74 73.5

Chú thích chất lượng cao của con người mang lại lợi ích đáng kể so với dữ liệu tổng hợp hoặc dữ liệu bên ngoài. Để biết thêm thông tin về các phương pháp thực hành chất lượng dữ liệu, hãy xem phần thu thập và chú thích dữ liệu .

Các ứng dụng

SAM Khả năng phân đoạn khái niệm của 3 cho phép các trường hợp sử dụng mới:

  • Kiểm duyệt nội dung : Tìm tất cả các trường hợp của các loại nội dung cụ thể trên các thư viện phương tiện
  • Thương mại điện tử : Phân khúc tất cả các sản phẩm cùng loại trong hình ảnh danh mục, hỗ trợ chú thích tự động
  • Chụp ảnh y tế : Xác định tất cả các trường hợp xuất hiện các loại mô hoặc bất thường cụ thể
  • Hệ thống tự động : Theo dõi tất cả các trường hợp biển báo giao thông, người đi bộ hoặc phương tiện theo danh mục
  • Phân tích video : Đếm và theo dõi tất cả mọi người mặc trang phục cụ thể hoặc thực hiện hành động
  • Chú thích tập dữ liệu : Chú thích nhanh chóng tất cả các trường hợp của danh mục đối tượng hiếm
  • Nghiên cứu khoa học : Định lượng và phân tích tất cả các mẫu vật phù hợp với tiêu chí cụ thể

SAM 3. Agent: Lý luận ngôn ngữ mở rộng

SAM 3 có thể được kết hợp với Mô hình ngôn ngữ lớn đa phương thức (MLLM) để xử lý các truy vấn phức tạp đòi hỏi phải suy luận, có tinh thần tương tự như các hệ thống từ vựng mở như OWLv2T-Rex .

Hiệu suất trên các nhiệm vụ lý luận

Điểm chuẩn Chỉ số SAM 3 Đại lý (Gemini 2.5 Pro) Tốt nhất trước đó
ReasonSeg (xác thực) thế giới 76.0 65.0 (SoTA)
ReasonSeg (kiểm tra) thế giới 73.8 61,3 (SoTA)
OmniLabel (xác thực) AP 46.7 36,5 (THỰC)
Tham khảoCOCO+ Acc 91.2 89.3 (LISA)

Ví dụ về truy vấn phức tạp

SAM 3. Agent có thể xử lý các truy vấn yêu cầu lý luận:

  • "Mọi người ngồi xuống nhưng không cầm hộp quà trên tay"
  • "Con chó gần máy ảnh nhất mà không đeo vòng cổ"
  • "Vật màu đỏ lớn hơn bàn tay của người đó"

MLLM đề xuất các truy vấn cụm danh từ đơn giản để SAM 3, phân tích các mặt nạ trả về và lặp lại cho đến khi hài lòng.

Hạn chế

Trong khi SAM 3 là một bước tiến lớn, nhưng nó có một số hạn chế nhất định:

  • Độ phức tạp của cụm từ : Phù hợp nhất với các cụm danh từ đơn giản; các biểu thức tham chiếu dài hoặc lập luận phức tạp có thể yêu cầu tích hợp MLLM
  • Xử lý sự mơ hồ : Một số khái niệm vẫn còn mơ hồ (ví dụ: "cửa sổ nhỏ", "phòng ấm cúng")
  • Yêu cầu tính toán : Lớn hơn và chậm hơn so với các mô hình phát hiện chuyên biệt như YOLO
  • Phạm vi từ vựng : Tập trung vào các khái niệm trực quan nguyên tử; lý luận về thành phần bị hạn chế nếu không có sự hỗ trợ của MLLM
  • Các khái niệm hiếm : Hiệu suất có thể giảm sút trên các khái niệm cực kỳ hiếm hoặc chi tiết không được thể hiện tốt trong dữ liệu đào tạo

Trích dẫn

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Câu hỏi thường gặp

Khi nào sẽ SAM 3 Được phát hành?

SAM 3 hiện đang được xem xét tại ICLR 2026 (hội nghị năm 2026, đánh giá năm 2025). Các mô hình, trọng lượng và chuẩn mực chính thức sẽ được công bố công khai sau quá trình đánh giá, có thể là vào năm 2026. Ultralytics sẽ cung cấp hỗ trợ ngay lập tức cho SAM 3. Tích hợp khi Meta được phát hành và sử dụng tài liệu ở chế độ dự đoánchế độ theo dõi .

Sẽ SAM 3 Được tích hợp vào Ultralytics ?

Đúng. SAM 3 sẽ được hỗ trợ trong Ultralytics Python gói khi phát hành, bao gồm phân đoạn khái niệm, SAM Lời nhắc trực quan theo 2 phong cách và theo dõi video đa đối tượng. Bạn sẽ có thể xuất sang các định dạng như ONNXTensorRT để triển khai, với quy trình làm việc PythonCLI được tinh giản.

Tiến độ thực hiện

Các ví dụ mã trong tài liệu này là phiên bản xem trước, hiển thị các mẫu sử dụng dự kiến. Bản triển khai thực tế sẽ có sau khi Meta phát hành. SAM 3 trọng lượng và Ultralytics hoàn tất quá trình tích hợp.

Phân khúc khái niệm có thể nhắc nhở (PCS) là gì?

PCS là một nhiệm vụ mới được giới thiệu trong SAM 3 phân đoạn tất cả các trường hợp của một khái niệm trực quan trong hình ảnh hoặc video. Không giống như phân đoạn truyền thống nhắm vào một trường hợp đối tượng cụ thể, PCS tìm thấy mọi trường hợp xuất hiện của một danh mục. Ví dụ:

  • Lời nhắc văn bản : "xe buýt trường học màu vàng" → phân đoạn tất cả xe buýt trường học màu vàng trong cảnh
  • Ví dụ hình ảnh : Hộp xung quanh một con chó → phân đoạn tất cả các con chó trong hình ảnh
  • Kết hợp : "mèo sọc" + hộp mẫu → phân đoạn tất cả các con mèo sọc phù hợp với ví dụ

Xem thông tin liên quan về phát hiện đối tượngphân đoạn phiên bản .

Làm thế nào SAM 3 Khác biệt với SAM 2?

Tính năng SAM 2 SAM 3
Tác vụ Một đối tượng duy nhất cho mỗi lời nhắc Tất cả các trường hợp của một khái niệm
Các loại nhắc nhở Điểm, hộp, mặt nạ + Cụm từ văn bản, hình ảnh minh họa
Khả năng phát hiện Yêu cầu máy dò bên ngoài Bộ dò từ vựng mở tích hợp
Sự công nhận Chỉ dựa trên hình học Nhận dạng văn bản và hình ảnh
Kiến trúc Chỉ theo dõi Máy dò + Theo dõi có đầu hiện diện
Hiệu suất Zero-Shot Không áp dụng (yêu cầu có lời nhắc trực quan) 47.0 AP trên LVIS, tốt hơn 2× trên SA-Co
Tinh chỉnh Tương tác Chỉ nhấp chuột Nhấp chuột + khái quát mẫu

SAM Phiên bản 3 vẫn duy trì khả năng tương thích ngược với chức năng nhắc nhở trực quan SAM 2 đồng thời bổ sung thêm các khả năng dựa trên khái niệm.

Những tập dữ liệu nào được sử dụng để đào tạo SAM 3?

SAM 3 được đào tạo trên tập dữ liệu Segment Anything with Concepts (SA-Co) :

Dữ liệu đào tạo :

  • 5,2 triệu hình ảnh với 4 triệu cụm danh từ riêng biệt (SA-Co/HQ) - chú thích chất lượng cao của con người
  • 52,5 nghìn video với 24,8 nghìn cụm danh từ duy nhất (SA-Co/VIDEO)
  • 1,4B mặt nạ tổng hợp trên 38 triệu cụm danh từ (SA-Co/SYN)
  • 15 tập dữ liệu bên ngoài được làm giàu với các kết quả âm tính cứng (SA-Co/EXT)

Dữ liệu chuẩn :

  • 214 nghìn khái niệm độc đáo trên 126 nghìn hình ảnh/video
  • Nhiều khái niệm hơn 50 lần so với các chuẩn mực hiện có (ví dụ: LVIS có ~4K khái niệm)
  • Chú thích ba lần trên SA-Co/Gold để đo lường giới hạn hiệu suất của con người

Quy mô lớn và sự đa dạng này cho phép SAM Khả năng khái quát hóa vượt trội của 3 trên các khái niệm từ vựng mở.

Làm thế nào SAM 3 so sánh với YOLO11 để phân khúc?

SAM 3 và YOLO11 phục vụ các trường hợp sử dụng khác nhau:

Ưu điểm của SAM 3 :

  • Từ vựng mở : Phân đoạn bất kỳ khái niệm nào thông qua lời nhắc văn bản mà không cần đào tạo
  • Zero-shot : Hoạt động trên các danh mục mới ngay lập tức
  • Tương tác : Tinh chỉnh dựa trên ví dụ được khái quát hóa thành các đối tượng tương tự
  • Dựa trên khái niệm : Tự động tìm tất cả các trường hợp của một danh mục
  • Độ chính xác : 47,0 AP trên phân đoạn trường hợp không bắn của LVIS

Ưu điểm của YOLO11 :

  • Tốc độ : Suy luận nhanh hơn 10-15 lần (2-3ms so với 30ms cho mỗi hình ảnh)
  • Hiệu suất : Mô hình nhỏ hơn 70 lần (5,9MB so với dự kiến ~400MB)
  • Thân thiện với tài nguyên : Chạy trên các thiết bị biên và thiết bị di động
  • Thời gian thực : Được tối ưu hóa cho việc triển khai sản xuất

Sự giới thiệu :

  • Sử dụng SAM 3 để phân đoạn từ vựng linh hoạt, mở khi bạn cần tìm tất cả các trường hợp khái niệm được mô tả bằng văn bản hoặc ví dụ
  • Sử dụng YOLO11 cho các triển khai sản xuất tốc độ cao, nơi các danh mục được biết trước
  • Sử dụng SAM 2 để phân đoạn đối tượng đơn lẻ tương tác với các gợi ý hình học

Có thể SAM 3 xử lý các truy vấn ngôn ngữ phức tạp?

SAM 3 được thiết kế cho các cụm danh từ đơn giản (ví dụ: "táo đỏ", "người đội mũ"). Đối với các truy vấn phức tạp đòi hỏi lý luận, hãy kết hợp SAM 3 với MLLM là Đại lý SAM 3 :

Các truy vấn đơn giản ( SAM 3 gốc) :

  • "xe buýt trường học màu vàng"
  • "mèo sọc"
  • "người đội mũ đỏ"

Các truy vấn phức tạp ( SAM 3 Agent với MLLM) :

  • "Mọi người ngồi xuống nhưng không cầm hộp quà"
  • "Chú chó gần máy ảnh nhất mà không đeo vòng cổ"
  • "Vật màu đỏ lớn hơn bàn tay của người đó"

SAM 3 Đại lý đạt được 76,0 gIoU trên xác thực ReasonSeg (so với 65,0 gIoU tốt nhất trước đó, cải thiện +16,9%) bằng cách kết hợp SAM Phân đoạn 3 với khả năng suy luận MLLM.

Độ chính xác là bao nhiêu? SAM 3 so với hiệu suất của con người?

Trên chuẩn SA-Co/Gold với chú thích của ba con người:

  • Giới hạn dưới của con người : 74,2 CGF1 (người chú thích bảo thủ nhất)
  • Hiệu suất SAM 3 : 65.0 CGF1
  • Thành tích : 88% ước tính giới hạn dưới của con người
  • Giới hạn trên của con người : 81,4 CGF1 (người chú thích tự do nhất)

SAM 3 đạt hiệu suất cao, gần đạt độ chính xác ngang bằng con người trong phân đoạn khái niệm từ vựng mở, với khoảng cách chủ yếu ở các khái niệm mơ hồ hoặc chủ quan (ví dụ: "cửa sổ nhỏ", "phòng ấm cúng").



📅 Đã tạo 0 ngày trước ✏️ Đã cập nhật 0 ngày trước

Bình luận