SAM 2: Segment Anything Model 2

Sự phát triển của SAM

SAM 2 phát triển dựa trên SAM ban đầu với các khả năng phân đoạn video. Để biết về Promptable Concept Segmentation với các gợi ý bằng văn bản và hình ảnh mẫu, hãy xem SAM 3.

Inference with Segment Anything 2 In Colab

SAM 2, thế hệ kế tiếp của Segment Anything Model (SAM) từ Meta, là một công cụ tiên tiến được thiết kế để phân đoạn đối tượng toàn diện trong cả hình ảnh và video. Nó vượt trội trong việc xử lý dữ liệu hình ảnh phức tạp thông qua kiến trúc model hợp nhất, có thể tùy chỉnh bằng prompt, hỗ trợ xử lý thời gian thực và khả năng tổng quát hóa zero-shot.

SAM 2 trên Ultralytics Platform

Các model SAM 2.1 vận hành tính năng chú thích thông minh trên Ultralytics Platform, cho phép phân đoạn dựa trên cú nhấp chuột để gán nhãn tập dữ liệu nhanh chóng. Xem hướng dẫn chú thích để biết thêm chi tiết.

SAM 2 Example Results

Các tính năng chính



Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉

Kiến trúc Model hợp nhất

SAM 2 kết hợp khả năng phân đoạn hình ảnh và video trong một model duy nhất. Sự hợp nhất này giúp đơn giản hóa việc triển khai và cho phép hiệu suất nhất quán trên các loại phương tiện truyền thông khác nhau. Nó tận dụng giao diện dựa trên prompt linh hoạt, cho phép người dùng xác định các đối tượng cần quan tâm thông qua nhiều loại prompt khác nhau, chẳng hạn như điểm, bounding box, hoặc mask.

Hiệu suất thời gian thực

Model đạt tốc độ inference thời gian thực, xử lý khoảng 44 khung hình mỗi giây. Điều này làm cho SAM 2 phù hợp với các ứng dụng yêu cầu phản hồi ngay lập tức, chẳng hạn như chỉnh sửa video và thực tế tăng cường.

Tổng quát hóa Zero-Shot

SAM 2 có thể phân đoạn các đối tượng mà nó chưa từng gặp trước đây, thể hiện khả năng tổng quát hóa zero-shot mạnh mẽ. Điều này đặc biệt hữu ích trong các lĩnh vực hình ảnh đa dạng hoặc đang phát triển, nơi các danh mục được xác định trước có thể không bao gồm tất cả các đối tượng có thể có.

Tinh chỉnh tương tác

Người dùng có thể lặp lại việc tinh chỉnh kết quả phân đoạn bằng cách cung cấp thêm các prompt, cho phép kiểm soát chính xác đầu ra. Tính tương tác này rất cần thiết để tinh chỉnh kết quả trong các ứng dụng như chú thích video hoặc hình ảnh y tế.

Xử lý nâng cao các thách thức hình ảnh

SAM 2 bao gồm các cơ chế để quản lý các thách thức phân đoạn video phổ biến, chẳng hạn như vật thể bị che khuất và xuất hiện trở lại. Nó sử dụng cơ chế bộ nhớ tinh vi để theo dõi các đối tượng qua các khung hình, đảm bảo tính liên tục ngay cả khi các đối tượng bị che khuất tạm thời hoặc thoát ra và quay trở lại cảnh quay.

Để hiểu sâu hơn về kiến trúc và khả năng của SAM 2, hãy khám phá bài báo nghiên cứu SAM 2.

Hiệu suất và chi tiết kỹ thuật

SAM 2 thiết lập một chuẩn mực mới trong lĩnh vực này, vượt trội hơn các model trước đó trên nhiều chỉ số khác nhau:

Chỉ sốSAM 2SOTA trước đó
Phân đoạn video tương tácTốt nhất-
Số tương tác người dùng cần thiếtÍt hơn 3 lầnBaseline
Độ chính xác Image SegmentationĐã cải thiệnSAM
Tốc độ inferenceNhanh hơn 6 lầnSAM

Kiến trúc Model

Các thành phần cốt lõi

  • Image and Video Encoder: Sử dụng kiến trúc dựa trên transformer để trích xuất các đặc trưng cấp cao từ cả hình ảnh và khung hình video. Thành phần này chịu trách nhiệm hiểu nội dung hình ảnh tại mỗi mốc thời gian.
  • Prompt Encoder: Xử lý các prompt do người dùng cung cấp (điểm, khung, mặt nạ) để hướng dẫn tác vụ phân đoạn. Điều này cho phép SAM 2 thích ứng với đầu vào của người dùng và nhắm mục tiêu vào các đối tượng cụ thể trong một cảnh.
  • Memory Mechanism: Bao gồm memory encoder, memory bank và module memory attention. Các thành phần này cùng nhau lưu trữ và sử dụng thông tin từ các khung hình trước đó, cho phép model duy trì object tracking nhất quán theo thời gian.
  • Mask Decoder: Tạo các mask phân đoạn cuối cùng dựa trên các đặc trưng hình ảnh đã được mã hóa và các prompt. Trong video, nó cũng sử dụng ngữ cảnh bộ nhớ để đảm bảo theo dõi chính xác qua các khung hình.

SAM 2 Architecture Diagram

Cơ chế bộ nhớ và xử lý che khuất

Cơ chế bộ nhớ cho phép SAM 2 xử lý các phụ thuộc theo thời gian và tình trạng che khuất trong dữ liệu video. Khi các đối tượng di chuyển và tương tác, SAM 2 ghi lại các đặc trưng của chúng vào một memory bank. Khi một đối tượng bị che khuất, model có thể dựa vào bộ nhớ này để dự đoán vị trí và diện mạo của nó khi nó xuất hiện trở lại. Occlusion head xử lý đặc biệt các tình huống mà đối tượng không hiển thị, dự đoán khả năng đối tượng bị che khuất.

Giải quyết sự mơ hồ đa mặt nạ

Trong các tình huống mơ hồ (ví dụ: các đối tượng chồng chéo), SAM 2 có thể tạo ra nhiều dự đoán mask. Tính năng này rất quan trọng để thể hiện chính xác các cảnh phức tạp nơi một mask đơn lẻ có thể không mô tả đầy đủ các sắc thái của cảnh.

Tập dữ liệu SA-V

Tập dữ liệu SA-V, được phát triển để huấn luyện SAM 2, là một trong những tập dữ liệu phân đoạn video lớn và đa dạng nhất hiện có. Nó bao gồm:

  • 51,000+ Video: Được quay trên 47 quốc gia, cung cấp phạm vi rộng lớn các kịch bản thực tế.
  • 600,000+ Mask Annotations: Các chú thích mask không gian-thời gian chi tiết, được gọi là "masklet", bao phủ toàn bộ đối tượng và các bộ phận.
  • Quy mô tập dữ liệu: Nó có số lượng video gấp 4.5 lần và số lượng chú thích gấp 53 lần so với các tập dữ liệu lớn nhất trước đây, mang lại sự đa dạng và phức tạp chưa từng có.

Các Benchmark

Phân đoạn đối tượng video

SAM 2 đã chứng minh hiệu suất vượt trội trên các benchmark phân đoạn video chính:

Tập dữ liệuJ&FJF
DAVIS 201782.579.885.2
YouTube-VOS81.278.983.5

Phân đoạn tương tác

Trong các tác vụ phân đoạn tương tác, SAM 2 cho thấy hiệu quả và độ chính xác đáng kể:

Tập dữ liệuNoC@90AUC
DAVIS Interactive1.540.872

Cài đặt

Để cài đặt SAM 2, hãy sử dụng lệnh sau. Tất cả các model SAM 2 sẽ tự động tải xuống trong lần sử dụng đầu tiên.

pip install ultralytics

Cách sử dụng SAM 2: Sự đa năng trong phân đoạn hình ảnh và video

Bảng sau đây trình bày chi tiết các model SAM 2 khả dụng, trọng số tiền huấn luyện, các tác vụ được hỗ trợ và tính tương thích với các chế độ vận hành khác nhau như Inference, Validation, Training, và Export.

Loại ModelWeights Tiền huấn luyệnTác vụ được hỗ trợInferenceValidationTrainingExport
SAM 2 tinysam2_t.ptInstance Segmentation
SAM 2 smallsam2_s.ptInstance Segmentation
SAM 2 basesam2_b.ptInstance Segmentation
SAM 2 largesam2_l.ptInstance Segmentation
SAM 2.1 tinysam2.1_t.ptInstance Segmentation
SAM 2.1 smallsam2.1_s.ptInstance Segmentation
SAM 2.1 basesam2.1_b.ptInstance Segmentation
SAM 2.1 largesam2.1_l.ptInstance Segmentation

Ví dụ về dự đoán với SAM 2

SAM 2 có thể được sử dụng trong nhiều tác vụ, bao gồm chỉnh sửa video thời gian thực, hình ảnh y tế và các hệ thống tự hành. Khả năng phân đoạn cả dữ liệu hình ảnh tĩnh và động khiến nó trở thành một công cụ linh hoạt cho các nhà nghiên cứu và nhà phát triển.

Phân đoạn bằng Prompt

Phân đoạn bằng Prompt

Sử dụng các prompt để phân đoạn các đối tượng cụ thể trong hình ảnh hoặc video.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Phân đoạn mọi thứ

Phân đoạn mọi thứ

Phân đoạn toàn bộ nội dung hình ảnh hoặc video mà không cần prompt cụ thể.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

Phân đoạn Video và Theo dõi đối tượng

Phân đoạn Video

Phân đoạn toàn bộ nội dung video với các prompt cụ thể và theo dõi đối tượng.

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])
  • Ví dụ này minh họa cách SAM 2 có thể được sử dụng để phân đoạn toàn bộ nội dung của hình ảnh hoặc video nếu không có prompt (bboxes/points/masks) nào được cung cấp.

Phân đoạn và theo dõi tương tác động

SAM2DynamicInteractivePredictor là một phần mở rộng nâng cao, không cần huấn luyện của SAM2, cho phép tương tác động với nhiều khung hình và khả năng học liên tục. Trình dự đoán này hỗ trợ cập nhật prompt theo thời gian thực và quản lý bộ nhớ để cải thiện hiệu suất theo dõi trên một chuỗi hình ảnh. So với SAM2 gốc, SAM2DynamicInteractivePredictor xây dựng lại luồng suy luận để tận dụng tối ưu các mô hình SAM2 đã được huấn luyện trước mà không cần huấn luyện thêm.

Kết quả mẫu SAM 2

Các tính năng chính

Nó cung cấp ba cải tiến đáng kể:

  1. Tương tác Động (Dynamic Interactive): Thêm các prompt mới để hợp nhất/theo dõi các đối tượng mới trong các khung hình tiếp theo bất kỳ lúc nào trong quá trình xử lý video
  2. Học liên tục (Continual Learning): Thêm các prompt mới cho các đối tượng hiện có để cải thiện hiệu suất mô hình theo thời gian
  3. Hỗ trợ Đa hình ảnh Độc lập (Independent Multi-Image Support): Xử lý nhiều hình ảnh độc lập (không nhất thiết phải từ một chuỗi video) với việc chia sẻ bộ nhớ và theo dõi đối tượng giữa các hình ảnh

Các tính năng cốt lõi

  • Tính linh hoạt của Prompt: Chấp nhận bounding box, điểm và mask làm prompt
  • Quản lý bộ nhớ (Memory Bank Management): Duy trì một bộ nhớ động để lưu trữ trạng thái đối tượng trên các khung hình
  • Theo dõi đa đối tượng (Multi-Object Tracking): Hỗ trợ theo dõi nhiều đối tượng đồng thời với ID đối tượng riêng biệt
  • Cập nhật thời gian thực: Cho phép thêm prompt mới trong quá trình suy luận mà không cần xử lý lại các khung hình trước đó
  • Xử lý hình ảnh độc lập: Xử lý các hình ảnh độc lập với ngữ cảnh bộ nhớ được chia sẻ để đảm bảo tính nhất quán của đối tượng giữa các hình ảnh
Thêm đối tượng động
from ultralytics.models.sam import SAM2DynamicInteractivePredictor

# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)

# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)

# Detect this particular object in a new image
results = predictor(source="image2.jpg")

# Add new category with a new object ID
results = predictor(
    source="image4.jpg",
    bboxes=[[300, 300, 400, 400]],  # New object
    obj_ids=[1],  # New object ID
    update_memory=True,  # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")

# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
    source="image6.jpg",
    points=[[150, 150]],  # Refinement point
    labels=[1],  # Positive point
    obj_ids=[1],  # Same object ID
    update_memory=True,  # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")
Lưu ý

SAM2DynamicInteractivePredictor được thiết kế để hoạt động với các mô hình SAM2 và hỗ trợ thêm/tinh chỉnh các danh mục bằng tất cả các prompt hộp/điểm/mask mà SAM2 hỗ trợ một cách tự nhiên. Nó đặc biệt hữu ích cho các tình huống mà đối tượng xuất hiện hoặc thay đổi theo thời gian, chẳng hạn như trong các tác vụ chú thích video hoặc chỉnh sửa tương tác.

Đối số

TênGiá trị mặc địnhKiểu dữ liệuMô tả
max_obj_num3intSố lượng danh mục tối đa được cài đặt sẵn
update_memoryFalseboolLiệu có cập nhật bộ nhớ với các prompt mới hay không
obj_idsNoneList[int]Danh sách các ID đối tượng tương ứng với các prompt

Các trường hợp sử dụng

SAM2DynamicInteractivePredictor lý tưởng cho:

  • Quy trình chú thích video nơi các đối tượng mới xuất hiện trong chuỗi
  • Chỉnh sửa video tương tác yêu cầu thêm và tinh chỉnh đối tượng theo thời gian thực
  • Ứng dụng giám sát với nhu cầu theo dõi đối tượng động
  • Hình ảnh y tế để theo dõi các cấu trúc giải phẫu theo chuỗi thời gian
  • Các hệ thống tự hành yêu cầu phát hiện và theo dõi đối tượng thích ứng
  • Các tập dữ liệu đa hình ảnh để phân đoạn đối tượng nhất quán giữa các hình ảnh độc lập
  • Phân tích bộ sưu tập hình ảnh nơi các đối tượng cần được theo dõi trên các cảnh khác nhau
  • Phân đoạn đa miền (Cross-domain) tận dụng bộ nhớ từ các ngữ cảnh hình ảnh đa dạng
  • Chú thích bán tự động để tạo tập dữ liệu hiệu quả với sự can thiệp thủ công tối thiểu

So sánh SAM với YOLO

Dưới đây là bảng so sánh các mô hình SAM 2 của Meta, bao gồm cả biến thể nhỏ nhất SAM2-t, với các mô hình phân đoạn của Ultralytics bao gồm YOLO26n-seg:

ModelKích thước
(MB)
Tham số
(M)
Tốc độ (CPU)
(ms/im)
Meta SAM-b37593.741703
Meta SAM2-b16280.828867
Meta SAM2-t78.138.923430
MobileSAM40.710.123802
FastSAM-s với backbone YOLOv823.911.858.0
Ultralytics YOLOv8n-seg7.1 (nhỏ hơn 11.0x)3.4 (ít hơn 11.4x)24.8 (nhanh hơn 945x)
Ultralytics YOLO11n-seg6.2 (nhỏ hơn 12.6x)2.9 (ít hơn 13.4x)24.3 (nhanh hơn 964x)
Ultralytics YOLO26n-seg6.7 (nhỏ hơn 11.7x)2.7 (ít hơn 14.4x)25.2 (nhanh hơn 930x)

Sự so sánh này chứng minh sự khác biệt đáng kể về kích thước và tốc độ model giữa các biến thể SAM và các model phân đoạn YOLO. Trong khi SAM cung cấp các khả năng phân đoạn tự động độc đáo, các model YOLO, đặc biệt là YOLOv8n-seg, YOLO11n-seg và YOLO26n-seg, nhỏ hơn, nhanh hơn và hiệu quả về tính toán hơn đáng kể.

Tốc độ SAM được đo bằng PyTorch, tốc độ YOLO được đo bằng ONNX Runtime. Các bài kiểm tra chạy trên Apple M4 Air 2025 với 16GB RAM sử dụng torch==2.10.0, ultralytics==8.4.31, và onnxruntime==1.24.4. Để tái tạo bài kiểm tra này:

Ví dụ
from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    onnx_path = model.export(format="onnx", dynamic=True)
    model = YOLO(onnx_path)
    model(ASSETS)

Tự động chú thích: Tạo tập dữ liệu hiệu quả

Tự động chú thích là một tính năng mạnh mẽ của SAM 2, cho phép người dùng tạo các tập dữ liệu phân đoạn một cách nhanh chóng và chính xác bằng cách tận dụng các mô hình đã được huấn luyện trước. Khả năng này đặc biệt hữu ích để tạo ra các tập dữ liệu lớn, chất lượng cao mà không cần nỗ lực thủ công quá nhiều.

Cách tự động chú thích với SAM 2



Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling

Để tự động chú thích tập dữ liệu của bạn bằng cách sử dụng SAM 2, hãy làm theo ví dụ này:

Ví dụ về Tự động chú thích
from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")
Đối sốLoạiMặc địnhMô tả
datastrbắt buộcĐường dẫn đến thư mục chứa các hình ảnh mục tiêu để gán nhãn hoặc phân đoạn.
det_modelstr'yolo26x.pt'Đường dẫn model phát hiện YOLO cho phát hiện đối tượng ban đầu.
sam_modelstr'sam_b.pt'Đường dẫn model SAM cho phân đoạn (hỗ trợ SAM, các biến thể SAM2, và các model MobileSAM).
devicestr''Thiết bị tính toán (ví dụ: 'cuda:0', 'cpu', hoặc '' để tự động phát hiện thiết bị).
conffloat0.25Ngưỡng tin cậy phát hiện YOLO để lọc các kết quả phát hiện yếu.
ioufloat0.45Ngưỡng IoU cho NMS để lọc các hộp chồng chéo.
imgszint640Kích thước đầu vào để thay đổi kích thước hình ảnh (phải là bội số của 32).
max_detint300Số lượng phát hiện tối đa trên mỗi hình ảnh để tối ưu hóa bộ nhớ.
classeslist[int]NoneDanh sách các chỉ số lớp để phát hiện (ví dụ: [0, 1] cho người & xe đạp).
output_dirstrNoneThư mục lưu cho các nhãn (mặc định là './labels' tương đối với đường dẫn dữ liệu).

Hàm này tạo điều kiện thuận lợi cho việc tạo nhanh các tập dữ liệu phân đoạn chất lượng cao, lý tưởng cho các nhà nghiên cứu và nhà phát triển nhằm mục đích tăng tốc dự án của họ.

Hạn chế

Mặc dù có nhiều điểm mạnh, SAM 2 vẫn có một số hạn chế nhất định:

  • Độ ổn định khi theo dõi: SAM 2 có thể mất dấu đối tượng trong các chuỗi dài hoặc khi có thay đổi đáng kể về góc nhìn.
  • Nhầm lẫn đối tượng: Mô hình đôi khi có thể nhầm lẫn các đối tượng trông giống nhau, đặc biệt là trong các cảnh đông đúc.
  • Hiệu quả với nhiều đối tượng: Hiệu quả phân đoạn giảm khi xử lý nhiều đối tượng đồng thời do thiếu sự giao tiếp giữa các đối tượng.
  • Độ chính xác chi tiết: Có thể bỏ sót các chi tiết nhỏ, đặc biệt là với các đối tượng di chuyển nhanh. Các prompt bổ sung có thể giải quyết một phần vấn đề này, nhưng độ mượt theo thời gian không được đảm bảo.

Trích dẫn và Ghi nhận

Nếu SAM 2 là một phần quan trọng trong công việc nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn nó bằng cách sử dụng tài liệu tham khảo sau:

Trích dẫn
@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

Chúng tôi gửi lời cảm ơn đến Meta AI vì những đóng góp của họ cho cộng đồng AI với mô hình và tập dữ liệu mang tính đột phá này.

Câu hỏi thường gặp (FAQ)

SAM 2 là gì và nó cải tiến như thế nào so với Segment Anything Model (SAM) ban đầu?

SAM 2, người kế nhiệm của Segment Anything Model (SAM) từ Meta, là một công cụ tiên tiến được thiết kế để phân đoạn đối tượng toàn diện trong cả hình ảnh và video. Nó xuất sắc trong việc xử lý dữ liệu hình ảnh phức tạp thông qua kiến trúc mô hình thống nhất, có thể prompt, hỗ trợ xử lý thời gian thực và tổng quát hóa zero-shot. SAM 2 cung cấp một số cải tiến so với SAM gốc, bao gồm:

  • Kiến trúc mô hình thống nhất: Kết hợp khả năng phân đoạn hình ảnh và video trong một mô hình duy nhất.
  • Hiệu suất thời gian thực: Xử lý khoảng 44 khung hình mỗi giây, giúp nó phù hợp với các ứng dụng yêu cầu phản hồi tức thì.
  • Tổng quát hóa Zero-Shot: Phân đoạn các đối tượng mà nó chưa từng gặp trước đây, hữu ích trong nhiều lĩnh vực hình ảnh đa dạng.
  • Tinh chỉnh tương tác: Cho phép người dùng tinh chỉnh kết quả phân đoạn một cách lặp đi lặp lại bằng cách cung cấp các prompt bổ sung.
  • Xử lý nâng cao các thách thức hình ảnh: Quản lý các thách thức phân đoạn video phổ biến như che khuất đối tượng và đối tượng xuất hiện lại.

Để biết thêm chi tiết về kiến trúc và khả năng của SAM 2, hãy khám phá bài báo nghiên cứu SAM 2.

Làm thế nào tôi có thể sử dụng SAM 2 để phân đoạn video thời gian thực?

SAM 2 có thể được sử dụng để phân đoạn video thời gian thực bằng cách tận dụng giao diện promptable và khả năng suy luận thời gian thực của nó. Dưới đây là một ví dụ cơ bản:

Phân đoạn bằng Prompt

Sử dụng các prompt để phân đoạn các đối tượng cụ thể trong hình ảnh hoặc video.

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

Để biết cách sử dụng toàn diện hơn, hãy tham khảo phần Cách sử dụng SAM 2.

Những tập dữ liệu nào được sử dụng để huấn luyện SAM 2 và chúng nâng cao hiệu suất của nó như thế nào?

SAM 2 được huấn luyện trên tập dữ liệu SA-V, một trong những tập dữ liệu phân đoạn video lớn nhất và đa dạng nhất hiện có. Tập dữ liệu SA-V bao gồm:

  • 51,000+ Video: Được quay trên 47 quốc gia, cung cấp phạm vi rộng lớn các kịch bản thực tế.
  • 600,000+ Mask Annotations: Các chú thích mask không gian-thời gian chi tiết, được gọi là "masklet", bao phủ toàn bộ đối tượng và các bộ phận.
  • Quy mô tập dữ liệu: Có số lượng video gấp 4.5 lần và số lượng chú thích gấp 53 lần so với các tập dữ liệu lớn nhất trước đây, mang lại sự đa dạng và phức tạp chưa từng có.

Tập dữ liệu mở rộng này cho phép SAM 2 đạt được hiệu suất vượt trội trên các điểm chuẩn phân đoạn video chính và tăng cường khả năng tổng quát hóa zero-shot của nó. Để biết thêm thông tin, hãy xem phần Tập dữ liệu SA-V.

SAM 2 xử lý việc bị che khuất và đối tượng xuất hiện lại trong phân đoạn video như thế nào?

SAM 2 bao gồm một cơ chế bộ nhớ tinh vi để quản lý các phụ thuộc tạm thời và sự che khuất trong dữ liệu video. Cơ chế bộ nhớ bao gồm:

  • Memory Encoder và Memory Bank: Lưu trữ các đặc trưng từ các khung hình trước đó.
  • Memory Attention Module: Sử dụng thông tin đã lưu trữ để duy trì theo dõi đối tượng nhất quán theo thời gian.
  • Occlusion Head: Xử lý cụ thể các tình huống khi các đối tượng không hiển thị, dự đoán xác suất một đối tượng bị che khuất.

Cơ chế này đảm bảo tính liên tục ngay cả khi đối tượng tạm thời bị che khuất hoặc thoát ra và quay trở lại cảnh. Để biết thêm chi tiết, hãy tham khảo phần Cơ chế bộ nhớ và xử lý che khuất.

SAM 2 so sánh như thế nào với các mô hình phân đoạn khác như YOLO26?

Các mô hình SAM 2, chẳng hạn như SAM2-t và SAM2-b của Meta, cung cấp khả năng phân đoạn zero-shot mạnh mẽ nhưng lớn hơn và chậm hơn đáng kể so với các mô hình YOLO. Ví dụ, YOLO26n-seg nhỏ hơn khoảng 24 lần và nhanh hơn hơn 1145 lần so với SAM2-b trên CPU. Trong khi SAM 2 xuất sắc trong các kịch bản phân đoạn linh hoạt, dựa trên prompt và zero-shot, YOLO26 được tối ưu hóa cho tốc độ, hiệu quả và các ứng dụng thời gian thực với suy luận end-to-end không cần NMS, làm cho nó phù hợp hơn để triển khai trong các môi trường bị hạn chế về tài nguyên.

Bình luận