SAM 2: Segment Anything Model 2
SAM 2, thế hệ kế tiếp của Segment Anything Model (SAM) từ Meta, là một công cụ tiên tiến được thiết kế để phân đoạn đối tượng toàn diện trong cả hình ảnh và video. Nó vượt trội trong việc xử lý dữ liệu hình ảnh phức tạp thông qua kiến trúc model hợp nhất, có thể tùy chỉnh bằng prompt, hỗ trợ xử lý thời gian thực và khả năng tổng quát hóa zero-shot.
Các model SAM 2.1 vận hành tính năng chú thích thông minh trên Ultralytics Platform, cho phép phân đoạn dựa trên cú nhấp chuột để gán nhãn tập dữ liệu nhanh chóng. Xem hướng dẫn chú thích để biết thêm chi tiết.

Các tính năng chính
Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉
Kiến trúc Model hợp nhất
SAM 2 kết hợp khả năng phân đoạn hình ảnh và video trong một model duy nhất. Sự hợp nhất này giúp đơn giản hóa việc triển khai và cho phép hiệu suất nhất quán trên các loại phương tiện truyền thông khác nhau. Nó tận dụng giao diện dựa trên prompt linh hoạt, cho phép người dùng xác định các đối tượng cần quan tâm thông qua nhiều loại prompt khác nhau, chẳng hạn như điểm, bounding box, hoặc mask.
Hiệu suất thời gian thực
Model đạt tốc độ inference thời gian thực, xử lý khoảng 44 khung hình mỗi giây. Điều này làm cho SAM 2 phù hợp với các ứng dụng yêu cầu phản hồi ngay lập tức, chẳng hạn như chỉnh sửa video và thực tế tăng cường.
Tổng quát hóa Zero-Shot
SAM 2 có thể phân đoạn các đối tượng mà nó chưa từng gặp trước đây, thể hiện khả năng tổng quát hóa zero-shot mạnh mẽ. Điều này đặc biệt hữu ích trong các lĩnh vực hình ảnh đa dạng hoặc đang phát triển, nơi các danh mục được xác định trước có thể không bao gồm tất cả các đối tượng có thể có.
Tinh chỉnh tương tác
Người dùng có thể lặp lại việc tinh chỉnh kết quả phân đoạn bằng cách cung cấp thêm các prompt, cho phép kiểm soát chính xác đầu ra. Tính tương tác này rất cần thiết để tinh chỉnh kết quả trong các ứng dụng như chú thích video hoặc hình ảnh y tế.
Xử lý nâng cao các thách thức hình ảnh
SAM 2 bao gồm các cơ chế để quản lý các thách thức phân đoạn video phổ biến, chẳng hạn như vật thể bị che khuất và xuất hiện trở lại. Nó sử dụng cơ chế bộ nhớ tinh vi để theo dõi các đối tượng qua các khung hình, đảm bảo tính liên tục ngay cả khi các đối tượng bị che khuất tạm thời hoặc thoát ra và quay trở lại cảnh quay.
Để hiểu sâu hơn về kiến trúc và khả năng của SAM 2, hãy khám phá bài báo nghiên cứu SAM 2.
Hiệu suất và chi tiết kỹ thuật
SAM 2 thiết lập một chuẩn mực mới trong lĩnh vực này, vượt trội hơn các model trước đó trên nhiều chỉ số khác nhau:
| Chỉ số | SAM 2 | SOTA trước đó |
|---|---|---|
| Phân đoạn video tương tác | Tốt nhất | - |
| Số tương tác người dùng cần thiết | Ít hơn 3 lần | Baseline |
| Độ chính xác Image Segmentation | Đã cải thiện | SAM |
| Tốc độ inference | Nhanh hơn 6 lần | SAM |
Kiến trúc Model
Các thành phần cốt lõi
- Image and Video Encoder: Sử dụng kiến trúc dựa trên transformer để trích xuất các đặc trưng cấp cao từ cả hình ảnh và khung hình video. Thành phần này chịu trách nhiệm hiểu nội dung hình ảnh tại mỗi mốc thời gian.
- Prompt Encoder: Xử lý các prompt do người dùng cung cấp (điểm, khung, mặt nạ) để hướng dẫn tác vụ phân đoạn. Điều này cho phép SAM 2 thích ứng với đầu vào của người dùng và nhắm mục tiêu vào các đối tượng cụ thể trong một cảnh.
- Memory Mechanism: Bao gồm memory encoder, memory bank và module memory attention. Các thành phần này cùng nhau lưu trữ và sử dụng thông tin từ các khung hình trước đó, cho phép model duy trì object tracking nhất quán theo thời gian.
- Mask Decoder: Tạo các mask phân đoạn cuối cùng dựa trên các đặc trưng hình ảnh đã được mã hóa và các prompt. Trong video, nó cũng sử dụng ngữ cảnh bộ nhớ để đảm bảo theo dõi chính xác qua các khung hình.

Cơ chế bộ nhớ và xử lý che khuất
Cơ chế bộ nhớ cho phép SAM 2 xử lý các phụ thuộc theo thời gian và tình trạng che khuất trong dữ liệu video. Khi các đối tượng di chuyển và tương tác, SAM 2 ghi lại các đặc trưng của chúng vào một memory bank. Khi một đối tượng bị che khuất, model có thể dựa vào bộ nhớ này để dự đoán vị trí và diện mạo của nó khi nó xuất hiện trở lại. Occlusion head xử lý đặc biệt các tình huống mà đối tượng không hiển thị, dự đoán khả năng đối tượng bị che khuất.
Giải quyết sự mơ hồ đa mặt nạ
Trong các tình huống mơ hồ (ví dụ: các đối tượng chồng chéo), SAM 2 có thể tạo ra nhiều dự đoán mask. Tính năng này rất quan trọng để thể hiện chính xác các cảnh phức tạp nơi một mask đơn lẻ có thể không mô tả đầy đủ các sắc thái của cảnh.
Tập dữ liệu SA-V
Tập dữ liệu SA-V, được phát triển để huấn luyện SAM 2, là một trong những tập dữ liệu phân đoạn video lớn và đa dạng nhất hiện có. Nó bao gồm:
- 51,000+ Video: Được quay trên 47 quốc gia, cung cấp phạm vi rộng lớn các kịch bản thực tế.
- 600,000+ Mask Annotations: Các chú thích mask không gian-thời gian chi tiết, được gọi là "masklet", bao phủ toàn bộ đối tượng và các bộ phận.
- Quy mô tập dữ liệu: Nó có số lượng video gấp 4.5 lần và số lượng chú thích gấp 53 lần so với các tập dữ liệu lớn nhất trước đây, mang lại sự đa dạng và phức tạp chưa từng có.
Các Benchmark
Phân đoạn đối tượng video
SAM 2 đã chứng minh hiệu suất vượt trội trên các benchmark phân đoạn video chính:
| Tập dữ liệu | J&F | J | F |
|---|---|---|---|
| DAVIS 2017 | 82.5 | 79.8 | 85.2 |
| YouTube-VOS | 81.2 | 78.9 | 83.5 |
Phân đoạn tương tác
Trong các tác vụ phân đoạn tương tác, SAM 2 cho thấy hiệu quả và độ chính xác đáng kể:
| Tập dữ liệu | NoC@90 | AUC |
|---|---|---|
| DAVIS Interactive | 1.54 | 0.872 |
Cài đặt
Để cài đặt SAM 2, hãy sử dụng lệnh sau. Tất cả các model SAM 2 sẽ tự động tải xuống trong lần sử dụng đầu tiên.
pip install ultralyticsCách sử dụng SAM 2: Sự đa năng trong phân đoạn hình ảnh và video
Bảng sau đây trình bày chi tiết các model SAM 2 khả dụng, trọng số tiền huấn luyện, các tác vụ được hỗ trợ và tính tương thích với các chế độ vận hành khác nhau như Inference, Validation, Training, và Export.
| Loại Model | Weights Tiền huấn luyện | Tác vụ được hỗ trợ | Inference | Validation | Training | Export |
|---|---|---|---|---|---|---|
| SAM 2 tiny | sam2_t.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2 small | sam2_s.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2 base | sam2_b.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2 large | sam2_l.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 tiny | sam2.1_t.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 small | sam2.1_s.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 base | sam2.1_b.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 large | sam2.1_l.pt | Instance Segmentation | ✅ | ❌ | ❌ | ❌ |
Ví dụ về dự đoán với SAM 2
SAM 2 có thể được sử dụng trong nhiều tác vụ, bao gồm chỉnh sửa video thời gian thực, hình ảnh y tế và các hệ thống tự hành. Khả năng phân đoạn cả dữ liệu hình ảnh tĩnh và động khiến nó trở thành một công cụ linh hoạt cho các nhà nghiên cứu và nhà phát triển.
Phân đoạn bằng Prompt
Sử dụng các prompt để phân đoạn các đối tượng cụ thể trong hình ảnh hoặc video.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Phân đoạn mọi thứ
Phân đoạn toàn bộ nội dung hình ảnh hoặc video mà không cần prompt cụ thể.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/video.mp4")Phân đoạn Video và Theo dõi đối tượng
Phân đoạn toàn bộ nội dung video với các prompt cụ thể và theo dõi đối tượng.
from ultralytics.models.sam import SAM2VideoPredictor
# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)
# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])
# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])- Ví dụ này minh họa cách SAM 2 có thể được sử dụng để phân đoạn toàn bộ nội dung của hình ảnh hoặc video nếu không có prompt (bboxes/points/masks) nào được cung cấp.
Phân đoạn và theo dõi tương tác động
SAM2DynamicInteractivePredictor là một phần mở rộng nâng cao, không cần huấn luyện của SAM2, cho phép tương tác động với nhiều khung hình và khả năng học liên tục. Trình dự đoán này hỗ trợ cập nhật prompt theo thời gian thực và quản lý bộ nhớ để cải thiện hiệu suất theo dõi trên một chuỗi hình ảnh. So với SAM2 gốc, SAM2DynamicInteractivePredictor xây dựng lại luồng suy luận để tận dụng tối ưu các mô hình SAM2 đã được huấn luyện trước mà không cần huấn luyện thêm.

Các tính năng chính
Nó cung cấp ba cải tiến đáng kể:
- Tương tác Động (Dynamic Interactive): Thêm các prompt mới để hợp nhất/theo dõi các đối tượng mới trong các khung hình tiếp theo bất kỳ lúc nào trong quá trình xử lý video
- Học liên tục (Continual Learning): Thêm các prompt mới cho các đối tượng hiện có để cải thiện hiệu suất mô hình theo thời gian
- Hỗ trợ Đa hình ảnh Độc lập (Independent Multi-Image Support): Xử lý nhiều hình ảnh độc lập (không nhất thiết phải từ một chuỗi video) với việc chia sẻ bộ nhớ và theo dõi đối tượng giữa các hình ảnh
Các tính năng cốt lõi
- Tính linh hoạt của Prompt: Chấp nhận bounding box, điểm và mask làm prompt
- Quản lý bộ nhớ (Memory Bank Management): Duy trì một bộ nhớ động để lưu trữ trạng thái đối tượng trên các khung hình
- Theo dõi đa đối tượng (Multi-Object Tracking): Hỗ trợ theo dõi nhiều đối tượng đồng thời với ID đối tượng riêng biệt
- Cập nhật thời gian thực: Cho phép thêm prompt mới trong quá trình suy luận mà không cần xử lý lại các khung hình trước đó
- Xử lý hình ảnh độc lập: Xử lý các hình ảnh độc lập với ngữ cảnh bộ nhớ được chia sẻ để đảm bảo tính nhất quán của đối tượng giữa các hình ảnh
from ultralytics.models.sam import SAM2DynamicInteractivePredictor
# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)
# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)
# Detect this particular object in a new image
results = predictor(source="image2.jpg")
# Add new category with a new object ID
results = predictor(
source="image4.jpg",
bboxes=[[300, 300, 400, 400]], # New object
obj_ids=[1], # New object ID
update_memory=True, # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")
# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
source="image6.jpg",
points=[[150, 150]], # Refinement point
labels=[1], # Positive point
obj_ids=[1], # Same object ID
update_memory=True, # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")SAM2DynamicInteractivePredictor được thiết kế để hoạt động với các mô hình SAM2 và hỗ trợ thêm/tinh chỉnh các danh mục bằng tất cả các prompt hộp/điểm/mask mà SAM2 hỗ trợ một cách tự nhiên. Nó đặc biệt hữu ích cho các tình huống mà đối tượng xuất hiện hoặc thay đổi theo thời gian, chẳng hạn như trong các tác vụ chú thích video hoặc chỉnh sửa tương tác.
Đối số
| Tên | Giá trị mặc định | Kiểu dữ liệu | Mô tả |
|---|---|---|---|
max_obj_num | 3 | int | Số lượng danh mục tối đa được cài đặt sẵn |
update_memory | False | bool | Liệu có cập nhật bộ nhớ với các prompt mới hay không |
obj_ids | None | List[int] | Danh sách các ID đối tượng tương ứng với các prompt |
Các trường hợp sử dụng
SAM2DynamicInteractivePredictor lý tưởng cho:
- Quy trình chú thích video nơi các đối tượng mới xuất hiện trong chuỗi
- Chỉnh sửa video tương tác yêu cầu thêm và tinh chỉnh đối tượng theo thời gian thực
- Ứng dụng giám sát với nhu cầu theo dõi đối tượng động
- Hình ảnh y tế để theo dõi các cấu trúc giải phẫu theo chuỗi thời gian
- Các hệ thống tự hành yêu cầu phát hiện và theo dõi đối tượng thích ứng
- Các tập dữ liệu đa hình ảnh để phân đoạn đối tượng nhất quán giữa các hình ảnh độc lập
- Phân tích bộ sưu tập hình ảnh nơi các đối tượng cần được theo dõi trên các cảnh khác nhau
- Phân đoạn đa miền (Cross-domain) tận dụng bộ nhớ từ các ngữ cảnh hình ảnh đa dạng
- Chú thích bán tự động để tạo tập dữ liệu hiệu quả với sự can thiệp thủ công tối thiểu
So sánh SAM với YOLO
Dưới đây là bảng so sánh các mô hình SAM 2 của Meta, bao gồm cả biến thể nhỏ nhất SAM2-t, với các mô hình phân đoạn của Ultralytics bao gồm YOLO26n-seg:
| Model | Kích thước (MB) | Tham số (M) | Tốc độ (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM2-b | 162 | 80.8 | 28867 |
| Meta SAM2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s với backbone YOLOv8 | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (nhỏ hơn 11.0x) | 3.4 (ít hơn 11.4x) | 24.8 (nhanh hơn 945x) |
| Ultralytics YOLO11n-seg | 6.2 (nhỏ hơn 12.6x) | 2.9 (ít hơn 13.4x) | 24.3 (nhanh hơn 964x) |
| Ultralytics YOLO26n-seg | 6.7 (nhỏ hơn 11.7x) | 2.7 (ít hơn 14.4x) | 25.2 (nhanh hơn 930x) |
Sự so sánh này chứng minh sự khác biệt đáng kể về kích thước và tốc độ model giữa các biến thể SAM và các model phân đoạn YOLO. Trong khi SAM cung cấp các khả năng phân đoạn tự động độc đáo, các model YOLO, đặc biệt là YOLOv8n-seg, YOLO11n-seg và YOLO26n-seg, nhỏ hơn, nhanh hơn và hiệu quả về tính toán hơn đáng kể.
Tốc độ SAM được đo bằng PyTorch, tốc độ YOLO được đo bằng ONNX Runtime. Các bài kiểm tra chạy trên Apple M4 Air 2025 với 16GB RAM sử dụng torch==2.10.0, ultralytics==8.4.31, và onnxruntime==1.24.4. Để tái tạo bài kiểm tra này:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Tự động chú thích: Tạo tập dữ liệu hiệu quả
Tự động chú thích là một tính năng mạnh mẽ của SAM 2, cho phép người dùng tạo các tập dữ liệu phân đoạn một cách nhanh chóng và chính xác bằng cách tận dụng các mô hình đã được huấn luyện trước. Khả năng này đặc biệt hữu ích để tạo ra các tập dữ liệu lớn, chất lượng cao mà không cần nỗ lực thủ công quá nhiều.
Cách tự động chú thích với SAM 2
Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling
Để tự động chú thích tập dữ liệu của bạn bằng cách sử dụng SAM 2, hãy làm theo ví dụ này:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")| Đối số | Loại | Mặc định | Mô tả |
|---|---|---|---|
data | str | bắt buộc | Đường dẫn đến thư mục chứa các hình ảnh mục tiêu để gán nhãn hoặc phân đoạn. |
det_model | str | 'yolo26x.pt' | Đường dẫn model phát hiện YOLO cho phát hiện đối tượng ban đầu. |
sam_model | str | 'sam_b.pt' | Đường dẫn model SAM cho phân đoạn (hỗ trợ SAM, các biến thể SAM2, và các model MobileSAM). |
device | str | '' | Thiết bị tính toán (ví dụ: 'cuda:0', 'cpu', hoặc '' để tự động phát hiện thiết bị). |
conf | float | 0.25 | Ngưỡng tin cậy phát hiện YOLO để lọc các kết quả phát hiện yếu. |
iou | float | 0.45 | Ngưỡng IoU cho NMS để lọc các hộp chồng chéo. |
imgsz | int | 640 | Kích thước đầu vào để thay đổi kích thước hình ảnh (phải là bội số của 32). |
max_det | int | 300 | Số lượng phát hiện tối đa trên mỗi hình ảnh để tối ưu hóa bộ nhớ. |
classes | list[int] | None | Danh sách các chỉ số lớp để phát hiện (ví dụ: [0, 1] cho người & xe đạp). |
output_dir | str | None | Thư mục lưu cho các nhãn (mặc định là './labels' tương đối với đường dẫn dữ liệu). |
Hàm này tạo điều kiện thuận lợi cho việc tạo nhanh các tập dữ liệu phân đoạn chất lượng cao, lý tưởng cho các nhà nghiên cứu và nhà phát triển nhằm mục đích tăng tốc dự án của họ.
Hạn chế
Mặc dù có nhiều điểm mạnh, SAM 2 vẫn có một số hạn chế nhất định:
- Độ ổn định khi theo dõi: SAM 2 có thể mất dấu đối tượng trong các chuỗi dài hoặc khi có thay đổi đáng kể về góc nhìn.
- Nhầm lẫn đối tượng: Mô hình đôi khi có thể nhầm lẫn các đối tượng trông giống nhau, đặc biệt là trong các cảnh đông đúc.
- Hiệu quả với nhiều đối tượng: Hiệu quả phân đoạn giảm khi xử lý nhiều đối tượng đồng thời do thiếu sự giao tiếp giữa các đối tượng.
- Độ chính xác chi tiết: Có thể bỏ sót các chi tiết nhỏ, đặc biệt là với các đối tượng di chuyển nhanh. Các prompt bổ sung có thể giải quyết một phần vấn đề này, nhưng độ mượt theo thời gian không được đảm bảo.
Trích dẫn và Ghi nhận
Nếu SAM 2 là một phần quan trọng trong công việc nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn nó bằng cách sử dụng tài liệu tham khảo sau:
@article{ravi2024sam2,
title={SAM 2: Segment Anything in Images and Videos},
author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
journal={arXiv preprint},
year={2024}
}Chúng tôi gửi lời cảm ơn đến Meta AI vì những đóng góp của họ cho cộng đồng AI với mô hình và tập dữ liệu mang tính đột phá này.
Câu hỏi thường gặp (FAQ)
SAM 2 là gì và nó cải tiến như thế nào so với Segment Anything Model (SAM) ban đầu?
SAM 2, người kế nhiệm của Segment Anything Model (SAM) từ Meta, là một công cụ tiên tiến được thiết kế để phân đoạn đối tượng toàn diện trong cả hình ảnh và video. Nó xuất sắc trong việc xử lý dữ liệu hình ảnh phức tạp thông qua kiến trúc mô hình thống nhất, có thể prompt, hỗ trợ xử lý thời gian thực và tổng quát hóa zero-shot. SAM 2 cung cấp một số cải tiến so với SAM gốc, bao gồm:
- Kiến trúc mô hình thống nhất: Kết hợp khả năng phân đoạn hình ảnh và video trong một mô hình duy nhất.
- Hiệu suất thời gian thực: Xử lý khoảng 44 khung hình mỗi giây, giúp nó phù hợp với các ứng dụng yêu cầu phản hồi tức thì.
- Tổng quát hóa Zero-Shot: Phân đoạn các đối tượng mà nó chưa từng gặp trước đây, hữu ích trong nhiều lĩnh vực hình ảnh đa dạng.
- Tinh chỉnh tương tác: Cho phép người dùng tinh chỉnh kết quả phân đoạn một cách lặp đi lặp lại bằng cách cung cấp các prompt bổ sung.
- Xử lý nâng cao các thách thức hình ảnh: Quản lý các thách thức phân đoạn video phổ biến như che khuất đối tượng và đối tượng xuất hiện lại.
Để biết thêm chi tiết về kiến trúc và khả năng của SAM 2, hãy khám phá bài báo nghiên cứu SAM 2.
Làm thế nào tôi có thể sử dụng SAM 2 để phân đoạn video thời gian thực?
SAM 2 có thể được sử dụng để phân đoạn video thời gian thực bằng cách tận dụng giao diện promptable và khả năng suy luận thời gian thực của nó. Dưới đây là một ví dụ cơ bản:
Sử dụng các prompt để phân đoạn các đối tượng cụ thể trong hình ảnh hoặc video.
from ultralytics import SAM
# Load a model
model = SAM("sam2_b.pt")
# Display model information (optional)
model.info()
# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])Để biết cách sử dụng toàn diện hơn, hãy tham khảo phần Cách sử dụng SAM 2.
Những tập dữ liệu nào được sử dụng để huấn luyện SAM 2 và chúng nâng cao hiệu suất của nó như thế nào?
SAM 2 được huấn luyện trên tập dữ liệu SA-V, một trong những tập dữ liệu phân đoạn video lớn nhất và đa dạng nhất hiện có. Tập dữ liệu SA-V bao gồm:
- 51,000+ Video: Được quay trên 47 quốc gia, cung cấp phạm vi rộng lớn các kịch bản thực tế.
- 600,000+ Mask Annotations: Các chú thích mask không gian-thời gian chi tiết, được gọi là "masklet", bao phủ toàn bộ đối tượng và các bộ phận.
- Quy mô tập dữ liệu: Có số lượng video gấp 4.5 lần và số lượng chú thích gấp 53 lần so với các tập dữ liệu lớn nhất trước đây, mang lại sự đa dạng và phức tạp chưa từng có.
Tập dữ liệu mở rộng này cho phép SAM 2 đạt được hiệu suất vượt trội trên các điểm chuẩn phân đoạn video chính và tăng cường khả năng tổng quát hóa zero-shot của nó. Để biết thêm thông tin, hãy xem phần Tập dữ liệu SA-V.
SAM 2 xử lý việc bị che khuất và đối tượng xuất hiện lại trong phân đoạn video như thế nào?
SAM 2 bao gồm một cơ chế bộ nhớ tinh vi để quản lý các phụ thuộc tạm thời và sự che khuất trong dữ liệu video. Cơ chế bộ nhớ bao gồm:
- Memory Encoder và Memory Bank: Lưu trữ các đặc trưng từ các khung hình trước đó.
- Memory Attention Module: Sử dụng thông tin đã lưu trữ để duy trì theo dõi đối tượng nhất quán theo thời gian.
- Occlusion Head: Xử lý cụ thể các tình huống khi các đối tượng không hiển thị, dự đoán xác suất một đối tượng bị che khuất.
Cơ chế này đảm bảo tính liên tục ngay cả khi đối tượng tạm thời bị che khuất hoặc thoát ra và quay trở lại cảnh. Để biết thêm chi tiết, hãy tham khảo phần Cơ chế bộ nhớ và xử lý che khuất.
SAM 2 so sánh như thế nào với các mô hình phân đoạn khác như YOLO26?
Các mô hình SAM 2, chẳng hạn như SAM2-t và SAM2-b của Meta, cung cấp khả năng phân đoạn zero-shot mạnh mẽ nhưng lớn hơn và chậm hơn đáng kể so với các mô hình YOLO. Ví dụ, YOLO26n-seg nhỏ hơn khoảng 24 lần và nhanh hơn hơn 1145 lần so với SAM2-b trên CPU. Trong khi SAM 2 xuất sắc trong các kịch bản phân đoạn linh hoạt, dựa trên prompt và zero-shot, YOLO26 được tối ưu hóa cho tốc độ, hiệu quả và các ứng dụng thời gian thực với suy luận end-to-end không cần NMS, làm cho nó phù hợp hơn để triển khai trong các môi trường bị hạn chế về tài nguyên.