Bỏ để qua phần nội dung

MobileSAM Logo

Phân khúc di động Bất cứ điều gì (MobileSAM)

Các MobileSAM giấy hiện có sẵn trên arXiv.

Một minh chứng của MobileSAM chạy trên CPU có thể được truy cập tại liên kết demo này. Hiệu suất trên CPU Mac i5 mất khoảng 3 giây. Trên Hugging Face Bản demo, giao diện và CPU hiệu suất thấp hơn góp phần phản hồi chậm hơn, nhưng nó vẫn tiếp tục hoạt động hiệu quả.

MobileSAM được thực hiện trong các dự án khác nhau bao gồm: Nền tảng-SAM, AnyLabelingphân đoạn mọi thứ ở chế độ 3D.

MobileSAM được đào tạo trên một GPU duy nhất với bộ dữ liệu 100k (1% hình ảnh gốc) trong vòng chưa đầy một ngày. Mã cho khóa đào tạo này sẽ được cung cấp trong tương lai.

Các kiểu máy có sẵn, tác vụ được hỗ trợ và chế độ hoạt động

Bảng này trình bày các mô hình có sẵn với trọng số cụ thể được đào tạo trước, các tác vụ mà chúng hỗ trợ và khả năng tương thích của chúng với các chế độ hoạt động khác nhau như Suy luận, Xác thực, Đào tạoXuất, được biểu thị bằng ✅ biểu tượng cảm xúc cho các chế độ được hỗ trợ và ❌ biểu tượng cảm xúc cho các chế độ không được hỗ trợ.

Loại mô hình Trọng lượng được đào tạo trước Các tác vụ được hỗ trợ Suy luận Xác nhận Đào tạo Xuất khẩu
MobileSAM mobile_sam.pt Phân đoạn phiên bản

Chuyển thể từ SAM đến MobileSAM

Từ MobileSAM giữ nguyên đường ống như ban đầu SAM, chúng tôi đã kết hợp tiền xử lý, xử lý hậu kỳ và tất cả các giao diện khác của bản gốc. Do đó, những người hiện đang sử dụng bản gốc SAM có thể chuyển sang MobileSAM với nỗ lực tối thiểu.

MobileSAM thực hiện tương đương với bản gốc SAM và giữ nguyên quy trình ngoại trừ thay đổi trong bộ mã hóa hình ảnh. Cụ thể, chúng tôi thay thế bộ mã hóa ViT-H hạng nặng ban đầu (632M) bằng Tiny-ViT nhỏ hơn (5M). Trên một GPU duy nhất, MobileSAM Hoạt động ở khoảng 12ms trên mỗi hình ảnh: 8ms trên bộ mã hóa hình ảnh và 4ms trên bộ giải mã mặt nạ.

Bảng sau đây cung cấp so sánh các bộ mã hóa hình ảnh dựa trên ViT:

Bộ mã hóa hình ảnh Gốc SAM MobileSAM
Thông số 611M 5M
Tốc độ 452ms 8 mili giây

Cả bản gốc SAM và MobileSAM Sử dụng cùng một bộ giải mã mặt nạ có hướng dẫn nhắc:

Bộ giải mã mặt nạ Gốc SAM MobileSAM
Thông số 3.876M 3.876M
Tốc độ 4ms 4ms

Dưới đây là so sánh của toàn bộ đường ống:

Toàn bộ đường ống (enc+Dec) Gốc SAM MobileSAM
Thông số 615M 9.66M
Tốc độ 456 mili giây 12ms

Hiệu suất của MobileSAM và bản gốc SAM được thể hiện bằng cách sử dụng cả một điểm và một hộp làm lời nhắc.

Hình ảnh với Point as Prompt

Hình ảnh với Box as Prompt

Với hiệu suất vượt trội, MobileSAM nhỏ hơn khoảng 5 lần và nhanh hơn 7 lần so với hiện tại FastSAM. Thông tin chi tiết có sẵn tại MobileSAM trang dự án.

Thử nghiệm MobileSAM trong Ultralytics

Cũng giống như bản gốc SAM, chúng tôi cung cấp một phương pháp thử nghiệm đơn giản trong Ultralytics, bao gồm các chế độ cho cả lời nhắc Điểm và Hộp.

Tải xuống mô hình

Bạn có thể tải mô hình tại đây.

Lời nhắc điểm

Ví dụ

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a point prompt
model.predict('ultralytics/assets/zidane.jpg', points=[900, 370], labels=[1])

Lời nhắc hộp

Ví dụ

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a box prompt
model.predict('ultralytics/assets/zidane.jpg', bboxes=[439, 437, 524, 709])

Chúng tôi đã thực hiện MobileSAMSAM sử dụng cùng một API. Để biết thêm thông tin sử dụng, vui lòng xem SAM trang.

Trích dẫn và xác nhận

Nếu bạn tìm thấy MobileSAM Hữu ích trong công việc nghiên cứu hoặc phát triển của bạn, vui lòng xem xét trích dẫn bài báo của chúng tôi:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


Đã tạo 2023-11-12, Cập nhật 2024-04-17
Tác giả: Glenn-Jocher (8), ChaoningZhang (1), Laughing-q (1)

Ý kiến