Bỏ để qua phần nội dung

MobileSAM Logo

Phân khúc di động Bất cứ điều gì (MobileSAM)

Các MobileSAM giấy hiện có sẵn trên arXiv.

Một minh chứng của MobileSAM Chạy trên một CPU có thể được truy cập tại liên kết demo này. Hiệu suất trên Mac i5 CPU mất khoảng 3 giây. Trên Hugging Face Bản demo, giao diện và CPU hiệu suất thấp hơn góp phần phản hồi chậm hơn, nhưng nó vẫn tiếp tục hoạt động hiệu quả.



Xem: How to Run Inference with MobileSAM using Ultralytics | Step-by-Step Guide 🎉

MobileSAM được thực hiện trong các dự án khác nhau bao gồm: Nền tảng-SAM, AnyLabelingphân đoạn mọi thứ ở chế độ 3D.

MobileSAM được đào tạo trên một đĩa đơn GPU với bộ dữ liệu 100k (1% hình ảnh gốc) trong vòng chưa đầy một ngày. Mã cho khóa đào tạo này sẽ được cung cấp trong tương lai.

Các kiểu máy có sẵn, tác vụ được hỗ trợ và chế độ hoạt động

Bảng này trình bày các mô hình có sẵn với trọng số cụ thể được đào tạo trước, các tác vụ mà chúng hỗ trợ và khả năng tương thích của chúng với các chế độ hoạt động khác nhau như Suy luận, Xác thực, Đào tạoXuất, được biểu thị bằng ✅ biểu tượng cảm xúc cho các chế độ được hỗ trợ và ❌ biểu tượng cảm xúc cho các chế độ không được hỗ trợ.

Loại mô hình Trọng lượng được đào tạo trước Các tác vụ được hỗ trợ Suy luận Xác nhận Đào tạo Xuất khẩu
MobileSAM mobile_sam.pt Phân đoạn phiên bản

Chuyển thể từ SAM đến MobileSAM

Từ MobileSAM giữ nguyên đường ống như ban đầu SAM, chúng tôi đã kết hợp tiền xử lý, xử lý hậu kỳ và tất cả các giao diện khác của bản gốc. Do đó, những người hiện đang sử dụng bản gốc SAM có thể chuyển sang MobileSAM với nỗ lực tối thiểu.

MobileSAM thực hiện tương đương với bản gốc SAM và giữ nguyên quy trình ngoại trừ thay đổi trong bộ mã hóa hình ảnh. Cụ thể, chúng tôi thay thế bộ mã hóa ViT-H hạng nặng ban đầu (632M) bằng Tiny-ViT nhỏ hơn (5M). Trên một đĩa đơn GPU, MobileSAM Hoạt động ở khoảng 12ms trên mỗi hình ảnh: 8ms trên bộ mã hóa hình ảnh và 4ms trên bộ giải mã mặt nạ.

Bảng sau đây cung cấp so sánh các bộ mã hóa hình ảnh dựa trên ViT:

Bộ mã hóa hình ảnh Gốc SAM MobileSAM
Thông số 611M 5M
Tốc độ 452ms 8 mili giây

Cả bản gốc SAM và MobileSAM Sử dụng cùng một bộ giải mã mặt nạ có hướng dẫn nhắc:

Bộ giải mã mặt nạ Gốc SAM MobileSAM
Thông số 3.876M 3.876M
Tốc độ 4ms 4ms

Dưới đây là so sánh của toàn bộ đường ống:

Toàn bộ đường ống (enc+Dec) Gốc SAM MobileSAM
Thông số 615M 9.66M
Tốc độ 456 mili giây 12ms

Hiệu suất của MobileSAM và bản gốc SAM được thể hiện bằng cách sử dụng cả một điểm và một hộp làm lời nhắc.

Hình ảnh với Point as Prompt

Hình ảnh với Box as Prompt

Với hiệu suất vượt trội, MobileSAM nhỏ hơn khoảng 5 lần và nhanh hơn 7 lần so với hiện tại FastSAM. Thông tin chi tiết có sẵn tại MobileSAM trang dự án.

Thử nghiệm MobileSAM trong Ultralytics

Cũng giống như bản gốc SAM, chúng tôi cung cấp một phương pháp thử nghiệm đơn giản trong Ultralytics, bao gồm các chế độ cho cả lời nhắc Điểm và Hộp.

Tải xuống mô hình

Bạn có thể tải mô hình tại đây.

Lời nhắc điểm

Ví dụ

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

Lời nhắc hộp

Ví dụ

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a box prompt
model.predict("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])

Chúng tôi đã thực hiện MobileSAMSAM sử dụng cùng một API. Để biết thêm thông tin sử dụng, vui lòng xem SAM trang.

Trích dẫn và xác nhận

Nếu bạn tìm thấy MobileSAM Hữu ích trong công việc nghiên cứu hoặc phát triển của bạn, vui lòng xem xét trích dẫn bài báo của chúng tôi:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}

FAQ

Là gì MobileSAM và nó khác với bản gốc như thế nào SAM mẫu?

MobileSAM is a lightweight, fast image segmentation model designed for mobile applications. It retains the same pipeline as the original SAM but replaces the heavyweight ViT-H encoder (632M parameters) with a smaller Tiny-ViT encoder (5M parameters). This change results in MobileSAM being approximately 5 times smaller and 7 times faster than the original SAM. For instance, MobileSAM operates at about 12ms per image, compared to the original SAM's 456ms. You can learn more about the MobileSAM implementation in various projects here.

Làm thế nào tôi có thể kiểm tra MobileSAM Sử dụng Ultralytics?

Thử nghiệm MobileSAM trong Ultralytics có thể được thực hiện thông qua các phương pháp đơn giản. Bạn có thể sử dụng lời nhắc Point and Box để dự đoán phân đoạn. Dưới đây là ví dụ sử dụng lời nhắc Điểm:

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

Bạn cũng có thể tham khảo Thử nghiệm MobileSAM để biết thêm chi tiết.

Tại sao tôi nên sử dụng MobileSAM cho ứng dụng di động của tôi?

MobileSAM Lý tưởng cho các ứng dụng di động do kiến trúc nhẹ và tốc độ suy luận nhanh. So với bản gốc SAM, MobileSAM nhỏ hơn khoảng 5 lần và nhanh hơn 7 lần, phù hợp với môi trường nơi tài nguyên tính toán bị hạn chế. Hiệu quả này đảm bảo rằng các thiết bị di động có thể thực hiện phân đoạn hình ảnh theo thời gian thực mà không có độ trễ đáng kể. Ngoài ra MobileSAMCác mô hình của Inference, được tối ưu hóa cho hiệu suất di động.

Thế nào rồi MobileSAM được đào tạo, và mã đào tạo có sẵn không?

MobileSAM đã được đào tạo trên một đĩa đơn GPU với bộ dữ liệu 100k, bằng 1% hình ảnh gốc, trong vòng chưa đầy một ngày. Mặc dù mã đào tạo sẽ được cung cấp trong tương lai, nhưng hiện tại bạn có thể khám phá các khía cạnh khác của MobileSAM trong MobileSAM Kho lưu trữ GitHub. Kho lưu trữ này bao gồm các trọng số được đào tạo trước và chi tiết triển khai cho các ứng dụng khác nhau.

Các trường hợp sử dụng chính cho là gì MobileSAM?

MobileSAM được thiết kế để phân đoạn hình ảnh nhanh chóng và hiệu quả trong môi trường di động. Các trường hợp sử dụng chính bao gồm:

  • Real-time object detection and segmentation for mobile applications.
  • Xử lý hình ảnh có độ trễ thấp trong các thiết bị có tài nguyên tính toán hạn chế.
  • Tích hợp trong các ứng dụng di động do AI điều khiển cho các tác vụ như thực tế tăng cường (AR) và phân tích thời gian thực.

Để biết thêm các trường hợp sử dụng và so sánh hiệu suất, hãy xem phần về Chuyển thể từ SAM đến MobileSAM.


📅 Created 11 months ago ✏️ Updated 4 days ago

Ý kiến