Phân khúc di động Bất cứ điều gì (MobileSAM)
Các MobileSAM giấy hiện có sẵn trên arXiv.
Một minh chứng của MobileSAM chạy trên CPU có thể được truy cập tại liên kết demo này. Hiệu suất trên CPU Mac i5 mất khoảng 3 giây. Trên Hugging Face Bản demo, giao diện và CPU hiệu suất thấp hơn góp phần phản hồi chậm hơn, nhưng nó vẫn tiếp tục hoạt động hiệu quả.
MobileSAM được thực hiện trong các dự án khác nhau bao gồm: Nền tảng-SAM, AnyLabeling và phân đoạn mọi thứ ở chế độ 3D.
MobileSAM được đào tạo trên một GPU duy nhất với bộ dữ liệu 100k (1% hình ảnh gốc) trong vòng chưa đầy một ngày. Mã cho khóa đào tạo này sẽ được cung cấp trong tương lai.
Các kiểu máy có sẵn, tác vụ được hỗ trợ và chế độ hoạt động
Bảng này trình bày các mô hình có sẵn với trọng số cụ thể được đào tạo trước, các tác vụ mà chúng hỗ trợ và khả năng tương thích của chúng với các chế độ hoạt động khác nhau như Suy luận, Xác thực, Đào tạo và Xuất, được biểu thị bằng ✅ biểu tượng cảm xúc cho các chế độ được hỗ trợ và ❌ biểu tượng cảm xúc cho các chế độ không được hỗ trợ.
Loại mô hình | Trọng lượng được đào tạo trước | Các tác vụ được hỗ trợ | Suy luận | Xác nhận | Đào tạo | Xuất khẩu |
---|---|---|---|---|---|---|
MobileSAM | mobile_sam.pt | Phân đoạn phiên bản | ✅ | ❌ | ❌ | ❌ |
Chuyển thể từ SAM đến MobileSAM
Từ MobileSAM giữ nguyên đường ống như ban đầu SAM, chúng tôi đã kết hợp tiền xử lý, xử lý hậu kỳ và tất cả các giao diện khác của bản gốc. Do đó, những người hiện đang sử dụng bản gốc SAM có thể chuyển sang MobileSAM với nỗ lực tối thiểu.
MobileSAM thực hiện tương đương với bản gốc SAM và giữ nguyên quy trình ngoại trừ thay đổi trong bộ mã hóa hình ảnh. Cụ thể, chúng tôi thay thế bộ mã hóa ViT-H hạng nặng ban đầu (632M) bằng Tiny-ViT nhỏ hơn (5M). Trên một GPU duy nhất, MobileSAM Hoạt động ở khoảng 12ms trên mỗi hình ảnh: 8ms trên bộ mã hóa hình ảnh và 4ms trên bộ giải mã mặt nạ.
Bảng sau đây cung cấp so sánh các bộ mã hóa hình ảnh dựa trên ViT:
Bộ mã hóa hình ảnh | Gốc SAM | MobileSAM |
---|---|---|
Thông số | 611M | 5M |
Tốc độ | 452ms | 8 mili giây |
Cả bản gốc SAM và MobileSAM Sử dụng cùng một bộ giải mã mặt nạ có hướng dẫn nhắc:
Bộ giải mã mặt nạ | Gốc SAM | MobileSAM |
---|---|---|
Thông số | 3.876M | 3.876M |
Tốc độ | 4ms | 4ms |
Dưới đây là so sánh của toàn bộ đường ống:
Toàn bộ đường ống (enc+Dec) | Gốc SAM | MobileSAM |
---|---|---|
Thông số | 615M | 9.66M |
Tốc độ | 456 mili giây | 12ms |
Hiệu suất của MobileSAM và bản gốc SAM được thể hiện bằng cách sử dụng cả một điểm và một hộp làm lời nhắc.
Với hiệu suất vượt trội, MobileSAM nhỏ hơn khoảng 5 lần và nhanh hơn 7 lần so với hiện tại FastSAM. Thông tin chi tiết có sẵn tại MobileSAM trang dự án.
Thử nghiệm MobileSAM trong Ultralytics
Cũng giống như bản gốc SAM, chúng tôi cung cấp một phương pháp thử nghiệm đơn giản trong Ultralytics, bao gồm các chế độ cho cả lời nhắc Điểm và Hộp.
Tải xuống mô hình
Bạn có thể tải mô hình tại đây.
Lời nhắc điểm
Ví dụ
Lời nhắc hộp
Ví dụ
Chúng tôi đã thực hiện MobileSAM
và SAM
sử dụng cùng một API. Để biết thêm thông tin sử dụng, vui lòng xem SAM trang.
Trích dẫn và xác nhận
Nếu bạn tìm thấy MobileSAM Hữu ích trong công việc nghiên cứu hoặc phát triển của bạn, vui lòng xem xét trích dẫn bài báo của chúng tôi: