Link to this sectionXuất các model YOLO sang LiteRT để triển khai trên Edge và Web#

LiteRT (viết tắt của Lite Runtime) là runtime hiệu năng cao của Google dành cho AI trên thiết bị. Đây là thế hệ tiếp theo và là tên gọi mới của TensorFlow Lite (TFLite), và nó chạy cùng định dạng model .tflite. Với LiteRT, một model Ultralytics YOLO sau khi xuất có thể triển khai trên di động, thiết bị nhúng, edge và trình duyệt — bao gồm mọi thứ mà các định dạng xuất tflite và tfjs cũ trước đây thực hiện riêng biệt, nay được gộp chung dưới một hệ thống duy nhất.

Định dạng xuất LiteRT tối ưu hóa các model của bạn cho các tác vụ như phát hiện đối tượng, phân đoạn, ước tính tư thế và phân loại để chúng chạy nhanh và ngoại tuyến trên nhiều loại thiết bị.

Chạy YOLO trên Android với LiteRT ngay hôm nay thông qua plugin Flutter chính thức

Ultralytics YOLO Flutter plugin chính thức chạy các export LiteRT .tflite trên Android ngay lập tức — bao gồm suy luận camera theo thời gian thực, dự đoán trên từng ảnh, tăng tốc GPU và tự động tải xuống model cho tất cả bảy tác vụ YOLO26, bao gồm cả Depth. Đối với các thiết bị Apple, hãy sử dụng CoreML export; đối với các NPU Qualcomm Snapdragon, hãy xem tích hợp Qualcomm QNN.

Chạy YOLO trên Web với LiteRT.js ngay hôm nay thông qua gói npm chính thức @ultralytics/yolo

Gói NPM Ultralytics YOLO chính thức chạy các export .tflite của LiteRT trực tiếp trên trình duyệt thông qua LiteRT.js mà không cần server hay Python — với tính năng suy luận webcam thời gian thực, dự đoán từng ảnh đơn lẻ và khả năng tăng tốc WebGPU (tự động fallback về CPU/WASM) trên tất cả sáu tác vụ YOLO26 (detect, segment, pose, OBB, classify, semantic). Trên WebGPU, tốc độ thường nhanh gấp ~2 lần so với ONNX Runtime Web.

npm i @ultralytics/yolo @litertjs/core

Link to this sectionTại sao bạn nên xuất sang LiteRT?#

LiteRT là một framework mã nguồn mở được thiết kế cho suy luận trên thiết bị, còn được gọi là edge computing. Nó cung cấp cho các nhà phát triển các công cụ để thực thi các model đã được huấn luyện trên thiết bị di động, thiết bị nhúng và IoT, máy tính truyền thống và — thông qua LiteRT.js — trực tiếp trên trình duyệt web và Node.js.

Một định dạng model, mọi đích đến:

Di động & Nhúng: Android, iOS, Linux nhúng và vi điều khiển (MCU).
Bộ tăng tốc Edge: Tương thích với Coral Edge TPU để tăng tốc thêm.
Trình duyệt & Node.js: LiteRT.js chạy cùng một model .tflite trên web với khả năng tăng tốc WebGPU/WASM — loại bỏ nhu cầu về một định dạng xuất TensorFlow.js riêng biệt.

Link to this sectionCác tính năng chính của model LiteRT#

Tối ưu hóa trên thiết bị: Giảm độ trễ bằng cách xử lý dữ liệu cục bộ, tăng cường quyền riêng tư bằng cách không truyền dữ liệu cá nhân và giảm thiểu kích thước model để tiết kiệm dung lượng.
Hỗ trợ đa nền tảng: Chạy trên Android, iOS, Linux nhúng, vi điều khiển và các trình duyệt web hiện đại.
Tăng tốc phần cứng: Tận dụng XNNPACK trên CPU và tăng tốc GPU thông qua OpenCL, Metal và WebGPU. Delegate GPU chạy ở chế độ FP16 theo mặc định để tăng thêm tốc độ.
Lượng tử hóa (Quantization): Hỗ trợ FP32, INT8 tĩnh (quantize=8, trọng số int8 + kích hoạt int8), kích hoạt INT16 tĩnh (quantize="w8a16", trọng số int8 + kích hoạt int16 để đạt độ chính xác cao hơn) và INT8 động (quantize="w8a32", trọng số int8 + kích hoạt FP32, không cần dữ liệu hiệu chuẩn) để nén model và tăng tốc suy luận với độ mất mát độ chính xác tối thiểu.
Hỗ trợ đa ngôn ngữ: Tương thích với Java/Kotlin, Swift, Objective-C, C++, Python và JavaScript.

Link to this sectionHiệu suất đo lường#

Suy luận end-to-end trên từng ảnh cho các tài nguyên LiteRT Android chính thức của YOLO26n (w8a32: trọng số int8, activation FP32) trên điện thoại Xiaomi 17 sử dụng chip Qualcomm Snapdragon 8 Elite Gen 5 (SM8850), được đo lường thông qua Ultralytics Flutter plugin 0.6.10. Mỗi ô hiển thị tổng thời gian (tiền xử lý + suy luận + hậu xử lý, không bao gồm chú thích) với sự phân tách chi tiết từng giai đoạn ở phía dưới. CPU chạy trình ủy quyền LiteRT XNNPACK; GPU chạy trình ủy quyền LiteRT OpenCL/GL (FP16).

Mô hình	Tác vụ	kích thước ^(pixel)	CPU ^{w8a32 LiteRT (ms)}	GPU Adreno ^{w8a32 LiteRT (ms)}
YOLO26n	Detect	640	52.4 ^{1.8 / 48.2 / 2.4}	13.5 ^{1.9 / 8.1 / 3.5}
YOLO26n-seg	Segment	640	72.8 ^{1.8 / 65.3 / 5.7}	28.6 ^{1.8 / 20.1 / 6.7}
YOLO26n-sem	Ngữ nghĩa	640	60.3 ^{1.8 / 50.4 / 8.1}	32.9 ^{1.8 / 23.0 / 8.2}
YOLO26n-depth	Depth	640	325.1 ^{5.1 / 300.9 / 19.2}	23.0 ^{2.0 / 12.9 / 8.2}
YOLO26n-cls	Classify	224	10.5 ^{0.9 / 9.6 / 0.1}	3.2 ^{1.0 / 2.2 / 0.1}
YOLO26n-pose	Pose	640	56.9 ^{1.8 / 53.9 / 1.2}	14.0 ^{1.9 / 9.3 / 2.8}
YOLO26n-obb	OBB	640	50.5 ^{1.8 / 47.3 / 1.4}	13.0 ^{2.9 / 7.9 / 2.3}

Các giá trị tốc độ là độ trễ burst ảnh đơn — trung bình của 15 lần chạy sau 3 lần chạy khởi động trên bus.jpg, được đo bằng bộ công cụ benchmark trên thiết bị của plugin Flutter ở chế độ profile. Bộ tác vụ đầy đủ chạy liên tiếp, vì vậy giai đoạn tiền xử lý bị giới hạn bởi CPU phản ánh hoạt động duy trì (phép đo đơn tác vụ khi nhiệt độ ổn định sẽ thấp hơn); giai đoạn suy luận GPU/CPU là chi phí tính toán trạng thái ổn định.
Export LiteRT trace model PyTorch trực tiếp, tạo ra một .tflite định dạng NCHW với đầu vào float — trình ủy quyền GPU biên dịch toàn bộ đồ thị (tất cả bảy tác vụ đều chạy trên Adreno GPU tại đây), và w8a32 không cần dữ liệu hiệu chuẩn. Các tài nguyên Android chính thức được lưu trữ tại bản phát hành yolo-flutter-app v0.6.6, với hồ sơ benchmark chi tiết trong tài liệu hiệu năng Flutter.
Các con số tương ứng của Hexagon NPU trên Snapdragon (và cơ sở INT8 TFLite CPU/GPU) nằm trong Qualcomm QNN integration.

Link to this sectionXuất sang LiteRT: Chuyển đổi model YOLO của bạn#

Bạn có thể cải thiện hiệu quả thực thi trên thiết bị và mở rộng các tùy chọn triển khai bằng cách chuyển đổi model của mình sang định dạng LiteRT.

Link to this sectionCài đặt#

Để cài đặt gói cần thiết, hãy chạy:

Cài đặt

# Install the required package for YOLO
pip install ultralytics

Để biết hướng dẫn chi tiết và các phương pháp tối ưu nhất, hãy xem hướng dẫn cài đặt Ultralytics của chúng tôi. Nếu gặp khó khăn, hãy tham khảo hướng dẫn về các sự cố thường gặp của chúng tôi.

Hỗ trợ nền tảng

Tính năng xuất LiteRT hiện được hỗ trợ trên Linux x86_64 và macOS. Bản thân model .tflite đã xuất có thể chạy trên tất cả các nền tảng được LiteRT hỗ trợ (di động, nhúng, edge và trình duyệt).

Link to this sectionCách sử dụng#

Tất cả các model Ultralytics YOLO đều hỗ trợ xuất ngay lập tức. Định dạng LiteRT hỗ trợ các chế độ Xuất, Dự đoán và Xác thực, vì vậy bạn có thể xuất model, sau đó tải nó để thực hiện suy luận hoặc xác thực độ chính xác của nó tại chỗ.

Xuất (Export)

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to LiteRT format
model.export(format="litert")  # creates 'yolo26n.tflite'

Xuất lượng tử hóa

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Dynamic INT8: int8 weights, FP32 activations - no calibration data needed
model.export(format="litert", quantize="w8a32")  # creates 'yolo26n_w8a32.tflite'

# Static INT8: int8 weights + int8 activations - needs calibration data
model.export(format="litert", quantize=8, data="coco8.yaml")  # creates 'yolo26n_int8.tflite'

# Static w8a16: int8 weights + int16 activations (higher accuracy) - needs calibration data
model.export(format="litert", quantize="w8a16", data="coco8.yaml")  # creates 'yolo26n_w8a16.tflite'

Dự đoán (Predict)

from ultralytics import YOLO

# Load the exported LiteRT model
model = YOLO("yolo26n.tflite")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Xác thực

from ultralytics import YOLO

# Load the exported LiteRT model
model = YOLO("yolo26n.tflite")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this sectionĐối số xuất#

Đối số	Loại	Mặc định	Mô tả
`format`	`str`	`'litert'`	Định dạng đích cho model được xuất, xác định khả năng tương thích với các môi trường triển khai khác nhau.
`imgsz`	`int` hoặc `tuple`	`640`	Kích thước hình ảnh mong muốn cho đầu vào của model. Có thể là một số nguyên cho hình ảnh vuông hoặc một tuple `(height, width)` cho các kích thước cụ thể.
`quantize`	`int` hoặc `str`	`None`	Độ chính xác lượng tử hóa: `8` (INT8 tĩnh, trọng số int8 + kích hoạt int8; cần `data`/`fraction` hiệu chỉnh), `'w8a16'` (tĩnh, trọng số int8 + kích hoạt int16; cần `data`/`fraction` hiệu chỉnh), `'w8a32'` (INT8 động, trọng số int8 + kích hoạt FP32; không cần hiệu chỉnh), hoặc `32`/không đặt (FP32). FP16 không được export riêng (xem ghi chú bên dưới). Thay thế các cờ `half`/`int8` đã bị loại bỏ.
`batch`	`int`	`1`	Chỉ định kích thước batch inference của model khi xuất hoặc số lượng ảnh tối đa mà model đã xuất sẽ xử lý đồng thời ở chế độ `predict`.
`data`	`str`	`'coco8.yaml'`	Dataset YAML được sử dụng để hiệu chuẩn INT8. Nếu bỏ qua với `quantize=8`, Ultralytics sẽ chọn dataset hiệu chuẩn mặc định cho tác vụ của model.
`device`	`str`	`None`	Chỉ định thiết bị để xuất. Xuất LiteRT chạy trên CPU (`device=cpu`).

Độ chính xác FP16

Không giống như định dạng xuất tflite cũ, LiteRT không yêu cầu xuất FP16 riêng biệt. Một model .tflite FP32 sẽ chạy ở độ chính xác bán phần (half precision) tại runtime khi sử dụng delegate GPU (WebGPU, OpenCL, Metal) — đây là cách tiếp cận chính thức của LiteRT đối với suy luận FP16.

Để biết thêm chi tiết về quy trình xuất, hãy truy cập trang tài liệu của Ultralytics về việc xuất.

Link to this sectionTriển khai các model YOLO LiteRT đã xuất#

Sau khi xuất model Ultralytics YOLO của bạn sang LiteRT, bạn có thể triển khai nó trên nhiều nền tảng. Cách nhanh nhất để xác minh cục bộ là sử dụng phương thức YOLO("yolo26n.tflite") được hiển thị ở trên. Để triển khai trong các môi trường khác, hãy xem các tài nguyên sau:

Link to this sectionDi động & Nhúng#

Android: Hướng dẫn bắt đầu nhanh để tích hợp LiteRT vào các ứng dụng Android.
iOS: Hướng dẫn tích hợp và triển khai các model LiteRT trong các ứng dụng iOS.
Linux nhúng & Raspberry Pi: Chạy các model LiteRT trên máy tính bo mạch đơn, có thể được tăng tốc tùy chọn bằng Coral Edge TPU.
Vi điều khiển: Triển khai trên các MCU chỉ có vài kilobyte bộ nhớ — runtime cốt lõi chiếm khoảng 16 KB trên Arm Cortex-M3.

Link to this sectionTrình duyệt & Node.js (LiteRT.js)#

Tổng quan về LiteRT.js: Chạy cùng một model .tflite trực tiếp trong trình duyệt với khả năng tăng tốc WebGPU/WASM, giúp loại bỏ tính toán phía server và giữ dữ liệu trên thiết bị của người dùng.
Các ví dụ toàn diện: Các ví dụ thực tế và bài hướng dẫn để triển khai LiteRT trên di động, edge và web.

Link to this sectionTóm tắt#

Trong hướng dẫn này, chúng tôi đã đề cập cách xuất các model Ultralytics YOLO sang định dạng LiteRT. Bằng cách hợp nhất triển khai di động/edge (trước đây là TFLite) và trình duyệt (trước đây là TF.js) vào một model .tflite duy nhất, LiteRT làm cho các model YOLO của bạn nhanh hơn, nhỏ hơn và linh hoạt trên hầu hết mọi mục tiêu trên thiết bị.

Để biết thêm chi tiết, hãy truy cập tài liệu chính thức của LiteRT.

Ngoài ra, nếu bạn tò mò về các tích hợp Ultralytics YOLO khác, hãy xem trang hướng dẫn tích hợp của chúng tôi để có nhiều tài nguyên hữu ích.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionLàm thế nào để xuất một model YOLO sang định dạng LiteRT?#

Sử dụng thư viện Ultralytics để xuất một model YOLO sang LiteRT (.tflite). Đầu tiên, hãy cài đặt gói:

pip install ultralytics

Sau đó xuất model của bạn:

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to LiteRT format
model.export(format="litert")  # creates 'yolo26n.tflite'

Đối với người dùng CLI:

yolo export model=yolo26n.pt format=litert # creates 'yolo26n.tflite'

Để biết thêm chi tiết, hãy truy cập hướng dẫn xuất Ultralytics.

Link to this sectionSự khác biệt giữa LiteRT, TFLite và TF.js là gì?#

LiteRT là tên gọi mới của TensorFlow Lite — cùng định dạng model .tflite, cùng dòng runtime, được Google đổi thương hiệu. Trong Ultralytics, định dạng xuất litert duy nhất hiện bao gồm cả hai trường hợp sử dụng trước đây yêu cầu hai định dạng riêng biệt:

Định dạng tflite cũ → triển khai di động, nhúng và edge.
Định dạng tfjs cũ → triển khai trên trình duyệt và Node.js, nay được xử lý bởi LiteRT.js chạy cùng tệp .tflite đó.

Nếu bạn đã có sẵn tệp .tflite, bạn có thể tải nó trực tiếp với YOLO("model.tflite") và nó sẽ chạy qua backend của LiteRT.

Link to this sectionTôi có thể chạy các model YOLO LiteRT trên Raspberry Pi không?#

Có. Xuất model của bạn sang định dạng LiteRT, sau đó chạy nó trên Raspberry Pi để cải thiện tốc độ suy luận. Để tối ưu hóa hơn nữa, hãy cân nhắc sử dụng Coral Edge TPU. Để biết các bước chi tiết, hãy tham khảo hướng dẫn triển khai trên Raspberry Pi của chúng tôi.

Link to this sectionTôi có thể chạy các model YOLO trong trình duyệt với LiteRT không?#

Có. LiteRT.js chạy cùng model .tflite đã xuất trực tiếp trong trình duyệt web hoặc ứng dụng Node.js, với khả năng tăng tốc WebGPU/WASM. Điều này thay thế quy trình TensorFlow.js trước đây — không cần xuất trình duyệt riêng, chỉ cần triển khai model LiteRT của bạn với runtime LiteRT.js.

Link to this sectionLiteRT có hỗ trợ suy luận FP16 (độ chính xác bán phần) không?#

Có — tại runtime. Một model LiteRT FP32 tự động chạy ở FP16 khi được thực thi trên delegate GPU (WebGPU, OpenCL hoặc Metal), đây là cách tiếp cận chính thức của LiteRT. Do đó, bạn không cần xuất FP16 chuyên dụng; để nén thêm, hãy sử dụng lượng tử hóa INT8 với quantize=8.

Link to this sectionLàm thế nào để khắc phục các sự cố thường gặp trong quá trình xuất LiteRT?#

Nếu bạn gặp lỗi khi xuất các model YOLO sang LiteRT, các giải pháp phổ biến bao gồm:

Kiểm tra nền tảng: Xuất LiteRT được hỗ trợ trên Linux x86_64 và macOS. Xác minh xem môi trường của bạn có khớp không.
Kiểm tra tính tương thích của gói: Đảm bảo bạn đang sử dụng phiên bản Ultralytics tương thích. Tham khảo hướng dẫn cài đặt của chúng tôi.
Các vấn đề về lượng tử hóa: Khi sử dụng lượng tử hóa INT8, hãy đảm bảo đường dẫn tập dữ liệu của bạn được chỉ định chính xác trong tham số data.

Để biết thêm các mẹo khắc phục sự cố, hãy truy cập Hướng dẫn Vấn đề Thường gặp của chúng tôi.

Người đóng góp

GLglenn-jocher⁴ ONonuralpszr¹ AMambitious-octopus¹

Đã tạo 2 tuần trướcĐã cập nhật 4 ngày trước