Link to this sectionЭкспорт моделей YOLO в LiteRT для развертывания на периферийных устройствах и в веб-среде#

Q: В чем разница между LiteRT, TFLite и TF.js?

LiteRT — это новое название TensorFlow Lite: тот же формат модели .tflite, та же родословная среды выполнения, проведен ребрендинг Google. В Ultralytics единый формат экспорта litert теперь охватывает оба варианта использования, для которых раньше требовались два разных формата: Старый формат tflite → развертывание на мобильных, встроенных и периферийных устройствах. Старый формат tfjs → развертывание в браузере и Node.js, теперь обрабатывается через LiteRT.js с использованием того же файла .tflite. Если у тебя уже есть файл .tflite, ты можешь загрузить его напрямую через YOLO("model.tflite"), и он будет работать через бэкенд LiteRT.

Q: Могу ли я запустить модели YOLO в браузере с помощью LiteRT?

Да. LiteRT.js запускает ту же экспортированную модель .tflite непосредственно в веб-браузере или приложении Node.js с ускорением WebGPU/WASM. Это заменяет предыдущий рабочий процесс TensorFlow\.js — отдельный экспорт для браузера больше не нужен, просто разверни свою модель LiteRT с помощью среды выполнения LiteRT.js.

LiteRT (сокращение от Lite Runtime) — это высокопроизводительная среда выполнения Google для ИИ на устройствах. Это следующее поколение и новое название TensorFlow Lite (TFLite), использующее тот же формат моделей .tflite. С помощью LiteRT одна экспортированная модель Ultralytics YOLO развертывается на мобильных, встроенных, периферийных устройствах и в браузере, охватывая все возможности, которые ранее требовали отдельных форматов tflite и tfjs, теперь под одной оболочкой.

Формат экспорта LiteRT оптимизирует твои модели для таких задач, как обнаружение объектов, сегментация, оценка позы и классификация, чтобы они работали быстро и без подключения к сети на самых разных устройствах.

Запускай YOLO на Android с LiteRT уже сегодня через официальный плагин Flutter.

Официальный Ultralytics YOLO Flutter plugin «из коробки» запускает LiteRT-экспорты в формате .tflite на Android — обеспечивая инференс с камеры в реальном времени, предсказание для отдельных изображений, ускорение на GPU и автоматическую загрузку моделей для всех семи задач YOLO26, включая Depth. Для устройств Apple используй CoreML export; для NPU Qualcomm Snapdragon смотри Qualcomm QNN integration.

Запускай YOLO в вебе с помощью LiteRT.js уже сегодня через официальный npm-пакет @ultralytics/yolo

Официальный Ultralytics YOLO NPM package позволяет запускать экспортированные модели LiteRT .tflite прямо в браузере с помощью LiteRT.js без необходимости использования сервера или Python — с поддержкой инференса с веб-камеры в реальном времени, предсказаний для отдельных изображений и ускорения через WebGPU (с автоматическим переключением на CPU/WASM) для всех шести задач YOLO26 (detect, segment, pose, OBB, classify, semantic). На WebGPU это часто работает ~2× быстрее, чем ONNX Runtime Web.

npm i @ultralytics/yolo @litertjs/core

Link to this sectionПочему стоит экспортировать в LiteRT?#

LiteRT — это фреймворк с открытым исходным кодом, предназначенный для локального вывода (инференса), также известного как периферийные вычисления. Он дает разработчикам инструменты для запуска обученных моделей на мобильных, встроенных и IoT-устройствах, обычных компьютерах и — через LiteRT.js — непосредственно в веб-браузерах и Node.js.

Один формат модели для всех целей:

Мобильные и встроенные системы: Android, iOS, встроенный Linux и микроконтроллеры (MCU).
Периферийные ускорители: Совместимость с Coral Edge TPU для дополнительного ускорения.
Браузер и Node.js: LiteRT.js запускает ту же модель .tflite в вебе с ускорением WebGPU/WASM, устраняя необходимость в отдельном экспорте TensorFlow.js.

Link to this sectionКлючевые особенности моделей LiteRT#

Оптимизация на устройстве: Снижает задержку за счет локальной обработки данных, повышает конфиденциальность, не передавая личные данные, и минимизирует размер модели для экономии места.
Поддержка множества платформ: Работает на Android, iOS, встроенном Linux, микроконтроллерах и современных веб-браузерах.
Аппаратное ускорение: Использует XNNPACK на CPU, а также ускорение GPU через OpenCL, Metal и WebGPU. Делегат GPU по умолчанию работает в режиме FP16 для дополнительного ускорения.
Квантование: Поддерживает FP32, статический INT8 (quantize=8, int8 веса + int8 активации), статический INT16-активации (quantize="w8a16", int8 веса + int16 активации для более высокой точности) и динамический INT8 (quantize="w8a32", int8 веса + FP32 активации, калибровочные данные не нужны) для сжатия моделей и ускорения инференса с минимальной потерей точности.
Поддержка различных языков: Совместимо с Java/Kotlin, Swift, Objective-C, C++, Python и JavaScript.

Link to this sectionИзмеренная производительность#

Сквозной инференс для одного изображения на официальных ресурсах YOLO26n Android LiteRT (w8a32: веса int8, активации FP32) на телефоне Xiaomi 17 с процессором Qualcomm Snapdragon 8 Elite Gen 5 (SM8850), измеренный через Ultralytics Flutter plugin 0.6.10. Каждая ячейка показывает общее время (препроцессинг + инференс + постпроцессинг, без учета аннотирования) с разбивкой по этапам под ней. CPU использует делегат LiteRT XNNPACK; GPU использует делегат LiteRT OpenCL/GL (FP16).

Модель	Задача	размер ^{(пиксели)}	CPU ^{w8a32 LiteRT (мс)}	GPU Adreno ^{w8a32 LiteRT (мс)}
YOLO26n	Обнаружение	640	52.4 ^{1.8 / 48.2 / 2.4}	13.5 ^{1.9 / 8.1 / 3.5}
YOLO26n-seg	Сегментация	640	72.8 ^{1.8 / 65.3 / 5.7}	28.6 ^{1.8 / 20.1 / 6.7}
YOLO26n-sem	Семантика	640	60.3 ^{1.8 / 50.4 / 8.1}	32.9 ^{1.8 / 23.0 / 8.2}
YOLO26n-depth	Depth	640	325.1 ^{5.1 / 300.9 / 19.2}	23.0 ^{2.0 / 12.9 / 8.2}
YOLO26n-cls	Классификация	224	10.5 ^{0.9 / 9.6 / 0.1}	3.2 ^{1.0 / 2.2 / 0.1}
YOLO26n-pose	Поза	640	56.9 ^{1.8 / 53.9 / 1.2}	14.0 ^{1.9 / 9.3 / 2.8}
YOLO26n-obb	OBB	640	50.5 ^{1.8 / 47.3 / 1.4}	13.0 ^{2.9 / 7.9 / 2.3}

Значения скорости — это задержка при пакетной обработке одного изображения: среднее из 15 запусков после 3 прогревочных запусков на bus.jpg, измеренное с помощью встроенного инструмента бенчмаркинга плагина Flutter в режиме профилирования. Полный набор задач запускается последовательно, поэтому этап препроцессинга, ограниченный CPU, отражает работу в установившемся режиме (измерение при «холодном» старте для одной задачи будет ниже); этап инференса на GPU/CPU — это установившиеся затраты на вычисления.
Экспорт в LiteRT напрямую трассирует модель PyTorch, создавая .tflite в формате NCHW с float-входом — делегат GPU компилирует весь граф (здесь все семь задач выполняются на GPU Adreno), а для w8a32 не требуются калибровочные данные. Официальные Android-ресурсы размещены в yolo-flutter-app v0.6.6 release, подробные результаты тестов приведены в the Flutter performance doc.
Соответствующие цифры для Hexagon NPU в Snapdragon (а также базовые показатели INT8 TFLite для CPU/GPU) приведены в интеграции Qualcomm QNN.

Link to this sectionЭкспорт в LiteRT: Конвертация твоей модели YOLO#

Ты можешь повысить эффективность выполнения на устройстве и расширить возможности развертывания, конвертировав свои модели в формат LiteRT.

Link to this sectionУстановка#

Чтобы установить необходимый пакет, выполни:

Установка

# Install the required package for YOLO
pip install ultralytics

Подробные инструкции и лучшие практики ищи в нашем руководстве по установке Ultralytics. Если возникнут трудности, загляни в наш справочник по общим проблемам.

Поддержка платформы

Экспорт в LiteRT в настоящее время поддерживается на Linux x86_64 и macOS. Сама экспортированная модель .tflite запускается на всех платформах, поддерживаемых LiteRT (мобильных, встроенных, периферийных и в браузере).

Link to this sectionИспользование#

Все модели Ultralytics YOLO поддерживают экспорт «из коробки». Формат LiteRT поддерживает режимы Export, Predict и Validate, поэтому ты можешь экспортировать модель, а затем загрузить ее для запуска инференса или проверки точности локально.

Экспорт

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to LiteRT format
model.export(format="litert")  # creates 'yolo26n.tflite'

Квантованный экспорт

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Dynamic INT8: int8 weights, FP32 activations - no calibration data needed
model.export(format="litert", quantize="w8a32")  # creates 'yolo26n_w8a32.tflite'

# Static INT8: int8 weights + int8 activations - needs calibration data
model.export(format="litert", quantize=8, data="coco8.yaml")  # creates 'yolo26n_int8.tflite'

# Static w8a16: int8 weights + int16 activations (higher accuracy) - needs calibration data
model.export(format="litert", quantize="w8a16", data="coco8.yaml")  # creates 'yolo26n_w8a16.tflite'

Предсказание

from ultralytics import YOLO

# Load the exported LiteRT model
model = YOLO("yolo26n.tflite")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Валидация

from ultralytics import YOLO

# Load the exported LiteRT model
model = YOLO("yolo26n.tflite")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this sectionАргументы экспорта#

Аргумент	Тип	По умолчанию	Описание
`format`	`str`	`'litert'`	Целевой формат для экспортированной модели, определяющий совместимость с различными средами развертывания.
`imgsz`	`int` или `tuple`	`640`	Желаемый размер изображения для входных данных модели. Может быть целым числом для квадратных изображений или кортежем `(height, width)` для конкретных размеров.
`quantize`	`int` или `str`	`None`	Точность квантования: `8` (статический INT8, int8 веса + int8 активации; требует калибровочные `data`/`fraction`), `'w8a16'` (статический, int8 веса + int16 активации; требует калибровочные `data`/`fraction`), `'w8a32'` (динамический INT8, int8 веса + FP32 активации; калибровка не нужна) или `32`/не задано (FP32). FP16 не экспортируется отдельно (см. примечание ниже). Заменяет устаревшие флаги `half`/`int8`.
`batch`	`int`	`1`	Задает размер пакета (batch) для вывода экспортированной модели или максимальное количество изображений, которые модель будет обрабатывать одновременно в режиме `predict`.
`data`	`str`	`'coco8.yaml'`	YAML-файл набора данных, используемый для калибровки INT8. Если при `quantize=8` он не указан, Ultralytics выбирает стандартный набор данных для калибровки под задачу модели.
`device`	`str`	`None`	Указывает устройство для экспорта. Экспорт LiteRT выполняется на CPU (`device=cpu`).

Точность FP16

В отличие от старого экспорта tflite, LiteRT не требует отдельного экспорта FP16. Модель FP32 .tflite запускается в половинной точности во время выполнения при использовании делегата GPU (WebGPU, OpenCL, Metal) — это официальный подход LiteRT к инференсу FP16.

Для получения дополнительной информации о процессе экспорта посети страницу документации Ultralytics по экспорту.

Link to this sectionРазвертывание экспортированных моделей YOLO LiteRT#

После экспорта модели Ultralytics YOLO в LiteRT ты можешь развернуть ее на различных платформах. Самый быстрый способ проверить ее локально — метод YOLO("yolo26n.tflite"), показанный выше. Для развертывания в других средах ознакомься со следующими ресурсами:

Link to this sectionМобильные и встроенные системы#

Android: Краткое руководство по интеграции LiteRT в приложения для Android.
iOS: Руководство по интеграции и развертыванию моделей LiteRT в приложениях iOS.
Встроенный Linux и Raspberry Pi: Запускай модели LiteRT на одноплатных компьютерах, при необходимости с ускорением через Coral Edge TPU.
Микроконтроллеры: Развертывание на MCU с памятью всего в несколько килобайт — основная среда выполнения занимает около 16 КБ на Arm Cortex-M3.

Link to this sectionБраузер и Node.js (LiteRT.js)#

Обзор LiteRT.js: Запускай ту же модель .tflite непосредственно в браузере с ускорением WebGPU/WASM, исключая серверные вычисления и сохраняя данные на устройстве пользователя.
Комплексные примеры: Практические примеры и руководства по внедрению LiteRT на мобильных, периферийных устройствах и в вебе.

Link to this sectionРезюме#

В этом руководстве мы разобрали, как экспортировать модели Ultralytics YOLO в формат LiteRT. Объединив развертывание на мобильных/периферийных устройствах (ранее TFLite) и в браузере (ранее TF.js) в одну модель .tflite, LiteRT делает твои модели YOLO быстрее, меньше и переносимее практически на любую целевую платформу на устройстве.

Дополнительные сведения можно найти в официальной документации LiteRT.

Кроме того, если тебе интересны другие интеграции Ultralytics YOLO, загляни на нашу страницу руководств по интеграции, где собрано множество полезных ресурсов.

Link to this sectionFAQ#

Link to this sectionКак экспортировать модель YOLO в формат LiteRT?#

Используй библиотеку Ultralytics для экспорта модели YOLO в LiteRT (.tflite). Сначала установи пакет:

pip install ultralytics

Затем экспортируй модель:

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to LiteRT format
model.export(format="litert")  # creates 'yolo26n.tflite'

Для пользователей CLI:

yolo export model=yolo26n.pt format=litert # creates 'yolo26n.tflite'

Для получения подробной информации посети руководство по экспорту Ultralytics.

Link to this sectionВ чем разница между LiteRT, TFLite и TF.js?#

LiteRT — это новое название TensorFlow Lite: тот же формат модели .tflite, та же родословная среды выполнения, проведен ребрендинг Google. В Ultralytics единый формат экспорта litert теперь охватывает оба варианта использования, для которых раньше требовались два разных формата:

Старый формат tflite → развертывание на мобильных, встроенных и периферийных устройствах.
Старый формат tfjs → развертывание в браузере и Node.js, теперь обрабатывается через LiteRT.js с использованием того же файла .tflite.

Если у тебя уже есть файл .tflite, ты можешь загрузить его напрямую через YOLO("model.tflite"), и он будет работать через бэкенд LiteRT.

Link to this sectionМогу ли я запустить модели YOLO LiteRT на Raspberry Pi?#

Да. Экспортируй модель в формат LiteRT, а затем запусти ее на Raspberry Pi, чтобы повысить скорость инференса. Для дальнейшей оптимизации рассмотри возможность использования Coral Edge TPU. Подробные шаги см. в нашем руководстве по развертыванию на Raspberry Pi.

Link to this sectionМогу ли я запустить модели YOLO в браузере с помощью LiteRT?#

Да. LiteRT.js запускает ту же экспортированную модель .tflite непосредственно в веб-браузере или приложении Node.js с ускорением WebGPU/WASM. Это заменяет предыдущий рабочий процесс TensorFlow.js — отдельный экспорт для браузера больше не нужен, просто разверни свою модель LiteRT с помощью среды выполнения LiteRT.js.

Link to this sectionПоддерживает ли LiteRT инференс FP16 (половинной точности)?#

Да, во время выполнения. Модель LiteRT FP32 автоматически запускается в FP16 при выполнении на делегате GPU (WebGPU, OpenCL или Metal), что является официальным подходом LiteRT. Поэтому тебе не нужен специальный экспорт FP16; для дальнейшего сжатия используй квантование INT8 с помощью quantize=8.

Link to this sectionКак устранить распространенные проблемы при экспорте в LiteRT?#

Если ты столкнулся с ошибками при экспорте моделей YOLO в LiteRT, вот стандартные решения:

Проверь платформу: Экспорт LiteRT поддерживается на Linux x86_64 и macOS. Убедись, что твоя среда соответствует требованиям.
Проверь совместимость пакета: Убедись, что используешь совместимую версию Ultralytics. См. наше руководство по установке.
Проблемы квантования: При использовании квантования INT8 убедись, что путь к набору данных правильно указан в параметре data.

Дополнительные советы по устранению неполадок ищи в нашем руководстве по распространенным проблемам.

Участники

GLglenn-jocher⁴ ONonuralpszr¹ AMambitious-octopus¹

Создано 2 недели назадОбновлено 5 дней назад