Link to this sectionExporter des modèles YOLO vers LiteRT pour un déploiement sur les périphériques Edge et Web#

Q: Quelle est la différence entre LiteRT, TFLite et TF.js ?

LiteRT est le nouveau nom de TensorFlow Lite — même format de modèle .tflite, même lignée de runtime, renommée par Google. Chez Ultralytics, le format d'exportation unique litert couvre désormais les deux cas d'utilisation qui nécessitaient auparavant deux formats séparés : L'ancien format tflite → déploiement mobile, embarqué et edge. L'ancien format tfjs → déploiement navigateur et Node.js, désormais géré par LiteRT.js exécutant le même fichier .tflite. Si tu as un fichier .tflite existant, tu peux le charger directement avec YOLO("model.tflite") et il s'exécutera via le backend LiteRT.

Q: Puis-je exécuter des modèles YOLO dans le navigateur avec LiteRT ?

Oui. LiteRT.js exécute le même modèle .tflite exporté directement dans un navigateur web ou une application Node.js, avec l'accélération WebGPU/WASM. Cela remplace le workflow TensorFlow\.js précédent — il n'y a pas d'exportation navigateur séparée, déploie simplement ton modèle LiteRT avec le runtime LiteRT.js.

LiteRT (abréviation de Lite Runtime) est le runtime haute performance de Google pour l'IA sur appareil. C'est la nouvelle génération et le nouveau nom de TensorFlow Lite (TFLite), et il exécute le même format de modèle .tflite. Avec LiteRT, un seul modèle Ultralytics YOLO exporté peut être déployé sur mobile, embarqué, edge et navigateur, couvrant tout ce que les anciens formats d'exportation tflite et tfjs géraient séparément, désormais sous une seule bannière.

Le format d'exportation LiteRT optimise tes modèles pour des tâches telles que la détection d'objets, la segmentation, l'estimation de pose et la classification afin qu'ils s'exécutent rapidement et hors ligne sur une large gamme d'appareils.

Exécute YOLO sur Android avec LiteRT dès aujourd'hui via le plugin officiel Flutter

Le plugin Flutter officiel Ultralytics YOLO exécute les exportations LiteRT .tflite sur Android dès sa mise en service : inférence caméra en temps réel, prédiction sur image unique, accélération GPU et téléchargement automatique de modèles pour les sept tâches YOLO26, y compris la profondeur (Depth). Pour les appareils Apple, utilise l'export CoreML ; pour les NPU Qualcomm Snapdragon, consulte l'intégration Qualcomm QNN.

Exécute YOLO sur le Web avec LiteRT.js dès aujourd'hui via le package npm officiel @ultralytics/yolo

Le package NPM officiel Ultralytics YOLO exécute les exportations LiteRT .tflite directement dans le navigateur via LiteRT.js, sans serveur ni Python requis — avec l'inférence par webcam en temps réel, la prédiction sur image unique et l'accélération WebGPU (avec repli automatique sur CPU/WASM) pour les six tâches YOLO26 (detect, segment, pose, OBB, classify, semantic). Sur WebGPU, c'est souvent ~2 fois plus rapide que ONNX Runtime Web.

npm i @ultralytics/yolo @litertjs/core

Link to this sectionPourquoi devrais-tu exporter vers LiteRT ?#

LiteRT est un framework open source conçu pour l'inférence sur appareil, également appelé edge computing. Il donne aux développeurs les outils nécessaires pour exécuter des modèles entraînés sur des appareils mobiles, embarqués et IoT, des ordinateurs traditionnels et — via LiteRT.js — directement dans les navigateurs web et Node.js.

Un seul format de modèle, toutes les cibles :

Mobile et embarqué : Android, iOS, Linux embarqué et microcontrôleurs (MCU).
Accélérateurs Edge : Compatible avec le Coral Edge TPU pour une accélération accrue.
Navigateur et Node.js : LiteRT.js exécute le même modèle .tflite sur le web avec l'accélération WebGPU/WASM — remplaçant ainsi le besoin d'une exportation TensorFlow.js séparée.

Link to this sectionFonctionnalités clés des modèles LiteRT#

Optimisation sur appareil : Réduit la latence en traitant les données localement, améliore la confidentialité en ne transmettant pas de données personnelles et minimise la taille du modèle pour économiser de l'espace.
Support multiplateforme : S'exécute sur Android, iOS, Linux embarqué, microcontrôleurs et les navigateurs web modernes.
Accélération matérielle : Tire parti de XNNPACK sur CPU et de l'accélération GPU via OpenCL, Metal et WebGPU. Le délégué GPU s'exécute en FP16 par défaut pour plus de vitesse.
Quantification : Supporte FP32, INT8 statique (quantize=8, poids int8 + activations int8), activation INT16 statique (quantize="w8a16", poids int8 + activations int16 pour une meilleure précision) et INT8 dynamique (quantize="w8a32", poids int8 + activations FP32, aucune donnée de calibration nécessaire) pour compresser les modèles et accélérer l'inférence avec une perte de précision minimale.
Support linguistique diversifié : Compatible avec Java/Kotlin, Swift, Objective-C, C++, Python et JavaScript.

Link to this sectionPerformances mesurées#

Inférence de bout en bout sur image unique pour les assets officiels YOLO26n Android LiteRT (w8a32 : poids int8, activations FP32) sur un téléphone Xiaomi 17 équipé du Qualcomm Snapdragon 8 Elite Gen 5 (SM8850), mesurée via le plugin Flutter Ultralytics 0.6.10. Chaque cellule affiche le temps total (prétraitement + inférence + post-traitement, annotation exclue) avec le détail par étape en dessous. Le CPU exécute le délégué LiteRT XNNPACK ; le GPU exécute le délégué LiteRT OpenCL/GL (FP16).

Modèle	Tâche	taille ^(pixels)	CPU ^{w8a32 LiteRT (ms)}	GPU Adreno ^{w8a32 LiteRT (ms)}
YOLO26n	Détection	640	52.4 ^{1.8 / 48.2 / 2.4}	13.5 ^{1.9 / 8.1 / 3.5}
YOLO26n-seg	Segmentation	640	72.8 ^{1.8 / 65.3 / 5.7}	28.6 ^{1.8 / 20.1 / 6.7}
YOLO26n-sem	Sémantique	640	60.3 ^{1.8 / 50.4 / 8.1}	32.9 ^{1.8 / 23.0 / 8.2}
YOLO26n-depth	Depth	640	325.1 ^{5.1 / 300.9 / 19.2}	23.0 ^{2.0 / 12.9 / 8.2}
YOLO26n-cls	Classification	224	10.5 ^{0.9 / 9.6 / 0.1}	3.2 ^{1.0 / 2.2 / 0.1}
YOLO26n-pose	Pose	640	56.9 ^{1.8 / 53.9 / 1.2}	14.0 ^{1.9 / 9.3 / 2.8}
YOLO26n-obb	OBB	640	50.5 ^{1.8 / 47.3 / 1.4}	13.0 ^{2.9 / 7.9 / 2.3}

Les valeurs de vitesse sont des latences en rafale sur image unique — la moyenne de 15 exécutions après 3 exécutions de préchauffage sur bus.jpg, mesurées avec l'outil de benchmark sur appareil du plugin Flutter en mode profil. La suite complète des tâches s'exécute en continu, donc l'étape de prétraitement liée au CPU reflète un fonctionnement soutenu (une mesure à tâche unique avec repos thermique est plus basse) ; l'étape d'inférence GPU/CPU est le coût de calcul en régime permanent.
L'export LiteRT trace directement le modèle PyTorch, produisant un .tflite en NCHW avec une entrée float — le délégué GPU compile l'intégralité du graphe (les sept tâches s'exécutent ici sur le GPU Adreno), et w8a32 ne nécessite aucune donnée de calibration. Les assets Android officiels sont hébergés sur la release v0.6.6 de yolo-flutter-app, avec l'enregistrement détaillé des performances dans la doc de performance Flutter.
Les chiffres correspondants pour le Hexagon NPU Snapdragon (et la base de référence INT8 TFLite CPU/GPU) se trouvent dans l'intégration Qualcomm QNN.

Link to this sectionExporter vers LiteRT : Convertir ton modèle YOLO#

Tu peux améliorer l'efficacité de l'exécution sur appareil et élargir les options de déploiement en convertissant tes modèles au format LiteRT.

Link to this sectionInstallation#

Pour installer le package requis, exécute :

Installation

# Install the required package for YOLO
pip install ultralytics

Pour des instructions détaillées et les meilleures pratiques, consulte notre guide d'installation Ultralytics. Si tu rencontres des difficultés, consulte notre guide des problèmes courants.

Prise en charge de la plateforme

L'exportation LiteRT est actuellement supportée sur Linux x86_64 et macOS. Le modèle .tflite exporté lui-même s'exécute sur toutes les plateformes supportées par LiteRT (mobile, embarqué, edge et navigateur).

Link to this sectionUtilisation#

Tous les modèles Ultralytics YOLO supportent l'exportation nativement. Le format LiteRT supporte les modes Export, Predict et Validate, tu peux donc exporter un modèle, puis le charger pour exécuter l'inférence ou valider sa précision localement.

Exporter (Export)

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to LiteRT format
model.export(format="litert")  # creates 'yolo26n.tflite'

Exportation quantifiée

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Dynamic INT8: int8 weights, FP32 activations - no calibration data needed
model.export(format="litert", quantize="w8a32")  # creates 'yolo26n_w8a32.tflite'

# Static INT8: int8 weights + int8 activations - needs calibration data
model.export(format="litert", quantize=8, data="coco8.yaml")  # creates 'yolo26n_int8.tflite'

# Static w8a16: int8 weights + int16 activations (higher accuracy) - needs calibration data
model.export(format="litert", quantize="w8a16", data="coco8.yaml")  # creates 'yolo26n_w8a16.tflite'

Prédire (Predict)

from ultralytics import YOLO

# Load the exported LiteRT model
model = YOLO("yolo26n.tflite")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Valider

from ultralytics import YOLO

# Load the exported LiteRT model
model = YOLO("yolo26n.tflite")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this sectionArguments d'exportation#

Argument	Type	Défaut	Description
`format`	`str`	`'litert'`	Format cible pour le modèle exporté, définissant la compatibilité avec divers environnements de déploiement.
`imgsz`	`int` ou `tuple`	`640`	Taille d'image souhaitée pour l'entrée du modèle. Peut être un entier pour des images carrées ou un tuple `(height, width)` pour des dimensions spécifiques.
`quantize`	`int` ou `str`	`None`	Précision de quantification : `8` (INT8 statique, poids int8 + activations int8 ; nécessite des `data`/`fraction` de calibration), `'w8a16'` (statique, poids int8 + activations int16 ; nécessite des `data`/`fraction` de calibration), `'w8a32'` (INT8 dynamique, poids int8 + activations FP32 ; aucune calibration nécessaire), ou `32`/non défini (FP32). Le FP16 n'est pas exporté séparément (voir la note ci-dessous). Remplace les anciens flags `half`/`int8`.
`batch`	`int`	`1`	Spécifie la taille de l'inférence par lot du modèle exporté ou le nombre maximal d'images que le modèle exporté traitera simultanément en mode `predict`.
`data`	`str`	`'coco8.yaml'`	YAML de dataset utilisé pour la calibration INT8. Si omis avec `quantize=8`, Ultralytics sélectionne le dataset de calibration par défaut pour la tâche du modèle.
`device`	`str`	`None`	Spécifie l'appareil pour l'exportation. L'exportation LiteRT s'exécute sur CPU (`device=cpu`).

Précision FP16

Contrairement à l'ancien export tflite, LiteRT ne nécessite pas d'export FP16 séparé. Un modèle .tflite FP32 s'exécute en demi-précision au moment de l'exécution lors de l'utilisation d'un délégué GPU (WebGPU, OpenCL, Metal) — c'est l'approche officielle de LiteRT pour l'inférence FP16.

Pour plus de détails sur le processus d'exportation, visite la page de documentation Ultralytics sur l'exportation.

Link to this sectionDéploiement des modèles YOLO LiteRT exportés#

Après avoir exporté ton modèle Ultralytics YOLO vers LiteRT, tu peux le déployer sur plusieurs plateformes. La méthode la plus rapide pour le vérifier localement est la méthode YOLO("yolo26n.tflite") montrée ci-dessus. Pour le déploiement dans d'autres environnements, consulte les ressources suivantes :

Link to this sectionMobile et embarqué#

Android : Un guide de démarrage rapide pour intégrer LiteRT dans les applications Android.
iOS : Un guide pour intégrer et déployer des modèles LiteRT dans les applications iOS.
Linux embarqué et Raspberry Pi : Exécute des modèles LiteRT sur des ordinateurs monocarte, éventuellement accélérés avec un Coral Edge TPU.
Microcontrôleurs : Déploie sur des MCU avec seulement quelques kilo-octets de mémoire — le runtime de base tient en environ 16 Ko sur un Arm Cortex-M3.

Link to this sectionNavigateur et Node.js (LiteRT.js)#

Présentation de LiteRT.js : Exécute le même modèle .tflite directement dans le navigateur avec l'accélération WebGPU/WASM, éliminant le calcul côté serveur et gardant les données sur l'appareil de l'utilisateur.
Exemples de bout en bout : Exemples pratiques et tutoriels pour implémenter LiteRT sur mobile, edge et web.

Link to this sectionRésumé#

Dans ce guide, nous avons couvert comment exporter des modèles Ultralytics YOLO vers le format LiteRT. En consolidant le déploiement mobile/edge (anciennement TFLite) et navigateur (anciennement TF.js) dans un seul modèle .tflite, LiteRT rend tes modèles YOLO plus rapides, plus légers et portables sur pratiquement toutes les cibles sur appareil.

Pour plus de détails, visite la documentation officielle de LiteRT.

Aussi, si tu es curieux à propos d'autres intégrations Ultralytics YOLO, consulte notre page de guide d'intégration pour de nombreuses ressources utiles.

Link to this sectionFAQ#

Link to this sectionComment exporter un modèle YOLO au format LiteRT ?#

Utilise la bibliothèque Ultralytics pour exporter un modèle YOLO vers LiteRT (.tflite). D'abord, installe le package :

pip install ultralytics

Ensuite, exporte ton modèle :

from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to LiteRT format
model.export(format="litert")  # creates 'yolo26n.tflite'

Pour les utilisateurs CLI :

yolo export model=yolo26n.pt format=litert # creates 'yolo26n.tflite'

Pour plus de détails, visite le guide d'exportation Ultralytics.

Link to this sectionQuelle est la différence entre LiteRT, TFLite et TF.js ?#

LiteRT est le nouveau nom de TensorFlow Lite — même format de modèle .tflite, même lignée de runtime, renommée par Google. Chez Ultralytics, le format d'exportation unique litert couvre désormais les deux cas d'utilisation qui nécessitaient auparavant deux formats séparés :

L'ancien format tflite → déploiement mobile, embarqué et edge.
L'ancien format tfjs → déploiement navigateur et Node.js, désormais géré par LiteRT.js exécutant le même fichier .tflite.

Si tu as un fichier .tflite existant, tu peux le charger directement avec YOLO("model.tflite") et il s'exécutera via le backend LiteRT.

Link to this sectionPuis-je exécuter des modèles YOLO LiteRT sur un Raspberry Pi ?#

Oui. Exporte ton modèle au format LiteRT, puis exécute-le sur un Raspberry Pi pour améliorer les vitesses d'inférence. Pour une optimisation supplémentaire, envisage un Coral Edge TPU. Pour des étapes détaillées, réfère-toi à notre guide de déploiement Raspberry Pi.

Link to this sectionPuis-je exécuter des modèles YOLO dans le navigateur avec LiteRT ?#

Oui. LiteRT.js exécute le même modèle .tflite exporté directement dans un navigateur web ou une application Node.js, avec l'accélération WebGPU/WASM. Cela remplace le workflow TensorFlow.js précédent — il n'y a pas d'exportation navigateur séparée, déploie simplement ton modèle LiteRT avec le runtime LiteRT.js.

Link to this sectionLiteRT supporte-t-il l'inférence FP16 (demi-précision) ?#

Oui — au moment de l'exécution. Un modèle LiteRT FP32 s'exécute automatiquement en FP16 lorsqu'il est exécuté sur un délégué GPU (WebGPU, OpenCL ou Metal), ce qui est l'approche officielle de LiteRT. Tu n'as donc pas besoin d'un export FP16 dédié ; pour une compression supplémentaire, utilise la quantification INT8 avec quantize=8.

Link to this sectionComment résoudre les problèmes courants lors de l'exportation LiteRT ?#

Si tu rencontres des erreurs lors de l'exportation des modèles YOLO vers LiteRT, les solutions courantes incluent :

Vérifier la plateforme : L'exportation LiteRT est supportée sur Linux x86_64 et macOS. Vérifie que ton environnement correspond.
Vérifier la compatibilité du package : Assure-toi d'utiliser une version compatible d'Ultralytics. Réfère-toi à notre guide d'installation.
Problèmes de quantification : Lorsque tu utilises la quantification INT8, assure-toi que le chemin de ton jeu de données est correctement spécifié dans le paramètre data.

Pour des conseils de dépannage supplémentaires, visite notre guide des problèmes courants.

Contributeurs

GLglenn-jocher⁴ ONonuralpszr¹ AMambitious-octopus¹

Créé il y a 2 semainesMis à jour il y a 5 jours