Link to this sectionExportation TensorRT pour les modèles YOLO26#
Déployer des modèles de vision par ordinateur dans des environnements haute performance peut nécessiter un format qui maximise la vitesse et l'efficacité. C'est particulièrement vrai lorsque tu déploies ton modèle sur des GPU NVIDIA.
En utilisant le format d'exportation TensorRT, tu peux optimiser tes modèles Ultralytics YOLO26 pour une inférence rapide et efficace sur le matériel NVIDIA. Ce guide te fournira des étapes simples à suivre pour le processus de conversion et t'aidera à tirer le meilleur parti de la technologie avancée de NVIDIA dans tes projets de deep learning.
Link to this sectionTensorRT#
TensorRT, développé par NVIDIA, est un kit de développement logiciel (SDK) avancé conçu pour l'inférence de deep learning à haute vitesse. Il est parfaitement adapté aux applications en temps réel comme la détection d'objets.
Ce kit d'outils optimise les modèles de deep learning pour les GPU NVIDIA, ce qui permet des opérations plus rapides et plus efficaces. Les modèles TensorRT subissent une optimisation TensorRT, qui inclut des techniques telles que la fusion de couches, la calibration de précision (INT8 et FP16), la gestion dynamique de la mémoire des tenseurs et l'auto-tuning du noyau. Convertir des modèles de deep learning au format TensorRT permet aux développeurs de réaliser pleinement le potentiel des GPU NVIDIA.
TensorRT est reconnu pour sa compatibilité avec divers formats de modèles, notamment TensorFlow, PyTorch et ONNX, offrant aux développeurs une solution flexible pour intégrer et optimiser des modèles issus de différents frameworks. Cette polyvalence permet un déploiement de modèle efficace à travers divers environnements matériels et logiciels.
Link to this sectionFonctionnalités clés des modèles TensorRT#
Les modèles TensorRT offrent une gamme de fonctionnalités clés qui contribuent à leur efficacité et à leur performance pour l'inférence de deep learning à haute vitesse :
-
Calibration de précision : TensorRT prend en charge la calibration de précision, permettant aux modèles d'être ajustés finement selon des exigences de précision spécifiques. Cela inclut la prise en charge de formats de précision réduite comme INT8 et FP16, qui peuvent booster davantage la vitesse d'inférence tout en maintenant des niveaux de précision acceptables.
-
Fusion de couches : Le processus d'optimisation TensorRT inclut la fusion de couches, où plusieurs couches d'un réseau de neurones sont combinées en une seule opération. Cela réduit la charge de calcul et améliore la vitesse d'inférence en minimisant l'accès à la mémoire et le calcul.
-
Gestion dynamique de la mémoire des tenseurs : TensorRT gère efficacement l'utilisation de la mémoire des tenseurs pendant l'inférence, réduisant la surcharge mémoire et optimisant l'allocation mémoire. Il en résulte une utilisation plus efficace de la mémoire GPU.
-
Auto-tuning des noyaux : TensorRT applique un auto-tuning des noyaux pour sélectionner le noyau GPU le plus optimisé pour chaque couche du modèle. Cette approche adaptative garantit que le modèle tire pleinement parti de la puissance de calcul du GPU.
Link to this sectionOptions de déploiement dans TensorRT#
Avant de regarder le code pour exporter des modèles YOLO26 au format TensorRT, comprenons où les modèles TensorRT sont habituellement utilisés.
TensorRT propose plusieurs options de déploiement, et chaque option équilibre différemment la facilité d'intégration, l'optimisation des performances et la flexibilité :
- Déploiement avec TensorFlow : Cette méthode intègre TensorRT dans TensorFlow, permettant aux modèles optimisés de s'exécuter dans un environnement TensorFlow familier. C'est utile pour les modèles ayant un mélange de couches prises en charge et non prises en charge, car TF-TRT peut les gérer efficacement.
-
API d'exécution autonome TensorRT : Offre un contrôle granulaire, idéal pour les applications où la performance est critique. C'est plus complexe mais permet une implémentation personnalisée des opérateurs non pris en charge.
-
Serveur d'inférence NVIDIA Triton : Une option qui prend en charge les modèles de divers frameworks. Particulièrement adaptée à l'inférence dans le cloud ou en périphérie (edge), elle offre des fonctionnalités comme l'exécution concurrente de modèles et l'analyse de modèles.
Link to this sectionExporter des modèles YOLO26 vers TensorRT#
Tu peux améliorer l'efficacité de l'exécution et optimiser les performances en convertissant les modèles YOLO26 au format TensorRT.
Link to this sectionInstallation#
Pour installer le package requis, exécute :
# Install the required package for YOLO26
pip install ultralyticsPour des instructions détaillées et les meilleures pratiques liées au processus d'installation, consulte notre guide d'installation YOLO26. Si tu rencontres des difficultés lors de l'installation des packages requis pour YOLO26, consulte notre guide des problèmes courants pour des solutions et astuces.
Link to this sectionUtilisation#
Avant de te lancer dans les instructions d'utilisation, assure-toi de consulter la gamme de modèles YOLO26 proposés par Ultralytics. Cela t'aidera à choisir le modèle le plus approprié pour les exigences de ton projet.
Le format TensorRT prend en charge les modes Export, Predict et Validate. L'inférence et la validation nécessitent un GPU NVIDIA. Exporte ton modèle, puis charge le modèle exporté pour exécuter l'inférence ou valider sa précision.
from ultralytics import YOLO
# Load a YOLO26 model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format
model.export(format="engine") # creates 'yolo26n.engine'from ultralytics import YOLO
# Load the exported TensorRT model
model = YOLO("yolo26n.engine")
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")from ultralytics import YOLO
# Load the exported TensorRT model
model = YOLO("yolo26n.engine")
# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")Link to this sectionArguments d'exportation#
| Argument | Type | Par défaut | Description |
|---|---|---|---|
format | str | 'engine' | Format cible pour le modèle exporté, définissant la compatibilité avec divers environnements de déploiement. |
imgsz | int ou tuple | 640 | Desired image size for the model input. Can be an integer for square images or a tuple (height, width) for specific dimensions. |
half | bool | False | Active la quantification FP16 (précision moitié), réduisant la taille du modèle et accélérant potentiellement l'inférence sur le matériel pris en charge. |
int8 | bool | False | Active la quantification INT8, compressant davantage le modèle et accélérant l'inférence avec une perte de précision minimale, principalement pour les appareils de périphérie (edge devices). |
dynamic | bool | False | Autorise des tailles d'entrée dynamiques, améliorant la flexibilité dans la gestion des dimensions d'image variables. |
simplify | bool | True | Simplifie le graphe du modèle avec onnxslim, améliorant potentiellement les performances et la compatibilité. |
workspace | float ou None | None | Définit la taille maximale de l'espace de travail en GiB pour les optimisations TensorRT, en équilibrant l'utilisation de la mémoire et les performances ; utilise None pour une auto-allocation par TensorRT jusqu'au maximum de l'appareil. |
nms | bool | False | Ajoute la suppression non maximale (NMS), essentielle pour un post-traitement de détection précis et efficace. |
batch | int | 1 | Spécifie la taille d'inférence du lot du modèle exporté ou le nombre maximal d'images que le modèle exporté traitera simultanément en mode predict. |
data | str | 'coco8.yaml' | Chemin vers le fichier de configuration du dataset (par défaut : coco8.yaml), essentiel pour la quantification. |
fraction | float | 1.0 | Spécifie la fraction du dataset à utiliser pour le calibrage de la quantification INT8. Permet de calibrer sur un sous-ensemble du dataset complet, utile pour les expériences ou lorsque les ressources sont limitées. Si non spécifié avec INT8 activé, le dataset complet sera utilisé. |
device | str | None | Spécifie l'appareil pour l'exportation : GPU (device=0), DLA pour NVIDIA Jetson (device=dla:0 ou device=dla:1). |
Assure-toi d'utiliser un GPU avec support CUDA lors de l'exportation vers TensorRT.
Pour plus de détails sur le processus d'exportation, consulte la page de documentation Ultralytics sur l'exportation.
Link to this sectionExporter vers TensorRT avec quantification INT8#
Exporter des modèles Ultralytics YOLO en utilisant TensorRT avec une précision INT8 exécute une quantification post-entraînement (PTQ). TensorRT utilise la calibration pour la PTQ, qui mesure la distribution des activations au sein de chaque tenseur d'activation lorsque le modèle YOLO traite l'inférence sur des données d'entrée représentatives, puis utilise cette distribution pour estimer les valeurs d'échelle pour chaque tenseur. Chaque tenseur d'activation candidat à la quantification possède une échelle associée déduite par un processus de calibration.
Lors du traitement de réseaux implicitement quantifiés, TensorRT utilise l'INT8 de manière opportuniste pour optimiser le temps d'exécution des couches. Si une couche s'exécute plus rapidement en INT8 et possède des échelles de quantification assignées sur ses entrées et sorties de données, alors un noyau avec une précision INT8 est assigné à cette couche ; sinon, TensorRT sélectionne une précision FP32 ou FP16 pour le noyau, selon celle qui résulte en un temps d'exécution plus rapide pour cette couche.
Il est critique de s'assurer que le même appareil qui utilisera les poids du modèle TensorRT pour le déploiement est utilisé pour l'exportation avec une précision INT8, car les résultats de calibration peuvent varier d'un appareil à l'autre.
Link to this sectionConfiguration de l'exportation INT8#
Les arguments fournis lors de l'utilisation de export pour un modèle Ultralytics YOLO influenceront grandement les performances du modèle exporté. Ils devront également être sélectionnés en fonction des ressources disponibles sur l'appareil ; cependant, les arguments par défaut devraient fonctionner pour la plupart des GPU discrets NVIDIA Ampere (ou plus récents). L'algorithme de calibration utilisé est "MINMAX_CALIBRATION" pour les exportations GPU, tandis que les exportations DLA sur NVIDIA Jetson utilisent "ENTROPY_CALIBRATION_2". Tu peux lire plus de détails sur les options disponibles dans le Guide du développeur TensorRT. Les tests d'Ultralytics ont montré que "MINMAX_CALIBRATION" est le meilleur choix pour les exportations GPU, et l'algorithme est sélectionné automatiquement en fonction de l'appareil d'exportation.
-
workspace: Contrôle la taille (en GiB) de l'allocation mémoire de l'appareil lors de la conversion des poids du modèle.-
Ajuste la valeur
workspaceselon tes besoins de calibration et la disponibilité des ressources. Bien qu'unworkspaceplus grand puisse augmenter le temps de calibration, il permet à TensorRT d'explorer une plus large gamme de tactiques d'optimisation, améliorant potentiellement les performances et la précision du modèle. À l'inverse, unworkspaceplus petit peut réduire le temps de calibration mais limiter les stratégies d'optimisation, affectant la qualité du modèle quantifié. -
La valeur par défaut est
workspace=None, ce qui permettra à TensorRT d'allouer automatiquement la mémoire ; lors d'une configuration manuelle, cette valeur devra peut-être être augmentée si la calibration plante (se ferme sans avertissement). -
TensorRT signalera
UNSUPPORTED_STATEpendant l'exportation si la valeur deworkspaceest supérieure à la mémoire disponible pour l'appareil, ce qui signifie que la valeur pourworkspacedoit être réduite ou définie surNone. -
Si
workspaceest défini sur la valeur maximale et que la calibration échoue/plante, envisage d'utiliserNonepour l'auto-allocation ou de réduire les valeurs deimgszetbatchpour réduire les besoins en mémoire. -
N'oublie pas que la calibration pour l'INT8 est spécifique à chaque appareil ; emprunter un GPU "haut de gamme" pour la calibration pourrait entraîner de mauvaises performances lorsque l'inférence est exécutée sur un autre appareil.
-
-
batch: La taille de lot (batch-size) maximale qui sera utilisée pour l'inférence. Pendant l'inférence, des lots plus petits peuvent être utilisés, mais l'inférence n'acceptera pas de lots plus grands que ce qui est spécifié.
L'utilisation de petits lots peut mener à une mise à l'échelle imprécise pendant la calibration INT8. Cela est dû au fait que le processus s'ajuste en fonction des données qu'il voit. De petits lots peuvent ne pas capturer toute la gamme des valeurs, menant à des problèmes avec la calibration finale. L'utilisation d'une taille de lot plus grande aide à garantir des résultats de calibration plus représentatifs.
L'expérimentation par NVIDIA les a conduits à recommander l'utilisation d'au moins 500 images de calibration représentatives des données de ton modèle avec la calibration de quantification INT8. Il s'agit d'une recommandation et non d'une exigence stricte, et tu devras expérimenter pour savoir ce qui est nécessaire pour obtenir de bonnes performances sur ton jeu de données. Comme les données de calibration sont requises pour la calibration INT8 avec TensorRT, assure-toi d'utiliser l'argument data lorsque int8=True pour TensorRT et utilise data="my_dataset.yaml", ce qui utilisera les images de validation pour calibrer. Lorsqu'aucune valeur n'est passée pour data lors de l'exportation vers TensorRT avec une quantification INT8, la valeur par défaut sera d'utiliser l'un des jeux de données exemples "petits" basés sur la tâche du modèle au lieu de générer une erreur.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(
format="engine",
dynamic=True, # (1)!
batch=8, # (2)!
workspace=4, # (3)!
int8=True,
data="coco.yaml", # (4)!
)
# Load the exported TensorRT INT8 model
model = YOLO("yolo26n.engine", task="detect")
# Run inference
result = model.predict("https://ultralytics.com/images/bus.jpg")- Exportations avec des axes dynamiques ; ceci sera activé par défaut lors de l'exportation avec
int8=True, même si cela n'est pas explicitement défini. Voir les arguments d'exportation pour plus d'informations. - Définit une taille de lot maximale de 8 pour le modèle exporté et la calibration INT8.
- Alloue 4 GiB de mémoire au lieu d'allouer tout l'appareil pour le processus de conversion.
- Utilise le jeu de données COCO pour la calibration, spécifiquement les images utilisées pour la validation (5 000 au total).
Cache de calibration
TensorRT générera un .cache de calibration qui pourra être réutilisé pour accélérer l'exportation future de poids de modèles utilisant les mêmes données, mais cela pourrait entraîner une mauvaise calibration si les données sont très différentes ou si la valeur batch est modifiée de manière drastique. Dans ces circonstances, le .cache existant doit être renommé et déplacé dans un répertoire différent ou supprimé entièrement.
Link to this sectionAvantages de l'utilisation de YOLO avec TensorRT INT8#
-
Taille de modèle réduite : La quantification de FP32 vers INT8 peut réduire la taille du modèle par 4 (sur le disque ou en mémoire), menant à des temps de téléchargement plus rapides, des exigences de stockage plus faibles et une empreinte mémoire réduite lors du déploiement d'un modèle.
-
Consommation d'énergie réduite : Les opérations de précision réduite pour les modèles YOLO exportés en INT8 peuvent consommer moins d'énergie par rapport aux modèles FP32, surtout pour les appareils fonctionnant sur batterie.
-
Vitesses d'inférence améliorées : TensorRT optimise le modèle pour le matériel cible, menant potentiellement à des vitesses d'inférence plus rapides sur les GPU, les appareils embarqués et les accélérateurs.
Note sur les vitesses d'inférence
Les premiers appels d'inférence avec un modèle exporté vers TensorRT INT8 peuvent présenter des temps de prétraitement, d'inférence et/ou de post-traitement plus longs que d'habitude. Cela peut également se produire lors de la modification de imgsz pendant l'inférence, surtout si imgsz n'est pas le même que celui spécifié lors de l'exportation (l'imgsz d'exportation est défini comme le profil "optimal" de TensorRT).
Link to this sectionInconvénients de l'utilisation de YOLO avec TensorRT INT8#
-
Decreases in evaluation metrics: Using a lower precision will mean that
mAP,Precision,Recallor any other metric used to evaluate model performance is likely to be somewhat worse. See the Performance results section to compare the differences inmAP50andmAP50-95when exporting with INT8 on small sample of various devices. -
Augmentation des temps de développement : Trouver les paramètres "optimaux" pour la calibration INT8 pour un jeu de données et un appareil donnés peut demander une quantité significative de tests.
-
Dépendance matérielle : La calibration et les gains de performance peuvent être fortement dépendants du matériel et les poids du modèle sont moins transférables.
Link to this sectionPerformances d'exportation Ultralytics YOLO TensorRT#
Link to this sectionNVIDIA A100#
Testé avec Ubuntu 22.04.3 LTS, python 3.10.12, ultralytics==8.2.4, tensorrt==8.6.1.post1
Voir la documentation sur la détection pour des exemples d'utilisation avec ces modèles entraînés sur COCO, qui incluent 80 classes pré-entraînées.
Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine
| Précision | Test d'évaluation | moyenne (ms) | min | max (ms) | mAPval 50(B) | mAPval 50-95(B) | batch | taille (pixels) |
|---|---|---|---|---|---|---|---|
| FP32 | Predict | 0.52 | 0.51 | 0.56 | 8 | 640 | ||
| FP32 | COCOval | 0.52 | 0.52 | 0.37 | 1 | 640 | |
| FP16 | Predict | 0.34 | 0.34 | 0.41 | 8 | 640 | ||
| FP16 | COCOval | 0.33 | 0.52 | 0.37 | 1 | 640 | |
| INT8 | Predict | 0.28 | 0.27 | 0.31 | 8 | 640 | ||
| INT8 | COCOval | 0.29 | 0.47 | 0.33 | 1 | 640 |
Link to this sectionGPU grand public#
Testé avec Windows 10.0.19045, python 3.10.9, ultralytics==8.2.4, tensorrt==10.0.0b6
Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine
| Précision | Test d'évaluation | moyenne (ms) | min | max (ms) | mAPval 50(B) | mAPval 50-95(B) | batch | taille (pixels) |
|---|---|---|---|---|---|---|---|
| FP32 | Predict | 1.06 | 0.75 | 1.88 | 8 | 640 | ||
| FP32 | COCOval | 1.37 | 0.52 | 0.37 | 1 | 640 | |
| FP16 | Predict | 0.62 | 0.75 | 1.13 | 8 | 640 | ||
| FP16 | COCOval | 0.85 | 0.52 | 0.37 | 1 | 640 | |
| INT8 | Predict | 0.52 | 0.38 | 1.00 | 8 | 640 | ||
| INT8 | COCOval | 0.74 | 0.47 | 0.33 | 1 | 640 |
Link to this sectionAppareils embarqués#
Testé avec JetPack 6.0 (L4T 36.3) Ubuntu 22.04.4 LTS, python 3.10.12, ultralytics==8.2.16, tensorrt==10.0.1
Inference times shown for mean, min (fastest), and max (slowest) for each test using pretrained weights yolov8n.engine
| Précision | Test d'évaluation | moyenne (ms) | min | max (ms) | mAPval 50(B) | mAPval 50-95(B) | batch | taille (pixels) |
|---|---|---|---|---|---|---|---|
| FP32 | Predict | 6.11 | 6.10 | 6.29 | 8 | 640 | ||
| FP32 | COCOval | 6.17 | 0.52 | 0.37 | 1 | 640 | |
| FP16 | Predict | 3.18 | 3.18 | 3.20 | 8 | 640 | ||
| FP16 | COCOval | 3.19 | 0.52 | 0.37 | 1 | 640 | |
| INT8 | Predict | 2.30 | 2.29 | 2.35 | 8 | 640 | ||
| INT8 | COCOval | 2.32 | 0.46 | 0.32 | 1 | 640 |
Consulte notre guide de démarrage rapide sur NVIDIA Jetson avec Ultralytics YOLO pour en savoir plus sur la configuration.
Consulte notre guide de démarrage rapide sur NVIDIA DGX Spark avec Ultralytics YOLO pour en savoir plus sur la configuration.
Link to this sectionMéthodes d'évaluation#
Développe les sections ci-dessous pour obtenir des informations sur la façon dont ces modèles ont été exportés et testés.
Configurations d'exportation
Consulte le mode export pour plus de détails concernant les arguments de configuration d'exportation.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
# TensorRT FP32
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2)
# TensorRT FP16
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, half=True)
# TensorRT INT8 with calibration `data` (i.e. COCO, ImageNet, or DOTAv1 for appropriate model task)
out = model.export(
format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, int8=True, data="coco8.yaml"
)Boucle de prédiction
Consulte le mode prédiction pour des informations supplémentaires.
import cv2
from ultralytics import YOLO
model = YOLO("yolo26n.engine")
img = cv2.imread("path/to/image.jpg")
for _ in range(100):
result = model.predict(
[img] * 8, # batch=8 of the same image
verbose=False,
device="cuda",
)Configuration de la validation
Consulte le mode val pour en savoir plus sur les arguments de configuration de la validation.
from ultralytics import YOLO
model = YOLO("yolo26n.engine")
results = model.val(
data="data.yaml", # COCO, ImageNet, or DOTAv1 for appropriate model task
batch=1,
imgsz=640,
verbose=False,
device="cuda",
)Link to this sectionDéploiement de modèles YOLO26 exportés vers TensorRT#
Après avoir exporté avec succès tes modèles Ultralytics YOLO26 vers le format TensorRT, tu es prêt à les déployer. Pour des instructions approfondies sur le déploiement de tes modèles TensorRT dans divers environnements, jette un œil aux ressources suivantes :
-
Déployer Ultralytics avec un serveur Triton : Notre guide sur l'utilisation du serveur NVIDIA Triton Inference (anciennement TensorRT Inference Server) spécifiquement pour les modèles Ultralytics YOLO.
-
Déploiement de réseaux de neurones profonds avec NVIDIA TensorRT : Cet article explique comment utiliser NVIDIA TensorRT pour déployer efficacement des réseaux de neurones profonds sur des plateformes basées sur GPU.
-
IA de bout en bout pour PC équipés NVIDIA : déploiement NVIDIA TensorRT : Cet article de blog explique l'utilisation de NVIDIA TensorRT pour optimiser et déployer des modèles d'IA sur des PC équipés de NVIDIA.
-
Référentiel GitHub pour NVIDIA TensorRT : : Ceci est le référentiel GitHub officiel qui contient le code source et la documentation pour NVIDIA TensorRT.
Link to this sectionRésumé#
Dans ce guide, nous nous sommes concentrés sur la conversion des modèles Ultralytics YOLO26 vers le format de modèle TensorRT de NVIDIA. Cette étape de conversion est cruciale pour améliorer l'efficacité et la vitesse des modèles YOLO26, les rendant plus performants et adaptés à divers environnements de déploiement.
Pour plus d'informations sur les détails d'utilisation, consulte la documentation officielle de TensorRT.
Si tu es curieux de découvrir d'autres intégrations Ultralytics YOLO26, notre page des guides d'intégration propose une vaste sélection de ressources et d'informations utiles.
Link to this sectionFAQ#
Link to this sectionComment convertir des modèles YOLO26 au format TensorRT ?#
Pour convertir tes modèles Ultralytics YOLO26 au format TensorRT pour une inférence optimisée sur GPU NVIDIA, suis ces étapes :
-
Installe le package requis :
pip install ultralytics -
Exporte ton modèle YOLO26 :
from ultralytics import YOLO model = YOLO("yolo26n.pt") model.export(format="engine") # creates 'yolo26n.engine' # Run inference model = YOLO("yolo26n.engine") results = model("https://ultralytics.com/images/bus.jpg")
Pour plus de détails, visite le guide d'installation YOLO26 et la documentation d'exportation.
Link to this sectionQuels sont les avantages d'utiliser TensorRT pour les modèles YOLO26 ?#
Utiliser TensorRT pour optimiser les modèles YOLO26 offre plusieurs avantages :
- Vitesse d'inférence plus rapide : TensorRT optimise les couches du modèle et utilise une calibration de précision (INT8 et FP16) pour accélérer l'inférence sans sacrifier significativement la précision.
- Efficacité de la mémoire : TensorRT gère dynamiquement la mémoire des tenseurs, réduisant la surcharge et améliorant l'utilisation de la mémoire GPU.
- Fusion de couches : Combine plusieurs couches en opérations uniques, réduisant la complexité computationnelle.
- Auto-tuning des noyaux (kernels) : Sélectionne automatiquement les noyaux GPU optimisés pour chaque couche de modèle, assurant une performance maximale.
Pour en savoir plus, explore la documentation officielle de TensorRT par NVIDIA et notre présentation approfondie de TensorRT.
Link to this sectionPuis-je utiliser la quantification INT8 avec TensorRT pour les modèles YOLO26 ?#
Oui, tu peux exporter des modèles YOLO26 en utilisant TensorRT avec la quantification INT8. Ce processus implique une quantification post-entraînement (PTQ) et une calibration :
-
Exporter avec INT8 :
from ultralytics import YOLO model = YOLO("yolo26n.pt") model.export(format="engine", batch=8, workspace=4, int8=True, data="coco.yaml") -
Exécuter l'inférence :
from ultralytics import YOLO model = YOLO("yolo26n.engine", task="detect") result = model.predict("https://ultralytics.com/images/bus.jpg")
Pour plus de détails, reporte-toi à la section sur l'exportation TensorRT avec quantification INT8.
Link to this sectionComment déployer des modèles YOLO26 TensorRT sur un serveur NVIDIA Triton Inference Server ?#
Le déploiement de modèles YOLO26 TensorRT sur un serveur NVIDIA Triton Inference Server peut être réalisé en utilisant les ressources suivantes :
- Déployer Ultralytics YOLO26 avec Triton Server : Conseils étape par étape sur la configuration et l'utilisation de Triton Inference Server.
- Déploiement de réseaux de neurones profonds avec NVIDIA TensorRT : Guide de NVIDIA sur le déploiement de modèles d'apprentissage profond avec TensorRT pour des options et configurations détaillées.
Ces guides t'aideront à intégrer efficacement les modèles YOLO26 dans divers environnements de déploiement.
Link to this sectionQuelles sont les améliorations de performance observées avec les modèles YOLO26 exportés vers TensorRT ?#
Les améliorations de performance avec TensorRT peuvent varier en fonction du matériel utilisé. Voici quelques benchmarks typiques :
-
NVIDIA A100 :
- Inférence FP32 : ~0,52 ms / image
- Inférence FP16 : ~0,34 ms / image
- Inférence INT8 : ~0,28 ms / image
- Légère réduction de la mAP avec la précision INT8, mais amélioration significative de la vitesse.
-
GPU grand public (ex: RTX 3080) :
- Inférence FP32 : ~1,06 ms / image
- Inférence FP16 : ~0,62 ms / image
- Inférence INT8 : ~0,52 ms / image
Des benchmarks de performance détaillés pour différentes configurations matérielles peuvent être trouvés dans la section performance.
Pour des informations plus complètes sur les performances de TensorRT, consulte la documentation Ultralytics et nos rapports d'analyse de performance.