TensorRT Exportação para YOLO11 Modelos

Q: What are the benefits of using TensorRT for YOLO11 models?

A utilização de TensorRT para otimizar os modelos de YOLO11 oferece várias vantagens: Para mais informações, explore as caraterísticas detalhadas de TensorRT aqui e leia a nossa secção de visão geral de TensorRT .

A implantação de modelos de visão computacional em ambientes de alto desempenho pode exigir um formato que maximize a velocidade e a eficiência. Isto é especialmente verdadeiro quando está a implementar o seu modelo em NVIDIA GPUs.

Ao utilizar o formato de exportação TensorRT , pode melhorar os seus Ultralytics YOLO11 modelos para uma inferência rápida e eficiente no hardware NVIDIA . Este guia fornece-lhe passos fáceis de seguir para o processo de conversão e ajuda-o a tirar o máximo partido da tecnologia avançada do NVIDIA nos seus projectos de aprendizagem profunda.

TensorRT

TensorRT Visão geral

TensorRT, desenvolvido por NVIDIA, é um kit de desenvolvimento de software (SDK) avançado concebido para inferência de aprendizagem profunda a alta velocidade. É adequado para aplicações em tempo real, como a deteção de objectos.

Este kit de ferramentas optimiza os modelos de aprendizagem profunda para NVIDIA GPUs e resulta em operações mais rápidas e eficientes. Os modelos TensorRT são submetidos à otimização TensorRT , que inclui técnicas como a fusão de camadas, calibração de precisão (INT8 e FP16), gestão dinâmica da memória tensor e afinação automática do kernel. A conversão de modelos de aprendizagem profunda para o formato TensorRT permite aos programadores tirar o máximo partido do potencial das NVIDIA GPUs.

TensorRT é conhecido por sua compatibilidade com vários formatos de modelo, incluindo TensorFlow, PyTorche ONNX, proporcionando aos programadores uma solução flexível para integrar e otimizar modelos de diferentes estruturas. Essa versatilidade permite a implantação eficiente de modelos em diversos ambientes de hardware e software.

Principais caraterísticas dos modelos TensorRT

TensorRT oferecem uma série de caraterísticas-chave que contribuem para a sua eficiência e eficácia na inferência de aprendizagem profunda a alta velocidade:

Calibração de precisão: TensorRT suporta calibração de precisão, permitindo que os modelos sejam ajustados para requisitos de precisão específicos. Isto inclui suporte para formatos de precisão reduzida como INT8 e FP16, que podem aumentar ainda mais a velocidade de inferência, mantendo níveis de precisão aceitáveis.
Fusão de camadas: O processo de otimização TensorRT inclui a fusão de camadas, em que várias camadas de uma rede neuronal são combinadas numa única operação. Isso reduz a sobrecarga computacional e melhora a velocidade de inferência, minimizando o acesso à memória e a computação.

TensorRT Fusão de camadas

Gestão dinâmica da memória Tensor : TensorRT gere eficazmente a utilização da memória tensor durante a inferência, reduzindo a sobrecarga de memória e optimizando a atribuição de memória. Isto resulta numa utilização mais eficiente da memória GPU .
Ajuste automático do kernel: TensorRT aplica o ajuste automático do kernel para selecionar o kernel GPU mais optimizado para cada camada do modelo. Essa abordagem adaptativa garante que o modelo aproveite ao máximo o poder computacional das GPUs.

Opções de implantação em TensorRT

Antes de analisarmos o código para exportar os modelos YOLO11 para o formato TensorRT , vamos compreender onde os modelos TensorRT são normalmente utilizados.

TensorRT oferece várias opções de implementação, e cada opção equilibra a facilidade de integração, a otimização do desempenho e a flexibilidade de forma diferente:

Implementando dentro de TensorFlow: Este método integra TensorRT em TensorFlow, permitindo que modelos otimizados sejam executados em um ambiente familiar TensorFlow . É útil para modelos com uma mistura de camadas suportadas e não suportadas, pois TF-TRT pode lidar com elas de forma eficiente.

TensorRT Visão geral

Autónomo TensorRT API de tempo de execução: Oferece controlo granular, ideal para aplicações de desempenho crítico. É mais complexa, mas permite a implementação personalizada de operadores não suportados.
NVIDIA Triton Servidor de inferência: Uma opção que suporta modelos de várias estruturas. Particularmente adequado para inferência na nuvem ou na borda, ele fornece recursos como execução simultânea de modelos e análise de modelos.

Exportação de modelos YOLO11 para TensorRT

É possível melhorar a eficiência da execução e otimizar o desempenho convertendo os modelos YOLO11 para o formato TensorRT .

Instalação

Para instalar o pacote necessário, execute:

Instalação

CLI

# Install the required package for YOLO11
pip install ultralytics

Para obter instruções detalhadas e melhores práticas relacionadas com o processo de instalação, consulte o nosso guia de instalaçãoYOLO11 . Ao instalar os pacotes necessários para YOLO11, se encontrar alguma dificuldade, consulte o nosso guia de Problemas comuns para obter soluções e dicas.

Utilização

Antes de se debruçar sobre as instruções de utilização, não deixe de consultar a gama de modelosYOLO11 propostos por Ultralytics. Isto ajudá-lo-á a escolher o modelo mais adequado às necessidades do seu projeto.

Utilização

PythonCLI

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT format
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
tensorrt_model = YOLO("yolo11n.engine")

# Run inference
results = tensorrt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine''

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

Argumentos de exportação

Argumento	Tipo	Predefinição	Descrição
`format`	`str`	`'engine'`	Formato de destino para o modelo exportado, definindo a compatibilidade com vários ambientes de implantação.
`imgsz`	`int` ou `tuple`	`640`	Tamanho de imagem pretendido para a entrada do modelo. Pode ser um número inteiro para imagens quadradas ou uma tupla `(height, width)` para dimensões específicas.
`half`	`bool`	`False`	Permite a quantização FP16 (meia-precisão), reduzindo o tamanho do modelo e potencialmente acelerando a inferência no hardware suportado.
`int8`	`bool`	`False`	Ativa a quantização INT8, comprimindo ainda mais o modelo e acelerando a inferência com uma perda mínima de precisão, principalmente para dispositivos de borda.
`dynamic`	`bool`	`False`	Permite tamanhos de entrada dinâmicos, aumentando a flexibilidade no tratamento de dimensões de imagem variáveis.
`simplify`	`bool`	`True`	Simplifica o gráfico do modelo com `onnxslim`, melhorando potencialmente o desempenho e a compatibilidade.
`workspace`	`float` ou `None`	`None`	Define o tamanho máximo do espaço de trabalho em GiB para optimizações do TensorRT , equilibrando a utilização da memória e o desempenho; utilize `None` para atribuição automática por TensorRT até ao máximo do dispositivo.
`nms`	`bool`	`False`	Adiciona Supressão Não Máxima (NMS), essencial para um pós-processamento de deteção preciso e eficiente.
`batch`	`int`	`1`	Especifica o tamanho da inferência em lote do modelo de exportação ou o número máximo de imagens que o modelo exportado irá processar em simultâneo em `predict` modo.
`data`	`str`	`'coco8.yaml'`	Caminho para o conjunto de dados ficheiro de configuração (predefinição: `coco8.yaml`), essencial para a quantização.

Para mais informações sobre o processo de exportação, visite a página de documentaçãoUltralytics sobre exportação.

Exportação de TensorRT com quantização INT8

A exportação de modelos Ultralytics YOLO utilizando TensorRT com precisão INT8 executa a quantização pós-treino (PTQ). TensorRT utiliza a calibração para PTQ, que mede a distribuição de activações dentro de cada ativação tensor à medida que o modelo YOLO processa a inferência em dados de entrada representativos e, em seguida, utiliza essa distribuição para estimar valores de escala para cada tensor. Cada ativação tensor candidata a quantização tem uma escala associada que é deduzida por um processo de calibração.

Ao processar redes implicitamente quantizadas, o TensorRT utiliza a INT8 de forma oportuna para otimizar o tempo de execução das camadas. Se uma camada funcionar mais rapidamente em INT8 e tiver atribuído escalas de quantização às suas entradas e saídas de dados, é-lhe atribuído um kernel com precisão INT8; caso contrário, TensorRT seleciona uma precisão de FP32 ou FP16 para o kernel com base no que resultar num tempo de execução mais rápido para essa camada.

Dica

É fundamental garantir que o mesmo dispositivo que irá utilizar os pesos do modelo TensorRT para a implantação seja utilizado para exportar com precisão INT8, uma vez que os resultados da calibração podem variar entre dispositivos.

Configuração da exportação INT8

Os argumentos fornecidos quando se utiliza exportação para um modelo Ultralytics YOLO muito influenciam o desempenho do modelo exportado. Também terão de ser selecionados com base nos recursos disponíveis do dispositivo, mas os argumentos predefinidos deve funcionam para a maioria Ampere (ou mais recente) NVIDIA GPUs discretas. O algoritmo de calibração utilizado é "ENTROPY_CALIBRATION_2" e pode ler mais pormenores sobre as opções disponíveis no TensorRT Developer Guide. Ultralytics testes revelaram que "ENTROPY_CALIBRATION_2" foi a melhor escolha e as exportações estão fixadas na utilização deste algoritmo.

workspace : Controla o tamanho (em GiB) da atribuição de memória do dispositivo durante a conversão dos pesos do modelo.
- Ajustar o workspace de acordo com as suas necessidades de calibração e disponibilidade de recursos. Embora um valor maior workspace pode aumentar o tempo de calibração, permite ao TensorRT explorar uma gama mais vasta de tácticas de otimização, melhorando potencialmente o desempenho do modelo e exatidão. Inversamente, um menor workspace pode reduzir o tempo de calibração, mas pode limitar as estratégias de otimização, afectando a qualidade do modelo quantizado.
- A predefinição é workspace=Noneque permitirá que o TensorRT atribua automaticamente a memória; ao configurar manualmente, este valor pode ter de ser aumentado se a calibração falhar (sair sem aviso).
- TensorRT comunicará UNSUPPORTED_STATE durante a exportação se o valor de workspace é maior do que a memória disponível no dispositivo, o que significa que o valor para workspace deve ser reduzido ou fixado em None.
- Se workspace estiver definido para o valor máximo e a calibração falhar, considere a utilização de None para atribuição automática ou reduzindo os valores de imgsz e batch para reduzir os requisitos de memória.
- Lembre-se de que a calibração da INT8 é específica de cada dispositivo, pelo que a utilização de um dispositivo "topo de gama" GPU para calibração pode resultar num desempenho deficiente quando a inferência é executada noutro dispositivo.
batch : O tamanho máximo do lote que será utilizado para a inferência. Durante a inferência, podem ser utilizados lotes mais pequenos, mas a inferência não aceitará lotes maiores do que o especificado.

Nota

Durante a calibração, duas vezes o batch O tamanho fornecido será utilizado. A utilização de pequenos lotes pode levar a um escalonamento impreciso durante a calibragem. Isto deve-se ao facto de o processo se ajustar com base nos dados que vê. Os lotes pequenos podem não captar a gama completa de valores, o que pode causar problemas na calibragem final. batch é duplicado automaticamente. Se não houver tamanho do lote é especificado batch=1, a calibração será efectuada a batch=1 * 2 para reduzir os erros de escala de calibração.

As experiências efectuadas por NVIDIA levaram-nos a recomendar a utilização de, pelo menos, 500 imagens de calibração representativas dos dados do seu modelo, com calibração de quantização INT8. Esta é uma diretriz e não uma duro requisito, e terá de experimentar o que é necessário para obter um bom desempenho para o seu conjunto de dados. Uma vez que os dados de calibração são necessários para a calibração INT8 com TensorRT, certifique-se de que utiliza o data argumento quando int8=True para TensorRT e utilizar data="my_dataset.yaml", que utilizará as imagens de validação para calibrar. Quando não é passado nenhum valor para data com exportação para TensorRT com quantização INT8, a predefinição será a utilização de um dos "pequenos" conjuntos de dados de exemplo baseados na tarefa modelo em vez de lançar um erro.

Exemplo

PythonCLI

from ultralytics import YOLO

model = YOLO("yolov8n.pt")
model.export(
    format="engine",
    dynamic=True,  Exportações com eixos dinâmicos, esta opção será activada por defeito ao exportar com int8=True mesmo que não esteja explicitamente definido. Ver argumentos de exportação para mais informações.

    batch=8,  Define um tamanho máximo de lote de 8 para o modelo exportado, que calibra com batch = 2 * 8 para evitar erros de escala durante a calibração.

    workspace=4,  Atribui 4 GiB de memória em vez de atribuir todo o dispositivo para o processo de conversão.

    int8=True,
    data="coco.yaml",  Utiliza o conjunto de dados COCO para calibração, especificamente as imagens utilizadas para validação (5.000 no total).

)

# Load the exported TensorRT INT8 model
model = YOLO("yolov8n.engine", task="detect")

# Run inference
result = model.predict("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format with INT8 quantization
yolo export model=yolo11n.pt format=engine batch=8 workspace=4 int8=True data=coco.yaml # creates 'yolov8n.engine''

# Run inference with the exported TensorRT quantized model
yolo predict model=yolov8n.engine source='https://ultralytics.com/images/bus.jpg'

Cache de calibração

TensorRT irá gerar uma calibração .cache que pode ser reutilizado para acelerar a exportação de futuros pesos do modelo utilizando os mesmos dados, mas isto pode resultar numa calibração deficiente quando os dados são muito diferentes ou se o batch é alterado drasticamente. Nestas circunstâncias, o .cache deve ser renomeado e movido para um diretório diferente ou eliminado por completo.

Vantagens da utilização de YOLO com TensorRT INT8

Redução do tamanho do modelo: A quantização de FP32 para INT8 pode reduzir o tamanho do modelo em 4x (no disco ou na memória), levando a tempos de descarregamento mais rápidos, menores requisitos de armazenamento e menor espaço de memória ao implantar um modelo.
Menor consumo de energia: Operações de precisão reduzida para modelos INT8 exportados para YOLO podem consumir menos energia em comparação com modelos FP32, especialmente para dispositivos alimentados por bateria.
Velocidades de inferência melhoradas: TensorRT optimiza o modelo para o hardware de destino, o que pode levar a velocidades de inferência mais rápidas em GPUs, dispositivos incorporados e aceleradores.

Nota sobre as velocidades de inferência

É de esperar que as primeiras chamadas de inferência com um modelo exportado para TensorRT INT8 tenham tempos de pré-processamento, inferência e/ou pós-processamento mais longos do que o habitual. Isto também pode ocorrer quando se altera imgsz durante a inferência, especialmente quando imgsz não é o mesmo que foi especificado durante a exportação (exportar imgsz é definido como TensorRT perfil "ótimo").

Desvantagens da utilização de YOLO com TensorRT INT8

Diminuição dos parâmetros de avaliação: A utilização de uma precisão inferior significa que mAP, Precision, Recall ou qualquer outra métrica utilizada para avaliar o desempenho do modelo é suscetível de ser um pouco pior. Ver o Secção de resultados de desempenho para comparar as diferenças de mAP50 e mAP50-95 ao exportar com INT8 numa pequena amostra de vários dispositivos.
Aumento do tempo de desenvolvimento: Encontrar as definições "óptimas" para a calibração da INT8 para o conjunto de dados e o dispositivo pode exigir uma quantidade significativa de testes.
Dependência de hardware: A calibração e os ganhos de desempenho podem ser altamente dependentes do hardware e os pesos dos modelos são menos transferíveis.

Ultralytics YOLO TensorRT Desempenho das exportações

NVIDIA A100

Desempenho

Testado com o Ubuntu 22.04.3 LTS, python 3.10.12, ultralytics==8.2.4, tensorrt==8.6.1.post1

Deteção (COCO)Segmentação (COCO)Classificação (ImageNet)Pose (COCO)OBB (DOTAv1)

Consulte os Documentos de deteção para obter exemplos de utilização com estes modelos treinados em COCO, que incluem 80 classes pré-treinadas.

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	`batch`	tamanho ^(pixéis)
FP32	Prever	0.52	0.51 \| 0.56			8	640
FP32	^COCOval	0.52		0.52	0.37	1	640
FP16	Prever	0.34	0.34 \| 0.41			8	640
FP16	^COCOval	0.33		0.52	0.37	1	640
INT8	Prever	0.28	0.27 \| 0.31			8	640
INT8	^COCOval	0.29		0.47	0.33	1	640

Consulte os documentos de segmentação para obter exemplos de uso com esses modelos treinados no COCO, que incluem 80 classes pré-treinadas.

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n-seg.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	mAPval^50(M)	mAPval^50-95(M)	`batch`	tamanho ^(pixéis)
FP32	Prever	0.62	0.61 \| 0.68					8	640
FP32	^COCOval	0.63		0.52	0.36	0.49	0.31	1	640
FP16	Prever	0.40	0.39 \| 0.44					8	640
FP16	^COCOval	0.43		0.52	0.36	0.49	0.30	1	640
INT8	Prever	0.34	0.33 \| 0.37					8	640
INT8	^COCOval	0.36		0.46	0.32	0.43	0.27	1	640

Consulte os documentos de classificação para obter exemplos de utilização com estes modelos treinados no ImageNet, que incluem 1000 classes pré-treinadas.

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n-cls.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	topo-1	top-5	`batch`	tamanho ^(pixéis)
FP32	Prever	0.26	0.25 \| 0.28			8	640
FP32	^ImageNetval	0.26		0.35	0.61	1	640
FP16	Prever	0.18	0.17 \| 0.19			8	640
FP16	^ImageNetval	0.18		0.35	0.61	1	640
INT8	Prever	0.16	0.15 \| 0.57			8	640
INT8	^ImageNetval	0.15		0.32	0.59	1	640

Consulte os documentos de estimativa de pose para obter exemplos de utilização com estes modelos treinados em COCO, que incluem uma classe pré-treinada, "pessoa".

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n-pose.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	mAPval^50(P)	mAPval^50-95(P)	`batch`	tamanho ^(pixéis)
FP32	Prever	0.54	0.53 \| 0.58					8	640
FP32	^COCOval	0.55		0.91	0.69	0.80	0.51	1	640
FP16	Prever	0.37	0.35 \| 0.41					8	640
FP16	^COCOval	0.36		0.91	0.69	0.80	0.51	1	640
INT8	Prever	0.29	0.28 \| 0.33					8	640
INT8	^COCOval	0.30		0.90	0.68	0.78	0.47	1	640

Consulte os documentos de deteção orientada para obter exemplos de utilização com estes modelos treinados no DOTAv1, que incluem 15 classes pré-treinadas.

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n-obb.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	`batch`	tamanho ^(pixéis)
FP32	Prever	0.52	0.51 \| 0.59			8	640
FP32	^DOTAv1val	0.76		0.50	0.36	1	640
FP16	Prever	0.34	0.33 \| 0.42			8	640
FP16	^DOTAv1val	0.59		0.50	0.36	1	640
INT8	Prever	0.29	0.28 \| 0.33			8	640
INT8	^DOTAv1val	0.32		0.45	0.32	1	640

GPUs de consumo

Desempenho de deteção (COCO)

RTX 3080 12 GBRTX 3060 12 GBRTX 2060 6 GB

Testado com o Windows 10.0.19045, python 3.10.9, ultralytics==8.2.4, tensorrt==10.0.0b6

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	`batch`	tamanho ^(pixéis)
FP32	Prever	1.06	0.75 \| 1.88			8	640
FP32	^COCOval	1.37		0.52	0.37	1	640
FP16	Prever	0.62	0.75 \| 1.13			8	640
FP16	^COCOval	0.85		0.52	0.37	1	640
INT8	Prever	0.52	0.38 \| 1.00			8	640
INT8	^COCOval	0.74		0.47	0.33	1	640

Testado com o Windows 10.0.22631, python 3.11.9, ultralytics==8.2.4, tensorrt==10.0.1

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	`batch`	tamanho ^(pixéis)
FP32	Prever	1.76	1.69 \| 1.87			8	640
FP32	^COCOval	1.94		0.52	0.37	1	640
FP16	Prever	0.86	0.75 \| 1.00			8	640
FP16	^COCOval	1.43		0.52	0.37	1	640
INT8	Prever	0.80	0.75 \| 1.00			8	640
INT8	^COCOval	1.35		0.47	0.33	1	640

Testado com o Pop!_OS 22.04 LTS, python 3.10.12, ultralytics==8.2.4, tensorrt==8.6.1.post1

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	`batch`	tamanho ^(pixéis)
FP32	Prever	2.84	2.84 \| 2.85			8	640
FP32	^COCOval	2.94		0.52	0.37	1	640
FP16	Prever	1.09	1.09 \| 1.10			8	640
FP16	^COCOval	1.20		0.52	0.37	1	640
INT8	Prever	0.75	0.74 \| 0.75			8	640
INT8	^COCOval	0.76		0.47	0.33	1	640

Dispositivos incorporados

Desempenho de deteção (COCO)

Jetson Orin NX 16GB

Testado com JetPack 6.0 (L4T 36.3) Ubuntu 22.04.4 LTS, python 3.10.12, ultralytics==8.2.16, tensorrt==10.0.1

Nota

Tempos de inferência apresentados para mean, min (mais rápido), e max (mais lento) para cada teste utilizando pesos pré-treinados yolov8n.engine

Precisão	Teste de avaliação	média (ms)	min \| max (ms)	mAPval^50(B)	mAPval^50-95(B)	`batch`	tamanho ^(pixéis)
FP32	Prever	6.11	6.10 \| 6.29			8	640
FP32	^COCOval	6.17		0.52	0.37	1	640
FP16	Prever	3.18	3.18 \| 3.20			8	640
FP16	^COCOval	3.19		0.52	0.37	1	640
INT8	Prever	2.30	2.29 \| 2.35			8	640
INT8	^COCOval	2.32		0.46	0.32	1	640

Informações

Consulte o nosso guia de início rápido em NVIDIA Jetson com Ultralytics YOLO para saber mais sobre a instalação e a configuração.

Métodos de avaliação

Expandir as secções abaixo para obter informações sobre a forma como estes modelos foram exportados e testados.

Exportar configurações

Consulte o modo de exportação para obter detalhes sobre os argumentos de configuração de exportação.

from ultralytics import YOLO

model = YOLO("yolov8n.pt")

# TensorRT FP32
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2)

# TensorRT FP16
out = model.export(format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, half=True)

# TensorRT INT8 with calibration `data` (i.e. COCO, ImageNet, or DOTAv1 for appropriate model task)
out = model.export(
    format="engine", imgsz=640, dynamic=True, verbose=False, batch=8, workspace=2, int8=True, data="coco8.yaml"
)

Prever laço

Ver modo de previsão para mais informações.

import cv2

from ultralytics import YOLO

model = YOLO("yolov8n.engine")
img = cv2.imread("path/to/image.jpg")

for _ in range(100):
    result = model.predict(
        [img] * 8,  # batch=8 of the same image
        verbose=False,
        device="cuda",
    )

Configuração da validação

Ver val modo para saber mais sobre argumentos de configuração de validação.

from ultralytics import YOLO

model = YOLO("yolov8n.engine")
results = model.val(
    data="data.yaml",  # COCO, ImageNet, or DOTAv1 for appropriate model task
    batch=1,
    imgsz=640,
    verbose=False,
    device="cuda",
)

Implantação de modelos exportados YOLO11 TensorRT

Depois de exportar com êxito seus modelos Ultralytics YOLO11 para o formato TensorRT , agora você está pronto para implantá-los. Para obter instruções detalhadas sobre a implantação dos modelos TensorRT em várias configurações, consulte os seguintes recursos:

Implantar Ultralytics com um servidor Triton : O nosso guia sobre como utilizar o servidor NVIDIA's Triton Inference (anteriormente TensorRT Inference) especificamente para utilização com modelos Ultralytics YOLO .
Implantação de redes neurais profundas com NVIDIA TensorRT: Este artigo explica como usar NVIDIA TensorRT para implantar redes neurais profundas em plataformas de implantação baseadas em GPU de forma eficiente.
IA de ponta a ponta para PCs baseados em NVIDIA: NVIDIA TensorRT Implantação: Esta postagem do blog explica o uso de NVIDIA TensorRT para otimizar e implantar modelos de IA em PCs baseados em NVIDIA.
Repositório GitHub para NVIDIA TensorRT :: Este é o repositório oficial do GitHub que contém o código-fonte e a documentação para NVIDIA TensorRT .

Resumo

Neste guia, concentramo-nos na conversão dos modelos Ultralytics YOLO11 para o formato de modelo TensorRT de NVIDIA. Esta etapa de conversão é crucial para melhorar a eficiência e a velocidade dos modelos YOLO11 , tornando-os mais eficazes e adequados para diversos ambientes de implantação.

Para obter mais informações sobre os detalhes de utilização, consulte a documentação oficialTensorRT .

Se tiver curiosidade em saber mais sobre integrações adicionais em Ultralytics YOLO11 , a nossa página de guia de integração fornece uma vasta seleção de recursos informativos e conhecimentos.

FAQ

Como é que converto os modelos YOLO11 para o formato TensorRT ?

Para converter os seus modelos Ultralytics YOLO11 para o formato TensorRT para uma inferência optimizada NVIDIA GPU , siga estes passos:

Instalar o pacote necessário:
```
pip install ultralytics
```

Exporte o seu modelo YOLO11 :

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
model.export(format="engine")  # creates 'yolo11n.engine'

# Run inference
model = YOLO("yolo11n.engine")
results = model("https://ultralytics.com/images/bus.jpg")

Para mais pormenores, consulte o guia de instalaçãoYOLO11 e a documentação de exportação.

Quais são as vantagens de utilizar TensorRT para os modelos YOLO11 ?

A utilização do TensorRT para otimizar os modelos do YOLO11 oferece várias vantagens:

Velocidade de inferência mais rápida: TensorRT optimiza as camadas do modelo e utiliza a calibração de precisão (INT8 e FP16) para acelerar a inferência sem sacrificar significativamente a precisão.
Eficiência da memória: TensorRT gere a memória tensor dinamicamente, reduzindo as despesas gerais e melhorando a utilização da memória GPU .
Fusão de camadas: Combina várias camadas em operações únicas, reduzindo a complexidade computacional.
Auto-ajuste do kernel: Seleciona automaticamente os kernels GPU optimizados para cada camada do modelo, assegurando o máximo desempenho.

Para mais informações, explore as caraterísticas detalhadas de TensorRT aqui e leia a nossa secção de visão geral deTensorRT .

Posso utilizar a quantização INT8 com TensorRT para modelos YOLO11 ?

Sim, é possível exportar modelos YOLO11 utilizando TensorRT com quantização INT8. Este processo envolve a quantização pós-formação (PTQ) e a calibração:

Exportar com INT8:

from ultralytics import YOLO

model = YOLO("yolov8n.pt")
model.export(format="engine", batch=8, workspace=4, int8=True, data="coco.yaml")

Executar inferência:

from ultralytics import YOLO

model = YOLO("yolov8n.engine", task="detect")
result = model.predict("https://ultralytics.com/images/bus.jpg")

Para mais pormenores, consulte a secção de exportação TensorRT com quantização INT8.

Como posso implementar modelos YOLO11 TensorRT num servidor de inferência NVIDIA Triton ?

A implantação de modelos YOLO11 TensorRT em um servidor de inferência NVIDIA Triton pode ser feita usando os seguintes recursos:

Implementar Ultralytics YOLOv8 com o servidor Triton : Orientação passo a passo sobre a configuração e utilização do Servidor de Inferência Triton .
NVIDIA Triton Documentação do servidor de inferência: Documentação oficial do NVIDIA para opções e configurações de implantação detalhadas.

Estes guias ajudá-lo-ão a integrar eficazmente os modelos YOLOv8 em vários ambientes de implementação.

Quais são as melhorias de desempenho observadas com os modelos YOLOv8 exportados para TensorRT?

As melhorias de desempenho com TensorRT podem variar consoante o hardware utilizado. Aqui estão alguns benchmarks típicos:

NVIDIA A100:
- Inferência FP32: ~0,52 ms / imagem
- Inferência FP16: ~0,34 ms / imagem
- Inferência INT8: ~0,28 ms / imagem
- Ligeira redução do mAP com precisão INT8, mas melhoria significativa da velocidade.
GPUs de consumo (por exemplo, RTX 3080):
- Inferência FP32: ~1,06 ms / imagem
- Inferência FP16: ~0,62 ms / imagem
- Inferência INT8: ~0,52 ms / imagem

Na secção de desempenho podem ser encontradas referências de desempenho detalhadas para diferentes configurações de hardware.

Para obter informações mais completas sobre o desempenho do TensorRT , consulte a documentação doUltralytics e os nossos relatórios de análise de desempenho.

📅C riado há 1 ano ✏️ Atualizado há 4 dias

TensorRT Exportação para YOLO11 Modelos

TensorRT

Principais caraterísticas dos modelos TensorRT

Opções de implantação em TensorRT

Exportação de modelos YOLO11 para TensorRT

Instalação

Utilização

Argumentos de exportação

Exportação de TensorRT com quantização INT8

Configuração da exportação INT8

Vantagens da utilização de YOLO com TensorRT INT8

Desvantagens da utilização de YOLO com TensorRT INT8

Ultralytics YOLO TensorRT Desempenho das exportações

NVIDIA A100

GPUs de consumo

Dispositivos incorporados

Métodos de avaliação

Implantação de modelos exportados YOLO11 TensorRT

Resumo

FAQ

Como é que converto os modelos YOLO11 para o formato TensorRT ?

Quais são as vantagens de utilizar TensorRT para os modelos YOLO11 ?

Posso utilizar a quantização INT8 com TensorRT para modelos YOLO11 ?

Como posso implementar modelos YOLO11 TensorRT num servidor de inferência NVIDIA Triton ?

Quais são as melhorias de desempenho observadas com os modelos YOLOv8 exportados para TensorRT?

Comentários