Ultralytics YOLO26 no NVIDIA Jetson usando DeepStream SDK e TensorRT



Watch: How to use Ultralytics YOLO26 models with NVIDIA Deepstream on Jetson Orin NX 🚀

Este guia completo fornece um passo a passo detalhado para implantar o Ultralytics YOLO26 em dispositivos NVIDIA Jetson usando DeepStream SDK e TensorRT. Aqui, usamos o TensorRT para maximizar o desempenho de inferência na plataforma Jetson.

NVIDIA DeepStream SDK on Jetson platform
Nota

Este guia foi testado com o NVIDIA Jetson Orin Nano Super Developer Kit rodando a versão estável mais recente do JetPack JP6.1, o Seeed Studio reComputer J4012 que é baseado no NVIDIA Jetson Orin NX 16GB rodando a versão do JetPack JP5.1.3 e o Seeed Studio reComputer J1020 v2 que é baseado no NVIDIA Jetson Nano 4GB rodando a versão do JetPack JP4.6.4. Espera-se que funcione em toda a linha de hardware NVIDIA Jetson, incluindo modelos recentes e legados.

O que é o NVIDIA DeepStream?

O DeepStream SDK da NVIDIA é um kit de ferramentas de análise de streaming completo, baseado em GStreamer, para processamento multissensor baseado em IA, compreensão de vídeo, áudio e imagem. É ideal para desenvolvedores de visão computacional (Vision AI), parceiros de software, startups e OEMs que constroem aplicativos e serviços de IVA (Intelligent Video Analytics). Agora você pode criar pipelines de processamento de stream que incorporam redes neurais e outras tarefas de processamento complexas, como rastreamento, codificação/decodificação de vídeo e renderização de vídeo. Esses pipelines permitem análises em tempo real de dados de vídeo, imagem e sensores. O suporte multiplataforma do DeepStream oferece uma maneira mais rápida e fácil de desenvolver aplicativos e serviços de visão computacional localmente, na borda (edge) e na nuvem.

Pré-requisitos

Antes de começar a seguir este guia:

Dica

Neste guia, usamos o método de pacote Debian para instalar o DeepStream SDK no dispositivo Jetson. Você também pode visitar o DeepStream SDK no Jetson (Arquivado) para acessar versões legadas do DeepStream.

Configuração do DeepStream para YOLO26

Aqui estamos usando o repositório do GitHub marcoslucianops/DeepStream-Yolo, que inclui suporte do NVIDIA DeepStream SDK para modelos YOLO. Agradecemos os esforços de marcoslucianops por suas contribuições!

  1. Instale o Ultralytics com as dependências necessárias

    cd ~
    pip install -U pip
    git clone https://github.com/ultralytics/ultralytics
    cd ultralytics
    pip install -e ".[export]" onnxslim
  2. Clone o repositório DeepStream-Yolo

    cd ~
    git clone https://github.com/marcoslucianops/DeepStream-Yolo
  3. Copie o arquivo export_yolo26.py do diretório DeepStream-Yolo/utils para a pasta ultralytics

    cp ~/DeepStream-Yolo/utils/export_yolo26.py ~/ultralytics
    cd ultralytics
  4. Baixe o modelo de detecção Ultralytics YOLO26 (.pt) de sua escolha a partir das versões do YOLO26. Aqui usamos yolo26s.pt.

    wget https://github.com/ultralytics/assets/releases/download/v8.4.0/yolo26s.pt
Nota

Você também pode usar um modelo YOLO26 treinado personalizado.

  1. Converta o modelo para ONNX

    python3 export_yolo26.py -w yolo26s.pt
Passe os argumentos abaixo para o comando acima

Para o DeepStream 5.1, remova o argumento --dynamic e use opset 12 ou inferior. O opset padrão é 17.

--opset 12

Para alterar o tamanho da inferência (padrão: 640)

-s SIZE
--size SIZE
-s HEIGHT WIDTH
--size HEIGHT WIDTH

Exemplo para 1280:

-s 1280
or
-s 1280 1280

Para simplificar o modelo ONNX (DeepStream >= 6.0)

--simplify

Para usar tamanho de lote (batch-size) dinâmico (DeepStream >= 6.1)

--dynamic

Para usar tamanho de lote estático (exemplo para tamanho de lote = 4)

--batch 4
  1. Copie o arquivo de modelo .onnx gerado e o arquivo labels.txt para a pasta DeepStream-Yolo

    cp yolo26s.pt.onnx labels.txt ~/DeepStream-Yolo
    cd ~/DeepStream-Yolo
  2. Defina a versão do CUDA de acordo com a versão do JetPack instalada

    Para o JetPack 4.6.4:

    export CUDA_VER=10.2

    Para o JetPack 5.1.3:

    export CUDA_VER=11.4

    Para o JetPack 6.1:

    export CUDA_VER=12.6
  3. Compile a biblioteca

    make -C nvdsinfer_custom_impl_Yolo clean && make -C nvdsinfer_custom_impl_Yolo
  4. Edite o arquivo config_infer_primary_yolo26.txt de acordo com seu modelo (para YOLO26s com 80 classes)

    [property]
    ...
    onnx-file=yolo26s.pt.onnx
    ...
    num-detected-classes=80
    ...
  5. Edite o arquivo deepstream_app_config

    ...
    [primary-gie]
    ...
    config-file=config_infer_primary_yolo26.txt
  6. Você também pode alterar a fonte de vídeo no arquivo deepstream_app_config. Aqui, um arquivo de vídeo padrão é carregado

    ...
    [source0]
    ...
    uri=file:///opt/nvidia/deepstream/deepstream/samples/streams/sample_1080p_h264.mp4

Execute a inferência

deepstream-app -c deepstream_app_config.txt
Nota

Levará um tempo para gerar o arquivo do motor (engine) TensorRT antes de iniciar a inferência. Por favor, seja paciente.

YOLO26 with deepstream
Dica

Se você quiser converter o modelo para precisão FP16, basta definir model-engine-file=model_b1_gpu0_fp16.engine e network-mode=2 dentro de config_infer_primary_yolo26.txt

Calibração INT8

Se você quiser usar precisão INT8 para inferência, precisa seguir os passos abaixo:

Nota

Atualmente, INT8 não funciona com o TensorRT 10.x. Esta seção do guia foi testada com o TensorRT 8.x, onde se espera que funcione.

  1. Defina a variável de ambiente OPENCV

    export OPENCV=1
  2. Compile a biblioteca

    make -C nvdsinfer_custom_impl_Yolo clean && make -C nvdsinfer_custom_impl_Yolo
  3. Para o conjunto de dados COCO, baixe o val2017, extraia e mova para a pasta DeepStream-Yolo

  4. Crie um novo diretório para imagens de calibração

    mkdir calibration
  5. Execute o seguinte para selecionar 1000 imagens aleatórias do conjunto de dados COCO para realizar a calibração

    for jpg in $(ls -1 val2017/*.jpg | sort -R | head -1000); do
      cp ${jpg} calibration/
    done
Nota

A NVIDIA recomenda pelo menos 500 imagens para obter uma boa precisão. Neste exemplo, 1000 imagens são escolhidas para obter melhor precisão (mais imagens = mais precisão). Você pode definir isso no head -1000. Por exemplo, para 2000 imagens, head -2000. Este processo pode levar muito tempo.

  1. Crie o arquivo calibration.txt com todas as imagens selecionadas

    realpath calibration/*jpg > calibration.txt
  2. Defina as variáveis de ambiente

    export INT8_CALIB_IMG_PATH=calibration.txt
    export INT8_CALIB_BATCH_SIZE=1
Nota

Valores maiores de INT8_CALIB_BATCH_SIZE resultarão em maior precisão e velocidade de calibração mais rápida. Defina-o de acordo com a memória da sua GPU.

  1. Atualize o arquivo config_infer_primary_yolo26.txt

    De

    ...
    model-engine-file=model_b1_gpu0_fp32.engine
    #int8-calib-file=calib.table
    ...
    network-mode=0
    ...

    Para

    ...
    model-engine-file=model_b1_gpu0_int8.engine
    int8-calib-file=calib.table
    ...
    network-mode=1
    ...

Execute a inferência

deepstream-app -c deepstream_app_config.txt

Configuração de MultiStream



Watch: How to Run Multi-Stream Inference with Ultralytics YOLO26 using NVIDIA DeepStream on Jetson Orin 🚀

Para configurar vários streams em um único aplicativo DeepStream, faça as seguintes alterações no arquivo deepstream_app_config.txt:

  1. Altere as linhas e colunas para construir uma exibição em grade de acordo com o número de streams que deseja ter. Por exemplo, para 4 streams, podemos adicionar 2 linhas e 2 colunas.

    [tiled-display]
    rows=2
    columns=2
  2. Defina num-sources=4 e adicione as entradas uri para todos os quatro streams.

    [source0]
    enable=1
    type=3
    uri=path/to/video1.jpg
    uri=path/to/video2.jpg
    uri=path/to/video3.jpg
    uri=path/to/video4.jpg
    num-sources=4

Execute a inferência

deepstream-app -c deepstream_app_config.txt
DeepStream multi-camera streaming configuration

Resultados de Benchmark

Os benchmarks a seguir resumem como os modelos YOLO26 funcionam em diferentes níveis de precisão do TensorRT com um tamanho de entrada de 640x640 no NVIDIA Jetson Orin NX 16GB.

Gráfico de comparação

NVIDIA Jetson DeepStream performance benchmarks

Tabela de comparação detalhada

Desempenho
FormatoStatusTempo de inferência (ms/im)
TensorRT (FP32)8.64
TensorRT (FP16)5.27
TensorRT (INT8)4.54

Agradecimentos

Este guia foi criado inicialmente pelos nossos amigos da Seeed Studio, Lakshantha e Elaine.

FAQ

Como configuro o Ultralytics YOLO26 em um dispositivo NVIDIA Jetson?

Para configurar o Ultralytics YOLO26 em um dispositivo NVIDIA Jetson, você primeiro precisa instalar o DeepStream SDK compatível com sua versão do JetPack. Siga o guia passo a passo em nosso Guia de Início Rápido para configurar seu NVIDIA Jetson para a implantação do YOLO26.

Qual é o benefício de usar o TensorRT com o YOLO26 no NVIDIA Jetson?

Usar o TensorRT com o YOLO26 otimiza o modelo para inferência, reduzindo significativamente a latência e melhorando o rendimento em dispositivos NVIDIA Jetson. O TensorRT oferece inferência de deep learning de alto desempenho e baixa latência através de fusão de camadas, calibração de precisão e ajuste automático de kernel. Isso leva a uma execução mais rápida e eficiente, particularmente útil para aplicativos em tempo real, como análise de vídeo e máquinas autônomas.

Posso executar o Ultralytics YOLO26 com o DeepStream SDK em diferentes hardwares NVIDIA Jetson?

Sim, o guia para implantar o Ultralytics YOLO26 com o DeepStream SDK e TensorRT é compatível com toda a linha NVIDIA Jetson. Isso inclui dispositivos como o Jetson Orin NX 16GB com JetPack 5.1.3 e o Jetson Nano 4GB com JetPack 4.6.4. Consulte a seção Configuração do DeepStream para YOLO26 para etapas detalhadas.

Como posso converter um modelo YOLO26 para ONNX para o DeepStream?

Para converter um modelo YOLO26 para o formato ONNX para implantação com o DeepStream, use o script utils/export_yolo26.py do repositório DeepStream-Yolo.

Aqui está um exemplo de comando:

python3 utils/export_yolo26.py -w yolo26s.pt --opset 12 --simplify

Para mais detalhes sobre conversão de modelos, confira nossa seção de exportação de modelos.

Quais são os benchmarks de desempenho para YOLO no NVIDIA Jetson Orin NX?

O desempenho dos modelos YOLO26 no NVIDIA Jetson Orin NX 16GB varia com base nos níveis de precisão do TensorRT. Por exemplo, os modelos YOLO26s atingem:

  • Precisão FP32: 14.6 ms/im, 68.5 FPS
  • Precisão FP16: 7.94 ms/im, 126 FPS
  • Precisão INT8: 5.95 ms/im, 168 FPS

Esses benchmarks destacam a eficiência e a capacidade de usar modelos YOLO26 otimizados para TensorRT em hardware NVIDIA Jetson. Para mais detalhes, veja nossa seção Resultados de Benchmark.

Comentários