Guia de Início Rápido: NVIDIA Jetson com Ultralytics YOLO26

Este guia abrangente fornece um passo a passo detalhado para implantar o Ultralytics YOLO26 em dispositivos NVIDIA Jetson. Além disso, apresenta benchmarks de desempenho para demonstrar as capacidades do YOLO26 nesses dispositivos pequenos e potentes.

Suporte a novos produtos

Atualizamos este guia com o mais recente NVIDIA Jetson AGX Thor Developer Kit, que oferece até 2070 FP4 TFLOPS de computação de IA e 128 GB de memória, com energia configurável entre 40 W e 130 W. Ele proporciona mais de 7,5 vezes mais computação de IA que o NVIDIA Jetson AGX Orin, com 3,5 vezes melhor eficiência energética para executar perfeitamente os modelos de IA mais populares.



Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices
NVIDIA Jetson Ecosystem
Nota

Este guia foi testado com o NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) executando o mais recente JetPack estável JP7.0, o NVIDIA Jetson AGX Orin Developer Kit (64GB) executando o JetPack JP6.2, o NVIDIA Jetson Orin Nano Super Developer Kit executando o JetPack JP6.1, o Seeed Studio reComputer J4012 que é baseado no NVIDIA Jetson Orin NX 16GB executando o JetPack JP6.0 ou JP5.1.3, e o Seeed Studio reComputer J1020 v2 que é baseado no NVIDIA Jetson Nano 4GB executando o JetPack JP4.6.1. Espera-se que funcione em toda a linha de hardware NVIDIA Jetson, incluindo dispositivos mais recentes e legados.

O que é NVIDIA Jetson?

NVIDIA Jetson é uma série de placas de computação embarcada projetadas para levar a computação acelerada de IA (inteligência artificial) para dispositivos de borda (edge). Esses dispositivos compactos e poderosos são construídos em torno da arquitetura de GPU da NVIDIA e podem executar algoritmos complexos de IA e modelos de deep learning diretamente no dispositivo, sem depender de recursos de cloud computing. As placas Jetson são frequentemente usadas em robótica, veículos autônomos, automação industrial e outras aplicações onde a inferência de IA precisa ser realizada localmente com baixa latência e alta eficiência. Além disso, essas placas são baseadas na arquitetura ARM64 e operam com menor consumo de energia em comparação com dispositivos tradicionais de computação GPU.

Comparação da Série NVIDIA Jetson

NVIDIA Jetson AGX Thor é a iteração mais recente da família NVIDIA Jetson baseada na arquitetura NVIDIA Blackwell, que traz um desempenho de IA drasticamente melhorado em comparação com as gerações anteriores. A tabela abaixo compara alguns dos dispositivos Jetson no ecossistema.

Jetson AGX Thor(T5000)Jetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
Desempenho de IA2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPUGPU de arquitetura NVIDIA Blackwell com 2560 núcleos e 96 Tensor CoresGPU de arquitetura NVIDIA Ampere com 2048 núcleos e 64 Tensor CoresGPU de arquitetura NVIDIA Ampere com 1024 núcleos e 32 Tensor CoresGPU de arquitetura NVIDIA Ampere com 1024 núcleos e 32 Tensor CoresGPU de arquitetura NVIDIA Volta com 512 núcleos e 64 Tensor CoresGPU de arquitetura NVIDIA Volta™ com 384 núcleos e 48 Tensor CoresGPU de arquitetura NVIDIA Maxwell™ com 128 núcleos
Frequência Máxima da GPU1,57 GHz1,3 GHz918 MHz1020 MHz1377 MHz1100 MHz921 MHz
CPUCPU Arm® Neoverse®-V3AE de 14 núcleos de 64 bits, 1MB L2 + 16MB L3CPU NVIDIA Arm® Cortex A78AE v8.2 de 12 núcleos de 64 bits, 3MB L2 + 6MB L3CPU NVIDIA Arm® Cortex A78AE v8.2 de 8 núcleos de 64 bits, 2MB L2 + 4MB L3CPU Arm® Cortex®-A78AE v8.2 de 6 núcleos de 64 bits, 1,5MB L2 + 4MB L3CPU NVIDIA Carmel Arm®v8.2 de 8 núcleos de 64 bits, 8MB L2 + 4MB L3CPU NVIDIA Carmel Arm®v8.2 de 6 núcleos de 64 bits, 6MB L2 + 4MB L3Processador Quad-Core Arm® Cortex®-A57 MPCore
Frequência Máxima da CPU2,6 GHz2,2 GHz2,0 GHz1,7 GHz2,2 GHz1,9 GHz1,43 GHz
Memória128GB LPDDR5X de 256 bits, 273GB/s64GB LPDDR5 de 256 bits, 204,8GB/s16GB LPDDR5 de 128 bits, 102,4GB/s8GB LPDDR5 de 128 bits, 102 GB/s32GB LPDDR4x de 256 bits, 136,5GB/s8GB LPDDR4x de 128 bits, 59,7GB/s4GB LPDDR4 de 64 bits, 25,6GB/s

Para uma tabela de comparação mais detalhada, visite a seção Compare Specifications na página oficial do NVIDIA Jetson.

O que é NVIDIA JetPack?

O NVIDIA JetPack SDK, que alimenta os módulos Jetson, é a solução mais abrangente e fornece um ambiente de desenvolvimento completo para criar aplicações de IA acelerada de ponta a ponta, reduzindo o tempo de lançamento no mercado. O JetPack inclui Jetson Linux com bootloader, kernel Linux, ambiente de desktop Ubuntu e um conjunto completo de bibliotecas para aceleração de computação GPU, multimídia, gráficos e computer vision. Ele também inclui amostras, documentação e ferramentas de desenvolvimento tanto para o computador host quanto para o kit de desenvolvimento, e suporta SDKs de nível superior, como o DeepStream para análise de vídeo em streaming, Isaac para robótica e Riva para IA conversacional.

Instalar JetPack no NVIDIA Jetson

O primeiro passo após adquirir um dispositivo NVIDIA Jetson é instalar (flash) o NVIDIA JetPack no dispositivo. Existem várias maneiras diferentes de realizar a instalação nos dispositivos NVIDIA Jetson.

  1. Se você possui um kit de desenvolvimento oficial da NVIDIA, como o Jetson AGX Thor Developer Kit, você pode baixar uma imagem e preparar um pendrive bootável para instalar o JetPack no SSD incluído.
  2. Se você possui um kit de desenvolvimento oficial da NVIDIA, como o Jetson Orin Nano Developer Kit, você pode baixar uma imagem e preparar um cartão SD com JetPack para iniciar o dispositivo.
  3. Se você possui qualquer outro kit de desenvolvimento da NVIDIA, você pode instalar o JetPack no dispositivo usando o SDK Manager.
  4. Se você possui um dispositivo Seeed Studio reComputer J4012, você pode instalar o JetPack no SSD incluído, e se você possui um dispositivo Seeed Studio reComputer J1020 v2, você pode instalar o JetPack no eMMC/SSD.
  5. Se você possui qualquer outro dispositivo de terceiros alimentado pelo módulo NVIDIA Jetson, recomenda-se seguir a instalação via linha de comando.
Nota

Para os métodos 1, 4 e 5 acima, após instalar o sistema e iniciar o dispositivo, digite "sudo apt update && sudo apt install nvidia-jetpack -y" no terminal do dispositivo para instalar todos os componentes restantes do JetPack necessários.

Suporte ao JetPack baseado no dispositivo Jetson

A tabela abaixo destaca as versões do NVIDIA JetPack suportadas por diferentes dispositivos NVIDIA Jetson.

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Início Rápido com Docker

A maneira mais rápida de começar com o Ultralytics YOLO26 no NVIDIA Jetson é executar as imagens docker pré-construídas para Jetson. Consulte a tabela acima e escolha a versão do JetPack de acordo com o dispositivo Jetson que você possui.

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

Após concluir, pule para a seção Use TensorRT on NVIDIA Jetson.

Começar com Instalação Nativa

Para uma instalação nativa sem Docker, consulte os passos abaixo.

Executar no JetPack 7.0

Instalar o Pacote Ultralytics

Aqui, instalaremos o pacote Ultralytics no Jetson com dependências opcionais para que possamos exportar os modelos PyTorch para outros formatos diferentes. Focaremos principalmente nas exportações NVIDIA TensorRT, pois o TensorRT garantirá que possamos obter o desempenho máximo dos dispositivos Jetson.

  1. Atualize a lista de pacotes, instale o pip e atualize para a versão mais recente

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. Instale o pacote pip ultralytics com dependências opcionais

    pip install ultralytics[export]
  3. Reinicie o dispositivo

    sudo reboot

Instale o PyTorch e o Torchvision

A instalação do ultralytics acima instalará o Torch e o Torchvision. No entanto, esses 2 pacotes instalados via pip não são compatíveis para execução no Jetson AGX Thor, que vem com JetPack 7.0 e CUDA 13. Portanto, precisamos instalá-los manualmente.

Instale torch e torchvision de acordo com o JP7.0

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

Instale o onnxruntime-gpu

O pacote onnxruntime-gpu hospedado no PyPI não possui binários aarch64 para o Jetson. Portanto, precisamos instalar este pacote manualmente. Este pacote é necessário para algumas das exportações.

Aqui, baixaremos e instalaremos o onnxruntime-gpu 1.24.0 com suporte a Python3.12.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

Executar no JetPack 6.1

Instalar o Pacote Ultralytics

Aqui, instalaremos o pacote Ultralytics no Jetson com dependências opcionais para que possamos exportar os modelos PyTorch para outros formatos diferentes. Focaremos principalmente nas exportações NVIDIA TensorRT, pois o TensorRT garantirá que possamos obter o desempenho máximo dos dispositivos Jetson.

  1. Atualize a lista de pacotes, instale o pip e atualize para a versão mais recente

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. Instale o pacote pip ultralytics com dependências opcionais

    pip install ultralytics[export]
  3. Reinicie o dispositivo

    sudo reboot

Instale o PyTorch e o Torchvision

A instalação do ultralytics acima instalará o Torch e o Torchvision. No entanto, esses dois pacotes instalados via pip não são compatíveis com a plataforma Jetson, que é baseada na arquitetura ARM64. Portanto, precisamos instalar manualmente um wheel PyTorch pré-construído e compilar ou instalar o Torchvision a partir do código-fonte.

Instale torch 2.10.0 e torchvision 0.25.0 de acordo com o JP6.1

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl
Nota

Visite a página PyTorch para Jetson para acessar todas as versões diferentes do PyTorch para diferentes versões do JetPack. Para uma lista mais detalhada sobre a compatibilidade do PyTorch e Torchvision, visite a página de compatibilidade do PyTorch e Torchvision.

Instale o cuDSS para corrigir um problema de dependência com o torch 2.10.0

wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudss

Instale o onnxruntime-gpu

O pacote onnxruntime-gpu hospedado no PyPI não possui binários aarch64 para o Jetson. Portanto, precisamos instalar este pacote manualmente. Este pacote é necessário para algumas das exportações.

Você pode encontrar todos os pacotes onnxruntime-gpu disponíveis—organizados por versão do JetPack, versão do Python e outros detalhes de compatibilidade—na matriz de compatibilidade do Jetson Zoo ONNX Runtime.

Para JetPack 6 com suporte ao Python 3.10, você pode instalar o onnxruntime-gpu 1.23.0:

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl

Alternativamente, para onnxruntime-gpu 1.20.0:

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

Executar no JetPack 5.1.2

Instalar o Pacote Ultralytics

Aqui, instalaremos o pacote Ultralytics no Jetson com dependências opcionais para que possamos exportar os modelos PyTorch para outros formatos diferentes. Focaremos principalmente nas exportações NVIDIA TensorRT, pois o TensorRT garantirá que possamos obter o desempenho máximo dos dispositivos Jetson.

  1. Atualize a lista de pacotes, instale o pip e atualize para a versão mais recente

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. Instale o pacote pip ultralytics com dependências opcionais

    pip install ultralytics[export]
  3. Reinicie o dispositivo

    sudo reboot

Instale o PyTorch e o Torchvision

A instalação do ultralytics acima instalará o Torch e o Torchvision. No entanto, esses dois pacotes instalados via pip não são compatíveis com a plataforma Jetson, que é baseada na arquitetura ARM64. Portanto, precisamos instalar manualmente um wheel PyTorch pré-construído e compilar ou instalar o Torchvision a partir do código-fonte.

  1. Desinstalar o PyTorch e o Torchvision instalados atualmente

    pip uninstall torch torchvision
  2. Instale torch 2.1.0 e torchvision 0.16.2 de acordo com o JP5.1.2

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
Nota

Visite a página PyTorch para Jetson para acessar todas as versões diferentes do PyTorch para diferentes versões do JetPack. Para uma lista mais detalhada sobre a compatibilidade do PyTorch e Torchvision, visite a página de compatibilidade do PyTorch e Torchvision.

Instale o onnxruntime-gpu

O pacote onnxruntime-gpu hospedado no PyPI não possui binários aarch64 para o Jetson. Portanto, precisamos instalar este pacote manualmente. Este pacote é necessário para algumas das exportações.

Podes encontrar todos os pacotes onnxruntime-gpu disponíveis—organizados pela versão do JetPack, versão do Python e outros detalhes de compatibilidade—na matriz de compatibilidade do ONNX Runtime do Jetson Zoo. Aqui vamos descarregar e instalar o onnxruntime-gpu 1.17.0 com suporte para Python3.8.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
Nota

O onnxruntime-gpu reverterá automaticamente a versão do NumPy para a mais recente. Por isso, precisamos de reinstalar o NumPy para a 1.23.5 para corrigir um problema, executando:

pip install numpy==1.23.5

Usa o TensorRT no NVIDIA Jetson

Entre todos os formatos de exportação de modelos suportados pela Ultralytics, o TensorRT oferece o melhor desempenho de inferência em dispositivos NVIDIA Jetson, sendo a nossa principal recomendação para implementações no Jetson. Para instruções de configuração e utilização avançada, consulta o nosso guia de integração dedicado ao TensorRT.

Converter Modelo para TensorRT e Executar Inferência

O modelo YOLO26n em formato PyTorch é convertido para TensorRT para executar a inferência com o modelo exportado.

Exemplo
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
Nota

Visite a página de Exportação para acessar argumentos adicionais ao exportar modelos para diferentes formatos de modelo

Usa o NVIDIA Deep Learning Accelerator (DLA)

O NVIDIA Deep Learning Accelerator (DLA) é um componente de hardware especializado, incorporado nos dispositivos NVIDIA Jetson, que otimiza a inferência de aprendizagem profunda para eficiência energética e desempenho. Ao descarregar tarefas da GPU (libertando-a para processos mais intensivos), o DLA permite que os modelos sejam executados com menor consumo de energia, mantendo um elevado rendimento, ideal para sistemas embebidos e aplicações de IA em tempo real.

Os seguintes dispositivos Jetson estão equipados com hardware DLA:

Dispositivo JetsonNúcleos DLAFrequência Máxima do DLA
Série Jetson AGX Orin21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Série Jetson AGX Xavier21.4 GHz
Série Jetson Xavier NX21.1 GHz
Exemplo
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
Nota

Ao utilizar exportações DLA, algumas camadas podem não ser suportadas para execução no DLA e voltarão a ser executadas na GPU. Este fallback pode introduzir latência adicional e afetar o desempenho geral da inferência. Portanto, o DLA não foi concebido principalmente para reduzir a latência de inferência em comparação com o TensorRT a correr totalmente na GPU. Em vez disso, o seu objetivo principal é aumentar o rendimento e melhorar a eficiência energética.

Benchmarks do NVIDIA Jetson YOLO11/ YOLO26

Os benchmarks do YOLO11/ YOLO26 foram realizados pela equipa da Ultralytics em 11 formatos de modelo diferentes, medindo a velocidade e a precisão: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch. Os benchmarks foram realizados no NVIDIA Jetson AGX Thor Developer Kit, NVIDIA Jetson AGX Orin Developer Kit (64GB), NVIDIA Jetson Orin Nano Super Developer Kit e Seeed Studio reComputer J4012 equipado com o dispositivo Jetson Orin NX 16GB em precisão FP32 com um tamanho de imagem de entrada padrão de 640.

Gráficos de Comparação

Embora todas as exportações de modelos funcionem no NVIDIA Jetson, incluímos apenas PyTorch, TorchScript, TensorRT no gráfico de comparação abaixo, porque utilizam a GPU no Jetson e garantem os melhores resultados. Todas as outras exportações utilizam apenas o CPU e o desempenho não é tão bom como o dos três anteriores. Podes encontrar benchmarks para todas as exportações na secção após este gráfico.

NVIDIA Jetson AGX Thor Developer Kit

Jetson AGX Thor Benchmarks
Benchmarked with Ultralytics 8.3.226

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Jetson AGX Orin Benchmarks
Benchmarked with Ultralytics 8.4.32

NVIDIA Jetson Orin Nano Super Developer Kit

Jetson Orin Nano Super Benchmarks
Benchmarked with Ultralytics 8.4.33

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB Benchmarks
Benchmarked with Ultralytics 8.4.33

Tabelas de Comparação Detalhadas

A tabela abaixo apresenta os resultados dos benchmarks para cinco modelos diferentes (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) em 11 formatos diferentes (PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch), indicando o estado, tamanho, métrica mAP50-95(B) e tempo de inferência para cada combinação.

NVIDIA Jetson AGX Thor Developer Kit

Desempenho
FormatoStatusTamanho em disco (MB)mAP50-95(B)Tempo de inferência (ms/im)
PyTorch5.30.47987.39
TorchScript9.80.47894.21
ONNX9.50.47676.58
OpenVINO10.10.479417.50
TensorRT (FP32)13.90.47911.90
TensorRT (FP16)7.60.47971.39
TensorRT (INT8)6,50.42731.52
TF SavedModel25,70.476447.24
TF GraphDef9.50.476445.98
TF Lite9.90.4764182.04
MNN9.40.478421.83

Testado com Ultralytics 8.4.7

Nota

O tempo de inferência não inclui pré/pós-processamento.

NVIDIA Jetson AGX Orin Developer Kit (64GB)

Desempenho
FormatoStatusTamanho em disco (MB)mAP50-95(B)Tempo de inferência (ms/im)
PyTorch5.30.479011.58
TorchScript9.80.47704.60
ONNX9.50.47709.87
OpenVINO9.60.482028.80
TensorRT (FP32)11.50.04504.18
TensorRT (FP16)7.90.04502.62
TensorRT (INT8)5.40.46402.30
TF SavedModel24.60.476071.10
TF GraphDef9.50.476070.02
TF Lite9.90.4760227.94
MNN9.40.476032.46
NCNN9.30.481029.93

Benchmarked com Ultralytics 8.4.32

Nota

O tempo de inferência não inclui pré/pós-processamento.

NVIDIA Jetson Orin Nano Super Developer Kit

Desempenho
FormatoStatusTamanho em disco (MB)mAP50-95(B)Tempo de inferência (ms/im)
PyTorch5.30.479015.60
TorchScript9.80.477012.60
ONNX9.50.476015.76
OpenVINO9.60.482056.23
TensorRT (FP32)11.30.47707.53
TensorRT (FP16)8.10.48004.57
TensorRT (INT8)5.30.44903.80
TF SavedModel24.60.4760118.33
TF GraphDef9.50.4760116.30
TF Lite9.90.4760286.00
MNN9.40.476068.77
NCNN9.30.481047.50

Testado com Ultralytics 8.4.33

Nota

O tempo de inferência não inclui pré/pós-processamento.

NVIDIA Jetson Orin NX 16GB

Desempenho
FormatoStatusTamanho em disco (MB)mAP50-95(B)Tempo de inferência (ms/im)
PyTorch5.30.479913.90
TorchScript9.80.478711.60
ONNX9.50.476314.18
OpenVINO9.60.481940.19
TensorRT (FP32)11.40.47707.01
TensorRT (FP16)8.00.47894.13
TensorRT (INT8)5.50.44893.49
TF SavedModel24.60.476492.34
TF GraphDef9.50.476492.06
TF Lite9.90.4764254.43
MNN9.40.476048.55
NCNN9.30.480534.31

Testado com Ultralytics 8.4.33

Nota

O tempo de inferência não inclui pré/pós-processamento.

Explore mais esforços de benchmarking da Seeed Studio rodando em diferentes versões de hardware NVIDIA Jetson.

Reproduza Nossos Resultados

Para reproduzir os benchmarks da Ultralytics acima em todos os formatos de exportação, execute este código:

Exemplo
from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

Observe que os resultados de benchmark podem variar com base na configuração exata de hardware e software de um sistema, bem como na carga de trabalho atual do sistema no momento em que os benchmarks são executados. Para obter os resultados mais confiáveis, use um conjunto de dados com um grande número de imagens, por exemplo, data='coco.yaml' (5000 imagens de validação).

Melhores Práticas ao usar NVIDIA Jetson

Ao usar NVIDIA Jetson, existem algumas melhores práticas a seguir para permitir o desempenho máximo no NVIDIA Jetson rodando YOLO26.

  1. Ative o Modo de Energia MAX

    Ativar o Modo de Energia MAX no Jetson garantirá que todos os núcleos de CPU e GPU estejam ligados.

    sudo nvpmodel -m 0
  2. Ative os Clocks do Jetson

    Ativar os Jetson Clocks garantirá que todos os núcleos de CPU e GPU operem em sua frequência máxima.

    sudo jetson_clocks
  3. Instale o Aplicativo Jetson Stats

    Podemos usar o aplicativo jetson stats para monitorar as temperaturas dos componentes do sistema e verificar outros detalhes do sistema, como visualizar a utilização de CPU, GPU, RAM, alterar modos de energia, definir clocks máximos e verificar informações do JetPack.

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
Jetson Stats

Dicas de Otimização de Memória para NVIDIA Jetson

A memória disponível costuma ser o fator limitante em dispositivos Jetson, particularmente em variantes com menos memória, como o Jetson Orin Nano (8 GB) ou Orin NX 8 GB. As dicas abaixo são mudanças práticas e de baixo risco que podem, coletivamente, liberar várias centenas de megabytes e permitir que você execute modelos YOLO maiores ou suporte cargas de trabalho paralelas adicionais. Para um tratamento abrangente, consulte o blog da NVIDIA sobre como maximizar a eficiência da memória no Jetson.

1. Mude para Inicialização Headless (Sem GUI)

Se o seu Jetson estiver conectado via SSH ou rodando como um equipamento de produção sem um monitor conectado, eliminar o ambiente de desktop e o servidor de exibição pode recuperar até 865 MB de RAM:

sudo systemctl set-default multi-user.target
sudo reboot

Para restaurar o desktop mais tarde:

sudo systemctl set-default graphical.target
sudo reboot

2. Desative Serviços do Sistema Não Utilizados

Serviços em segundo plano não essenciais (Bluetooth, gerenciadores de conectividade, daemons de hardware não utilizados) consomem cerca de 32 MB combinados. Liste os serviços ativos e desative qualquer coisa que sua implantação não exija:

# List running services
systemctl list-units --type=service --state=running

# Disable a service
sudo systemctl disable <service-name>

3. Profile o Uso de Memória

Antes de otimizar, identifique quais processos estão realmente consumindo RAM. O procrank classifica os processos por PSS (Proportional Set Size), que reflete a verdadeira pegada de memória por processo com mais precisão do que o RSS (Resident Set Size, o total de páginas de RAM física mapeadas por um processo, incluindo páginas compartilhadas com outros processos):

git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank

Para ver as alocações de GPU e NvMap (CUDA/pipeline de vídeo) por processo:

sudo cat /sys/kernel/debug/nvmap/iovmm/clients

4. Execute a Inferência Sem um Monitor em Produção

Para pipelines de inferência que não têm requisito de visualização ao vivo, desativar componentes relacionados à exibição (Tiler, OSD, DisplaySink) pode economizar mais de 200 MB apenas no pipeline. Com o Ultralytics YOLO, suprima o visualizador e grave os resultados em disco:

Exemplo
from ultralytics import YOLO

model = YOLO("yolo11n.engine")

# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)

Impacto Cumulativo

OtimizaçãoMemória Aprox. Economizada
Desativar GUI de desktop~865 MB
Desativar serviços de SO não utilizados~32 MB
Pipeline de inferência headless (sem monitor)~200+ MB
Total (ganhos fáceis)~1 GB+

Combinar essas mudanças é especialmente valioso ao direcionar modelos TensorRT INT8 em dispositivos com memória limitada — pode ser a diferença entre conseguir ou não colocar uma variante de modelo maior na memória.

Próximos Passos

Para aprender mais e obter suporte, consulte a Documentação do Ultralytics YOLO26.

FAQ

Como implanto o Ultralytics YOLO26 em dispositivos NVIDIA Jetson?

Implantar o Ultralytics YOLO26 em dispositivos NVIDIA Jetson é um processo simples. Primeiro, faça o flash do seu dispositivo Jetson com o NVIDIA JetPack SDK. Em seguida, use uma imagem Docker pré-construída para uma configuração rápida ou instale manualmente os pacotes necessários. Passos detalhados para cada abordagem podem ser encontrados nas seções Quick Start with Docker e Start with Native Installation.

Que benchmarks de desempenho posso esperar dos modelos YOLO11 em dispositivos NVIDIA Jetson?

Os modelos YOLO11 foram testados em vários dispositivos NVIDIA Jetson, mostrando melhorias significativas de desempenho. Por exemplo, o formato TensorRT oferece o melhor desempenho de inferência. A tabela na seção Detailed Comparison Tables fornece uma visão abrangente das métricas de desempenho, como mAP50-95 e tempo de inferência em diferentes formatos de modelo.

Por que devo usar TensorRT para implantar YOLO26 no NVIDIA Jetson?

O TensorRT é altamente recomendado para implantar modelos YOLO26 no NVIDIA Jetson devido ao seu desempenho ideal. Ele acelera a inferência aproveitando os recursos da GPU do Jetson, garantindo eficiência e velocidade máximas. Saiba mais sobre como converter para TensorRT e executar inferência na seção Use TensorRT on NVIDIA Jetson.

Como posso instalar PyTorch e Torchvision no NVIDIA Jetson?

Para instalar PyTorch e Torchvision no NVIDIA Jetson, primeiro desinstale quaisquer versões existentes que possam ter sido instaladas via pip. Em seguida, instale manualmente as versões compatíveis de PyTorch e Torchvision para a arquitetura ARM64 do Jetson. Instruções detalhadas para este processo são fornecidas na seção Install PyTorch and Torchvision.

Quais são as melhores práticas para maximizar o desempenho no NVIDIA Jetson ao usar YOLO26?

Para maximizar o desempenho no NVIDIA Jetson com YOLO26, siga estas melhores práticas:

  1. Ative o Modo de Energia MAX para utilizar todos os núcleos de CPU e GPU.
  2. Ative os Jetson Clocks para operar todos os núcleos em sua frequência máxima.
  3. Instale o aplicativo Jetson Stats para monitorar métricas do sistema.

Para comandos e detalhes adicionais, consulte a seção Best Practices when using NVIDIA Jetson.

Como libero memória no NVIDIA Jetson para executar modelos YOLO maiores?

A RAM disponível costuma ser o gargalo em dispositivos Jetson com menos memória. Três ganhos fáceis que, juntos, podem recuperar mais de 1 GB:

  1. Mude para inicialização headless (sudo systemctl set-default multi-user.target) para eliminar a GUI do desktop (~865 MB economizados).
  2. Desative serviços não utilizados como Bluetooth ou gerenciadores de conectividade (~32 MB economizados).
  3. Execute a inferência sem um monitor definindo show=False em sua chamada predict do YOLO, o que evita alocar memória para o pipeline de exibição (~200+ MB economizados).

Use procrank para analisar o uso de RAM por processo e sudo cat /sys/kernel/debug/nvmap/iovmm/clients para inspecionar alocações de GPU. Consulte a seção Memory Optimization Tips para detalhes completos.

Por que minha exportação TensorRT INT8 desativa o end2end no JetPack 6?

O TensorRT 10.3.0 fornecido com o JetPack 6 tem um problema conhecido que impede a construção de motores INT8 quando end2end=True está ativado. Quando a Ultralytics detecta essa combinação, ela desativa automaticamente o branch end2end para garantir que a exportação seja bem-sucedida.

Para restaurar exportações INT8 end2end, atualize o TensorRT para uma versão mais recente (por exemplo, 10.7.0+):

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt

Após atualizar, execute sua exportação novamente. Para mais detalhes, consulte GitHub issue #23841.

Comentários