Guia de Início Rápido: NVIDIA Jetson com Ultralytics YOLO26
Este guia abrangente fornece um passo a passo detalhado para implementar o Ultralytics YOLO26 em NVIDIA Jetson dispositivos. Além disso, apresenta benchmarks de desempenho para demonstrar as capacidades do YOLO26 nestes dispositivos pequenos e poderosos.
Atualizamos este guia com o mais recente NVIDIA Jetson AGX Thor Developer Kit que oferece até 2070 FP4 TFLOPS de computação de IA e 128 GB de memória, com consumo de energia configurável entre 40 W e 130 W. Ele oferece 7,5 vezes mais computação de IA do que o NVIDIA Jetson AGX Orin, com 3,5 vezes mais eficiência energética para executar perfeitamente os modelos de IA mais populares.
Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices

Este guia foi testado com NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) executando a versão estável mais recente do JetPack JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) executando a versão do JetPack de JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit executando a versão do JetPack de JP6.1, Seeed Studio reComputer J4012 que é baseado no NVIDIA Jetson Orin NX 16GB executando a versão JetPack JP6.0/ versão do JetPack de JP5.1.3 e Seeed Studio reComputer J1020 v2 que é baseado no NVIDIA Jetson Nano 4GB executando a versão JetPack JP4.6.1. Espera-se que funcione em toda a linha de hardware NVIDIA Jetson, incluindo dispositivos mais recentes e legados.
O que é o NVIDIA Jetson?
NVIDIA Jetson é uma série de placas de computação embarcada projetadas para levar a computação de IA (inteligência artificial) acelerada a dispositivos de borda. Estes dispositivos compactos e poderosos são construídos em torno da arquitetura de GPU da NVIDIA e podem executar algoritmos complexos de IA e deep learning modelos diretamente no dispositivo, sem depender de cloud computing recursos. As placas Jetson são frequentemente usadas em robótica, veículos autônomos, automação industrial e outras aplicações onde a inferência de IA precisa ser realizada localmente com baixa latência e alta eficiência. Além disso, estas placas são baseadas na arquitetura ARM64 e operam com menor consumo de energia em comparação com dispositivos de computação GPU tradicionais.
Comparação da série NVIDIA Jetson
NVIDIA Jetson AGX Thor é a iteração mais recente da família NVIDIA Jetson, baseada na arquitetura Blackwell da NVIDIA, que traz um desempenho de IA drasticamente melhorado em comparação com as gerações anteriores. A tabela abaixo compara alguns dos dispositivos Jetson no ecossistema.
| Jetson AGX Thor(T5000) | Jetson AGX Orin 64GB | Jetson Orin NX 16GB | Jetson Orin Nano Super | Jetson AGX Xavier | Jetson Xavier NX | Jetson Nano | |
|---|---|---|---|---|---|---|---|
| Desempenho de IA | 2070 TFLOPS | 275 TOPS | 100 TOPS | 67 TOPS | 32 TOPS | 21 TOPS | 472 GFLOPS |
| GPU | GPU de 2560 núcleos com arquitetura NVIDIA Blackwell e 96 Tensor Cores | GPU de 2048 núcleos com arquitetura NVIDIA Ampere e 64 Tensor Cores | GPU de 1024 núcleos com arquitetura NVIDIA Ampere e 32 Tensor Cores | GPU de 1024 núcleos com arquitetura NVIDIA Ampere e 32 Tensor Cores | GPU de 512 núcleos com arquitetura NVIDIA Volta e 64 Tensor Cores | GPU de 384 núcleos com arquitetura NVIDIA Volta™ e 48 Tensor Cores | GPU de 128 núcleos com arquitetura NVIDIA Maxwell™ |
| Frequência máxima da GPU | 1.57 GHz | 1.3 GHz | 918 MHz | 1020 MHz | 1377 MHz | 1100 MHz | 921MHz |
| CPU | CPU Arm® Neoverse®-V3AE de 14 núcleos, 64 bits, 1MB L2 + 16MB L3 | CPU NVIDIA Arm® Cortex A78AE v8.2 de 12 núcleos, 64 bits, 3MB L2 + 6MB L3 | CPU NVIDIA Arm® Cortex A78AE v8.2 de 8 núcleos, 64 bits, 2MB L2 + 4MB L3 | CPU Arm® Cortex®-A78AE v8.2 de 6 núcleos, 64 bits, 1.5MB L2 + 4MB L3 | CPU NVIDIA Carmel Arm®v8.2 de 8 núcleos, 64 bits, 8MB L2 + 4MB L3 | CPU NVIDIA Carmel Arm®v8.2 de 6 núcleos, 64 bits, 6MB L2 + 4MB L3 | Processador Quad-Core Arm® Cortex®-A57 MPCore |
| Frequência máxima da CPU | 2.6 GHz | 2.2 GHz | 2.0 GHz | 1.7 GHz | 2.2 GHz | 1.9 GHz | 1.43GHz |
| Memória | 128GB 256-bit LPDDR5X 273GB/s | 64GB 256-bit LPDDR5 204.8GB/s | 16GB 128-bit LPDDR5 102.4GB/s | 8GB 128-bit LPDDR5 102 GB/s | 32GB 256-bit LPDDR4x 136.5GB/s | 8GB 128-bit LPDDR4x 59.7GB/s | 4GB 64-bit LPDDR4 25.6GB/s |
Para uma tabela de comparação mais detalhada, visite a seção Compare Specifications da página oficial da NVIDIA Jetson.
O que é o NVIDIA JetPack?
NVIDIA JetPack SDK que alimenta os módulos Jetson é a solução mais abrangente e fornece um ambiente de desenvolvimento completo para criar aplicações de IA aceleradas de ponta a ponta, reduzindo o tempo de lançamento no mercado. O JetPack inclui o Jetson Linux com bootloader, kernel Linux, ambiente de desktop Ubuntu e um conjunto completo de bibliotecas para aceleração de computação GPU, multimídia, gráficos e computer vision. Também inclui exemplos, documentação e ferramentas de desenvolvimento tanto para o computador host quanto para o kit de desenvolvedor, e oferece suporte a SDKs de nível superior, como DeepStream para análise de vídeo em fluxo, Isaac para robótica e Riva para IA conversacional.
Instalar o JetPack no NVIDIA Jetson
O primeiro passo após ter em mãos um dispositivo NVIDIA Jetson é instalar o NVIDIA JetPack no dispositivo. Existem várias maneiras diferentes de instalar o NVIDIA Jetson.
- Se você possui um kit de desenvolvimento oficial da NVIDIA, como o Jetson AGX Thor Developer Kit, você pode baixar uma imagem e preparar um pendrive inicializável para instalar o JetPack no SSD incluído.
- Se você possui um kit de desenvolvimento oficial da NVIDIA, como o Jetson Orin Nano Developer Kit, você pode baixar uma imagem e preparar um cartão SD com o JetPack para inicializar o dispositivo.
- Se você possui qualquer outro kit de desenvolvimento NVIDIA, você pode instalar o JetPack no dispositivo usando o SDK Manager.
- Se você possui um dispositivo Seeed Studio reComputer J4012, você pode instalar o JetPack no SSD incluído e, se você possui um dispositivo Seeed Studio reComputer J1020 v2, você pode instalar o JetPack no eMMC/ SSD.
- Se você possui qualquer outro dispositivo de terceiros alimentado pelo módulo NVIDIA Jetson, é recomendável seguir a instalação por linha de comando.
Para os métodos 1, 4 e 5 acima, após instalar o sistema e inicializar o dispositivo, digite "sudo apt update && sudo apt install nvidia-jetpack -y" no terminal do dispositivo para instalar todos os componentes restantes do JetPack necessários.
Suporte ao JetPack por dispositivo Jetson
A tabela abaixo destaca as versões do NVIDIA JetPack suportadas por diferentes dispositivos NVIDIA Jetson.
| JetPack 4 | JetPack 5 | JetPack 6 | JetPack 7 | |
|---|---|---|---|---|
| Jetson Nano | ✅ | ❌ | ❌ | ❌ |
| Jetson TX2 | ✅ | ❌ | ❌ | ❌ |
| Jetson Xavier NX | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Xavier | ✅ | ✅ | ❌ | ❌ |
| Jetson AGX Orin | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin NX | ❌ | ✅ | ✅ | ❌ |
| Jetson Orin Nano | ❌ | ✅ | ✅ | ❌ |
| Jetson AGX Thor | ❌ | ❌ | ❌ | ✅ |
Início rápido com Docker
A maneira mais rápida de começar a usar o Ultralytics YOLO26 no NVIDIA Jetson é executar as imagens docker pré-construídas para Jetson. Consulte a tabela acima e escolha a versão do JetPack de acordo com o dispositivo Jetson que você possui.
t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $tApós concluir, pule para Usar TensorRT na seção NVIDIA Jetson.
Começar com a Instalação Nativa
Para uma instalação nativa sem Docker, consulte as etapas abaixo.
Executar no JetPack 7.0
Instalar o Pacote Ultralytics
Aqui, instalaremos o pacote Ultralytics no Jetson com dependências opcionais para que possamos exportar os modelos Modelos para outros formatos diferentes. Focaremos principalmente em exportações NVIDIA TensorRT porque o TensorRT garantirá que possamos obter o desempenho máximo dos dispositivos Jetson.
-
Atualize a lista de pacotes, instale o pip e atualize para a versão mais recente
sudo apt update sudo apt install python3-pip -y pip install -U pip -
Instale o
ultralyticspacote pip com dependências opcionaispip install ultralytics[export] -
Reinicie o dispositivo
sudo reboot
Instalar PyTorch e Torchvision
A instalação do ultralytics acima instalará o Torch e a Torchvision. No entanto, esses 2 pacotes instalados via pip não são compatíveis para execução no Jetson AGX Thor que vem com JetPack 7.0 e CUDA 13. Portanto, precisamos instalá-los manualmente.
Instale o torch e torchvision de acordo com o JP7.0
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130Instale o onnxruntime-gpu
O argumento onnxruntime-gpu pacote hospedado no PyPI não possui aarch64 binários para o Jetson. Portanto, precisamos instalar este pacote manualmente. Este pacote é necessário para algumas das exportações.
Aqui, faremos o download e instalaremos onnxruntime-gpu 1.24.0 com Python3.12 suporte.
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whlExecutar no JetPack 6.1
Instalar o Pacote Ultralytics
Aqui, instalaremos o pacote Ultralytics no Jetson com dependências opcionais para que possamos exportar os modelos Modelos para outros formatos diferentes. Focaremos principalmente em exportações NVIDIA TensorRT porque o TensorRT garantirá que possamos obter o desempenho máximo dos dispositivos Jetson.
-
Atualize a lista de pacotes, instale o pip e atualize para a versão mais recente
sudo apt update sudo apt install python3-pip -y pip install -U pip -
Instale o
ultralyticspacote pip com dependências opcionaispip install ultralytics[export] -
Reinicie o dispositivo
sudo reboot
Instalar PyTorch e Torchvision
A instalação do ultralytics acima instalará o Torch e a Torchvision. No entanto, esses dois pacotes instalados via pip não são compatíveis com a plataforma Jetson, que é baseada na arquitetura ARM64. Portanto, precisamos instalar manualmente um wheel do PyTorch pip pré-construído e compilar ou instalar a Torchvision a partir do código-fonte.
Instale o torch 2.10.0 e torchvision 0.25.0 de acordo com o JP6.1
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whlVisita a página do PyTorch para Jetson para acessar todas as diferentes versões do PyTorch para diferentes versões do JetPack. Para uma lista mais detalhada sobre a compatibilidade do PyTorch e da Torchvision, visite a página de compatibilidade do PyTorch e Torchvision.
Instale o cuDSS para corrigir um problema de dependência com torch 2.10.0
wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudssInstale o onnxruntime-gpu
O argumento onnxruntime-gpu pacote hospedado no PyPI não possui aarch64 binários para o Jetson. Portanto, precisamos instalar este pacote manualmente. Este pacote é necessário para algumas das exportações.
Você pode encontrar todos os pacotes onnxruntime-gpu disponíveis — organizados por versão do JetPack, versão do Python e outros detalhes de compatibilidade — na matriz de compatibilidade do ONNX Runtime no Jetson Zoo.
Para JetPack 6 com Python 3.10 suporte, você pode instalar onnxruntime-gpu 1.23.0:
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whlAlternativamente, para onnxruntime-gpu 1.20.0:
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whlExecutar no JetPack 5.1.2
Instalar o Pacote Ultralytics
Aqui, instalaremos o pacote Ultralytics no Jetson com dependências opcionais para que possamos exportar os modelos PyTorch para outros formatos diferentes. Focaremos principalmente em exportações NVIDIA TensorRT porque o TensorRT garantirá que possamos obter o desempenho máximo dos dispositivos Jetson.
-
Atualize a lista de pacotes, instale o pip e atualize para a versão mais recente
sudo apt update sudo apt install python3-pip -y pip install -U pip -
Instale o
ultralyticspacote pip com dependências opcionaispip install ultralytics[export] -
Reinicie o dispositivo
sudo reboot
Instalar PyTorch e Torchvision
A instalação do ultralytics acima instalará o Torch e a Torchvision. No entanto, esses dois pacotes instalados via pip não são compatíveis com a plataforma Jetson, que é baseada na arquitetura ARM64. Portanto, precisamos instalar manualmente um wheel do PyTorch pip pré-construído e compilar ou instalar a Torchvision a partir do código-fonte.
-
Desinstalar o PyTorch e a Torchvision instalados atualmente
pip uninstall torch torchvision -
Instale o
torch 2.1.0etorchvision 0.16.2de acordo com o JP5.1.2pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
Visita a página do PyTorch para Jetson para acessar todas as diferentes versões do PyTorch para diferentes versões do JetPack. Para uma lista mais detalhada sobre a compatibilidade do PyTorch e da Torchvision, visite a página de compatibilidade do PyTorch e Torchvision.
Instale o onnxruntime-gpu
O argumento onnxruntime-gpu pacote hospedado no PyPI não possui aarch64 binários para o Jetson. Portanto, precisamos instalar este pacote manualmente. Este pacote é necessário para algumas das exportações.
Você pode encontrar todos os pacotes onnxruntime-gpu disponíveis — organizados por versão do JetPack, versão do Python e outros detalhes de compatibilidade — na matriz de compatibilidade do ONNX Runtime no Jetson Zoo. Aqui, faremos o download e instalaremos onnxruntime-gpu 1.17.0 com Python3.8 suporte.
wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whlonnxruntime-gpu reverterá automaticamente a versão do numpy para a mais recente. Portanto, precisamos reinstalar o numpy para 1.23.5 para corrigir um problema executando:
pip install numpy==1.23.5
Usar TensorRT no NVIDIA Jetson
Entre todos os formatos de exportação de modelo suportados pelo Ultralytics, o TensorRT oferece o maior desempenho de inferência em dispositivos NVIDIA Jetson, tornando-o nossa principal recomendação para implantações no Jetson. Para instruções de configuração e uso avançado, veja nosso guia dedicado de integração com TensorRT.
Converter Modelo para TensorRT e Executar Inferência
O modelo YOLO26n em formato PyTorch é convertido para TensorRT para executar a inferência com o modelo exportado.
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT
model.export(format="engine") # creates 'yolo26n.engine'
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")Visita a página de Exportação para acessar argumentos adicionais ao exportar modelos para diferentes formatos de modelo
Usar o Acelerador de Aprendizado Profundo (DLA) da NVIDIA
O Acelerador de Aprendizado Profundo (DLA) da NVIDIA é um componente de hardware especializado integrado nos dispositivos NVIDIA Jetson que otimiza a inferência de aprendizado profundo para eficiência energética e desempenho. Ao descarregar tarefas da GPU (liberando-a para processos mais intensivos), o DLA permite que os modelos sejam executados com menor consumo de energia, mantendo um alto rendimento, ideal para sistemas embarcados e aplicações de IA em tempo real.
Os seguintes dispositivos Jetson estão equipados com hardware DLA:
| Dispositivo Jetson | Núcleos DLA | Frequência Máxima do DLA |
|---|---|---|
| Série Jetson AGX Orin | 2 | 1.6 GHz |
| Jetson Orin NX 16GB | 2 | 614 MHz |
| Jetson Orin NX 8GB | 1 | 614 MHz |
| Série Jetson AGX Xavier | 2 | 1.4 GHz |
| Série Jetson Xavier NX | 2 | 1.1 GHz |
from ultralytics import YOLO
# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")
# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True) # dla:0 or dla:1 corresponds to the DLA cores
# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")
# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")Ao usar exportações DLA, algumas camadas podem não ser suportadas para execução no DLA e retornarão à GPU para execução. Esse fallback pode introduzir latência adicional e impactar o desempenho geral da inferência. Portanto, o DLA não foi projetado principalmente para reduzir a latência de inferência em comparação com o TensorRT executado inteiramente na GPU. Em vez disso, seu objetivo principal é aumentar o rendimento e melhorar a eficiência energética.
Benchmarks do NVIDIA Jetson YOLO11 / YOLO26
Os benchmarks do YOLO11 / YOLO26 foram executados pela equipe do Ultralytics em 11 formatos de modelo diferentes, medindo a velocidade e accuracy: PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch. Os benchmarks foram executados no NVIDIA Jetson AGX Thor Developer Kit, NVIDIA Jetson AGX Orin Developer Kit (64GB), NVIDIA Jetson Orin Nano Super Developer Kit e Seeed Studio reComputer J4012 alimentado pelo dispositivo Jetson Orin NX 16GB em FP32 precisão com tamanho de imagem de entrada padrão de 640.
Gráficos de Comparação
Embora todas as exportações de modelos funcionem no NVIDIA Jetson, incluímos apenas PyTorch, TorchScript, TensorRT para o gráfico de comparação abaixo, pois eles utilizam a GPU no Jetson e garantem os melhores resultados. Todas as outras exportações utilizam apenas a CPU e o desempenho não é tão bom quanto os três acima. Você pode encontrar benchmarks para todas as exportações na seção após este gráfico.
NVIDIA Jetson AGX Thor Developer Kit
NVIDIA Jetson AGX Orin Developer Kit (64GB)
NVIDIA Jetson Orin Nano Super Developer Kit
NVIDIA Jetson Orin NX 16GB
Tabelas de Comparação Detalhadas
A tabela abaixo apresenta os resultados de benchmark para cinco modelos diferentes (YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x) em 11 formatos diferentes (PyTorch, TorchScript, ONNX, OpenVINO, TensorRT, TF SavedModel, TF GraphDef, TF Lite, MNN, NCNN, ExecuTorch), fornecendo o status, tamanho, métrica mAP50-95(B) e tempo de inferência para cada combinação.
NVIDIA Jetson AGX Thor Developer Kit
| Formato | Status | Tamanho em disco (MB) | mAP50-95(B) | Tempo de inferência (ms/im) |
|---|---|---|---|---|
| Modelos | ✅ | 5.3 | 0.4798 | 7.39 |
| TorchScript | ✅ | 9.8 | 0.4789 | 4.21 |
| ONNX | ✅ | 9.5 | 0.4767 | 6.58 |
| OpenVINO | ✅ | 10.1 | 0.4794 | 17.50 |
| TensorRT (FP32) | ✅ | 13.9 | 0.4791 | 1.90 |
| TensorRT (FP16) | ✅ | 7.6 | 0.4797 | 1.39 |
| TensorRT (INT8) | ✅ | 6.5 | 0.4273 | 1.52 |
| TF SavedModel | ✅ | 25.7 | 0.4764 | 47.24 |
| TF GraphDef | ✅ | 9.5 | 0.4764 | 45.98 |
| TF Lite | ✅ | 9.9 | 0.4764 | 182.04 |
| MNN | ✅ | 9.4 | 0.4784 | 21.83 |
Benchmarked com Ultralytics 8.4.7
O tempo de inferência não inclui pré/pós-processamento.
NVIDIA Jetson AGX Orin Developer Kit (64GB)
| Formato | Status | Tamanho em disco (MB) | mAP50-95(B) | Tempo de inferência (ms/im) |
|---|---|---|---|---|
| Modelos | ✅ | 5.3 | 0.4790 | 11.58 |
| TorchScript | ✅ | 9.8 | 0.4770 | 4.60 |
| ONNX | ✅ | 9.5 | 0.4770 | 9.87 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 28.80 |
| TensorRT (FP32) | ✅ | 11.5 | 0.0450 | 4.18 |
| TensorRT (FP16) | ✅ | 7.9 | 0.0450 | 2.62 |
| TensorRT (INT8) | ✅ | 5.4 | 0.4640 | 2.30 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 71.10 |
| TF GraphDef | ✅ | 9.5 | 0.4760 | 70.02 |
| TF Lite | ✅ | 9.9 | 0.4760 | 227.94 |
| MNN | ✅ | 9.4 | 0.4760 | 32.46 |
| NCNN | ✅ | 9.3 | 0.4810 | 29.93 |
Testado com Ultralytics 8.4.32
O tempo de inferência não inclui pré/pós-processamento.
NVIDIA Jetson Orin Nano Super Developer Kit
| Formato | Status | Tamanho em disco (MB) | mAP50-95(B) | Tempo de inferência (ms/im) |
|---|---|---|---|---|
| Modelos | ✅ | 5.3 | 0.4790 | 15.60 |
| TorchScript | ✅ | 9.8 | 0.4770 | 12.60 |
| ONNX | ✅ | 9.5 | 0.4760 | 15.76 |
| OpenVINO | ✅ | 9.6 | 0.4820 | 56.23 |
| TensorRT (FP32) | ✅ | 11.3 | 0.4770 | 7.53 |
| TensorRT (FP16) | ✅ | 8.1 | 0.4800 | 4.57 |
| TensorRT (INT8) | ✅ | 5.3 | 0.4490 | 3.80 |
| TF SavedModel | ✅ | 24.6 | 0.4760 | 118.33 |
| TF GraphDef | ✅ | 9.5 | 0.4760 | 116.30 |
| TF Lite | ✅ | 9.9 | 0.4760 | 286.00 |
| MNN | ✅ | 9.4 | 0.4760 | 68.77 |
| NCNN | ✅ | 9.3 | 0.4810 | 47.50 |
Testado com Ultralytics 8.4.33
O tempo de inferência não inclui pré/pós-processamento.
NVIDIA Jetson Orin NX 16GB
| Formato | Status | Tamanho em disco (MB) | mAP50-95(B) | Tempo de inferência (ms/im) |
|---|---|---|---|---|
| Modelos | ✅ | 5.3 | 0.4799 | 13.90 |
| TorchScript | ✅ | 9.8 | 0.4787 | 11.60 |
| ONNX | ✅ | 9.5 | 0.4763 | 14.18 |
| OpenVINO | ✅ | 9.6 | 0.4819 | 40.19 |
| TensorRT (FP32) | ✅ | 11.4 | 0.4770 | 7.01 |
| TensorRT (FP16) | ✅ | 8.0 | 0.4789 | 4.13 |
| TensorRT (INT8) | ✅ | 5.5 | 0.4489 | 3.49 |
| TF SavedModel | ✅ | 24.6 | 0.4764 | 92.34 |
| TF GraphDef | ✅ | 9.5 | 0.4764 | 92.06 |
| TF Lite | ✅ | 9.9 | 0.4764 | 254.43 |
| MNN | ✅ | 9.4 | 0.4760 | 48.55 |
| NCNN | ✅ | 9.3 | 0.4805 | 34.31 |
Testado com Ultralytics 8.4.33
O tempo de inferência não inclui pré/pós-processamento.
Explore mais esforços de benchmark pela Seeed Studio rodando em diferentes versões do hardware NVIDIA Jetson.
Reproduza nossos resultados
Para reproduzir os benchmarks da Ultralytics acima em todos os formatos de exportação formatos execute este código:
from ultralytics import YOLO
# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")
# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)Note que os resultados de benchmark podem variar com base na configuração exata de hardware e software de um sistema, bem como na carga de trabalho atual do sistema no momento em que os benchmarks são executados. Para obter os resultados mais confiáveis, use um dataset com um grande número de imagens, por exemplo, data='coco.yaml' (5000 imagens de val).
Melhores práticas ao usar NVIDIA Jetson
Ao usar NVIDIA Jetson, existem algumas práticas recomendadas a seguir para habilitar o desempenho máximo no NVIDIA Jetson rodando YOLO26.
-
Habilite o modo de energia MAX
Habilitar o modo de energia MAX no Jetson garantirá que todos os núcleos de CPU e GPU estejam ligados.
sudo nvpmodel -m 0 -
Habilite os clocks do Jetson
Habilitar os clocks do Jetson garantirá que todos os núcleos de CPU e GPU estejam rodando em sua frequência máxima.
sudo jetson_clocks -
Instale o aplicativo Jetson Stats
Podemos usar o aplicativo jetson stats para monitorar as temperaturas dos componentes do sistema e verificar outros detalhes do sistema, como visualizar a utilização de CPU, GPU, RAM, alterar modos de energia, definir clocks máximos, verificar informações do JetPack
sudo apt update sudo pip install jetson-stats sudo reboot jtop
Dicas de otimização de memória para NVIDIA Jetson
A memória disponível é frequentemente o fator limitante em dispositivos Jetson, particularmente em variantes com menos memória, como o Jetson Orin Nano (8 GB) ou Orin NX 8 GB. As dicas abaixo são mudanças práticas e de baixo risco que podem coletivamente liberar várias centenas de megabytes e permitir que você rode modelos YOLO maiores ou suporte cargas de trabalho paralelas adicionais. Para um tratamento abrangente, veja o blog da NVIDIA sobre como maximizar a eficiência de memória no Jetson.
1. Mude para inicialização Headless (sem GUI)
Se o seu Jetson estiver conectado via SSH ou rodando como um dispositivo de produção sem um monitor conectado, eliminar o ambiente de desktop e o servidor de exibição pode recuperar até 865 MB de RAM:
sudo systemctl set-default multi-user.target
sudo rebootPara restaurar o desktop mais tarde:
sudo systemctl set-default graphical.target
sudo reboot2. Desabilite serviços de sistema não utilizados
Serviços de segundo plano não essenciais (Bluetooth, gerenciadores de conectividade, daemons de hardware não utilizados) consomem cerca de 32 MB combinados. Liste os serviços ativos e desabilite tudo o que seu deploy não exigir:
# List running services
systemctl list-units --type=service --state=running
# Disable a service
sudo systemctl disable <service-name>3. Perfil de uso de memória
Antes de otimizar, identifique quais processos estão realmente consumindo RAM. procrank classifica processos por PSS (Proportional Set Size), que reflete a pegada de memória real por processo com mais precisão do que o RSS (Resident Set Size, o total de páginas de RAM física mapeadas por um processo, incluindo páginas compartilhadas com outros processos):
git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrankPara ver as alocações de GPU e NvMap (pipeline CUDA/vídeo) por processo:
sudo cat /sys/kernel/debug/nvmap/iovmm/clients4. Rode a inferência sem um monitor em produção
Para pipelines de inferência que não têm requisito de visualização ao vivo, desabilitar componentes relacionados à exibição (Tiler, OSD, DisplaySink) pode economizar 200+ MB apenas no pipeline. Com o Ultralytics YOLO, oculte o visualizador e grave os resultados no disco:
from ultralytics import YOLO
model = YOLO("yolo11n.engine")
# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)Impacto Cumulativo
| Otimização | Memória Aprox. Economizada |
|---|---|
| Desabilitar GUI da área de trabalho | ~865 MB |
| Desabilitar serviços não utilizados do SO | ~32 MB |
| Pipeline de inferência headless (sem tela) | ~200+ MB |
| Total (ganhos fáceis) | ~1 GB+ |
Combinar essas alterações é especialmente valioso ao direcionar modelos TensorRT INT8 em dispositivos com memória limitada — pode ser a diferença entre conseguir ou não ajustar uma variante de modelo maior na memória.
Próximos Passos
Para mais aprendizado e suporte, consulte a Ultralytics YOLO26 Docs.
FAQ
Como implanto o Ultralytics YOLO26 em dispositivos NVIDIA Jetson?
Implantar o Ultralytics YOLO26 em dispositivos NVIDIA Jetson é um processo simples. Primeiro, grave o JetPack SDK da NVIDIA no seu dispositivo Jetson. Em seguida, use uma imagem Docker pré-configurada para uma configuração rápida ou instale manualmente os pacotes necessários. Passos detalhados para cada abordagem podem ser encontrados nas seções Início rápido com Docker e Começar com a Instalação Nativa.
Quais benchmarks de desempenho posso esperar dos modelos YOLO11 em dispositivos NVIDIA Jetson?
Os modelos YOLO11 foram testados em vários dispositivos NVIDIA Jetson, mostrando melhorias significativas de desempenho. Por exemplo, o formato TensorRT oferece o melhor desempenho de inferência. A tabela na seção Tabelas de Comparação Detalhadas fornece uma visão abrangente de métricas de desempenho como mAP50-95 e tempo de inferência entre diferentes formatos de modelo.
Por que devo usar o TensorRT para implantar o YOLO26 em dispositivos NVIDIA Jetson?
O TensorRT é altamente recomendado para implantar modelos YOLO26 em dispositivos NVIDIA Jetson devido ao seu desempenho ideal. Ele acelera a inferência aproveitando os recursos da GPU do Jetson, garantindo máxima eficiência e velocidade. Saiba mais sobre como converter para TensorRT e executar a inferência na seção Usar TensorRT no NVIDIA Jetson.
Como posso instalar o PyTorch e o Torchvision em dispositivos NVIDIA Jetson?
Para instalar o PyTorch e o Torchvision no NVIDIA Jetson, primeiro desinstale quaisquer versões existentes que possam ter sido instaladas via pip. Em seguida, instale manualmente as versões compatíveis do PyTorch e Torchvision para a arquitetura ARM64 do Jetson. Instruções detalhadas para este processo são fornecidas na Instalar PyTorch e Torchvision.
Quais são as melhores práticas para maximizar o desempenho no NVIDIA Jetson ao usar o YOLO26?
Para maximizar o desempenho no NVIDIA Jetson com o YOLO26, siga estas melhores práticas:
- Habilite o Modo de Energia MAX para utilizar todos os núcleos da CPU e GPU.
- Habilite o Jetson Clocks para rodar todos os núcleos em sua frequência máxima.
- Instale o aplicativo Jetson Stats para monitorar as métricas do sistema.
Para comandos e detalhes adicionais, consulte a Melhores práticas ao usar NVIDIA Jetson.
Como libero memória no NVIDIA Jetson para rodar modelos YOLO maiores?
A RAM disponível é frequentemente o gargalo em dispositivos Jetson com menos memória. Três ganhos fáceis que juntos podem recuperar mais de 1 GB:
- Mudar para boot headless (
sudo systemctl set-default multi-user.target) para eliminar a GUI da área de trabalho (~865 MB economizados). - Desabilitar serviços não utilizados como Bluetooth ou gerenciadores de conectividade (~32 MB economizados).
- Executar inferência sem tela definindo
show=Falsena sua chamada do YOLOpredict, o que evita alocar memória do pipeline de exibição (~200+ MB economizados).
Use procrank para analisar o uso de RAM por processo e sudo cat /sys/kernel/debug/nvmap/iovmm/clients para inspecionar alocações de GPU. Consulte a Dicas de Otimização de Memória seção para detalhes completos.
Por que minha exportação do TensorRT INT8 desabilita o end2end no JetPack 6?
O TensorRT 10.3.0 enviado com o JetPack 6 tem um problema conhecido que impede builds do motor INT8 quando end2end=True está habilitado. Quando o Ultralytics detecta essa combinação, ele desabilita automaticamente a ramificação end2end para garantir que a exportação seja bem-sucedida.
Para restaurar exportações INT8 end2end, atualize o TensorRT para uma versão mais recente (ex: 10.7.0+):
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrtApós atualizar, execute sua exportação novamente. Para mais detalhes, consulte GitHub issue #23841.