快速入门指南:NVIDIA Jetson 与 Ultralytics YOLO26

本综合指南提供了在 NVIDIA Jetson 设备上部署 Ultralytics YOLO26 的详细操作说明。此外,它还展示了性能基准测试,以证明 YOLO26 在这些小型而强大的设备上的能力。

新产品支持

我们使用最新的 NVIDIA Jetson AGX Thor Developer Kit 更新了本指南,它提供了高达 2070 FP4 TFLOPS 的 AI 计算能力和 128 GB 内存,功耗可在 40 W 到 130 W 之间配置。它的 AI 计算能力比 NVIDIA Jetson AGX Orin 高出 7.5 倍以上,能效提升了 3.5 倍,可无缝运行最流行的 AI 模型。



Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices
NVIDIA Jetson Ecosystem
注意

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.

什么是 NVIDIA Jetson?

NVIDIA Jetson 是一系列嵌入式计算板卡,旨在为边缘设备带来加速 AI(人工智能)计算能力。这些紧凑而强大的设备围绕 NVIDIA 的 GPU 架构构建,可以直接在设备上运行复杂的 AI 算法和 deep learning 模型,而无需依赖 cloud computing 资源。Jetson 板卡常用于机器人、自动驾驶车辆、工业自动化以及其他需要以低延迟和高效率在本地执行 AI 推理的应用场景。此外,这些板卡基于 ARM64 架构,与传统的 GPU 计算设备相比,运行功耗更低。

NVIDIA Jetson 系列对比

NVIDIA Jetson AGX Thor 是 NVIDIA Jetson 家族的最新迭代产品,基于 NVIDIA Blackwell 架构,与前几代产品相比,AI 性能有了显著提升。下表比较了该生态系统中的几款 Jetson 设备。

Jetson AGX Thor(T5000)Jetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
AI 性能2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU2560 核心 NVIDIA Blackwell 架构 GPU,配备 96 个 Tensor Core2048 核心 NVIDIA Ampere 架构 GPU,配备 64 个 Tensor Core1024 核心 NVIDIA Ampere 架构 GPU,配备 32 个 Tensor Core1024 核心 NVIDIA Ampere 架构 GPU,配备 32 个 Tensor Core512 核心 NVIDIA Volta 架构 GPU,配备 64 个 Tensor Core384 核心 NVIDIA Volta™ 架构 GPU,配备 48 个 Tensor Core128 核心 NVIDIA Maxwell™ 架构 GPU
GPU 最高频率1.57 GHz1.3 GHz918 MHz1020 MHz1377 MHz1100 MHz921MHz
CPU14 核心 Arm® Neoverse®-V3AE 64 位 CPU,1MB L2 + 16MB L312 核心 NVIDIA Arm® Cortex A78AE v8.2 64 位 CPU,3MB L2 + 6MB L38 核心 NVIDIA Arm® Cortex A78AE v8.2 64 位 CPU,2MB L2 + 4MB L36 核心 Arm® Cortex®-A78AE v8.2 64 位 CPU,1.5MB L2 + 4MB L38 核心 NVIDIA Carmel Arm®v8.2 64 位 CPU,8MB L2 + 4MB L36 核心 NVIDIA Carmel Arm®v8.2 64 位 CPU,6MB L2 + 4MB L3四核 Arm® Cortex®-A57 MPCore 处理器
CPU 最高频率2.6 GHz2.2 GHz2.0 GHz1.7 GHz2.2 GHz1.9 GHz1.43GHz
内存128GB 256 位 LPDDR5X 273GB/s64GB 256 位 LPDDR5 204.8GB/s16GB 128 位 LPDDR5 102.4GB/s8GB 128 位 LPDDR5 102 GB/s32GB 256 位 LPDDR4x 136.5GB/s8GB 128 位 LPDDR4x 59.7GB/s4GB 64 位 LPDDR4 25.6GB/s

如需更详细的对比表,请访问 NVIDIA Jetson 官方页面比较规格 部分。

什么是 NVIDIA JetPack?

NVIDIA JetPack SDK 为 Jetson 模块提供支持,是目前最全面的解决方案,为构建端到端加速 AI 应用提供了完整的开发环境,并缩短了产品上市时间。JetPack 包括带有引导加载程序、Linux 内核、Ubuntu 桌面环境的 Jetson Linux,以及一套用于加速 GPU 计算、多媒体、图形和 computer vision 的完整库。它还包括针对主机和开发套件的示例、文档和开发工具,并支持更高级别的 SDK,例如用于视频流分析的 DeepStream、用于机器人的 Isaac 和用于对话式 AI 的 Riva。

将 JetPack 烧录到 NVIDIA Jetson

拿到 NVIDIA Jetson 设备后的第一步是将 NVIDIA JetPack 烧录到设备中。烧录 NVIDIA Jetson 设备有多种方法。

  1. 如果你拥有官方 NVIDIA 开发套件(如 Jetson AGX Thor Developer Kit),你可以 下载镜像并准备一个可启动的 USB 盘,将 JetPack 烧录到自带的 SSD 中
  2. 如果你拥有官方 NVIDIA 开发套件(如 Jetson Orin Nano Developer Kit),你可以 下载镜像并准备一张带有 JetPack 的 SD 卡来引导设备
  3. 如果你拥有任何其他 NVIDIA 开发套件,可以使用 SDK Manager 将 JetPack 烧录到设备
  4. 如果你拥有 Seeed Studio reComputer J4012 设备,可以 将 JetPack 烧录到自带的 SSD 中;如果你拥有 Seeed Studio reComputer J1020 v2 设备,可以 将 JetPack 烧录到 eMMC/SSD
  5. 如果你拥有任何其他由 NVIDIA Jetson 模块驱动的第三方设备,建议遵循 命令行烧录方法
注意

对于上述第 1、4 和 5 种方法,在烧录系统并引导设备后,请在设备终端输入 "sudo apt update && sudo apt install nvidia-jetpack -y" 以安装所有剩余所需的 JetPack 组件。

基于 Jetson 设备的 JetPack 支持情况

下表重点介绍了不同 NVIDIA Jetson 设备支持的 NVIDIA JetPack 版本。

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Docker 快速入门

在 NVIDIA Jetson 上开始使用 Ultralytics YOLO26 最快的方法是运行 Jetson 的预构建 Docker 镜像。请参考上表,根据你拥有的 Jetson 设备选择相应的 JetPack 版本。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

完成此操作后,请跳至 在 NVIDIA Jetson 上使用 TensorRT 部分。

开始原生安装

如需在不使用 Docker 的情况下进行本地安装,请参考以下步骤。

在 JetPack 7.0 上运行

安装 Ultralytics 包

在这里,我们将通过安装可选依赖项在 Jetson 上安装 Ultralytics 包,以便将 PyTorch 模型导出为其他不同格式。我们将主要关注 NVIDIA TensorRT 导出,因为 TensorRT 可以确保我们在 Jetson 设备上获得最佳性能。

  1. 更新包列表,安装 pip 并升级到最新版本

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 安装带有可选依赖项的 ultralytics pip 包

    pip install ultralytics[export]
  3. 重启设备

    sudo reboot

安装 PyTorch 和 Torchvision

上述 ultralytics 安装将会安装 Torch 和 Torchvision。但是,通过 pip 安装的这两个包与带有 JetPack 7.0 和 CUDA 13 的 Jetson AGX Thor 不兼容。因此,我们需要手动安装它们。

根据 JP7.0 安装 torchtorchvision

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

安装 onnxruntime-gpu

PyPI 上托管的 onnxruntime-gpu 包没有适用于 Jetson 的 aarch64 二进制文件。因此我们需要手动安装此包。某些导出功能需要此包。

Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

在 JetPack 6.1 上运行

安装 Ultralytics 包

在这里,我们将通过安装可选依赖项在 Jetson 上安装 Ultralytics 包,以便将 PyTorch 模型导出为其他不同格式。我们将主要关注 NVIDIA TensorRT 导出,因为 TensorRT 可以确保我们在 Jetson 设备上获得最佳性能。

  1. 更新包列表,安装 pip 并升级到最新版本

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 安装带有可选依赖项的 ultralytics pip 包

    pip install ultralytics[export]
  3. 重启设备

    sudo reboot

安装 PyTorch 和 Torchvision

上述 ultralytics 安装将会安装 Torch 和 Torchvision。但是,通过 pip 安装的这两个包与基于 ARM64 架构的 Jetson 平台不兼容。因此,我们需要手动安装预构建的 PyTorch pip wheel,并从源代码编译或安装 Torchvision。

根据 JP6.1 安装 torch 2.10.0torchvision 0.25.0

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl
注意

访问 PyTorch for Jetson 页面 获取适用于不同 JetPack 版本的 PyTorch 不同版本。有关 PyTorch 和 Torchvision 兼容性的更详细列表,请访问 PyTorch 和 Torchvision 兼容性页面

安装 cuDSS 以修复 torch 2.10.0 的依赖问题

wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudss

安装 onnxruntime-gpu

PyPI 上托管的 onnxruntime-gpu 包没有适用于 Jetson 的 aarch64 二进制文件。因此我们需要手动安装此包。某些导出功能需要此包。

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix.

对于支持 Python 3.10JetPack 6,你可以安装 onnxruntime-gpu 1.23.0

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl

或者,对于 onnxruntime-gpu 1.20.0

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

在 JetPack 5.1.2 上运行

安装 Ultralytics 包

在这里,我们将通过安装可选依赖项在 Jetson 上安装 Ultralytics 包,以便将 PyTorch 模型导出为其他不同格式。我们将主要关注 NVIDIA TensorRT 导出,因为 TensorRT 可以确保我们在 Jetson 设备上获得最佳性能。

  1. 更新包列表,安装 pip 并升级到最新版本

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 安装带有可选依赖项的 ultralytics pip 包

    pip install ultralytics[export]
  3. 重启设备

    sudo reboot

安装 PyTorch 和 Torchvision

上述 ultralytics 安装将会安装 Torch 和 Torchvision。但是,通过 pip 安装的这两个包与基于 ARM64 架构的 Jetson 平台不兼容。因此,我们需要手动安装预构建的 PyTorch pip wheel,并从源代码编译或安装 Torchvision。

  1. 卸载当前已安装的 PyTorch 和 Torchvision

    pip uninstall torch torchvision
  2. 根据 JP5.1.2 安装 torch 2.1.0torchvision 0.16.2

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
注意

访问 PyTorch for Jetson 页面 获取适用于不同 JetPack 版本的 PyTorch 不同版本。有关 PyTorch 和 Torchvision 兼容性的更详细列表,请访问 PyTorch 和 Torchvision 兼容性页面

安装 onnxruntime-gpu

PyPI 上托管的 onnxruntime-gpu 包没有适用于 Jetson 的 aarch64 二进制文件。因此我们需要手动安装此包。某些导出功能需要此包。

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
注意

onnxruntime-gpu 会自动将 NumPy 版本还原为最新版。因此,我们需要执行以下命令将 NumPy 重新安装到 1.23.5 以解决该问题:

pip install numpy==1.23.5

在 NVIDIA Jetson 上使用 TensorRT

在 Ultralytics 支持的所有模型导出格式中,TensorRT 在 NVIDIA Jetson 设备上提供了最高的推理性能,因此它是我们进行 Jetson 部署的首选推荐。有关设置说明和高级用法,请参阅我们专门的 TensorRT 集成指南

将模型转换为 TensorRT 并运行推理

将 PyTorch 格式的 YOLO26n 模型转换为 TensorRT,以便使用导出的模型运行推理。

示例
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

访问 导出页面 以获取将模型导出为不同格式时的其他参数

使用 NVIDIA 深度学习加速器 (DLA)

NVIDIA 深度学习加速器 (DLA) 是内置于 NVIDIA Jetson 设备中的专用硬件组件,旨在优化深度学习推理以提高能效和性能。通过将任务从 GPU 分流(从而将其释放给更密集的过程),DLA 能够在保持高吞吐量的同时以更低的功耗运行模型,非常适合嵌入式系统和实时 AI 应用。

以下 Jetson 设备配备了 DLA 硬件:

Jetson 设备DLA 核心DLA 最大频率
Jetson AGX Orin 系列21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Jetson AGX Xavier 系列21.4 GHz
Jetson Xavier NX 系列21.1 GHz
示例
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

当使用 DLA 导出时,某些层可能不支持在 DLA 上运行,并将回退到 GPU 执行。这种回退可能会引入额外的延迟并影响整体推理性能。因此,DLA 的主要设计目的并不是为了降低相比于完全在 GPU 上运行 TensorRT 的推理延迟。相反,其主要目的是增加吞吐量并提高能效。

NVIDIA Jetson YOLO11/ YOLO26 基准测试

YOLO11/ YOLO26 基准测试由 Ultralytics 团队在 11 种不同的模型格式上运行,测量了速度和准确率:PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch。基准测试是在 NVIDIA Jetson AGX Thor 开发套件、NVIDIA Jetson AGX Orin 开发套件 (64GB)、NVIDIA Jetson Orin Nano Super 开发套件以及由 Jetson Orin NX 16GB 设备驱动的 Seeed Studio reComputer J4012 上运行的,采用 FP32 精度,默认输入图像大小为 640。

对比图表

尽管所有模型导出格式都可以在 NVIDIA Jetson 上运行,但我们仅在下方的对比图表中包含了 PyTorch、TorchScript、TensorRT,因为它们利用了 Jetson 上的 GPU,并保证能产生最佳结果。所有其他导出格式仅使用 CPU,其性能不如上述三种。你可以在此图表之后的章节中找到所有导出格式的基准测试数据。

NVIDIA Jetson AGX Thor 开发套件

Jetson AGX Thor Benchmarks
Benchmarked with Ultralytics 8.3.226

NVIDIA Jetson AGX Orin 开发套件 (64GB)

Jetson AGX Orin Benchmarks
Benchmarked with Ultralytics 8.4.32

NVIDIA Jetson Orin Nano Super 开发套件

Jetson Orin Nano Super Benchmarks
Benchmarked with Ultralytics 8.4.33

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB Benchmarks
Benchmarked with Ultralytics 8.4.33

详细对比表

下表展示了五种不同模型(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)在 11 种不同格式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)下的基准测试结果,给出了每种组合的状态、大小、mAP50-95(B) 指标和推理时间。

NVIDIA Jetson AGX Thor 开发套件

性能
格式状态磁盘大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.47987.39
TorchScript9.80.47894.21
ONNX9.50.47676.58
OpenVINO10.10.479417.50
TensorRT (FP32)13.90.47911.90
TensorRT (FP16)7.60.47971.39
TensorRT (INT8)6.50.42731.52
TF SavedModel25.70.476447.24
TF GraphDef9.50.476445.98
TF Lite9.90.4764182.04
MNN9.40.478421.83

使用 Ultralytics 8.4.7 进行基准测试

注意

推理时间不包括预处理/后处理。

NVIDIA Jetson AGX Orin 开发套件 (64GB)

性能
格式状态磁盘大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.479011.58
TorchScript9.80.47704.60
ONNX9.50.47709.87
OpenVINO9.60.482028.80
TensorRT (FP32)11.50.04504.18
TensorRT (FP16)7.90.04502.62
TensorRT (INT8)5.40.46402.30
TF SavedModel24.60.476071.10
TF GraphDef9.50.476070.02
TF Lite9.90.4760227.94
MNN9.40.476032.46
NCNN9.30.481029.93

使用 Ultralytics 8.4.32 进行基准测试

注意

推理时间不包括预处理/后处理。

NVIDIA Jetson Orin Nano Super 开发套件

性能
格式状态磁盘大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.479015.60
TorchScript9.80.477012.60
ONNX9.50.476015.76
OpenVINO9.60.482056.23
TensorRT (FP32)11.30.47707.53
TensorRT (FP16)8.10.48004.57
TensorRT (INT8)5.30.44903.80
TF SavedModel24.60.4760118.33
TF GraphDef9.50.4760116.30
TF Lite9.90.4760286.00
MNN9.40.476068.77
NCNN9.30.481047.50

使用 Ultralytics 8.4.33 进行基准测试

注意

推理时间不包括预处理/后处理。

NVIDIA Jetson Orin NX 16GB

性能
格式状态磁盘大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.479913.90
TorchScript9.80.478711.60
ONNX9.50.476314.18
OpenVINO9.60.481940.19
TensorRT (FP32)11.40.47707.01
TensorRT (FP16)8.00.47894.13
TensorRT (INT8)5.50.44893.49
TF SavedModel24.60.476492.34
TF GraphDef9.50.476492.06
TF Lite9.90.4764254.43
MNN9.40.476048.55
NCNN9.30.480534.31

使用 Ultralytics 8.4.33 进行基准测试

注意

推理时间不包括预处理/后处理。

探索更多来自 Seeed Studio 的基准测试成果,这些测试涵盖了不同版本的 NVIDIA Jetson 硬件。

复现我们的结果

要复现上述针对所有导出 格式 的 Ultralytics 基准测试,请运行此代码:

示例
from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

请注意,基准测试结果可能会因系统的具体硬件和软件配置,以及运行基准测试时系统的当前工作负载而有所不同。为了获得最可靠的结果,请使用包含大量图像的数据集,例如 data='coco.yaml'(5000 张验证集图像)。

使用 NVIDIA Jetson 时的最佳实践

在使用 NVIDIA Jetson 时,为了在运行 YOLO26 的 NVIDIA Jetson 上获得最大性能,请遵循以下几点最佳实践。

  1. 启用 MAX 电源模式

    在 Jetson 上启用 MAX 电源模式可确保所有 CPU 和 GPU 核心均已开启。

    sudo nvpmodel -m 0
  2. 启用 Jetson 时钟

    启用 Jetson 时钟可确保所有 CPU 和 GPU 核心均以其最高频率运行。

    sudo jetson_clocks
  3. 安装 Jetson Stats 应用程序

    我们可以使用 jetson stats 应用程序来监控系统组件的温度,并检查其他系统详细信息,例如查看 CPU、GPU、RAM 的利用率,更改电源模式,设置为最高时钟频率,以及查看 JetPack 信息。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
Jetson Stats

NVIDIA Jetson 内存优化提示

可用内存通常是 Jetson 设备上的限制因素,特别是在内存较小的变体(如 Jetson Orin Nano (8 GB) 或 Orin NX 8 GB)上。以下建议是一些实用的、低风险的更改,它们可以共同释放几百 MB 的内存,让你能够运行更大的 YOLO 模型或支持额外的并行工作负载。欲了解完整说明,请参阅 NVIDIA 关于最大化 Jetson 内存效率的博客

切换至无头(无 GUI)启动

如果你的 Jetson 通过 SSH 连接,或者作为没有外接显示器的生产设备运行,消除桌面环境和显示服务器最多可回收 865 MB 的 RAM:

sudo systemctl set-default multi-user.target
sudo reboot

稍后恢复桌面环境的方法:

sudo systemctl set-default graphical.target
sudo reboot

禁用未使用的系统服务

非必要后台服务(蓝牙、连接管理器、未使用的硬件守护进程)合计占用约 32 MB。请列出活动服务并禁用部署不需要的任何服务:

# List running services
systemctl list-units --type=service --state=running

# Disable a service
sudo systemctl disable <service-name>

分析内存使用情况

在进行优化之前,先确定哪些进程实际占用了 RAM。procrank 按 PSS(比例集大小)对进程进行排序,它比 RSS(驻留集大小,即由进程映射的物理 RAM 总页数,包括与其它进程共享的页)更准确地反映了每个进程的真实内存占用情况:

git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank

要查看每个进程的 GPU 和 NvMap(CUDA/视频流水线)分配情况:

sudo cat /sys/kernel/debug/nvmap/iovmm/clients

在生产环境中运行无显示器的推理

对于不需要实时预览的推理流水线,禁用与显示相关的组件(Tiler, OSD, DisplaySink)仅此一项即可节省 200+ MB 的内存。使用 Ultralytics YOLO 时,禁止查看器并将结果写入磁盘:

示例
from ultralytics import YOLO

model = YOLO("yolo11n.engine")

# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)

累积影响

优化大约节省的内存
禁用桌面 GUI~865 MB
禁用未使用的操作系统服务~32 MB
无头推理流水线(无显示)~200+ MB
总计(轻松实现的优化)~1 GB+

在内存受限的设备上针对 TensorRT INT8 模型进行部署时,结合这些更改尤为有效——这可能决定了你是否能够装下更大尺寸的模型。

后续步骤

如需进一步学习和支持,请参阅 Ultralytics YOLO26 文档

常见问题 (FAQ)

我该如何在 NVIDIA Jetson 设备上部署 Ultralytics YOLO26?

在 NVIDIA Jetson 设备上部署 Ultralytics YOLO26 是一个简单的过程。首先,使用 NVIDIA JetPack SDK 对你的 Jetson 设备进行刷机。然后,要么使用预构建的 Docker 镜像进行快速设置,要么手动安装所需的包。每种方法的详细步骤可在 快速入门 Docker开始原生安装 部分找到。

我可以在 NVIDIA Jetson 设备上从 YOLO11 模型中获得什么样的性能基准?

YOLO11 模型已在各种 NVIDIA Jetson 设备上进行过基准测试,显示出显著的性能提升。例如,TensorRT 格式可提供最佳的推理性能。详细对比表 部分中的表格提供了 mAP50-95 和不同模型格式推理时间等性能指标的全面视图。

为什么我应该使用 TensorRT 在 NVIDIA Jetson 上部署 YOLO26?

TensorRT 由于其卓越的性能,被强烈推荐用于在 NVIDIA Jetson 上部署 YOLO26 模型。它通过利用 Jetson 的 GPU 功能来加速推理,从而确保最高效率和速度。在 在 NVIDIA Jetson 上使用 TensorRT 部分了解有关如何转换为 TensorRT 并运行推理的更多信息。

我该如何在 NVIDIA Jetson 上安装 PyTorch 和 Torchvision?

要在 NVIDIA Jetson 上安装 PyTorch 和 Torchvision,请先卸载任何可能通过 pip 安装的现有版本。然后,手动安装适用于 Jetson ARM64 架构的兼容 PyTorch 和 Torchvision 版本。此过程的详细说明请参阅 安装 PyTorch 和 Torchvision 部分。

在使用 YOLO26 时,在 NVIDIA Jetson 上最大化性能的最佳实践是什么?

要在 NVIDIA Jetson 上利用 YOLO26 实现性能最大化,请遵循以下最佳实践:

  1. 启用 MAX 电源模式以利用所有 CPU 和 GPU 核心。
  2. 启用 Jetson 时钟以使所有核心以最高频率运行。
  3. 安装 Jetson Stats 应用程序以监控系统指标。

有关命令和更多详细信息,请参阅 使用 NVIDIA Jetson 时的最佳实践 部分。

我该如何释放 NVIDIA Jetson 上的内存以运行更大的 YOLO 模型?

可用 RAM 通常是内存较小的 Jetson 设备上的瓶颈。以下三个轻松的优化步骤总共可回收超过 1 GB 的内存:

  1. 切换至无头启动 (sudo systemctl set-default multi-user.target) 以消除桌面 GUI(节省约 865 MB)。
  2. 禁用未使用的服务,例如蓝牙或连接管理器(节省约 32 MB)。
  3. Run inference without a display by setting show=False in your YOLO predict call, which avoids allocating display pipeline memory (~200+ MB saved).

使用 procrank 分析每个进程的 RAM 使用情况,并使用 sudo cat /sys/kernel/debug/nvmap/iovmm/clients 检查 GPU 分配。详见 内存优化提示 部分。

为什么我的 TensorRT INT8 导出在 JetPack 6 上禁用了 end2end?

随 JetPack 6 发布的 TensorRT 10.3.0 存在一个已知问题,当启用 end2end=True 时,它会阻止 INT8 引擎的构建。当 Ultralytics 检测到此组合时,它会自动禁用 end2end 分支以确保导出成功。

要恢复 end2end INT8 导出,请将 TensorRT 升级到较新版本(例如 10.7.0+):

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt

升级后,重新运行导出。有关更多详细信息,请参阅 GitHub 问题 #23841

评论