Meet YOLO26: next-gen vision AI.

Link to this section快速入门指南:将 NVIDIA Jetson 与 Ultralytics YOLO26 结合使用#

本综合指南提供了在 NVIDIA Jetson 设备上部署 Ultralytics YOLO26 的详细步骤。此外,它还展示了性能基准测试,以体现 YOLO26 在这些小型且强大的设备上的能力。

新产品支持

我们已更新本指南,包含最新的 NVIDIA Jetson AGX Thor Developer Kit,它提供高达 2070 FP4 TFLOPS 的 AI 计算能力和 128 GB 内存,功耗可在 40 W 到 130 W 之间配置。其 AI 计算能力比 NVIDIA Jetson AGX Orin 高出 7.5 倍以上,能源效率提升了 3.5 倍,能够顺畅运行最热门的 AI 模型。



Watch: How to use Ultralytics YOLO26 on NVIDIA Jetson Devices
NVIDIA Jetson Ecosystem
注意

This guide has been tested with NVIDIA Jetson AGX Thor Developer Kit (Jetson T5000) running the latest stable JetPack release of JP7.0, NVIDIA Jetson AGX Orin Developer Kit (64GB) running JetPack release of JP6.2, NVIDIA Jetson Orin Nano Super Developer Kit running JetPack release of JP6.1, Seeed Studio reComputer J4012 which is based on NVIDIA Jetson Orin NX 16GB running JetPack release of JP6.0/ JetPack release of JP5.1.3 and Seeed Studio reComputer J1020 v2 which is based on NVIDIA Jetson Nano 4GB running JetPack release of JP4.6.1. It is expected to work across all the NVIDIA Jetson hardware lineup, including the latest and legacy devices.

Link to this section什么是 NVIDIA Jetson?#

NVIDIA Jetson 是一系列嵌入式计算板卡,旨在将加速 AI(人工智能)计算引入边缘设备。这些紧凑而强大的设备围绕 NVIDIA 的 GPU 架构构建,能够直接在设备上运行复杂的 AI 算法和 深度学习 模型,而无需依赖 云计算 资源。Jetson 板卡通常用于机器人、自动驾驶汽车、工业自动化以及其他需要在本地进行 AI 推理且要求低延迟和高效率的应用场景。此外,这些板卡基于 ARM64 架构,与传统的 GPU 计算设备相比,功耗更低。

Link to this sectionNVIDIA Jetson 系列对比#

NVIDIA Jetson AGX Thor 是 NVIDIA Jetson 系列的最新迭代产品,基于 NVIDIA Blackwell 架构,与前几代产品相比,其 AI 性能得到了显著提升。下表比较了生态系统中的部分 Jetson 设备。

Jetson AGX Thor(T5000)Jetson AGX Orin 64GBJetson Orin NX 16GBJetson Orin Nano SuperJetson AGX XavierJetson Xavier NXJetson Nano
AI 性能2070 TFLOPS275 TOPS100 TOPS67 TOPS32 TOPS21 TOPS472 GFLOPS
GPU2560 核 NVIDIA Blackwell 架构 GPU,配有 96 个 Tensor Core2048 核 NVIDIA Ampere 架构 GPU,配有 64 个 Tensor Core1024 核 NVIDIA Ampere 架构 GPU,配有 32 个 Tensor Core1024 核 NVIDIA Ampere 架构 GPU,配有 32 个 Tensor Core512 核 NVIDIA Volta 架构 GPU,配有 64 个 Tensor Core384 核 NVIDIA Volta™ 架构 GPU,配有 48 个 Tensor Core128 核 NVIDIA Maxwell™ 架构 GPU
GPU 最高频率1.57 GHz1.3 GHz918 MHz1020 MHz1377 MHz1100 MHz921 MHz
CPU14 核 Arm® Neoverse®-V3AE 64 位 CPU,1MB L2 + 16MB L312 核 NVIDIA Arm® Cortex A78AE v8.2 64 位 CPU,3MB L2 + 6MB L38 核 NVIDIA Arm® Cortex A78AE v8.2 64 位 CPU,2MB L2 + 4MB L36 核 Arm® Cortex®-A78AE v8.2 64 位 CPU,1.5MB L2 + 4MB L38 核 NVIDIA Carmel Arm®v8.2 64 位 CPU,8MB L2 + 4MB L36 核 NVIDIA Carmel Arm®v8.2 64 位 CPU,6MB L2 + 4MB L3四核 Arm® Cortex®-A57 MPCore 处理器
CPU 最高频率2.6 GHz2.2 GHz2.0 GHz1.7 GHz2.2 GHz1.9 GHz1.43 GHz
内存128GB 256 位 LPDDR5X 273GB/s64GB 256 位 LPDDR5 204.8GB/s16GB 128 位 LPDDR5 102.4GB/s8GB 128 位 LPDDR5 102 GB/s32GB 256 位 LPDDR4x 136.5GB/s8GB 128 位 LPDDR4x 59.7GB/s4GB 64 位 LPDDR4 25.6GB/s

如需更详细的对比表,请访问 NVIDIA Jetson 官方页面Compare Specifications(规格对比) 部分。

Link to this section什么是 NVIDIA JetPack?#

为 Jetson 模块提供支持的 NVIDIA JetPack SDK 是最全面的解决方案,它提供了用于构建端到端加速 AI 应用程序的完整开发环境,并缩短了产品上市时间。JetPack 包含带有引导加载程序、Linux 内核、Ubuntu 桌面环境的 Jetson Linux,以及一套用于加速 GPU 计算、多媒体、图形和 计算机视觉 的完整库。它还包括面向主机和开发套件的示例、文档和开发工具,并支持更高级别的 SDK,例如用于视频流分析的 DeepStream、用于机器人的 Isaac 和用于对话式 AI 的 Riva。

Link to this section将 JetPack 烧录到 NVIDIA Jetson#

拿到 NVIDIA Jetson 设备后的第一步是将 NVIDIA JetPack 烧录到设备中。烧录 NVIDIA Jetson 设备有几种不同的方法。

  1. 如果你拥有官方 NVIDIA 开发套件(如 Jetson AGX Thor Developer Kit),你可以 下载镜像并准备一个可启动的 USB 盘,将 JetPack 烧录到内置 SSD
  2. 如果你拥有官方 NVIDIA 开发套件(如 Jetson Orin Nano Developer Kit),你可以 下载镜像并准备一张带有 JetPack 的 SD 卡,用于启动设备
  3. 如果你拥有任何其他 NVIDIA 开发套件,可以使用 SDK Manager 将 JetPack 烧录到设备
  4. 如果你拥有 Seeed Studio reComputer J4012 设备,你可以 将 JetPack 烧录到内置 SSD;如果你拥有 Seeed Studio reComputer J1020 v2 设备,你可以 将 JetPack 烧录到 eMMC/SSD
  5. 如果你拥有任何其他由 NVIDIA Jetson 模块驱动的第三方设备,建议遵循 命令行烧录方法
注意

对于上述第 1、4 和 5 种方法,在烧录系统并启动设备后,请在设备终端输入 "sudo apt update && sudo apt install nvidia-jetpack -y" 以安装所有剩余所需的 JetPack 组件。

Link to this section基于 Jetson 设备的 JetPack 支持情况#

下表重点介绍了不同 NVIDIA Jetson 设备支持的 NVIDIA JetPack 版本。

JetPack 4JetPack 5JetPack 6JetPack 7
Jetson Nano
Jetson TX2
Jetson Xavier NX
Jetson AGX Xavier
Jetson AGX Orin
Jetson Orin NX
Jetson Orin Nano
Jetson AGX Thor

Link to this sectionDocker 快速入门#

在 NVIDIA Jetson 上开始使用 Ultralytics YOLO26 的最快方法是运行预构建的 Jetson Docker 镜像。请参阅上表,根据你拥有的 Jetson 设备选择相应的 JetPack 版本。

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

完成后,请跳至 在 NVIDIA Jetson 上使用 TensorRT 部分。

Link to this section原生安装入门#

对于不使用 Docker 的原生安装,请参阅以下步骤。

Link to this section在 JetPack 7.0 上运行#

Link to this section安装 Ultralytics 包#

在这里,我们将把 Ultralytics 包安装到 Jetson 上,并附带可选依赖项,以便我们可以将 PyTorch 模型导出为其他不同格式。我们将主要关注 NVIDIA TensorRT 导出,因为 TensorRT 将确保我们能够从 Jetson 设备中获得最大性能。

  1. 更新软件包列表,安装 pip 并升级到最新版本

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 安装带有可选依赖项的 ultralytics pip 包

    pip install ultralytics[export]
  3. 重启设备

    sudo reboot

Link to this section安装 PyTorch 和 Torchvision#

上述 ultralytics 安装将会安装 Torch 和 Torchvision。但是,通过 pip 安装的这两个包与运行 JetPack 7.0 和 CUDA 13 的 Jetson AGX Thor 不兼容。因此,我们需要手动安装它们。

根据 JP7.0 安装 torchtorchvision

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130

Link to this section安装 onnxruntime-gpu#

PyPI 上托管的 onnxruntime-gpu 包没有适用于 Jetson 的 aarch64 二进制文件。因此我们需要手动安装此包。某些导出操作需要此包。

Here we will download and install onnxruntime-gpu 1.24.0 with Python3.12 support.

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.24.0-cp312-cp312-linux_aarch64.whl

Link to this section在 JetPack 6.1 上运行#

Link to this section安装 Ultralytics 包#

在这里,我们将把 Ultralytics 包安装到 Jetson 上,并附带可选依赖项,以便我们可以将 PyTorch 模型导出为其他不同格式。我们将主要关注 NVIDIA TensorRT 导出,因为 TensorRT 将确保我们能够从 Jetson 设备中获得最大性能。

  1. 更新软件包列表,安装 pip 并升级到最新版本

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 安装带有可选依赖项的 ultralytics pip 包

    pip install ultralytics[export]
  3. 重启设备

    sudo reboot

Link to this section安装 PyTorch 和 Torchvision#

上述 ultralytics 安装会自动安装 Torch 和 Torchvision。然而,通过 pip 安装的这两个软件包与基于 ARM64 架构的 Jetson 平台不兼容。因此,我们需要手动安装预构建的 PyTorch pip wheel,并从源码编译或安装 Torchvision。

根据 JP6.1 安装 torch 2.10.0torchvision 0.25.0

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.10.0-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.25.0-cp310-cp310-linux_aarch64.whl
注意

访问 PyTorch for Jetson 页面 以获取适用于不同 JetPack 版本的 PyTorch 版本。有关 PyTorch 和 Torchvision 兼容性的详细列表,请访问 PyTorch 和 Torchvision 兼容性页面

安装 cuDSS 以修复 torch 2.10.0 的依赖问题

wget https://developer.download.nvidia.com/compute/cudss/0.7.1/local_installers/cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo dpkg -i cudss-local-tegra-repo-ubuntu2204-0.7.1_0.7.1-1_arm64.deb
sudo cp /var/cudss-local-tegra-repo-ubuntu2204-0.7.1/cudss-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudss

Link to this section安装 onnxruntime-gpu#

PyPI 上托管的 onnxruntime-gpu 包没有适用于 Jetson 的 aarch64 二进制文件。因此我们需要手动安装此包。某些导出操作需要此包。

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix.

对于支持 Python 3.10JetPack 6,你可以安装 onnxruntime-gpu 1.23.0

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.23.0-cp310-cp310-linux_aarch64.whl

或者,安装 onnxruntime-gpu 1.20.0

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

Link to this section在 JetPack 5.1.2 上运行#

Link to this section安装 Ultralytics 包#

这里我们将安装包含可选依赖项的 Ultralytics 软件包,以便将 PyTorch 模型导出为其他不同格式。我们将主要关注 NVIDIA TensorRT 导出,因为 TensorRT 可以确保我们在 Jetson 设备上获得最大性能。

  1. 更新软件包列表,安装 pip 并升级到最新版本

    sudo apt update
    sudo apt install python3-pip -y
    pip install -U pip
  2. 安装带有可选依赖项的 ultralytics pip 包

    pip install ultralytics[export]
  3. 重启设备

    sudo reboot

Link to this section安装 PyTorch 和 Torchvision#

上述 ultralytics 安装会自动安装 Torch 和 Torchvision。然而,通过 pip 安装的这两个软件包与基于 ARM64 架构的 Jetson 平台不兼容。因此,我们需要手动安装预构建的 PyTorch pip wheel,并从源码编译或安装 Torchvision。

  1. 卸载当前安装的 PyTorch 和 Torchvision

    pip uninstall torch torchvision
  2. 根据 JP5.1.2 安装 torch 2.1.0torchvision 0.16.2

    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.1.0a0+41361538.nv23.06-cp38-cp38-linux_aarch64.whl
    pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.16.2+c6f3977-cp38-cp38-linux_aarch64.whl
注意

访问 PyTorch for Jetson 页面 以获取适用于不同 JetPack 版本的 PyTorch 版本。有关 PyTorch 和 Torchvision 兼容性的详细列表,请访问 PyTorch 和 Torchvision 兼容性页面

Link to this section安装 onnxruntime-gpu#

PyPI 上托管的 onnxruntime-gpu 包没有适用于 Jetson 的 aarch64 二进制文件。因此我们需要手动安装此包。某些导出操作需要此包。

You can find all available onnxruntime-gpu packages—organized by JetPack version, Python version, and other compatibility details—in the Jetson Zoo ONNX Runtime compatibility matrix. Here we will download and install onnxruntime-gpu 1.17.0 with Python3.8 support.

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
注意

onnxruntime-gpu 会自动将 NumPy 版本还原为最新版本。因此,我们需要通过执行以下命令将 NumPy 重新安装到 1.23.5 以解决该问题:

pip install numpy==1.23.5

Link to this section在 NVIDIA Jetson 上使用 TensorRT#

在 Ultralytics 支持的所有模型导出格式中,TensorRT 在 NVIDIA Jetson 设备上提供最高的推理性能,因此它是我们针对 Jetson 部署的首选推荐。有关设置说明和高级用法,请参阅我们的 专属 TensorRT 集成指南

Link to this section将模型转换为 TensorRT 并运行推理#

PyTorch 格式的 YOLO26n 模型被转换为 TensorRT,以便使用导出的模型运行推理。

示例
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo26n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

访问 导出页面 以获取将模型导出为不同格式时的其他参数

Link to this section使用 NVIDIA 深度学习加速器 (DLA)#

NVIDIA 深度学习加速器 (DLA) 是集成在 NVIDIA Jetson 设备中的专业硬件组件,旨在优化深度学习推理以提高能效和性能。通过从 GPU 分流任务(从而释放 GPU 用于更密集的处理),DLA 能够在保持高吞吐量的同时降低功耗,非常适合嵌入式系统和实时 AI 应用。

以下 Jetson 设备配备了 DLA 硬件:

Jetson 设备DLA 核心DLA 最高频率
Jetson AGX Orin 系列21.6 GHz
Jetson Orin NX 16GB2614 MHz
Jetson Orin NX 8GB1614 MHz
Jetson AGX Xavier 系列21.4 GHz
Jetson Xavier NX 系列21.1 GHz
示例
from ultralytics import YOLO

# Load a YOLO26n PyTorch model
model = YOLO("yolo26n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo26n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")
注意

在使用 DLA 导出时,某些层可能不支持在 DLA 上运行,并将回退到 GPU 执行。这种回退可能会引入额外的延迟并影响整体推理性能。因此,DLA 的主要设计目的并非为了比在 GPU 上完全运行 TensorRT 减少推理延迟。相反,其主要目的是为了提高吞吐量并提升能效。

Link to this sectionNVIDIA Jetson YOLO11/ YOLO26 基准测试#

YOLO11/ YOLO26 基准测试由 Ultralytics 团队在 11 种不同的模型格式上运行,测量了速度和 准确率:PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch。基准测试在 NVIDIA Jetson AGX Thor Developer Kit、NVIDIA Jetson AGX Orin Developer Kit (64GB)、NVIDIA Jetson Orin Nano Super Developer Kit 和由 Jetson Orin NX 16GB 设备驱动的 Seeed Studio reComputer J4012 上运行,采用 FP32 精度,默认输入图像大小为 640。

Link to this section对比图表#

尽管所有模型导出格式都能在 NVIDIA Jetson 上工作,但我们只在下方的对比图表中包含了 PyTorch、TorchScript、TensorRT,因为它们利用了 Jetson 上的 GPU,并能保证产生最佳结果。所有其他导出格式仅使用 CPU,性能不如上述三种。你可以在此图表之后的章节中找到所有导出格式的基准测试数据。

Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#

Jetson AGX Thor Benchmarks
Benchmarked with Ultralytics 8.3.226

Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#

Jetson AGX Orin Benchmarks
Benchmarked with Ultralytics 8.4.32

Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#

Jetson Orin Nano Super Benchmarks
Benchmarked with Ultralytics 8.4.33

Link to this sectionNVIDIA Jetson Orin NX 16GB#

Jetson Orin NX 16GB Benchmarks
Benchmarked with Ultralytics 8.4.33

Link to this section详细对比表#

下表展示了五种不同模型(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)在 11 种不同格式(PyTorch、TorchScript、ONNX、OpenVINO、TensorRT、TF SavedModel、TF GraphDef、TF Lite、MNN、NCNN、ExecuTorch)下的基准测试结果,给出了每种组合的状态、大小、mAP50-95(B) 指标和推理时间。

Link to this sectionNVIDIA Jetson AGX Thor Developer Kit#

性能
格式状态磁盘占用大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.47987.39
TorchScript9.80.47894.21
ONNX9.50.47676.58
OpenVINO10.10.479417.50
TensorRT (FP32)13.90.47911.90
TensorRT (FP16)7.60.47971.39
TensorRT (INT8)6.50.42731.52
TF SavedModel25.70.476447.24
TF GraphDef9.50.476445.98
TF Lite9.90.4764182.04
MNN9.40.478421.83

使用 Ultralytics 8.4.7 进行基准测试

注意

推理时间不包括预处理/后处理。

Link to this sectionNVIDIA Jetson AGX Orin Developer Kit (64GB)#

性能
格式状态磁盘占用大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.479011.58
TorchScript9.80.47704.60
ONNX9.50.47709.87
OpenVINO9.60.482028.80
TensorRT (FP32)11.50.04504.18
TensorRT (FP16)7.90.04502.62
TensorRT (INT8)5.40.46402.30
TF SavedModel24.60.476071.10
TF GraphDef9.50.476070.02
TF Lite9.90.4760227.94
MNN9.40.476032.46
NCNN9.30.481029.93

基于 Ultralytics 8.4.32 进行基准测试

注意

推理时间不包括预处理/后处理。

Link to this sectionNVIDIA Jetson Orin Nano Super Developer Kit#

性能
格式状态磁盘占用大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.479015.60
TorchScript9.80.477012.60
ONNX9.50.476015.76
OpenVINO9.60.482056.23
TensorRT (FP32)11.30.47707.53
TensorRT (FP16)8.10.48004.57
TensorRT (INT8)5.30.44903.80
TF SavedModel24.60.4760118.33
TF GraphDef9.50.4760116.30
TF Lite9.90.4760286.00
MNN9.40.476068.77
NCNN9.30.481047.50

使用 Ultralytics 8.4.33 进行基准测试

注意

推理时间不包括预处理/后处理。

Link to this sectionNVIDIA Jetson Orin NX 16GB#

性能
格式状态磁盘占用大小 (MB)mAP50-95(B)推理时间 (ms/im)
PyTorch5.30.479913.90
TorchScript9.80.478711.60
ONNX9.50.476314.18
OpenVINO9.60.481940.19
TensorRT (FP32)11.40.47707.01
TensorRT (FP16)8.00.47894.13
TensorRT (INT8)5.50.44893.49
TF SavedModel24.60.476492.34
TF GraphDef9.50.476492.06
TF Lite9.90.4764254.43
MNN9.40.476048.55
NCNN9.30.480534.31

使用 Ultralytics 8.4.33 进行基准测试

注意

推理时间不包括预处理/后处理。

探索更多来自 Seeed Studio 的基准测试成果,涵盖在不同版本的 NVIDIA Jetson 硬件上运行的情况。

Link to this section重现我们的结果#

若要重现上述 Ultralytics 在所有导出 格式 上的基准测试,请运行此代码:

示例
from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO128 dataset for all export formats
results = model.benchmark(data="coco128.yaml", imgsz=640)

请注意,基准测试结果可能会因系统的确切硬件和软件配置以及运行基准测试时系统的当前负载而有所不同。为获得最可靠的结果,请使用包含大量图像的数据集,例如 data='coco.yaml'(5000 张验证图像)。

Link to this section使用 NVIDIA Jetson 时的最佳实践#

在使用 NVIDIA Jetson 时,请遵循以下几项最佳实践,以在运行 YOLO26 的 NVIDIA Jetson 上实现最佳性能。

  1. 启用 MAX 电源模式

    在 Jetson 上启用 MAX 电源模式可确保所有 CPU 和 GPU 核心均已开启。

    sudo nvpmodel -m 0
  2. 启用 Jetson 时钟

    启用 Jetson 时钟可确保所有 CPU 和 GPU 核心均以其最高频率运行。

    sudo jetson_clocks
  3. 安装 Jetson Stats 应用程序

    我们可以使用 jetson stats 应用程序来监控系统组件的温度,并查看其他系统详细信息,例如查看 CPU、GPU、RAM 利用率,更改电源模式,设置为最高时钟频率,以及查看 JetPack 信息。

    sudo apt update
    sudo pip install jetson-stats
    sudo reboot
    jtop
Jetson Stats

Link to this sectionNVIDIA Jetson 内存优化技巧#

可用内存通常是 Jetson 设备上的限制因素,尤其是在低内存变体(如 Jetson Orin Nano (8 GB) 或 Orin NX 8 GB)上。以下技巧是实用且低风险的更改,它们可以共同释放数百 MB 的内存,让你能够运行更大的 YOLO 模型或支持额外的并行工作负载。有关全面说明,请参阅 NVIDIA 关于最大限度提高 Jetson 内存效率的博客

Link to this section切换到无头(无 GUI)启动#

如果你的 Jetson 是通过 SSH 连接的,或者是作为没有连接显示器的生产设备运行的,那么消除桌面环境和显示服务器最多可以回收 865 MB 的 RAM:

sudo systemctl set-default multi-user.target
sudo reboot

稍后恢复桌面:

sudo systemctl set-default graphical.target
sudo reboot

Link to this section禁用未使用的系统服务#

非必要的后台服务(蓝牙、连接管理器、未使用的硬件守护进程)合计消耗约 32 MB。列出活动服务并禁用你的部署不需要的任何服务:

# List running services
systemctl list-units --type=service --state=running

# Disable a service
sudo systemctl disable SERVICE_NAME

Link to this section分析内存使用情况#

在优化之前,先确定哪些进程实际占用了 RAM。procrank 按 PSS(按比例分配大小)对进程进行排序,这比 RSS(驻留集大小,即由进程映射的物理 RAM 页面总数,包括与其他进程共享的页面)更准确地反映了每个进程真实的内存占用量:

git clone https://github.com/csimmonds/procrank_linux.git
cd procrank_linux && make
sudo ./procrank

要查看每个进程的 GPU 和 NvMap(CUDA/视频流水线)分配情况:

sudo cat /sys/kernel/debug/nvmap/iovmm/clients

Link to this section在生产环境中运行无显示器的推理#

对于没有实时预览需求的推理流水线,禁用与显示相关的组件(Tiler、OSD、DisplaySink)仅通过流水线本身即可节省 200+ MB。使用 Ultralytics YOLO 时,关闭查看器并将结果写入磁盘:

示例
from ultralytics import YOLO

model = YOLO("yolo11n.engine")

# show=False prevents any display window; save=True writes annotated output to disk
results = model.predict(source="video.mp4", show=False, save=True)

Link to this section累计影响#

优化节省的内存约为
禁用桌面 GUI~865 MB
禁用未使用的 OS 服务~32 MB
无头推理流水线(无显示)~200+ MB
总计(轻松获取)~1 GB+

当目标是内存受限设备上的 TensorRT INT8 模型时,结合这些更改尤为有效——这可能是能否将更大的模型变体放入内存的区别。

Link to this section后续步骤#

如需进一步学习和支持,请参阅 Ultralytics YOLO26 文档

Link to this section常见问题解答#

Link to this section我该如何在 NVIDIA Jetson 设备上部署 Ultralytics YOLO26?#

在 NVIDIA Jetson 设备上部署 Ultralytics YOLO26 的过程非常简单。首先,使用 NVIDIA JetPack SDK 为你的 Jetson 设备刷机。然后,你可以使用预构建的 Docker 镜像进行快速设置,也可以手动安装所需的软件包。每种方法的详细步骤可以在 Docker 快速入门原生安装入门 部分找到。

Link to this section在 NVIDIA Jetson 设备上运行 YOLO11 模型可以获得什么样的性能基准?#

YOLO11 模型已在各种 NVIDIA Jetson 设备上进行了基准测试,显示出显著的性能提升。例如,TensorRT 格式可提供最佳的推理性能。详细对比表 部分中的表格提供了 mAP50-95 和跨不同模型格式的推理时间等性能指标的综合视图。

Link to this section为什么我应该使用 TensorRT 在 NVIDIA Jetson 上部署 YOLO26?#

鉴于其卓越的性能,强烈建议使用 TensorRT 在 NVIDIA Jetson 上部署 YOLO26 模型。它通过利用 Jetson 的 GPU 功能来加速推理,从而确保最高的效率和速度。在 在 NVIDIA Jetson 上使用 TensorRT 部分中了解更多关于如何转换为 TensorRT 并运行推理的信息。

Link to this section我该如何在 NVIDIA Jetson 上安装 PyTorch 和 Torchvision?#

要在 NVIDIA Jetson 上安装 PyTorch 和 Torchvision,请先卸载任何可能已通过 pip 安装的现有版本。然后,手动安装适用于 Jetson ARM64 架构的兼容 PyTorch 和 Torchvision 版本。有关此过程的详细说明,请参阅 安装 PyTorch 和 Torchvision 部分。

Link to this section使用 YOLO26 时,在 NVIDIA Jetson 上实现性能最大化的最佳实践是什么?#

为了在 NVIDIA Jetson 上通过 YOLO26 实现性能最大化,请遵循以下最佳实践:

  1. 启用 MAX Power 模式以利用所有 CPU 和 GPU 核心。
  2. 启用 Jetson Clocks 以使所有核心以最高频率运行。
  3. 安装 Jetson Stats 应用程序以监控系统指标。

有关命令和更多详细信息,请参阅 使用 NVIDIA Jetson 时的最佳实践 部分。

Link to this section如何释放 NVIDIA Jetson 上的内存以运行更大的 YOLO 模型?#

在内存较低的 Jetson 设备上,可用 RAM 通常是瓶颈。以下三个简单的方法加起来可以回收超过 1 GB 的内存:

  1. 切换到无头模式启动 (sudo systemctl set-default multi-user.target) 以消除桌面 GUI(节省约 865 MB)。
  2. 禁用未使用的服务,例如蓝牙或连接管理器(节省约 32 MB)。
  3. Run inference without a display by setting show=False in your YOLO predict call, which avoids allocating display pipeline memory (~200+ MB saved).

使用 procrank 来分析每个进程的 RAM 使用情况,并使用 sudo cat /sys/kernel/debug/nvmap/iovmm/clients 来检查 GPU 分配。查看 内存优化技巧 部分以获取完整详细信息。

Link to this section为什么我的 TensorRT INT8 导出在 JetPack 6 上禁用了 end2end?#

JetPack 6 附带的 TensorRT 10.3.0 存在一个已知问题,当启用 end2end=True 时,该问题会阻止 INT8 引擎构建。当 Ultralytics 检测到这种组合时,它会自动禁用 end2end 分支以确保导出成功。

要恢复 end2end INT8 导出,请将 TensorRT 升级到更新版本(例如 10.7.0+):

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get install -y tensorrt

升级后,重新运行你的导出。有关更多详细信息,请参阅 GitHub issue #23841

评论