快速入门指南：NVIDIA Jetson 与Ultralytics YOLO11

Q: What are the best practices for maximizing performance on NVIDIA Jetson when using YOLO11?

要在NVIDIA Jetson 上通过YOLO11 最大限度地提高性能，请遵循以下最佳实践：有关命令和其他详细信息，请参阅使用NVIDIA Jetson 时的最佳实践部分。

本综合指南提供了在NVIDIA Jetson 设备上部署 Ultralytics YOLO11 的详细步骤。此外，它还展示了性能基准，以证明YOLO11 在这些小巧而功能强大的设备上的性能。

新产品支持

我们已根据最新的NVIDIA Jetson Orin Nano 超级开发者套件更新了本指南，该套件可提供高达 67 TOPS 的人工智能性能（比上一代产品提高了 1.7 倍），可无缝运行最流行的人工智能模型。

观看： 如何在NVIDIA JETSON 设备上使用Ultralytics YOLO11

NVIDIA 捷信生态系统

备注

本指南使用NVIDIA Jetson Orin Nano Super Developer Kit（运行最新稳定版 JetPack 版本JP6.1）、Seeed Studio reComputer J4012（基于NVIDIA Jetson Orin NX 16GB，运行 JetPack 版本JP6.0/ JetPack 版本JP5.1.3）和Seeed Studio reComputer J1020 v2（基于NVIDIA Jetson Nano 4GB，运行 JetPack 版本JP4.6.1）进行了测试。预计它将适用于所有NVIDIA Jetson 硬件阵容，包括最新的和传统的。

NVIDIA Jetson 是什么？

NVIDIA Jetson 是一系列嵌入式计算板，旨在为边缘设备带来加速 AI（人工智能）计算。这些小巧且功能强大的设备围绕NVIDIA 的GPU 架构构建，能够直接在设备上运行复杂的人工智能算法和深度学习模型，而无需依赖云计算资源。Jetson 板通常用于机器人、自动驾驶汽车、工业自动化和其他需要在本地以低延迟和高效率执行人工智能推理的应用。此外，这些板卡基于 ARM64 架构，与传统的GPU 计算设备相比，运行功耗更低。

NVIDIA Jetson 系列比较

Jetson Orin是NVIDIA Jetson 系列的最新迭代产品，基于NVIDIA Ampere 架构，与前几代产品相比，人工智能性能大幅提升。下表比较了生态系统中的几款 Jetson 设备。

	Jetson AGX Orin 64GB	Jetson Orin NX 16GB	Jetson Orin Nano Super	Jetson AGX Xavier	Jetson Xavier NX	Jetson Nano
人工智能性能	275 TOPS	100 TOPS	67 TOPs	32 TOPS	21 TOPS	472 GFLOPS
GPU	2048 核NVIDIA 安培架构GPU 配备 64 个Tensor 核	1024 核NVIDIA 安培架构GPU 带 32Tensor 核	1024 核NVIDIA 安培架构GPU 带 32Tensor 核	512 核NVIDIA Volta 架构GPU 配备 64Tensor 核	384 核NVIDIA Volta™ 架构GPU 配备 48 个Tensor 核	128 核NVIDIA Maxwell™ 架构GPU
GPU 最大频率	1.3 千兆赫	918 兆赫	1020 兆赫	1377 兆赫	1100 兆赫	921MHz
CPU	12 核NVIDIA Arm® Cortex A78AE v8.2 64 位CPU 3MB L2 + 6MB L3	8 核NVIDIA Arm® Cortex A78AE v8.2 64 位CPU 2MB L2 + 4MB L3	6 核 Arm® Cortex®-A78AE v8.2 64 位CPU 1.5MB L2 + 4MB L3	8 核NVIDIA Carmel Arm®v8.2 64 位CPU 8MB L2 + 4MB L3	6 核NVIDIA Carmel Arm®v8.2 64 位CPU 6MB L2 + 4MB L3	四核 Arm® Cortex®-A57 MPCore 处理器
CPU 最大频率	2.2 千兆赫	2.0 千兆赫	1.7 千兆赫	2.2 千兆赫	1.9 千兆赫	1.43GHz
内存	64GB 256 位 LPDDR5 204.8GB/s	16GB 128 位 LPDDR5 102.4GB/s	8GB 128 位 LPDDR5 102 GB/s	32GB 256 位 LPDDR4x 136.5GB/s	8GB 128 位 LPDDR4x 59.7GB/s	4GB 64 位 LPDDR4 25.6GB/s"

如需更详细的比较表，请访问 NVIDIA Jetson 官方网页的技术规格部分。

NVIDIA JetPack 是什么？

NVIDIA ）JetPack SDK为Jetson模块提供动力，是最全面的解决方案，为构建端到端加速人工智能应用提供了完整的开发环境，缩短了产品上市时间。JetPack 包括带有引导加载器的 Jetson Linux、Linux 内核、Ubuntu 桌面环境以及一整套用于加速GPU 计算、多媒体、图形和计算机视觉的库。它还包括用于主机和开发者工具包的示例、文档和开发者工具，并支持更高级别的 SDK，如用于流媒体视频分析的DeepStream、用于机器人技术的 Isaac 和用于对话式人工智能的 Riva。

Flash JetPack 至NVIDIA Jetson

拿到NVIDIA Jetson 设备后，第一步是将NVIDIA JetPack 闪存到设备上。闪存NVIDIA Jetson 设备有几种不同的方法。

如果您拥有NVIDIA 官方开发套件（如 Jetson Orin Nano Developer Kit），您可以下载镜像，并用 JetPack 准备 SD 卡以启动设备。
如果您拥有其他NVIDIA 开发工具包，可以使用 SDK 管理器将 JetPack 闪存到设备上。
如果你拥有Seeed Studio reComputer J4012设备，你可以将JetPack闪存到附带的固态硬盘上；如果你拥有Seeed Studio reComputer J1020 v2设备，你可以将JetPack闪存到eMMC/固态硬盘上。
如果您拥有由NVIDIA Jetson 模块驱动的任何其他第三方设备，建议使用命令行闪存。

备注

对于上述方法 3 和 4，在刷新系统并启动设备后，请在设备终端输入 "sudo apt update && sudo apt installnvidia-jetpack -y"，以安装所需的所有剩余 JetPack 组件。

基于 Jetson 设备的 JetPack 支持

下表重点介绍了不同NVIDIA Jetson 设备支持的NVIDIA JetPack 版本。

	JetPack 4	JetPack 5	JetPack 6
Jetson Nano	✅	❌	❌
捷信 TX2	✅	❌	❌
Jetson Xavier NX	✅	✅	❌
Jetson AGX Xavier	✅	✅	❌
Jetson AGX Orin	❌	✅	✅
Jetson Orin NX	❌	✅	✅
Jetson Orin Nano	❌	✅	✅

Docker 快速入门

在NVIDIA Jetson 上开始使用Ultralytics YOLO11 的最快方法是使用为 Jetson 预制的 docker 镜像。请参考上表，根据你拥有的 Jetson 设备选择 JetPack 版本。

JetPack 4JetPack 5JetPack 6

t=ultralytics/ultralytics:latest-jetson-jetpack4
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

t=ultralytics/ultralytics:latest-jetson-jetpack5
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

t=ultralytics/ultralytics:latest-jetson-jetpack6
sudo docker pull $t && sudo docker run -it --ipc=host --runtime=nvidia $t

完成此操作后，跳至 NVIDIA Jetson 上的使用TensorRT 部分。

从本地安装开始

如需在不使用 Docker 的情况下进行本地安装，请参考以下步骤。

在 JetPack 6.1 上运行

安装Ultralytics 软件包

在此，我们将在 Jetson 上安装Ultralytics 软件包及可选依赖项，以便导出 PyTorch模型导出为其他不同格式。我们将主要关注NVIDIA TensorRT 导出，因为TensorRT 将确保我们能最大限度地发挥 Jetson 设备的性能。

更新软件包列表，安装 pip 并升级到最新版本

sudo apt update
sudo apt install python3-pip -y
pip install -U pip

安装 ultralytics pip 软件包与可选依赖项
```
pip install ultralytics[export]
```
重启设备
```
sudo reboot
```

安装PyTorch 和 Torchvision

上述ultralytics 安装程序将安装Torch 和 Torchvision。但是，通过 pip 安装的这两个软件包无法兼容在基于 ARM64 架构的 Jetson 平台上运行。因此，我们需要手动安装预编译的PyTorch pip wheel，并从源代码编译/安装 Torchvision。

安装 torch 2.5.0 和 torchvision 0.20 根据 JP6.1

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.5.0a0+872d972e41.nv24.08-cp310-cp310-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.20.0a0+afc54f7-cp310-cp310-linux_aarch64.whl

备注

请访问PyTorch for Jetson 页面，访问针对不同 JetPack 版本的所有不同版本的PyTorch 。有关PyTorch和 Torchvision 兼容性的更详细列表，请访问PyTorch 和 Torchvision 兼容性页面。

安装 cuSPARSELt 的依赖性问题 torch 2.5.0

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/arm64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcusparselt0 libcusparselt-dev

安装 `onnxruntime-gpu`

"(《世界人权宣言》) onnxruntime-gpu 在 PyPI 中托管的软件包没有 aarch64 二进制文件。因此，我们需要手动安装这个软件包。有些输出需要这个软件包。

所有不同 onnxruntime-gpu 列出了不同 JetPack 和Python 版本对应的软件包这里.不过，在这里我们将下载并安装 onnxruntime-gpu 1.20.0 与 Python3.10 支持。

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/onnxruntime_gpu-1.20.0-cp310-cp310-linux_aarch64.whl

备注

onnxruntime-gpu 会自动将 numpy 恢复到最新版本。因此，我们需要重新安装 numpy 到 1.23.5 通过执行

pip install numpy==1.23.5

在 JetPack 5.1.2 上运行

安装Ultralytics 软件包

在此，我们将在 Jetson 上安装Ultralytics 软件包和可选依赖项，以便将PyTorch 模型导出为其他不同格式。我们将主要关注NVIDIA TensorRT 导出，因为TensorRT 将确保我们能最大限度地发挥 Jetson 设备的性能。

更新软件包列表，安装 pip 并升级到最新版本

sudo apt update
sudo apt install python3-pip -y
pip install -U pip

安装 ultralytics pip 软件包与可选依赖项
```
pip install ultralytics[export]
```
重启设备
```
sudo reboot
```

安装PyTorch 和 Torchvision

上述ultralytics 安装程序将安装Torch 和 Torchvision。但是，通过 pip 安装的这两个软件包无法兼容在基于 ARM64 架构的 Jetson 平台上运行。因此，我们需要手动安装预编译的PyTorch pip wheel，并从源代码编译/安装 Torchvision。

卸载当前安装的PyTorch 和 Torchvision
```
pip uninstall torch torchvision
```

安装 torch 2.2.0 和 torchvision 0.17.2 根据 JP5.1.2

pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torch-2.2.0-cp38-cp38-linux_aarch64.whl
pip install https://github.com/ultralytics/assets/releases/download/v0.0.0/torchvision-0.17.2+c1d70fe-cp38-cp38-linux_aarch64.whl

备注

请访问PyTorch for Jetson 页面，访问针对不同 JetPack 版本的所有不同版本的PyTorch 。有关PyTorch和 Torchvision 兼容性的更详细列表，请访问PyTorch 和 Torchvision 兼容性页面。

安装 `onnxruntime-gpu`

"(《世界人权宣言》) onnxruntime-gpu 在 PyPI 中托管的软件包没有 aarch64 二进制文件。因此，我们需要手动安装这个软件包。有些输出需要这个软件包。

所有不同 onnxruntime-gpu 列出了不同 JetPack 和Python 版本对应的软件包这里.不过，在这里我们将下载并安装 onnxruntime-gpu 1.17.0 与 Python3.8 支持。

wget https://nvidia.box.com/shared/static/zostg6agm00fb6t5uisw51qi6kpcuwzd.whl -O onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl
pip install onnxruntime_gpu-1.17.0-cp38-cp38-linux_aarch64.whl

备注

onnxruntime-gpu 会自动将 numpy 恢复到最新版本。因此，我们需要重新安装 numpy 到 1.23.5 通过执行

pip install numpy==1.23.5

在NVIDIA Jetson 上使用TensorRT

在Ultralytics 支持的所有模型导出格式中，TensorRT 在使用NVIDIA Jetson 设备时推理性能最佳，我们建议在使用 Jetson 时使用TensorRT 。我们还在此处提供了有关TensorRT 的详细文档。

将模型转换为TensorRT 并运行推理

PyTorch 格式的 YOLO11n 模型被转换为TensorRT ，以便使用导出的模型进行推理。

示例

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT
model.export(format="engine")  # creates 'yolo11n.engine'

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format
yolo export model=yolo11n.pt format=engine # creates 'yolo11n.engine'

# Run inference with the exported model
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

备注

访问导出页面，获取将模型导出为不同模型格式时的其他参数

使用NVIDIA 深度学习加速器 (DLA)

NVIDIA 深度学习加速器（DLA）是一种内置在NVIDIA Jetson 设备中的专用硬件组件，可优化深度学习推理的能效和性能。通过卸载GPU 的任务（将其释放给更密集的进程），DLA 可使模型以更低的功耗运行，同时保持高吞吐量，是嵌入式系统和实时人工智能应用的理想选择。

以下 Jetson 设备配备了 DLA 硬件：

杰特森装置	DLA 核心	DLA 最大频率
Jetson AGX Orin 系列	2	1.6 千兆赫
Jetson Orin NX 16GB	2	614 兆赫
Jetson Orin NX 8GB	1	614 兆赫
Jetson AGX Xavier 系列	2	1.4 千兆赫
Jetson Xavier NX 系列	2	1.1 千兆赫

示例

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT with DLA enabled (only works with FP16 or INT8)
model.export(format="engine", device="dla:0", half=True)  # dla:0 or dla:1 corresponds to the DLA cores

# Load the exported TensorRT model
trt_model = YOLO("yolo11n.engine")

# Run inference
results = trt_model("https://ultralytics.com/images/bus.jpg")

# Export a YOLO11n PyTorch model to TensorRT format with DLA enabled (only works with FP16 or INT8)
# Once DLA core number is specified at export, it will use the same core at inference
yolo export model=yolo11n.pt format=engine device="dla:0" half=True # dla:0 or dla:1 corresponds to the DLA cores

# Run inference with the exported model on the DLA
yolo predict model=yolo11n.engine source='https://ultralytics.com/images/bus.jpg'

备注

在使用 DLA 导出时，某些层可能不支持在 DLA 上运行，而会回退到GPU 上执行。这种回退会带来额外的延迟，影响整体推理性能。因此，与完全在GPU 上运行的TensorRT 相比，DLA 的主要目的不是减少推理延迟，而是提高吞吐量和能效。

NVIDIA Jetson OrinYOLO11 基准测试

YOLO11 Ultralytics 团队在 10 种不同的模型格式上运行了基准测试，测量速度和精度： , , , , , , , Lite, , 。基准测试在 Jetson Orin Nano Super Developer Kit 和由 Jetson Orin NX 16GB 设备驱动的 Seeed Studio reComputer J4012 上运行，PyTorch TorchScript ONNX OpenVINO TensorRT TF SavedModel TF GraphDef TF PaddlePaddle NCNN NVIDIA 精度为 FP32，默认输入图像大小为 640。

对比图表

尽管所有导出模型都使用NVIDIA Jetson，但我们只将PyTorch, TorchScript, TensorRT 列入下面的比较图中，因为它们使用了 Jetson 上的 GPU ，并保证产生最佳效果。其他所有导出都只使用CPU ，性能不如上述三个。你可以在本图表后的部分找到所有输出的基准。

NVIDIA Jetson Orin Nano 超级显影套件

Jetson Orin Nano 超级基准测试 — 使用Ultralytics 8.3.51 进行基准测试

NVIDIA Jetson Orin NX 16GB

Jetson Orin NX 16GB 基准测试 — 使用Ultralytics 8.3.51 进行基准测试

详细比较表

下表列出了五种不同模型（YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x）在十种不同格式（PyTorch,TorchScript,ONNX,OpenVINO,TensorRT,TF SavedModel ,TF GraphDef ,TF Lite,PaddlePaddle,NCNN ）下的基准结果，给出了每种组合的状态、大小、mAP50-95(B) 指标和推理时间。

NVIDIA Jetson Orin Nano 超级显影套件

性能

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	5.4	0.6176	21.3
TorchScript	✅	10.5	0.6100	13.40
ONNX	✅	10.2	0.6100	7.94
OpenVINO	✅	10.4	0.6091	57.36
TensorRT (FP32)	✅	11.9	0.6082	7.60
TensorRT (FP16)	✅	8.3	0.6096	4.91
TensorRT (INT8)	✅	5.6	0.3180	3.91
TF SavedModel	✅	25.8	0.6082	223.98
TF GraphDef	✅	10.3	0.6082	289.95
TF 轻型	✅	10.3	0.6082	328.29
PaddlePaddle	✅	20.4	0.6082	530.46
MNN	✅	10.1	0.6120	74.75
NCNN	✅	10.2	0.6106	46.12

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	18.4	0.7526	22.00
TorchScript	✅	36.5	0.7400	21.35
ONNX	✅	36.3	0.7400	13.91
OpenVINO	✅	36.4	0.7391	126.95
TensorRT (FP32)	✅	38.0	0.7400	13.29
TensorRT (FP16)	✅	21.3	0.7431	7.30
TensorRT (INT8)	✅	12.2	0.3243	5.25
TF SavedModel	✅	91.1	0.7400	406.73
TF GraphDef	✅	36.4	0.7400	629.80
TF 轻型	✅	36.4	0.7400	953.98
PaddlePaddle	✅	72.5	0.7400	1311.67
MNN	✅	36.2	0.7392	187.66
NCNN	✅	36.2	0.7403	122.02

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	38.8	0.7598	33.00
TorchScript	✅	77.3	0.7643	48.17
ONNX	✅	76.9	0.7641	29.31
OpenVINO	✅	77.1	0.7642	313.49
TensorRT (FP32)	✅	78.7	0.7641	28.21
TensorRT (FP16)	✅	41.8	0.7653	13.99
TensorRT (INT8)	✅	23.2	0.4194	9.58
TF SavedModel	✅	192.7	0.7643	802.30
TF GraphDef	✅	77.0	0.7643	1335.42
TF 轻型	✅	77.0	0.7643	2842.42
PaddlePaddle	✅	153.8	0.7643	3644.29
MNN	✅	76.8	0.7648	503.90
NCNN	✅	76.8	0.7674	298.78

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	49.0	0.7475	43.00
TorchScript	✅	97.6	0.7250	62.94
ONNX	✅	97.0	0.7250	36.33
OpenVINO	✅	97.3	0.7226	387.72
TensorRT (FP32)	✅	99.1	0.7250	35.59
TensorRT (FP16)	✅	52.0	0.7265	17.57
TensorRT (INT8)	✅	31.0	0.4033	12.37
TF SavedModel	✅	243.3	0.7250	1116.20
TF GraphDef	✅	97.2	0.7250	1603.32
TF 轻型	✅	97.2	0.7250	3607.51
PaddlePaddle	✅	193.9	0.7250	4890.90
MNN	✅	96.9	0.7222	619.04
NCNN	✅	96.9	0.7252	352.85

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	109.3	0.8288	81.00
TorchScript	✅	218.1	0.8308	113.49
ONNX	✅	217.5	0.8308	75.20
OpenVINO	✅	217.8	0.8285	508.12
TensorRT (FP32)	✅	219.5	0.8307	67.32
TensorRT (FP16)	✅	112.2	0.8248	32.94
TensorRT (INT8)	✅	61.7	0.4854	20.72
TF SavedModel	✅	545.0	0.8308	1048.8
TF GraphDef	✅	217.8	0.8308	2961.8
TF 轻型	✅	217.8	0.8308	7898.8
PaddlePaddle	✅	434.8	0.8308	9903.68
MNN	✅	217.3	0.8308	1242.97
NCNN	✅	217.3	0.8304	850.05

使用Ultralytics 8.3.51 进行基准测试

NVIDIA Jetson Orin NX 16GB

性能

YOLO11nYOLO11sYOLO11mYOLO11lYOLO11x

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	5.4	0.6176	19.50
TorchScript	✅	10.5	0.6100	13.03
ONNX	✅	10.2	0.6100	8.44
OpenVINO	✅	10.4	0.6091	40.83
TensorRT (FP32)	✅	11.9	0.6100	8.05
TensorRT (FP16)	✅	8.2	0.6096	4.85
TensorRT (INT8)	✅	5.5	0.3180	4.37
TF SavedModel	✅	25.8	0.6082	185.39
TF GraphDef	✅	10.3	0.6082	244.85
TF 轻型	✅	10.3	0.6082	289.77
PaddlePaddle	✅	20.4	0.6082	476.52
MNN	✅	10.1	0.6120	53.37
NCNN	✅	10.2	0.6106	33.55

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	18.4	0.7526	19.00
TorchScript	✅	36.5	0.7400	22.90
ONNX	✅	36.3	0.7400	14.44
OpenVINO	✅	36.4	0.7391	88.70
TensorRT (FP32)	✅	37.9	0.7400	14.13
TensorRT (FP16)	✅	21.6	0.7406	7.55
TensorRT (INT8)	✅	12.2	0.3243	5.63
TF SavedModel	✅	91.1	0.7400	317.61
TF GraphDef	✅	36.4	0.7400	515.99
TF 轻型	✅	36.4	0.7400	838.85
PaddlePaddle	✅	72.5	0.7400	1170.07
MNN	✅	36.2	0.7413	125.23
NCNN	✅	36.2	0.7403	68.13

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	38.8	0.7598	36.50
TorchScript	✅	77.3	0.7643	52.55
ONNX	✅	76.9	0.7640	31.16
OpenVINO	✅	77.1	0.7642	208.57
TensorRT (FP32)	✅	78.7	0.7640	30.72
TensorRT (FP16)	✅	41.5	0.7651	14.45
TensorRT (INT8)	✅	23.3	0.4194	10.19
TF SavedModel	✅	192.7	0.7643	590.11
TF GraphDef	✅	77.0	0.7643	998.57
TF 轻型	✅	77.0	0.7643	2486.11
PaddlePaddle	✅	153.8	0.7643	3236.09
MNN	✅	76.8	0.7661	335.78
NCNN	✅	76.8	0.7674	188.43

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	49.0	0.7475	46.6
TorchScript	✅	97.6	0.7250	66.54
ONNX	✅	97.0	0.7250	39.55
OpenVINO	✅	97.3	0.7226	262.44
TensorRT (FP32)	✅	99.2	0.7250	38.68
TensorRT (FP16)	✅	51.9	0.7265	18.53
TensorRT (INT8)	✅	30.9	0.4033	13.36
TF SavedModel	✅	243.3	0.7250	850.25
TF GraphDef	✅	97.2	0.7250	1324.60
TF 轻型	✅	97.2	0.7250	3191.24
PaddlePaddle	✅	193.9	0.7250	4204.97
MNN	✅	96.9	0.7225	414.41
NCNN	✅	96.9	0.7252	237.74

格式	现状	磁盘大小（MB）	mAP50-95(B)	推理时间（毫秒/分钟）
PyTorch	✅	109.3	0.8288	86.00
TorchScript	✅	218.1	0.8308	122.43
ONNX	✅	217.5	0.8307	77.50
OpenVINO	✅	217.8	0.8285	508.12
TensorRT (FP32)	✅	219.5	0.8307	76.44
TensorRT (FP16)	✅	112.0	0.8309	35.99
TensorRT (INT8)	✅	61.6	0.4854	22.32
TF SavedModel	✅	545.0	0.8308	1470.06
TF GraphDef	✅	217.8	0.8308	2549.78
TF 轻型	✅	217.8	0.8308	7025.44
PaddlePaddle	✅	434.8	0.8308	8364.89
MNN	✅	217.3	0.8289	827.13
NCNN	✅	217.3	0.8304	490.29

使用Ultralytics 8.3.51 进行基准测试

探索 Seeed Studio在不同版本的NVIDIA Jetson 硬件上运行的更多基准测试工作。

复制我们的结果

要在所有导出格式上重现上述Ultralytics 基准，请运行此代码：

示例

PythonCLI

from ultralytics import YOLO

# Load a YOLO11n PyTorch model
model = YOLO("yolo11n.pt")

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
results = model.benchmark(data="coco8.yaml", imgsz=640)

# Benchmark YOLO11n speed and accuracy on the COCO8 dataset for all all export formats
yolo benchmark model=yolo11n.pt data=coco8.yaml imgsz=640

请注意，基准测试结果可能会因系统的具体硬件和软件配置以及运行基准测试时系统的当前工作量而有所不同。为了获得最可靠的结果，请使用包含大量图像的数据集，即 data='coco8.yaml' (4 个缬氨酸图像），或 data='coco.yaml' (5000 val 图像）。

使用NVIDIA Jetson 时的最佳做法

在使用NVIDIA Jetson 时，有几个最佳实践需要遵循，以便在运行YOLO11 的NVIDIA Jetson 上实现最高性能。

启用 MAX 功率模式

在 Jetson 上启用 MAX Power Mode（最大功率模式）将确保打开所有CPU 、GPU 内核。
```
sudo nvpmodel -m 0
```
启用 Jetson 时钟

启用 Jetson Clocks 将确保所有CPU,GPU 内核都以最大频率运行。
```
sudo jetson_clocks
```
安装 Jetson Stats 应用程序

我们可以使用 jetson stats 应用程序监控系统组件的温度，并检查其他系统细节，如查看CPU,GPU, 内存利用率、更改电源模式、设置为最大时钟、检查 JetPack 信息等。
```
sudo apt update
sudo pip install jetson-stats
sudo reboot
jtop
```

杰特森统计

下一步工作

恭喜您在NVIDIA Jetson 上成功设置YOLO11 ！如需进一步学习和支持，请访问Ultralytics YOLO11 Docs 获取更多指南！

常见问题

如何在NVIDIA Jetson 设备上部署Ultralytics YOLO11 ？

在NVIDIA Jetson 设备上部署Ultralytics YOLO11 的过程非常简单。首先，使用NVIDIA JetPack SDK 闪存 Jetson 设备。然后，使用预置的 Docker 镜像进行快速设置，或者手动安装所需的软件包。每种方法的详细步骤可在 "使用 Docker 快速入门 "和 "开始本地安装"两节中找到。

YOLO11 型号在NVIDIA Jetson 设备上的性能基准是什么？

YOLO11 模型在各种NVIDIA Jetson 设备上进行了基准测试，显示性能有了显著提高。例如，TensorRT 格式的推理性能最佳。详细比较表"部分的表格全面展示了不同模型格式的 mAP50-95 和推理时间等性能指标。

为什么要使用TensorRT 在NVIDIA Jetson 上部署YOLO11 ？

TensorRT 由于其最佳性能，强烈推荐在NVIDIA Jetson 上部署YOLO11 模型。它利用 Jetson 的GPU 功能加速推理，确保最高效率和速度。有关如何转换为TensorRT 并在 NVIDIA Jetson 上使用TensorRT 部分运行推理的更多信息，请参阅。

如何在NVIDIA Jetson 上安装PyTorch 和 Torchvision？

要在NVIDIA Jetson 上安装PyTorch 和 Torchvision，首先要卸载可能已通过 pip 安装的任何现有版本。然后，针对 Jetson 的 ARM64 架构手动安装兼容的PyTorch 和 Torchvision 版本。安装PyTorch 和 Torchvision部分提供了此过程的详细说明。

在NVIDIA Jetson 上使用YOLO11 时，最大限度提高性能的最佳做法是什么？

要在NVIDIA Jetson 上最大限度地提高性能，YOLO11 ，请遵循以下最佳实践：

启用 MAX Power 模式，以利用所有CPU 和GPU 内核。
启用 Jetson Clocks，以最大频率运行所有内核。
安装用于监控系统指标的 Jetson Stats 应用程序。

有关命令和其他详细信息，请参阅使用NVIDIA Jetson时的最佳实践部分。

📅创建于 11 个月前 ✏️已更新 4 天前

快速入门指南：NVIDIA Jetson 与Ultralytics YOLO11

NVIDIA Jetson 是什么？

NVIDIA Jetson 系列比较

NVIDIA JetPack 是什么？

Flash JetPack 至NVIDIA Jetson

基于 Jetson 设备的 JetPack 支持

Docker 快速入门

从本地安装开始

在 JetPack 6.1 上运行

安装Ultralytics 软件包

安装PyTorch 和 Torchvision

安装 onnxruntime-gpu

在 JetPack 5.1.2 上运行

安装Ultralytics 软件包

安装PyTorch 和 Torchvision

安装 onnxruntime-gpu

在NVIDIA Jetson 上使用TensorRT

将模型转换为TensorRT 并运行推理

使用NVIDIA 深度学习加速器 (DLA)

NVIDIA Jetson OrinYOLO11 基准测试

对比图表

NVIDIA Jetson Orin Nano 超级显影套件

NVIDIA Jetson Orin NX 16GB

详细比较表

NVIDIA Jetson Orin Nano 超级显影套件

NVIDIA Jetson Orin NX 16GB

复制我们的结果

使用NVIDIA Jetson 时的最佳做法

下一步工作

常见问题

如何在NVIDIA Jetson 设备上部署Ultralytics YOLO11 ？

YOLO11 型号在NVIDIA Jetson 设备上的性能基准是什么？

为什么要使用TensorRT 在NVIDIA Jetson 上部署YOLO11 ？

如何在NVIDIA Jetson 上安装PyTorch 和 Torchvision？

在NVIDIA Jetson 上使用YOLO11 时，最大限度提高性能的最佳做法是什么？

评论

安装 `onnxruntime-gpu`

安装 `onnxruntime-gpu`