Meet YOLO26: next-gen vision AI.

Link to this section用于 Ultralytics YOLO 模型的 DEEPX 导出#

在专业 NPU 硬件上部署计算机视觉模型需要兼容且经过优化的模型格式。将 Ultralytics YOLO 模型导出为 DEEPX 格式,可实现 DEEPX NPU 加速器上高效的 INT8 量化推理。本指南将引导你完成 YOLO 模型到 DEEPX 格式的转换,并将其部署到采用 DEEPX 的硬件上。

Link to this section什么是 DEEPX?#

DEEPX NPU Inference

DEEPX 是一家 AI 半导体公司,专注于设计用于边缘高效 深度学习 推理的神经网络处理器 (NPU)。DEEPX NPU 专为严苛的嵌入式和工业 AI 应用而设计,能够以极低的功耗提供高吞吐量。其硬件非常适合云连接不可靠或不理想的部署场景,例如机器人、智能摄像头和工业自动化系统。

Link to this sectionDEEPX 导出格式#

DEEPX 导出生成一个已编译的 .dxnn 模型二进制文件,该文件针对 DEEPX NPU 硬件上的执行进行了优化。编译流水线使用 dx_com 工具包执行 INT8 量化和硬件特定优化,生成一个随时可部署的独立模型目录。

Link to this sectionDEEPX 模型的主要特性#

DEEPX 模型为边缘部署提供了多项优势:

  • INT8 量化:模型在导出过程中被量化为 INT8 精度,从而显著减小模型大小并最大化 NPU 吞吐量。了解更多关于 模型量化 的信息。
  • NPU 优化.dxnn 格式是专门为 DEEPX NPU 硬件编译的,利用专用加速单元实现快速、高效的推理。
  • 低功耗:通过将推理卸载到 NPU,DEEPX 模型比同等的 CPU 或 GPU 推理消耗的功率要小得多。
  • 基于校准的准确性:导出过程使用基于真实数据集图像的 EMA 校准,以最大限度地减少量化过程中的准确性损失。
  • 独立输出:导出的模型目录打包了已编译的二进制文件、校准配置和元数据,以便直接部署。

Link to this section支持的任务#

所有标准的 Ultralytics 任务在 YOLO26、YOLO11 和 YOLOv8 模型家族中均支持 DEEPX 导出。

Link to this section导出至 DEEPX:转换你的 YOLO 模型#

将 Ultralytics YOLO 模型导出为 DEEPX 格式,并使用导出的模型运行推理。

注意

DEEPX 导出仅在 x86-64 Linux 机器上支持。导出步骤不支持 ARM64 (aarch64)。但是,导出的 dxnn 模型在 ARM64 平台上是完全兼容且可执行的。

Link to this section安装#

要安装所需的包,请运行:

安装
# Install the required package for YOLO
pip install ultralytics

dx_com 编译器包将在首次导出时自动从 DEEPX SDK 存储库中安装。有关安装过程的详细说明和最佳实践,请查看我们的 Ultralytics 安装指南。在安装 YOLO 所需的包时,如果遇到任何困难,请查阅我们的 常见问题指南 获取解决方案和建议。

Link to this section使用方法#

DEEPX 格式支持 导出预测验证 模式。推理和验证在 DEEPX NPU 硬件上运行。导出你的模型,然后加载导出的模型以运行推理或验证其准确性。

导出
from ultralytics import YOLO

# Load a YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to DEEPX format (int8=True is enforced automatically)
model.export(format="deepx")  # creates 'yolo26n_deepx_model/'
预测
from ultralytics import YOLO

# Load the exported DEEPX model
model = YOLO("yolo26n_deepx_model")

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
验证
from ultralytics import YOLO

# Load the exported DEEPX model
model = YOLO("yolo26n_deepx_model")

# Validate accuracy on the COCO8 dataset
metrics = model.val(data="coco8.yaml")

Link to this section导出参数#

参数类型默认值描述
formatstr'deepx'导出的模型的目标格式,定义了与 DEEPX NPU 硬件的兼容性。
imgszinttuple640模型输入所需的图像尺寸。DEEPX 导出需要正方形输入 — 传入一个整数 (例如 640) 或一个高度等于宽度的元组。
int8boolTrue启用 INT8 量化。DEEPX 导出所必需的 — 如果未指定,则自动设置为 True
datastr'coco128.yaml'用于 INT8 校准的数据集配置文件。指定校准图像源。
devicestrNone指定用于导出的设备:GPU (device=0) 或 CPU (device=cpu)。
optimizeboolFalse启用更高的编译器优化,这可以减少推理延迟并增加编译时间。
提示

始终在 x86-64 Linux 主机上运行 DEEPX 导出。dx_com 编译器不支持 ARM64。

有关导出过程的更多详细信息,请访问 Ultralytics 导出文档页面

Link to this section输出结构#

导出成功后,会创建一个包含以下布局的模型目录:

yolo26n_deepx_model/
├── yolo26n.dxnn     # Compiled DEEPX model binary (NPU executable)
├── config.json      # Calibration and preprocessing configuration
└── metadata.yaml    # Model metadata (classes, image size, task, etc.)

.dxnn 文件是 dx_engine 运行时直接在 NPU 上加载的已编译模型二进制文件。metadata.yaml 包含类名、图像尺寸以及 Ultralytics 推理流水线使用的其他信息。

Link to this section部署导出的 YOLO DEEPX 模型#

一旦成功将 Ultralytics YOLO 模型导出为 DEEPX 格式,下一步就是在 DEEPX NPU 硬件上部署这些模型。

Link to this section运行时安装#

推理需要 DEEPX NPU 驱动程序、libdxrt 运行时和 dx_engine Python 包。

注意

DEEPX 运行时同时支持 x86-64 Linux 和 ARM64 (例如 Raspberry Pi 5)。

# Install the NPU driver and libdxrt runtime
sudo apt update
wget https://github.com/DEEPX-AI/dx_rt_npu_linux_driver/raw/main/release/2.4.1/dxrt-driver-dkms_2.4.1-2_all.deb
sudo apt install ./dxrt-driver-dkms_2.4.1-2_all.deb
wget https://github.com/DEEPX-AI/dx_rt/raw/main/release/3.3.2/libdxrt_3.3.2_all.deb
sudo apt install ./libdxrt_3.3.2_all.deb

# Create dx-engine wheel
cd /usr/share/libdxrt/python_package && sudo ./make_whl.sh

# Install the bundled dx_engine Python wheel
pip install dx_engine-*.whl

使用 dxrt-cli --version 验证运行时是否安装正确。你应该看到类似于以下的输出:

DXRT v3.3.2
Minimum Driver Versions
Device Driver: v2.4.0
PCIe Driver: v2.2.0
Firmware: v2.5.2
Minimum Compiler Versions
Compiler: v1.18.1
.dxnn File Format: v6

运行时安装完成后,完全按照上述 使用方法 部分中的说明在 DEEPX 设备上运行推理和验证 — 导出的 _deepx_model 直接使用 YOLO(...) 加载。

Link to this section使用 dxtron 进行可视化#

dxtron 是 DEEPX 用于检查已编译 .dxnn 模型的图形可视化工具。

Install dxtron on x86-64 Linux by downloading the .deb package from the DEEPX SDK and installing it via dpkg:

wget https://sdk.deepx.ai/release/dxtron/v2.0.1/dxtron_2.0.1_amd64.deb
sudo dpkg -i dxtron_2.0.1_amd64.deb

然后打开导出的模型:

dxtron yolo26n_deepx_model/yolo26n.dxnn
注意

dxtron 可用于 x86-64 和 aarch64 平台。

Link to this section基准测试#

Ultralytics 团队对 YOLO26 模型进行了基准测试,比较了 PyTorch 和 DEEPX 之间的速度和准确性。

性能
Raspberry Pi 5 DEEPX M1 NPU vs PyTorch benchmarks
模型格式状态大小 (MB)指标/mAP50-95(B)推理时间 (ms/im)
YOLO26nPyTorch5.30.4760315.2
YOLO26nDEEPX6.60.466034.6
YOLO26n-segPyTorch6.50.4080485.4
YOLO26n-segDEEPX7.90.392053.8
YOLO26n-posePyTorch7.60.4230506.3
YOLO26n-poseDEEPX8.80.459037.6
YOLO26n-obbPyTorch5.70.8171094.4
YOLO26n-obbDEEPX7.30.78356.4
模型格式状态大小 (MB)acc (top1)acc (top5)推理时间 (ms/im)
YOLO26n-clsPyTorch5.60.4310.71623.8
YOLO26n-clsDEEPX5.90.3330.6862.7
注意

上述基准测试的验证采用了以下数据集:coco128 用于检测,coco128-seg 用于分割,coco8-pose 用于姿态估计,imagenet100 用于分类,以及 dota128 用于 OBB 模型。推理时间不包含预处理/后处理。

性能优化建议

为从连接到 Raspberry Pi 5 的 DX-M1 NPU 获得最佳推理吞吐量,请打开引导配置文件并启用 PCIe Gen 3 支持。

sudo nano /boot/firmware/config.txt

在文件末尾添加以下行:

dtparam=pciex1
dtparam=pciex1_gen=3

保存并退出(按 Ctrl+X,然后按 Y,再按 Enter),然后重启:

sudo reboot

检查 PCIe 代际。预期速度为 PCIe Gen3 的 8GT/s。

sudo lspci -vvv | grep -iA 33 accelerators | grep -E "LnkCap|LnkSta"

Link to this section推荐工作流程#

  1. 使用 Ultralytics 训练模式 训练你的模型
  2. 使用 model.export(format="deepx") 导出为 DEEPX 格式
  3. 使用 yolo val 验证准确性,以确保量化损失最小
  4. 使用 yolo predict 预测以进行定性验证
  5. Deploy the exported _deepx_model/ directory to DEEPX NPU hardware using the dx_engine runtime

Link to this section实际应用场景#

部署在 DEEPX NPU 硬件上的 YOLO 模型非常适合广泛的 边缘 AI 应用:

  • 智能监控:用于安防和监控系统的实时 目标检测,具有低功耗且无需云端依赖的特点。
  • 工业自动化:工厂环境下的设备端质量控制、缺陷检测和过程监控。
  • 机器人技术:自主机器人和无人机上的视觉导航、避障和目标识别。
  • 智慧农业:使用 农业计算机视觉 进行作物健康监测、害虫检测和产量估算。
  • 零售分析:利用实时边缘推理进行客流分析、货架监控和库存追踪。

Link to this section总结#

在本指南中,你学习了如何将 Ultralytics YOLO 模型导出为 DEEPX 格式并部署到 DEEPX NPU 硬件上。导出流程使用 INT8 校准和 dx_com 编译器生成硬件优化的 .dxnn 二进制文件,而 dx_engine 运行时负责处理设备上的推理。

Ultralytics YOLO 与 DEEPX 的 NPU 技术相结合,为在嵌入式和边缘设备上运行高级 计算机视觉 工作负载提供了一个有效的解决方案,为实时应用提供了高吞吐量和低功耗的优势。

有关使用的更多详细信息,请访问 DEEPX 官方网站

此外,如果你想了解有关其他 Ultralytics YOLO 集成的更多信息,请访问我们的 集成指南页面。你将在那里找到许多有用的资源和见解。

Link to this section常见问题解答#

Link to this section如何将我的 Ultralytics YOLO 模型导出为 DEEPX 格式?#

你可以使用 Python 中的 export() 方法或通过 CLI 导出你的模型。导出过程会自动启用 INT8 量化并使用校准数据集来最小化准确性损失。如果尚未安装,dx_com 编译器包会自动安装。

示例
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="deepx")

Link to this section为什么 DEEPX 导出需要 INT8 量化?#

DEEPX NPU 专为以最高效率执行 INT8 计算而设计。dx_com 编译器在导出过程中使用基于 EMA 的校准方法,利用真实数据集图像对模型进行量化,使 NPU 能够发挥其全部性能。INT8 对于 DEEPX 导出是强制性的——如果你传入 int8=False,它将被覆盖并显示警告。

Link to this sectionDEEPX 导出支持哪些平台?#

DEEPX 模型导出(编译)需要 x86-64 Linux 主机。ARM64 (aarch64) 和 Windows 机器不支持导出步骤。使用导出的 .dxnn 模型进行推理可以在 dx_engine 运行时支持的任何 Linux 平台(x86-64 和 ARM64)上运行。

Link to this sectionDEEPX 导出的输出是什么?#

导出将创建一个目录(例如 yolo26n_deepx_model/),其中包含:

  • yolo26n.dxnn — 已编译的 NPU 二进制文件
  • config.json — 校准和预处理设置
  • metadata.yaml — 包含类别名称和图像尺寸的模型元数据

Link to this section我可以在 DEEPX 硬件上部署自定义训练的模型吗?#

可以。任何使用 Ultralytics 训练模式 训练并使用 format="deepx" 导出的模型都可以部署在 DEEPX NPU 硬件上,前提是它使用了受支持的层操作。导出支持检测、分割、姿态估计、旋转边界框 (OBB) 和分类任务。

Link to this sectionDEEPX 导出应该使用多少张校准图像?#

DEEPX 导出管道使用校准数据集中的每一张图像(在 fraction 过滤后)进行 EMA 校准方法。几百张图像通常足以获得良好的量化准确性。如果大数据集上的编译时间成为关注点,请将 data 指向较小的数据集(或将 fraction 设置为低于 1.0)。

Link to this section如何安装用于推理的 DEEPX 运行时?#

DEEPX 运行时未与 ultralytics 捆绑,必须在运行推理之前单独安装。在 x86-64 Linux 机器和 ARM64 Linux 机器(例如 Raspberry Pi 5)上,从 DEEPX-AI GitHub 发布页面安装 NPU 驱动程序 (dxrt-driver-dkms) 和运行时 (libdxrt),然后安装捆绑的 dx_engine Python wheel。请参阅上面的 运行时安装 部分以获取分步命令。

评论