使用 ExecuTorch 在移动和边缘设备上部署 YOLO26
在智能手机、平板电脑和嵌入式系统等边缘设备上部署计算机视觉模型,需要一个既能保持性能又能满足资源限制的优化运行时。ExecuTorch 是 PyTorch 针对边缘计算的解决方案,可为 Ultralytics YOLO 模型提供高效的端侧推理能力。
本指南概述了如何将 Ultralytics YOLO 模型导出为 ExecuTorch 格式,助你在移动和边缘设备上以优化的性能部署模型。
为什么要导出到 ExecuTorch?
ExecuTorch 是 PyTorch 的端到端解决方案,旨在实现移动和边缘设备上的端侧推理能力。ExecuTorch 以便携和高效为目标,可用于在多种计算平台上运行 PyTorch 程序。
ExecuTorch 的主要功能
ExecuTorch 为在边缘设备上部署 Ultralytics YOLO 模型提供了多项强大功能:
-
便携式模型格式:ExecuTorch 使用
.pte(PyTorch ExecuTorch) 格式,该格式针对资源受限设备的模型大小和加载速度进行了优化。 -
XNNPACK 后端:与 XNNPACK 的默认集成可在移动 CPU 上提供高度优化的推理,无需专用硬件即可实现卓越性能。
-
量化支持:内置对量化技术的支持,可在保持精度的同时减小模型大小并提高推理速度。
-
内存效率:优化的内存管理减少了运行时内存占用,非常适合 RAM 有限的设备。
-
模型元数据:导出的模型会在单独的 YAML 文件中包含元数据(图像尺寸、类名等),以便于集成。
ExecuTorch 的部署选项
ExecuTorch 模型可部署在各种边缘和移动平台上:
-
移动应用:在 iOS 和 Android 应用程序中进行原生性能部署,实现移动应用中的实时目标检测。
-
嵌入式系统:在 Raspberry Pi、NVIDIA Jetson 和其他基于 ARM 的系统等嵌入式 Linux 设备上以优化性能运行。
-
边缘 AI 设备:使用自定义委托(delegate)部署在专用的边缘 AI 硬件上,以加速推理。
-
物联网设备:集成到物联网设备中,无需云连接即可进行端侧推理。
将 Ultralytics YOLO26 模型导出到 ExecuTorch
将 Ultralytics YOLO26 模型转换为 ExecuTorch 格式,可以实现移动和边缘设备上的高效部署。
安装
ExecuTorch 导出需要 Python 3.10 或更高版本以及特定的依赖项:
# Install Ultralytics package
pip install ultralytics有关安装过程的详细说明和最佳实践,请查看我们的 YOLO26 安装指南。在安装 YOLO26 所需的软件包时,如果遇到任何困难,请参考我们的 常见问题指南 获取解决方案和建议。
使用方法
将 YOLO26 模型导出到 ExecuTorch 非常简单:
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Export the model to ExecuTorch format
model.export(format="executorch") # creates 'yolo26n_executorch_model' directory
# Load the exported ExecuTorch model
executorch_model = YOLO("yolo26n_executorch_model")
# Run inference on a single image
results = executorch_model.predict("https://ultralytics.com/images/bus.jpg")ExecuTorch 导出过程会生成一个包含 .pte 文件和元数据的目录。在你的移动或嵌入式应用程序中使用 ExecuTorch 运行时来加载 .pte 模型并执行推理。
导出参数
导出到 ExecuTorch 格式时,你可以指定以下参数:
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
format | str | 'executorch' | 导出模型的目标格式,定义与各种部署环境的兼容性。 |
imgsz | int 或 tuple | 640 | 模型输入的所需图像尺寸。可以是正方形图像的整数,也可以是特定维度的元组 (height, width)。 |
batch | int | 1 | 指定导出模型的批量推理大小,或者导出模型在 predict 模式下将同时处理的最大图像数量。 |
device | str | None | 指定导出的设备:GPU (device=0)、CPU (device=cpu)、适用于 Apple 芯片的 MPS (device=mps)。 |
输出结构
ExecuTorch 导出将创建一个包含模型和元数据的目录:
yolo26n_executorch_model/
├── yolo26n.pte # ExecuTorch model file
└── metadata.yaml # Model metadata (classes, image size, etc.)使用导出的 ExecuTorch 模型
导出模型后,你需要使用 ExecuTorch 运行时将其集成到目标应用程序中。
移动端集成
对于移动应用程序 (iOS/Android),你需要:
- 添加 ExecuTorch 运行时:在你的移动项目中包含 ExecuTorch 运行时库
- 加载模型:在应用程序中加载
.pte文件 - 运行推理:处理图像并获取预测结果
iOS 集成示例 (Objective-C/C++):
// iOS uses C++ APIs for model loading and inference
// See https://pytorch.org/executorch/stable/using-executorch-ios.html for complete examples
#include <executorch/extension/module/module.h>
using namespace ::executorch::extension;
// Load the model
Module module("/path/to/yolo26n.pte");
// Create input tensor
float input[1 * 3 * 640 * 640];
auto tensor = from_blob(input, {1, 3, 640, 640});
// Run inference
const auto result = module.forward(tensor);Android 集成示例 (Kotlin):
import org.pytorch.executorch.EValue
import org.pytorch.executorch.Module
import org.pytorch.executorch.Tensor
// Load the model
val module = Module.load("/path/to/yolo26n.pte")
// Prepare input tensor
val inputTensor = Tensor.fromBlob(floatData, longArrayOf(1, 3, 640, 640))
val inputEValue = EValue.from(inputTensor)
// Run inference
val outputs = module.forward(inputEValue)
val scores = outputs[0].toTensor().dataAsFloatArray嵌入式 Linux
对于嵌入式 Linux 系统,使用 ExecuTorch C++ API:
#include <executorch/extension/module/module.h>
// Load model
auto module = torch::executor::Module("yolo26n.pte");
// Prepare input
std::vector<float> input_data = preprocessImage(image);
auto input_tensor = torch::executor::Tensor(input_data, {1, 3, 640, 640});
// Run inference
auto outputs = module.forward({input_tensor});有关将 ExecuTorch 集成到应用程序中的更多详细信息,请访问 ExecuTorch 文档。
性能优化
模型大小优化
为减小部署的模型大小:
- 使用更小的模型:从 YOLO26n (nano) 开始,以获得最小的内存占用
- 降低输入分辨率:使用较小的图像尺寸(例如
imgsz=320或imgsz=416) - 量化:应用量化技术(未来版本的 ExecuTorch 将支持)
推理速度优化
为了获得更快的推理速度:
- XNNPACK 后端:默认的 XNNPACK 后端提供优化的 CPU 推理
- 硬件加速:使用特定平台的委托(例如用于 iOS 的 CoreML)
- 批处理:在可能的情况下处理多张图像
基准测试
Ultralytics 团队对 YOLO26 模型进行了基准测试,比较了 PyTorch 和 ExecuTorch 之间的速度和精度。
| 模型 | 格式 | 状态 | 大小 (MB) | metrics/mAP50-95(B) | 推理时间 (ms/im) |
|---|---|---|---|---|---|
| YOLO26n | PyTorch | ✅ | 5.3 | 0.4790 | 314.80 |
| YOLO26n | ExecuTorch | ✅ | 9.4 | 0.4800 | 142 |
| YOLO26s | PyTorch | ✅ | 19.5 | 0.5730 | 930.90 |
| YOLO26s | ExecuTorch | ✅ | 36.5 | 0.5780 | 376.1 |
推理时间不包括预处理/后处理。
故障排除
常见问题
问题:Python version error
解决方案:ExecuTorch 需要 Python 3.10 或更高版本。请升级你的 Python 安装:
# Using conda
conda create -n executorch python=3.10
conda activate executorch问题:Export fails during first run
解决方案:ExecuTorch 在首次使用时可能需要下载和编译组件。请确保你拥有:
pip install --upgrade executorch问题:Import errors for ExecuTorch modules
解决方案:确保已正确安装 ExecuTorch:
pip install executorch --force-reinstall如需更多故障排除帮助,请访问 Ultralytics GitHub Issues 或 ExecuTorch 文档。
总结
将 YOLO26 模型导出到 ExecuTorch 格式,可以实现移动和边缘设备上的高效部署。凭借 PyTorch 原生集成、跨平台支持和优化的性能,ExecuTorch 是边缘 AI 应用程序的绝佳选择。
关键要点:
- ExecuTorch 提供具有卓越性能的 PyTorch 原生边缘部署
- 使用
format='executorch'参数即可轻松导出 - 模型通过 XNNPACK 后端针对移动 CPU 进行了优化
- 支持 iOS、Android 和嵌入式 Linux 平台
- 需要 Python 3.10+ 和 FlatBuffers 编译器
常见问题 (FAQ)
我该如何将 YOLO26 模型导出为 ExecuTorch 格式?
使用 Python 或 CLI 将 YOLO26 模型导出到 ExecuTorch:
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(format="executorch")或者
yolo export model=yolo26n.pt format=executorchExecuTorch 导出的系统要求是什么?
ExecuTorch 导出需要:
- Python 3.10 或更高版本
executorch包(通过pip install executorch安装)- PyTorch(随 ultralytics 自动安装)
注意:在首次导出期间,ExecuTorch 将自动下载并编译必要的组件,包括 FlatBuffers 编译器。
我可以直接在 Python 中使用 ExecuTorch 模型运行推理吗?
ExecuTorch 模型(.pte 文件)旨在通过 ExecuTorch 运行时在移动和边缘设备上部署。它们不能直接通过 YOLO() 在 Python 中加载进行推理。你需要使用 ExecuTorch 运行时库将它们集成到你的目标应用程序中。
ExecuTorch 支持哪些平台?
ExecuTorch 支持:
- 移动端:iOS 和 Android
- 嵌入式 Linux:Raspberry Pi、NVIDIA Jetson 和其他 ARM 设备
- 桌面端:Linux、macOS 和 Windows(用于开发)
ExecuTorch 与 TFLite 在移动部署方面相比如何?
ExecuTorch 和 TFLite 都非常适合移动部署:
- ExecuTorch:更好的 PyTorch 集成,原生 PyTorch 工作流,生态系统不断发展
- TFLite:更成熟,更广泛的硬件支持,更多的部署示例
如果你已经在使用 PyTorch 并希望采用原生部署路径,请选择 ExecuTorch。如果需要最大程度的兼容性和成熟的工具,请选择 TFLite。
我可以使用 GPU 加速的 ExecuTorch 模型吗?
可以!ExecuTorch 通过各种后端支持硬件加速:
- 移动 GPU:通过 Vulkan、Metal 或 OpenCL 委托
- NPU/DSP:通过特定平台的委托
- 默认:用于优化 CPU 推理的 XNNPACK
请参考 ExecuTorch 文档 获取后端特定的设置。