Link to this sectionYOLO26 部署选项对比分析#
YOLO26 支持超过 20 种部署选项,每种选项都针对不同的运行时、硬件目标或平台进行了调优——从 PyTorch 和 ONNX 到 TensorRT、OpenVINO、CoreML 以及专用的边缘 NPU 格式。选择合适的选项需要在推理速度、硬件限制和集成便捷性之间取得平衡。本指南对比了所有选项,以便你为你的应用程序选择最合适的方案,然后参考模型部署最佳实践进行可靠的部署。
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
部署是计算机视觉项目工作流程中的一个阶段,在这个阶段,经过训练的模型开始执行实际任务,因此你导出的格式对速度、成本和可移植性有着直接影响。
Link to this section如何为你的 YOLO26 模型选择正确的部署选项#
当需要部署你的 YOLO26 模型时,选择合适的导出格式非常重要。正如 Ultralytics YOLO26 导出文档中所述,model.export() 函数可以将你训练好的模型转换为多种格式,以满足不同环境和性能要求。
理想的格式取决于你模型的预期运行环境和硬件。
对于无需手动导出的托管部署,Ultralytics Platform 提供了开箱即用的推理端点,可在全球 43 个区域进行自动扩缩容。
Link to this sectionYOLO26 的部署选项#
以下是每种格式的简要说明以及何时使用它们。若要获取完整的导出指南,请参阅导出文档;若要进行横向标准对比,请直接跳转到对比表。
- PyTorch (
.pt):原生的训练和推理格式,提供最大的灵活性和 CUDA GPU 加速,非常适合无需导出步骤的研究和原型设计。 - TorchScript (
torchscript):为无 Python 环境的 C++ 运行时序列化模型,适用于无法使用 Python 的生产系统。 - ONNX (
onnx):一种框架无关的交换格式,通过 ONNX Runtime 提供广泛的跨平台和硬件支持。 - OpenVINO (
openvino):Intel 专为在 Intel CPU、集成显卡和 NPU 上进行优化推理而设计的工具包,常见于物联网和边缘计算领域。 - TensorRT (
engine):NVIDIA 的高性能运行时,通过 FP16 和 INT8 优化提供顶级的 GPU 推理性能。 - CoreML (
coreml):Apple 用于 iOS、macOS、watchOS 和 tvOS 的端侧格式,使用 Apple Neural Engine。 - TF SavedModel (
saved_model):TensorFlow 的标准格式,用于使用 TensorFlow Serving 进行可扩展的服务器端服务部署。 - TF GraphDef (
pb):一种冻结的静态图 TensorFlow 格式,适用于需要固定计算图的环境。 - TF Edge TPU (
edgetpu):为 Google Coral Edge TPU 加速器编译.tflite模型。 - LiteRT (
litert):Google 的设备端运行时(前身为 TensorFlow Lite),用于移动设备、嵌入式设备和浏览器的推理,支持从单个.tflite模型运行,具备 FP32 和 INT8 支持,并通过 LiteRT.js 实现浏览器内执行。 - PaddlePaddle (
paddle):百度推出的深度学习框架,在中国很流行,并拥有广泛的硬件支持。 - MNN (
mnn):一种轻量级、高性能推理引擎,针对移动设备和嵌入式 ARM 以及 x86-64 系统进行了优化。 - NCNN (
ncnn):一种高性能、轻量级的推理框架,专门为移动 ARM 设备进行调优。 - Sony IMX500 (
imx):为 Sony IMX500 智能视觉传感器(具有片上处理能力,如 Raspberry Pi AI Camera)导出的格式。 - Rockchip RKNN (
rknn):针对嵌入式板卡上的 Rockchip NPU,支持 FP16 和 INT8 量化。 - ExecuTorch (
executorch):PyTorch 的原生端侧运行时,通过 XNNPACK 支持移动设备(iOS 和 Android)和嵌入式系统。 - Axelera AI (
axelera):为 Axelera 的 Metis AIPU(高达 856 TOPS)编译,通过 PCIe 或 M.2 接口实现高吞吐量边缘推理。 - DEEPX (
deepx):针对 DEEPX NPU 硬件,使用 INT8 量化进行嵌入式边缘推理。 - Qualcomm QNN (
qnn):通过 Qualcomm AI 栈在 Snapdragon Hexagon NPU、Adreno GPU 和 CPU 上进行端侧推理。
作为额外的边缘目标,Hailo 集成可以将 YOLO 检测模型编译为 Hailo HEF。它不是直接的 model.export() 目标:检测模型首先导出为 ONNX,然后使用外部的 Hailo Dataflow Compiler 为 Hailo-8、Hailo-8L 和 Hailo-15 加速器编译成 HEF。
Link to this section部署选项对比#
下表根据通常决定选择的关键标准总结了 YOLO26 模型的部署选项。若要深入了解每种格式,请参阅导出格式文档。
| 部署选项 | 性能基准 | 兼容性与集成 | 社区支持与生态系统 | 案例研究 | 维护与更新 | 安全注意事项 | 硬件加速 |
|---|---|---|---|---|---|---|---|
| PyTorch | 灵活性好;可能会牺牲原始性能 | 与 Python 库配合极佳 | 丰富的资源与社区 | 研究与原型设计 | 定期、活跃的开发 | 取决于部署环境 | 支持 CUDA 以实现 GPU 加速 |
| TorchScript | 比 PyTorch 更适合生产环境 | 从 PyTorch 到 C++ 的平滑过渡 | 专业化,但比 PyTorch 窄 | Python 成为瓶颈的行业 | 与 PyTorch 一致的更新 | 在无需完整 Python 的情况下提高安全性 | 继承了 PyTorch 的 CUDA 支持 |
| ONNX | 随运行时环境而变 | 跨不同框架的高兼容性 | 广泛的生态系统,受到许多组织的支持 | 跨机器学习框架的灵活性 | 针对新算子的定期更新 | 确保安全的转换和部署实践 | 各种硬件优化 |
| OpenVINO | 针对 Intel 硬件优化 | 在 Intel 生态系统中表现最佳 | 在计算机视觉领域表现稳健 | 使用 Intel 硬件的物联网和边缘计算 | 针对 Intel 硬件的定期更新 | 针对敏感应用的功能稳健 | 为 Intel 硬件量身定制 |
| TensorRT | 在 NVIDIA GPU 上表现一流 | 最适合 NVIDIA 硬件 | 通过 NVIDIA 构建的强大网络 | 实时视频和图像推理 | 针对新 GPU 的频繁更新 | 强调安全性 | 专为 NVIDIA GPU 设计 |
| CoreML | 针对设备端 Apple 硬件优化 | Apple 生态系统专属 | 强大的 Apple 及开发者支持 | Apple 产品上的设备端 ML | 定期的 Apple 更新 | 专注于隐私与安全 | Apple 神经引擎与 GPU |
| TF SavedModel | 在服务器环境中可扩展 | 在 TensorFlow 生态系统中的广泛兼容性 | 得益于 TensorFlow 的普及,拥有庞大的支持 | 大规模模型服务 | 由 Google 和社区定期更新 | 针对企业应用的功能稳健 | 各种硬件加速 |
| TF GraphDef | 对于静态计算图而言稳定 | 与 TensorFlow 基础设施集成良好 | 优化静态计算图的资源 | 需要静态图的场景 | 与 TensorFlow 核心同步更新 | 成熟的 TensorFlow 安全实践 | TensorFlow 加速选项 |
| TF Edge TPU | 针对 Google 的 Edge TPU 硬件进行优化 | 专用于 Edge TPU 设备 | 随着 Google 和第三方资源而不断成长 | 需要实时处理的 IoT 设备 | 针对新款 Edge TPU 硬件的改进 | Google 稳健的 IoT 安全性 | 为 Google Coral 量身定制 |
| LiteRT | 在移动设备/嵌入式设备/Web 上的速度与效率 | 支持移动、嵌入式、边缘计算及浏览器端 | 强大的社区,由 Google 支持 | 跨 Android、iOS 和 Web 的设备端应用 | 最新的设备端运行时功能 | 安全的设备端和浏览器内推理 | 支持 GPU、DSP 和 WebGPU 加速 |
| PaddlePaddle | 具有竞争力、易于使用且可扩展 | 百度生态系统,广泛的应用支持 | 快速增长,特别是在中国 | 中国市场与语言处理 | 专注于中国的 AI 应用 | 强调数据隐私与安全 | 包括百度的昆仑芯片 |
| MNN | 移动设备高性能 | 移动与嵌入式 ARM 系统及 X86-64 CPU | 移动/嵌入式 ML 社区 | 移动系统效率 | 移动设备上的高性能维护 | 端侧安全优势 | ARM CPU 和 GPU 优化 |
| NCNN | 针对基于 ARM 的移动设备进行优化 | 移动与嵌入式 ARM 系统 | 利基但活跃的移动/嵌入式 ML 社区 | Android 和 ARM 系统效率 | ARM 平台上的高性能维护 | 端侧安全优势 | ARM CPU 和 GPU 优化 |
| Sony IMX500 | 超低功耗的片上推理 | Sony IMX500 传感器,Raspberry Pi AI Camera | Sony AITRIOS 生态系统 | 摄像头端侧 AI | Sony SDK 和 MCT 工具链更新 | 数据留在传感器上 | Sony IMX500 片上加速器 |
| Rockchip RKNN | 针对 Rockchip NPU 优化 | Rockchip SoC 板卡(如 RK3588) | Rockchip 开发者社区 | 嵌入式 SBC 和边缘设备 | Rockchip RKNN-Toolkit 更新 | 端侧本地推理 | Rockchip NPU |
| ExecuTorch | 高效的端侧 PyTorch 运行时 | iOS、Android,通过 XNNPACK 的嵌入式系统 | 由 PyTorch 项目支持 | 移动和嵌入式应用 | 与 PyTorch 同步维护 | 端侧推理保持数据本地化 | XNNPACK 和移动 CPU/GPU 后端 |
| Axelera AI | 极高吞吐量(高达 856 TOPS) | 通过 PCIe 或 M.2 的 Metis AIPU | Axelera Voyager SDK | 高吞吐量边缘推理 | Axelera SDK 更新 | 本地边缘推理 | Axelera Metis AIPU |
| DEEPX | INT8 优化 NPU 推理 | DEEPX NPU 硬件 | DEEPX 开发工具 (dx_com, dx_engine) | 嵌入式边缘推理 | DEEPX SDK 和运行时更新 | 端侧本地推理 | DEEPX NPU |
| Qualcomm QNN | 快速的端侧 Snapdragon 推理 | Snapdragon Hexagon NPU, Adreno GPU, CPU | Qualcomm AI Hub 生态系统 | 移动和边缘 Snapdragon 设备 | Qualcomm AI 栈 (QAIRT) 更新 | 端侧推理保持数据本地化 | Snapdragon Hexagon NPU |
此对比为你提供了概览。在部署时,请根据你项目的特定需求和约束条件来权衡每个选项,并查看你所选格式的集成指南。
Link to this section结论#
YOLO26 广泛的导出格式让你能够为几乎任何环境定制模型,从云端 GPU 服务器到片上边缘摄像头。一旦选择了格式,请遵循模型部署最佳实践进行优化、故障排除和安全设置,并在遇到问题时依靠 Ultralytics 社区提供帮助。
Link to this section常见问题解答#
Link to this sectionYOLO26 在不同硬件平台上有哪些可用的部署选项?#
Ultralytics YOLO26 支持各种部署格式,每种格式都专为特定的环境和硬件平台而设计。主要格式包括:
- PyTorch,用于研究和原型设计,具有出色的 Python 集成。
- TorchScript,用于无法使用 Python 的生产环境。
- ONNX,用于跨平台兼容性和硬件加速。
- OpenVINO,用于在 Intel 硬件上实现优化性能。
- TensorRT,用于在 NVIDIA GPU 上进行高速推理。
每种格式都有独特的优势。有关详细的演练,请参阅我们的 导出流程文档。
Link to this section如何提高我的 YOLO26 模型在 Intel CPU 上的推理速度?#
为了提高 Intel CPU 上的推理速度,你可以使用 Intel 的 OpenVINO 工具包部署你的 YOLO26 模型。OpenVINO 通过优化模型以高效利用 Intel 硬件,提供了显著的性能提升。
- 使用
model.export()函数将你的 YOLO26 模型转换为 OpenVINO 格式。 - 按照 Intel OpenVINO 导出文档 中的详细设置指南进行操作。
欲了解更多见解,请查看我们的 博文。
Link to this section我可以在移动设备上部署 YOLO26 模型吗?#
是的,YOLO26 模型可以通过 LiteRT(前身为 TensorFlow Lite)和 NCNN 在 Android 上部署,或通过 CoreML 或 LiteRT 在 iOS 上部署。LiteRT 是 Google 用于移动和嵌入式设备的设备端运行时,能在 Android、iOS 和浏览器上运行相同的模型,从而提供高效的设备端推理。
# Export command for NCNN format
model.export(format="ncnn")有关将模型部署到移动设备的更多详情,请参阅我们的 LiteRT 集成指南。
Link to this section在为我的 YOLO26 模型选择部署格式时,我应该考虑哪些因素?#
在为 YOLO26 选择部署格式时,请考虑以下因素:
- 性能:像 TensorRT 这样的格式在 NVIDIA GPU 上提供了卓越的速度,而 OpenVINO 则针对 Intel 硬件进行了优化。
- 兼容性:ONNX 在不同平台间提供了广泛的兼容性。
- 集成便捷性:像 CoreML 或 LiteRT 这样的格式分别是针对 iOS 和 Android 等特定生态系统量身定制的。
- 社区支持:PyTorch 和 TensorFlow 等格式拥有丰富的社区资源和支持。
有关比较分析,请参阅我们的 导出格式文档。
Link to this section我该如何在 Web 应用中部署 YOLO26 模型?#
若要在 Web 应用程序中部署 YOLO26 模型,你可以使用 LiteRT 的 Web 运行时 LiteRT.js,它允许直接在浏览器和 Node.js 中运行 机器学习 模型。这种方法无需后端基础设施,并能提供实时性能。
- 将 YOLO26 模型导出为 LiteRT 格式。
- 使用 LiteRT.js 将导出的模型集成到你的 Web 应用程序中。
如需分步说明,请参考我们的 LiteRT 集成指南。