Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 部署选项对比分析#

YOLO26 支持超过 20 种部署选项,每种选项都针对不同的运行时、硬件目标或平台进行了调优——从 PyTorch 和 ONNXTensorRTOpenVINOCoreML 以及专用的边缘 NPU 格式。选择合适的选项需要在推理速度、硬件限制和集成便捷性之间取得平衡。本指南对比了所有选项,以便你为你的应用程序选择最合适的方案,然后参考模型部署最佳实践进行可靠的部署。



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

部署是计算机视觉项目工作流程中的一个阶段,在这个阶段,经过训练的模型开始执行实际任务,因此你导出的格式对速度、成本和可移植性有着直接影响。

Link to this section如何为你的 YOLO26 模型选择正确的部署选项#

当需要部署你的 YOLO26 模型时,选择合适的导出格式非常重要。正如 Ultralytics YOLO26 导出文档中所述,model.export() 函数可以将你训练好的模型转换为多种格式,以满足不同环境和性能要求。

理想的格式取决于你模型的预期运行环境和硬件。

跳过手动导出

对于无需手动导出的托管部署,Ultralytics Platform 提供了开箱即用的推理端点,可在全球 43 个区域进行自动扩缩容。

Link to this sectionYOLO26 的部署选项#

以下是每种格式的简要说明以及何时使用它们。若要获取完整的导出指南,请参阅导出文档;若要进行横向标准对比,请直接跳转到对比表

  • PyTorch (.pt):原生的训练和推理格式,提供最大的灵活性和 CUDA GPU 加速,非常适合无需导出步骤的研究和原型设计。
  • TorchScript (torchscript):为无 Python 环境的 C++ 运行时序列化模型,适用于无法使用 Python 的生产系统。
  • ONNX (onnx):一种框架无关的交换格式,通过 ONNX Runtime 提供广泛的跨平台和硬件支持。
  • OpenVINO (openvino):Intel 专为在 Intel CPU、集成显卡和 NPU 上进行优化推理而设计的工具包,常见于物联网和边缘计算领域。
  • TensorRT (engine):NVIDIA 的高性能运行时,通过 FP16 和 INT8 优化提供顶级的 GPU 推理性能。
  • CoreML (coreml):Apple 用于 iOS、macOS、watchOS 和 tvOS 的端侧格式,使用 Apple Neural Engine。
  • TF SavedModel (saved_model):TensorFlow 的标准格式,用于使用 TensorFlow Serving 进行可扩展的服务器端服务部署。
  • TF GraphDef (pb):一种冻结的静态图 TensorFlow 格式,适用于需要固定计算图的环境。
  • TF Edge TPU (edgetpu):为 Google Coral Edge TPU 加速器编译 .tflite 模型。
  • LiteRT (litert):Google 的设备端运行时(前身为 TensorFlow Lite),用于移动设备、嵌入式设备和浏览器的推理,支持从单个 .tflite 模型运行,具备 FP32 和 INT8 支持,并通过 LiteRT.js 实现浏览器内执行。
  • PaddlePaddle (paddle):百度推出的深度学习框架,在中国很流行,并拥有广泛的硬件支持。
  • MNN (mnn):一种轻量级、高性能推理引擎,针对移动设备和嵌入式 ARM 以及 x86-64 系统进行了优化。
  • NCNN (ncnn):一种高性能、轻量级的推理框架,专门为移动 ARM 设备进行调优。
  • Sony IMX500 (imx):为 Sony IMX500 智能视觉传感器(具有片上处理能力,如 Raspberry Pi AI Camera)导出的格式。
  • Rockchip RKNN (rknn):针对嵌入式板卡上的 Rockchip NPU,支持 FP16 和 INT8 量化。
  • ExecuTorch (executorch):PyTorch 的原生端侧运行时,通过 XNNPACK 支持移动设备(iOS 和 Android)和嵌入式系统。
  • Axelera AI (axelera):为 Axelera 的 Metis AIPU(高达 856 TOPS)编译,通过 PCIe 或 M.2 接口实现高吞吐量边缘推理。
  • DEEPX (deepx):针对 DEEPX NPU 硬件,使用 INT8 量化进行嵌入式边缘推理。
  • Qualcomm QNN (qnn):通过 Qualcomm AI 栈在 Snapdragon Hexagon NPU、Adreno GPU 和 CPU 上进行端侧推理。

作为额外的边缘目标,Hailo 集成可以将 YOLO 检测模型编译为 Hailo HEF。它不是直接的 model.export() 目标:检测模型首先导出为 ONNX,然后使用外部的 Hailo Dataflow Compiler 为 Hailo-8、Hailo-8L 和 Hailo-15 加速器编译成 HEF。

Link to this section部署选项对比#

下表根据通常决定选择的关键标准总结了 YOLO26 模型的部署选项。若要深入了解每种格式,请参阅导出格式文档

部署选项性能基准兼容性与集成社区支持与生态系统案例研究维护与更新安全注意事项硬件加速
PyTorch灵活性好;可能会牺牲原始性能与 Python 库配合极佳丰富的资源与社区研究与原型设计定期、活跃的开发取决于部署环境支持 CUDA 以实现 GPU 加速
TorchScript比 PyTorch 更适合生产环境从 PyTorch 到 C++ 的平滑过渡专业化,但比 PyTorch 窄Python 成为瓶颈的行业与 PyTorch 一致的更新在无需完整 Python 的情况下提高安全性继承了 PyTorch 的 CUDA 支持
ONNX随运行时环境而变跨不同框架的高兼容性广泛的生态系统,受到许多组织的支持跨机器学习框架的灵活性针对新算子的定期更新确保安全的转换和部署实践各种硬件优化
OpenVINO针对 Intel 硬件优化在 Intel 生态系统中表现最佳在计算机视觉领域表现稳健使用 Intel 硬件的物联网和边缘计算针对 Intel 硬件的定期更新针对敏感应用的功能稳健为 Intel 硬件量身定制
TensorRT在 NVIDIA GPU 上表现一流最适合 NVIDIA 硬件通过 NVIDIA 构建的强大网络实时视频和图像推理针对新 GPU 的频繁更新强调安全性专为 NVIDIA GPU 设计
CoreML针对设备端 Apple 硬件优化Apple 生态系统专属强大的 Apple 及开发者支持Apple 产品上的设备端 ML定期的 Apple 更新专注于隐私与安全Apple 神经引擎与 GPU
TF SavedModel在服务器环境中可扩展在 TensorFlow 生态系统中的广泛兼容性得益于 TensorFlow 的普及,拥有庞大的支持大规模模型服务由 Google 和社区定期更新针对企业应用的功能稳健各种硬件加速
TF GraphDef对于静态计算图而言稳定与 TensorFlow 基础设施集成良好优化静态计算图的资源需要静态图的场景与 TensorFlow 核心同步更新成熟的 TensorFlow 安全实践TensorFlow 加速选项
TF Edge TPU针对 Google 的 Edge TPU 硬件进行优化专用于 Edge TPU 设备随着 Google 和第三方资源而不断成长需要实时处理的 IoT 设备针对新款 Edge TPU 硬件的改进Google 稳健的 IoT 安全性为 Google Coral 量身定制
LiteRT在移动设备/嵌入式设备/Web 上的速度与效率支持移动、嵌入式、边缘计算及浏览器端强大的社区,由 Google 支持跨 Android、iOS 和 Web 的设备端应用最新的设备端运行时功能安全的设备端和浏览器内推理支持 GPU、DSP 和 WebGPU 加速
PaddlePaddle具有竞争力、易于使用且可扩展百度生态系统,广泛的应用支持快速增长,特别是在中国中国市场与语言处理专注于中国的 AI 应用强调数据隐私与安全包括百度的昆仑芯片
MNN移动设备高性能移动与嵌入式 ARM 系统及 X86-64 CPU移动/嵌入式 ML 社区移动系统效率移动设备上的高性能维护端侧安全优势ARM CPU 和 GPU 优化
NCNN针对基于 ARM 的移动设备进行优化移动与嵌入式 ARM 系统利基但活跃的移动/嵌入式 ML 社区Android 和 ARM 系统效率ARM 平台上的高性能维护端侧安全优势ARM CPU 和 GPU 优化
Sony IMX500超低功耗的片上推理Sony IMX500 传感器,Raspberry Pi AI CameraSony AITRIOS 生态系统摄像头端侧 AISony SDK 和 MCT 工具链更新数据留在传感器上Sony IMX500 片上加速器
Rockchip RKNN针对 Rockchip NPU 优化Rockchip SoC 板卡(如 RK3588)Rockchip 开发者社区嵌入式 SBC 和边缘设备Rockchip RKNN-Toolkit 更新端侧本地推理Rockchip NPU
ExecuTorch高效的端侧 PyTorch 运行时iOS、Android,通过 XNNPACK 的嵌入式系统由 PyTorch 项目支持移动和嵌入式应用与 PyTorch 同步维护端侧推理保持数据本地化XNNPACK 和移动 CPU/GPU 后端
Axelera AI极高吞吐量(高达 856 TOPS)通过 PCIe 或 M.2 的 Metis AIPUAxelera Voyager SDK高吞吐量边缘推理Axelera SDK 更新本地边缘推理Axelera Metis AIPU
DEEPXINT8 优化 NPU 推理DEEPX NPU 硬件DEEPX 开发工具 (dx_com, dx_engine)嵌入式边缘推理DEEPX SDK 和运行时更新端侧本地推理DEEPX NPU
Qualcomm QNN快速的端侧 Snapdragon 推理Snapdragon Hexagon NPU, Adreno GPU, CPUQualcomm AI Hub 生态系统移动和边缘 Snapdragon 设备Qualcomm AI 栈 (QAIRT) 更新端侧推理保持数据本地化Snapdragon Hexagon NPU

此对比为你提供了概览。在部署时,请根据你项目的特定需求和约束条件来权衡每个选项,并查看你所选格式的集成指南。

Link to this section结论#

YOLO26 广泛的导出格式让你能够为几乎任何环境定制模型,从云端 GPU 服务器到片上边缘摄像头。一旦选择了格式,请遵循模型部署最佳实践进行优化、故障排除和安全设置,并在遇到问题时依靠 Ultralytics 社区提供帮助。

Link to this section常见问题解答#

Link to this sectionYOLO26 在不同硬件平台上有哪些可用的部署选项?#

Ultralytics YOLO26 支持各种部署格式,每种格式都专为特定的环境和硬件平台而设计。主要格式包括:

  • PyTorch,用于研究和原型设计,具有出色的 Python 集成。
  • TorchScript,用于无法使用 Python 的生产环境。
  • ONNX,用于跨平台兼容性和硬件加速。
  • OpenVINO,用于在 Intel 硬件上实现优化性能。
  • TensorRT,用于在 NVIDIA GPU 上进行高速推理。

每种格式都有独特的优势。有关详细的演练,请参阅我们的 导出流程文档

Link to this section如何提高我的 YOLO26 模型在 Intel CPU 上的推理速度?#

为了提高 Intel CPU 上的推理速度,你可以使用 Intel 的 OpenVINO 工具包部署你的 YOLO26 模型。OpenVINO 通过优化模型以高效利用 Intel 硬件,提供了显著的性能提升。

  1. 使用 model.export() 函数将你的 YOLO26 模型转换为 OpenVINO 格式。
  2. 按照 Intel OpenVINO 导出文档 中的详细设置指南进行操作。

欲了解更多见解,请查看我们的 博文

Link to this section我可以在移动设备上部署 YOLO26 模型吗?#

是的,YOLO26 模型可以通过 LiteRT(前身为 TensorFlow Lite)和 NCNN 在 Android 上部署,或通过 CoreML 或 LiteRT 在 iOS 上部署。LiteRT 是 Google 用于移动和嵌入式设备的设备端运行时,能在 Android、iOS 和浏览器上运行相同的模型,从而提供高效的设备端推理。

示例
# Export command for NCNN format
model.export(format="ncnn")

有关将模型部署到移动设备的更多详情,请参阅我们的 LiteRT 集成指南

Link to this section在为我的 YOLO26 模型选择部署格式时,我应该考虑哪些因素?#

在为 YOLO26 选择部署格式时,请考虑以下因素:

  • 性能:像 TensorRT 这样的格式在 NVIDIA GPU 上提供了卓越的速度,而 OpenVINO 则针对 Intel 硬件进行了优化。
  • 兼容性:ONNX 在不同平台间提供了广泛的兼容性。
  • 集成便捷性:像 CoreML 或 LiteRT 这样的格式分别是针对 iOS 和 Android 等特定生态系统量身定制的。
  • 社区支持PyTorch 和 TensorFlow 等格式拥有丰富的社区资源和支持。

有关比较分析,请参阅我们的 导出格式文档

Link to this section我该如何在 Web 应用中部署 YOLO26 模型?#

若要在 Web 应用程序中部署 YOLO26 模型,你可以使用 LiteRT 的 Web 运行时 LiteRT.js,它允许直接在浏览器和 Node.js 中运行 机器学习 模型。这种方法无需后端基础设施,并能提供实时性能。

  1. 将 YOLO26 模型导出为 LiteRT 格式。
  2. 使用 LiteRT.js 将导出的模型集成到你的 Web 应用程序中。

如需分步说明,请参考我们的 LiteRT 集成指南

评论