YOLO26 部署选项对比分析

介绍

你在 YOLO26 的旅程中已经走了很远。你努力收集了数据,进行了细致的标注,并投入了大量时间来训练和严格评估你的自定义 YOLO26 模型。现在,是时候将你的模型投入到特定的应用、用例或项目中了。但你面临着一个关键决定:如何有效地导出并部署你的模型。



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

本指南将带你了解 YOLO26 的部署选项,以及在为项目选择最佳方案时需要考虑的关键因素。

如何为你的 YOLO26 模型选择合适的部署选项

当需要部署 YOLO26 模型时,选择合适的导出格式非常重要。正如 Ultralytics YOLO26 模式文档 所述,model.export() 函数允许你将训练好的模型转换为针对不同环境和性能需求量身定制的各种格式。

理想的格式取决于模型的预期运行环境,需要在速度、硬件限制和集成简易性之间取得平衡。对于无需手动导出的托管部署,Ultralytics Platform 提供了现成的 推理端点,可在全球 43 个区域实现自动扩缩容。在接下来的章节中,我们将深入了解每种导出选项,了解何时选择每种选项。

YOLO26 的部署选项

让我们逐一了解不同的 YOLO26 部署选项。有关导出过程的详细步骤,请访问 Ultralytics 关于导出的文档页面

PyTorch

PyTorch 是一个开源机器学习库,广泛用于 深度学习人工智能 应用。它提供了高度的灵活性和速度,这使其成为研究人员和开发人员的最爱。

  • 性能基准:PyTorch 以其易用性和灵活性著称,与更专业、更优化的其他框架相比,在原始性能上可能会有细微的取舍。
  • 兼容性与集成:与 Python 中的各种数据科学和机器学习库具有出色的兼容性。
  • 社区支持与生态系统:拥有最活跃的社区之一,提供丰富的学习和故障排除资源。
  • 案例研究:常用于研究原型,许多学术论文都引用了以 PyTorch 部署的模型。
  • 维护与更新:定期更新,积极开发并支持新功能。
  • 安全考虑:针对安全问题定期发布补丁,但安全性很大程度上取决于其部署的整体环境。
  • 硬件加速:支持用于 GPU 加速的 CUDA,这对加速模型训练和推理至关重要。

TorchScript

TorchScript 通过允许将模型导出并在 C++ 运行时环境中运行,扩展了 PyTorch 的功能。这使其适用于无法使用 Python 的生产环境。

  • 性能基准:相比原生 PyTorch 可提供更高的性能,特别是在生产环境中。
  • 兼容性与集成:专为从 PyTorch 到 C++ 生产环境的无缝过渡而设计,尽管某些高级功能可能无法完美转换。
  • 社区支持与生态系统:受益于 PyTorch 的庞大社区,但其专业开发人员的范围较窄。
  • 案例研究:广泛应用于 Python 性能开销成为瓶颈的工业场景。
  • 维护与更新:与 PyTorch 同步维护,并提供一致的更新。
  • 安全考虑:通过允许在没有完整 Python 安装的环境中运行模型,提高了安全性。
  • 硬件加速:继承了 PyTorch 的 CUDA 支持,确保高效的 GPU 利用率。

ONNX

开放 神经网络 交换格式 (ONNX) 是一种允许在不同框架之间实现模型互操作性的格式,这在部署到各种平台时至关重要。

  • 性能基准:ONNX 模型可能会根据其部署的具体运行时而表现出不同的性能。
  • 兼容性与集成:由于其独立于框架的特性,在多个平台和硬件上具有高度的互操作性。
  • 社区支持与生态系统:得到许多组织的支持,形成了一个广泛的生态系统和各种优化工具。
  • 案例研究:常用于在不同的机器学习框架之间迁移模型,展示了其灵活性。
  • 维护与更新:作为一种开放标准,ONNX 会定期更新以支持新的操作和模型。
  • 安全考虑:与任何跨平台工具一样,确保转换和部署流水线中的安全实践至关重要。
  • 硬件加速:借助 ONNX Runtime,模型可以利用各种硬件优化。

OpenVINO

OpenVINO 是一个 Intel 工具包,旨在促进深度学习模型在 Intel 硬件上的部署,从而提高性能和速度。

  • 性能基准:专门针对 Intel CPU、GPU 和 VPU 进行了优化,可在兼容硬件上显著提升性能。
  • 兼容性与集成:在 Intel 生态系统内工作效果最佳,但也支持一系列其他平台。
  • 社区支持与生态系统:由 Intel 支持,拥有稳固的用户群,特别是在 计算机视觉 领域。
  • 案例研究:常用于 Intel 硬件普及的物联网和 边缘计算 场景。
  • 维护与更新:Intel 定期更新 OpenVINO 以支持最新的深度学习模型和 Intel 硬件。
  • 安全考虑:提供适用于敏感应用部署的强大安全功能。
  • 硬件加速:专为 Intel 硬件上的加速而定制,利用专用指令集和硬件特性。

有关使用 OpenVINO 进行部署的更多详细信息,请参考 Ultralytics 集成文档:Intel OpenVINO Export

TensorRT

TensorRT 是 NVIDIA 推出的高性能深度学习推理优化器和运行时,非常适合需要速度和效率的应用。

  • 性能基准:在 NVIDIA GPU 上提供顶级性能,并支持高速推理。
  • 兼容性与集成:最适合 NVIDIA 硬件,在此环境之外的支持有限。
  • 社区支持与生态系统:通过 NVIDIA 的开发者论坛和文档提供强大的支持网络。
  • 案例研究:被需要对视频和图像数据进行实时推理的行业广泛采用。
  • 维护与更新:NVIDIA 维护着 TensorRT,并频繁更新以增强性能并支持新的 GPU 架构。
  • 安全考虑:像许多 NVIDIA 产品一样,它非常强调安全性,但具体细节取决于部署环境。
  • 硬件加速:专为 NVIDIA GPU 设计,提供深度优化和加速。

有关 TensorRT 部署的更多信息,请查看 TensorRT 集成指南

CoreML

CoreML 是 Apple 的机器学习框架,针对 Apple 生态系统(包括 iOS、macOS、watchOS 和 tvOS)中的设备端性能进行了优化。

  • 性能基准:针对 Apple 硬件上的设备端性能进行了优化,且能耗极低。
  • 兼容性与集成:专用于 Apple 生态系统,为 iOS 和 macOS 应用提供了简化的工作流程。
  • 社区支持与生态系统:得到 Apple 的大力支持以及专注的开发者社区,拥有丰富的文档和工具。
  • 案例研究:常用于需要在 Apple 产品上实现设备端机器学习能力的应用。
  • 维护与更新:由 Apple 定期更新,以支持最新的机器学习进展和 Apple 硬件。
  • 安全考虑:受益于 Apple 对用户隐私和 数据安全 的关注。
  • 硬件加速:充分利用 Apple 的神经网络引擎和 GPU 来加速机器学习任务。

TF SavedModel

TF SavedModel 是 TensorFlow 保存和提供机器学习模型的格式,特别适用于可扩展的服务器环境。

  • 性能基准:在服务器环境中提供可扩展的性能,特别是与 TensorFlow Serving 结合使用时。
  • 兼容性与集成:在 TensorFlow 的整个生态系统中具有广泛的兼容性,包括云和企业服务器部署。
  • 社区支持与生态系统:由于 TensorFlow 的流行,拥有庞大的社区支持,并提供大量的部署和优化工具。
  • 案例研究:广泛用于生产环境,以大规模提供深度学习模型服务。
  • 维护与更新:由 Google 和 TensorFlow 社区提供支持,确保定期更新和新功能。
  • 安全考虑:使用 TensorFlow Serving 进行部署包含针对企业级应用的强大安全功能。
  • 硬件加速:通过 TensorFlow 的后端支持各种硬件加速。

TF GraphDef

TF GraphDef 是一种以图形式表示模型的 TensorFlow 格式,对于需要静态计算图的环境非常有利。

  • 性能基准:为静态计算图提供稳定的性能,侧重于一致性和可靠性。
  • 兼容性与集成:可轻松集成在 TensorFlow 的基础设施内,但比 SavedModel 灵活性稍差。
  • 社区支持与生态系统:得益于 TensorFlow 生态系统的良好支持,有许多用于优化静态图的资源。
  • 案例研究:在需要静态图的场景(如某些嵌入式系统)中非常有用。
  • 维护与更新:随 TensorFlow 的核心更新进行定期更新。
  • 安全考虑:确保通过 TensorFlow 既定的安全实践实现安全部署。
  • 硬件加速:可以使用 TensorFlow 的硬件加速选项,尽管不如 SavedModel 灵活。

在我们的 TF GraphDef 集成指南 中了解有关 TF GraphDef 的更多信息。

TF Lite

TF Lite 是 TensorFlow 针对移动和嵌入式设备机器学习的解决方案,为设备端推理提供了轻量级库。

  • 性能基准:专为移动和嵌入式设备的速度和效率而设计。
  • 兼容性与集成:由于其轻量级特性,可在广泛的设备上使用。
  • 社区支持与生态系统:由 Google 支持,拥有稳固的社区和越来越多的开发资源。
  • 案例研究:在需要以最小占用空间进行设备端推理的移动应用中很受欢迎。
  • 维护与更新:定期更新以包含针对移动设备的最新功能和优化。
  • 安全考虑:为在最终用户设备上运行模型提供了安全环境。
  • 硬件加速:支持多种硬件加速选项,包括 GPU 和 DSP。

TF Edge TPU

TF Edge TPU 专为在 Google 的 Edge TPU 硬件上实现高速、高效计算而设计,非常适合需要实时处理的物联网设备。

  • 性能基准:专门针对在 Google Edge TPU 硬件上的高速、高效计算进行了优化。
  • 兼容性与集成:仅与 Edge TPU 设备上的 TensorFlow Lite 模型配合使用。
  • 社区支持与生态系统:随着 Google 和第三方开发人员提供的资源,其支持力度不断增强。
  • 案例研究:用于需要低延迟实时处理的物联网设备和应用。
  • 维护与更新:不断改进以利用新 Edge TPU 硬件发布带来的功能。
  • 安全考虑:集成了 Google 针对物联网和边缘设备的强大安全机制。
  • 硬件加速:定制设计以充分利用 Google Coral 设备。

TF.js

TensorFlow.js (TF.js) 是一个将机器学习能力直接引入浏览器的库,为 Web 开发人员和用户带来了全新的可能性。它允许在 Web 应用中集成机器学习模型,而无需后端基础设施。

  • 性能基准:直接在浏览器中实现机器学习,具有合理的性能,具体取决于客户端设备。
  • 兼容性与集成:与 Web 技术具有高度兼容性,允许轻松集成到 Web 应用中。
  • 社区支持与生态系统:来自 Web 和 Node.js 开发人员社区的支持,并提供各种用于在浏览器中部署机器学习模型的工具。
  • 案例研究:非常适合受益于客户端机器学习、无需服务器端处理的交互式 Web 应用程序。
  • 维护与更新:由 TensorFlow 团队维护,并有开源社区的贡献。
  • 安全考虑:在浏览器的安全上下文中运行,利用 Web 平台的安全模型。
  • 硬件加速:性能可以通过访问 WebGL 等硬件加速的基于 Web 的 API 来增强。

PaddlePaddle

PaddlePaddle 是由百度开发的开源深度学习框架。它旨在兼顾研究人员的效率和开发人员的易用性。它在中国特别受欢迎,并为中文处理提供专门支持。

  • 性能基准:提供具有竞争力的性能,并专注于易用性和可扩展性。
  • 兼容性与集成:在百度生态系统内集成良好,并支持广泛的应用程序。
  • 社区支持与生态系统:虽然全球社区规模较小,但增长迅速,尤其是在中国。
  • 案例研究:常用于中国市场以及寻求其他主流框架替代方案的开发人员。
  • 维护与更新:定期更新,专注于服务中文 AI 应用程序和服务。
  • 安全考虑:强调 数据隐私 和安全性,迎合中国的数据治理标准。
  • 硬件加速:支持各种硬件加速,包括百度自家的昆仑芯片。

MNN

MNN 是一个高效且轻量级的深度学习框架。它支持深度学习模型的推理和训练,并具有业界领先的端侧推理和训练性能。此外,MNN 还用于物联网 (IoT) 等嵌入式设备。

  • 性能基准:移动设备的高性能,针对 ARM 系统有出色的优化。
  • 兼容性与集成:与移动和嵌入式 ARM 系统以及 X86-64 CPU 架构兼容性良好。
  • 社区支持与生态系统:由移动和嵌入式机器学习社区支持。
  • 案例研究:非常适合在移动系统上需要高效性能的应用程序。
  • 维护与更新:定期维护以确保移动设备上的高性能。
  • 安全考虑:通过保持数据本地化来提供端侧安全优势。
  • 硬件加速:针对 ARM CPU 和 GPU 进行了优化,以实现最大效率。

NCNN

NCNN 是一个针对移动平台优化的高性能神经网络推理框架。它以轻量级和高效著称,特别适用于资源有限的移动和嵌入式设备。

  • 性能基准:针对移动平台进行了高度优化,在基于 ARM 的设备上提供高效的推理。
  • 兼容性与集成:适用于手机和 ARM 架构的嵌入式系统上的应用程序。
  • 社区支持与生态系统:由一个专注于移动和嵌入式 ML 应用程序的小众但活跃的社区支持。
  • 案例研究:深受移动应用程序青睐,这些应用程序在 Android 和其他基于 ARM 的系统上对效率和速度有严格要求。
  • 维护与更新:持续改进以维持在一系列 ARM 设备上的高性能。
  • 安全考虑:专注于在设备上本地运行,利用端侧处理固有的安全性。
  • 硬件加速:专为 ARM CPU 和 GPU 量身定制,并针对这些架构进行了特定优化。

YOLO26 部署选项对比分析

下表提供了 YOLO26 模型可用各种部署选项的快照,帮助你根据几项关键标准评估哪种方式最适合你的项目需求。如需深入了解每种部署选项的格式,请参阅 Ultralytics 关于导出格式的文档页面

部署选项性能基准测试兼容性与集成社区支持与生态系统案例研究维护与更新安全考虑硬件加速
PyTorch良好的灵活性;可能会牺牲原始性能与 Python 库完美兼容丰富的资源和社区支持研究和原型设计定期且活跃的开发取决于部署环境支持 CUDA 以实现 GPU 加速
TorchScript比 PyTorch 更适合生产环境从 PyTorch 到 C++ 的平滑过渡专业化,但比 PyTorch 的范围窄Python 成为瓶颈的行业与 PyTorch 一致的更新无需完整 Python 的改进安全性继承了 PyTorch 的 CUDA 支持
ONNX取决于运行时,表现不一在不同框架中表现出高通用性广泛的生态系统,得到许多组织的支持跨 ML 框架的灵活性针对新操作的定期更新确保安全的转换和部署实践各种硬件优化
OpenVINO针对 Intel 硬件优化在 Intel 生态系统内表现最佳在计算机视觉领域稳固基于 Intel 硬件的物联网和边缘计算针对 Intel 硬件的定期更新针对敏感应用程序的稳健功能专为 Intel 硬件量身定制
TensorRT在 NVIDIA GPU 上表现一流最适合 NVIDIA 硬件通过 NVIDIA 拥有强大的网络实时视频和图像推理针对新 GPU 的频繁更新强调安全性专为 NVIDIA GPU 设计
CoreML针对 Apple 端侧硬件进行了优化仅限 Apple 生态系统强大的 Apple 和开发人员支持Apple 产品上的端侧 ML定期的 Apple 更新关注隐私和安全Apple 神经网络引擎和 GPU
TF SavedModel在服务器环境中可扩展在 TensorFlow 生态系统中具有广泛的兼容性由于 TensorFlow 的流行而拥有庞大的支持大规模模型服务由 Google 和社区定期更新企业级的稳健功能各种硬件加速
TF GraphDef对于静态计算图稳定可靠与 TensorFlow 基础设施集成良好优化静态图的资源需要静态计算图的场景随 TensorFlow 核心同步更新成熟的 TensorFlow 安全实践TensorFlow 加速选项
TF Lite移动/嵌入式设备上的速度与效率广泛的设备支持稳健的社区,Google 支持具有极小占用空间的移动应用程序移动端的最新功能终端用户设备上的安全环境包括 GPU 和 DSP 等
TF Edge TPU针对 Google 的 Edge TPU 硬件进行了优化专用于 Edge TPU 设备随着 Google 和第三方资源的发展而成长需要实时处理的 IoT 设备针对新 Edge TPU 硬件的改进Google 强大的 IoT 安全性专为 Google Coral 设计
TF.js可接受的浏览器内性能与 Web 技术结合度高支持 Web 和 Node.js 开发人员交互式 Web 应用程序TensorFlow 团队和社区贡献Web 平台安全模型通过 WebGL 和其他 API 增强
PaddlePaddle具有竞争力,易于使用且可扩展Baidu 生态系统,广泛的应用支持发展迅速,尤其是在中国中国市场和语言处理专注于中国 AI 应用强调数据隐私和安全包括 Baidu 的 Kunlun 芯片
MNN移动设备高性能。移动和嵌入式 ARM 系统以及 X86-64 CPU移动/嵌入式 ML 社区移动系统效率移动设备上的高性能维护端侧安全优势ARM CPU 和 GPU 优化
NCNN针对基于 ARM 的移动设备进行了优化移动和嵌入式 ARM 系统小众但活跃的移动/嵌入式 ML 社区Android 和 ARM 系统效率ARM 上的高性能维护端侧安全优势ARM CPU 和 GPU 优化

此比较分析为你提供了高层概述。对于部署,务必考虑你项目的具体需求和限制,并查阅各选项提供的详细文档和资源。

社区与支持

当你开始使用 YOLO26 时,拥有一个乐于助人的社区和支持会产生重大影响。以下是如何与志同道合的人联系并获得所需帮助的方法。

参与更广泛的社区

  • GitHub Discussions: YOLO26 GitHub 仓库 有一个“Discussions”部分,你可以在那里提问、报告问题并提出改进建议。
  • Ultralytics Discord 服务器: Ultralytics 有一个 Discord 服务器,你可以在那里与其他用户和开发人员交流。

官方文档和资源

  • Ultralytics YOLO26 文档: 官方文档 提供了 YOLO26 的全面概述,以及安装、使用和故障排除指南。

这些资源将帮助你应对挑战,并了解 YOLO26 社区的最新趋势和最佳实践。

总结

在本指南中,我们探讨了 YOLO26 的不同部署选项。我们还讨论了做出选择时需要考虑的重要因素。这些选项允许你针对各种环境和性能要求自定义模型,使其适用于现实世界的应用。

别忘了 YOLO26 和 Ultralytics 社区 是宝贵的帮助来源。与其他开发人员和专家联系,学习你在常规文档中可能找不到的独特技巧和解决方案。继续寻求知识,探索新想法,并分享你的经验。

常见问题 (FAQ)

不同硬件平台上可用的 YOLO26 部署选项有哪些?

Ultralytics YOLO26 支持多种部署格式,每种格式都专为特定的环境和硬件平台而设计。主要格式包括:

  • PyTorch,用于研究和原型设计,具有出色的 Python 集成。
  • TorchScript,用于无法使用 Python 的生产环境。
  • ONNX,用于跨平台兼容性和硬件加速。
  • OpenVINO,用于在 Intel 硬件上实现优化性能。
  • TensorRT,用于在 NVIDIA GPU 上进行高速推理。

每种格式都有独特的优势。有关详细的演练,请参阅我们的 导出流程文档

如何提高我的 YOLO26 模型在 Intel CPU 上的推理速度?

为了提高 Intel CPU 上的推理速度,你可以使用 Intel 的 OpenVINO 工具包部署你的 YOLO26 模型。OpenVINO 通过优化模型以高效利用 Intel 硬件,从而带来显著的性能提升。

  1. 使用 model.export() 函数将你的 YOLO26 模型转换为 OpenVINO 格式。
  2. 按照 Intel OpenVINO 导出文档 中的详细设置指南进行操作。

有关更多见解,请查看我们的 博文

我可以将 YOLO26 模型部署到移动设备上吗?

是的,YOLO26 模型可以使用 TensorFlow Lite (TF Lite) 部署到 Android 和 iOS 平台上的移动设备。TF Lite 专为移动和嵌入式设备设计,可提供高效的设备端推理。

示例
# Export command for TFLite format
model.export(format="tflite")

有关将模型部署到移动设备的更多详情,请参阅我们的 TF Lite 集成指南

选择 YOLO26 模型的部署格式时应考虑哪些因素?

选择 YOLO26 部署格式时,请考虑以下因素:

  • 性能:TensorRT 等格式在 NVIDIA GPU 上提供出色的速度,而 OpenVINO 则针对 Intel 硬件进行了优化。
  • 兼容性:ONNX 在不同平台间提供广泛的兼容性。
  • 集成简易度:CoreML 或 TF Lite 等格式是分别为 iOS 和 Android 等特定生态系统量身定制的。
  • 社区支持PyTorch 和 TensorFlow 等格式拥有丰富的社区资源和支持。

有关比较分析,请参阅我们的 导出格式文档

如何将 YOLO26 模型部署到 Web 应用程序中?

要将 YOLO26 模型部署到 Web 应用程序中,你可以使用 TensorFlow.js (TF.js),它允许直接在浏览器中运行 机器学习 模型。这种方法消除了对后端基础设施的需求,并提供实时性能。

  1. 将 YOLO26 模型导出为 TF.js 格式。
  2. 将导出的模型集成到你的 Web 应用程序中。

有关分步说明,请参阅我们的 TensorFlow.js 集成指南

评论