跳至内容

Intel OpenVINO 出口

OpenVINO 生态系统

在本指南中,我们将介绍如何将YOLOv8 模型导出为 OpenVINO格式导出模型,这可以将 CPU的速度,以及加快YOLO 推理在Intel GPUNPU硬件上的推理加速。

OpenVINOOpen Visual Inference &Neural NetworkOptimization toolkit 的缩写,是一个用于优化和部署人工智能推理模型的综合工具包。虽然名称中包含 Visual,但OpenVINO 还支持语言、音频、时间序列等各种附加任务。



观看: 如何导出和优化Ultralytics YOLOv8 模型,以便利用OpenVINO 进行推理。

使用示例

将YOLOv8n 模型导出为OpenVINO 格式,并使用导出的模型运行推理。

示例

from ultralytics import YOLO

# Load a YOLOv8n PyTorch model
model = YOLO("yolov8n.pt")

# Export the model
model.export(format="openvino")  # creates 'yolov8n_openvino_model/'

# Load the exported OpenVINO model
ov_model = YOLO("yolov8n_openvino_model/")

# Run inference
results = ov_model("https://ultralytics.com/images/bus.jpg")
# Export a YOLOv8n PyTorch model to OpenVINO format
yolo export model=yolov8n.pt format=openvino  # creates 'yolov8n_openvino_model/'

# Run inference with the exported model
yolo predict model=yolov8n_openvino_model source='https://ultralytics.com/images/bus.jpg'

论据

钥匙 价值 说明
format 'openvino' 格式导出到
imgsz 640 图像尺寸标量或(高、宽)列表,即(640, 480)
half False FP16 量化
int8 False INT8 量化
batch 1 推理批量
dynamic False 允许动态输入大小

的好处OpenVINO

  1. 性能:OpenVINO 利用Intel CPU、集成和独立 GPU 以及 FPGA 的强大功能提供高性能推理。
  2. 支持异构执行:OpenVINO 提供 API,只需编写一次,即可在任何支持的Intel 硬件(CPU,GPU, FPGA, VPU 等)上部署。
  3. 模型优化器:OpenVINO 提供了一个模型优化器,可从PyTorch 等流行的深度学习框架导入、转换和优化模型、 TensorFlowTensorFlow Lite、Keras、ONNX 、PaddlePaddle 和 Caffe。
  4. 易用性:工具包附带80 多本教程笔记本(包括YOLOv8 优化),教授工具包的不同方面。

OpenVINO 出口结构

将模型导出为OpenVINO 格式时,会生成一个包含以下内容的目录:

  1. XML 文件:描述网络拓扑结构。
  2. BIN 文件:包含weights and biases 二进制数据。
  3. 映射文件:保存原始模型输出张量到OpenVINO tensor 名称的映射。

您可以使用这些文件通过OpenVINO 推理引擎运行推理。

在部署中使用OpenVINO 导出

获得OpenVINO 文件后,就可以使用OpenVINO Runtime 运行模型。运行时为所有支持的Intel 硬件提供了统一的推理 API。它还提供跨Intel 硬件的负载平衡和异步执行等高级功能。有关运行推理的更多信息,请参阅《使用OpenVINO Runtime进行推理指南》。

请记住,您需要 XML 和 BIN 文件以及任何特定于应用程序的设置,如输入尺寸、用于归一化的比例因子等,以便正确设置模型并将其用于 Runtime。

在部署应用程序中,通常需要执行以下步骤:

  1. 初始化OpenVINO ,创建 core = Core().
  2. 使用 core.read_model() 方法。
  3. 使用 core.compile_model() 功能。
  4. 准备输入内容(图像、文本、音频等)。
  5. 使用 compiled_model(input_data).

有关更详细的步骤和代码片段,请参阅OpenVINO 文档API 教程

OpenVINO YOLOv8 基准

YOLOv8 以下基准测试由Ultralytics 团队在 4 种不同的模型格式上运行,测量速度和精度:PyTorch,TorchScript,ONNX 和OpenVINO 。基准测试在Intel Flex 和 Arc GPU 以及Intel Xeon CPU 上以 FP32 运行。 精确度 (用 half=False 参数)。

备注

以下基准测试结果仅供参考,可能会因系统的具体硬件和软件配置以及运行基准测试时系统的当前工作量而有所不同。

所有基准测试都在 openvino Python 软件包版本 2023.0.1.

Intel 灵活GPU

英特尔® 数据中心GPU Flex 系列是专为智能可视云设计的多功能、强大的解决方案。该GPU 支持各种工作负载,包括媒体流、云游戏、人工智能视觉推理和虚拟桌面基础架构工作负载。它因其开放式架构和对 AV1 编码的内置支持而脱颖而出,为高性能、跨架构应用提供了基于标准的软件栈。Flex 系列GPU 针对密度和质量进行了优化,具有高可靠性、可用性和可扩展性。

以下基准测试在英特尔® 数据中心GPU Flex 170 上以 FP32 精度运行。

FlexGPU 基准
模型 格式 现状 大小(MB) mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch 6.2 0.3709 21.79
YOLOv8n TorchScript 12.4 0.3704 23.24
YOLOv8n ONNX 12.2 0.3704 37.22
YOLOv8n OpenVINO 12.3 0.3703 3.29
YOLOv8s PyTorch 21.5 0.4471 31.89
YOLOv8s TorchScript 42.9 0.4472 32.71
YOLOv8s ONNX 42.8 0.4472 43.42
YOLOv8s OpenVINO 42.9 0.4470 3.92
YOLOv8m PyTorch 49.7 0.5013 50.75
YOLOv8m TorchScript 99.2 0.4999 47.90
YOLOv8m ONNX 99.0 0.4999 63.16
YOLOv8m OpenVINO 49.8 0.4997 7.11
YOLOv8l PyTorch 83.7 0.5293 77.45
YOLOv8l TorchScript 167.2 0.5268 85.71
YOLOv8l ONNX 166.8 0.5268 88.94
YOLOv8l OpenVINO 167.0 0.5264 9.37
YOLOv8x PyTorch 130.5 0.5404 100.09
YOLOv8x TorchScript 260.7 0.5371 114.64
YOLOv8x ONNX 260.4 0.5371 110.32
YOLOv8x OpenVINO 260.6 0.5367 15.02

本表是五种不同模型(YOLOv8n,YOLOv8s,YOLOv8m,YOLOv8l,YOLOv8x )和四种不同格式(PyTorch,TorchScript,ONNX,OpenVINO )的基准结果,给出了每种组合的状态、大小、mAP50-95(B) 指标和推理时间。

Intel 弧形GPU

英特尔® Arc™ 代表Intel 进军专用GPU 市场。Arc™ 系列旨在与 AMD 和NVIDIA 等领先的GPU 制造商竞争,同时面向笔记本电脑和台式机市场。该系列包括适用于笔记本电脑等紧凑型设备的移动版本,以及适用于台式电脑的更大更强大的版本。

Arc™ 系列分为三个类别:Arc™ 3、Arc™ 5 和 Arc™ 7,每个数字表示性能级别。每个类别包括多个型号,GPU 型号名称中的 "M "表示移动式集成变体。

早期的评论对 Arc™ 系列,尤其是集成的 A770MGPU 表示赞赏,认为其图形性能令人印象深刻。Arc™ 系列的供货情况因地区而异,预计不久将发布更多型号。英特尔® Arc™ GPU为从游戏到内容创建等一系列计算需求提供了高性能解决方案。

以下基准测试在 FP32 精度的 Intel® Arc 770GPU 上运行。

ArcGPU 基准
模型 格式 现状 大小(MB) 公制/mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch 6.2 0.3709 88.79
YOLOv8n TorchScript 12.4 0.3704 102.66
YOLOv8n ONNX 12.2 0.3704 57.98
YOLOv8n OpenVINO 12.3 0.3703 8.52
YOLOv8s PyTorch 21.5 0.4471 189.83
YOLOv8s TorchScript 42.9 0.4472 227.58
YOLOv8s ONNX 42.7 0.4472 142.03
YOLOv8s OpenVINO 42.9 0.4469 9.19
YOLOv8m PyTorch 49.7 0.5013 411.64
YOLOv8m TorchScript 99.2 0.4999 517.12
YOLOv8m ONNX 98.9 0.4999 298.68
YOLOv8m OpenVINO 99.1 0.4996 12.55
YOLOv8l PyTorch 83.7 0.5293 725.73
YOLOv8l TorchScript 167.1 0.5268 892.83
YOLOv8l ONNX 166.8 0.5268 576.11
YOLOv8l OpenVINO 167.0 0.5262 17.62
YOLOv8x PyTorch 130.5 0.5404 988.92
YOLOv8x TorchScript 260.7 0.5371 1186.42
YOLOv8x ONNX 260.4 0.5371 768.90
YOLOv8x OpenVINO 260.6 0.5367 19

Intel 至强CPU

英特尔®至强®CPU 是一款高性能的服务器级处理器,专为复杂和高要求的工作负载而设计。从高端云计算和虚拟化到人工智能和机器学习应用,至强® CPU 提供了当今数据中心所需的强大功能、可靠性和灵活性。

值得一提的是,至强® CPU具有高计算密度和可扩展性,是小型企业和大型企业的理想选择。通过选择英特尔® 至强® CPU,企业可以自信地处理最苛刻的计算任务,并在保持成本效益和运营效率的同时促进创新。

以下基准测试在 FP32 精度的第 4 代 Intel® Xeon® ScalableCPU 上运行。

XeonCPU 基准测试
模型 格式 现状 大小(MB) 公制/mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch 6.2 0.3709 24.36
YOLOv8n TorchScript 12.4 0.3704 23.93
YOLOv8n ONNX 12.2 0.3704 39.86
YOLOv8n OpenVINO 12.3 0.3704 11.34
YOLOv8s PyTorch 21.5 0.4471 33.77
YOLOv8s TorchScript 42.9 0.4472 34.84
YOLOv8s ONNX 42.8 0.4472 43.23
YOLOv8s OpenVINO 42.9 0.4471 13.86
YOLOv8m PyTorch 49.7 0.5013 53.91
YOLOv8m TorchScript 99.2 0.4999 53.51
YOLOv8m ONNX 99.0 0.4999 64.16
YOLOv8m OpenVINO 99.1 0.4996 28.79
YOLOv8l PyTorch 83.7 0.5293 75.78
YOLOv8l TorchScript 167.2 0.5268 79.13
YOLOv8l ONNX 166.8 0.5268 88.45
YOLOv8l OpenVINO 167.0 0.5263 56.23
YOLOv8x PyTorch 130.5 0.5404 96.60
YOLOv8x TorchScript 260.7 0.5371 114.28
YOLOv8x ONNX 260.4 0.5371 111.02
YOLOv8x OpenVINO 260.6 0.5371 83.28

Intel 核心CPU

英特尔® 酷睿® 系列是Intel 推出的一系列高性能处理器。该系列包括酷睿 i3(入门级)、酷睿 i5(中端)、酷睿 i7(高端)和酷睿 i9(极致性能)。从日常任务到苛刻的专业工作负载,每个系列都能满足不同的计算需求和预算。每一代产品在性能、能效和功能方面都有改进。

以下基准测试在 FP32 精度的第 13 代 Intel® Core® i7-13700HCPU 上运行。

核心CPU 基准
模型 格式 现状 大小(MB) 公制/mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch 6.2 0.4478 104.61
YOLOv8n TorchScript 12.4 0.4525 112.39
YOLOv8n ONNX 12.2 0.4525 28.02
YOLOv8n OpenVINO 12.3 0.4504 23.53
YOLOv8s PyTorch 21.5 0.5885 194.83
YOLOv8s TorchScript 43.0 0.5962 202.01
YOLOv8s ONNX 42.8 0.5962 65.74
YOLOv8s OpenVINO 42.9 0.5966 38.66
YOLOv8m PyTorch 49.7 0.6101 355.23
YOLOv8m TorchScript 99.2 0.6120 424.78
YOLOv8m ONNX 99.0 0.6120 173.39
YOLOv8m OpenVINO 99.1 0.6091 69.80
YOLOv8l PyTorch 83.7 0.6591 593.00
YOLOv8l TorchScript 167.2 0.6580 697.54
YOLOv8l ONNX 166.8 0.6580 342.15
YOLOv8l OpenVINO 167.0 0.0708 117.69
YOLOv8x PyTorch 130.5 0.6651 804.65
YOLOv8x TorchScript 260.8 0.6650 921.46
YOLOv8x ONNX 260.4 0.6650 526.66
YOLOv8x OpenVINO 260.6 0.6619 158.73

Intel 超 7 155H 流星湖CPU

英特尔® Ultra™ 7 155H 代表着高性能计算的新基准,专为满足从游戏玩家到内容创作者等要求最苛刻的用户而设计。Ultra™ 7 155H 不仅仅是一个CPU ;它在单个芯片中集成了强大的GPU 和先进的 NPU(神经处理单元),为各种计算需求提供了全面的解决方案。

这种混合架构使 Ultra™ 7 155H 既能胜任传统的CPU 任务,也能胜任GPU 加速工作负载,而 NPU 则能增强人工智能驱动的进程,实现更快、更高效的机器学习操作。这使得 Ultra™ 7 155H 成为需要高性能图形、复杂计算和人工智能推理的应用的多功能选择。

Ultra™ 7 系列包括多个型号,每个型号都具有不同的性能水平,其中 "H "表示适合笔记本电脑和紧凑型设备的高功率型号。早期的基准测试凸显了 Ultra™ 7 155H 的卓越性能,特别是在多任务环境中,CPU 、GPU 和 NPU 的综合功率带来了非凡的效率和速度。

作为Intel 对尖端技术承诺的一部分,Ultra™ 7 155H 专为满足未来计算需求而设计,预计还将推出更多型号。Ultra™ 7 155H 的供货情况因地区而异,它在单个芯片中集成了三个强大的处理单元,为计算性能设立了新的标准,因而不断受到好评。

以下基准测试在英特尔® Ultra™ 7 155H 上以 FP32 和 INT8 精度运行。

基准

模型 格式 精度 现状 大小(MB) 公制/mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch FP32 6.2 0.6381 35.95
YOLOv8n OpenVINO FP32 12.3 0.6117 8.32
YOLOv8n OpenVINO INT8 3.6 0.5791 9.88
YOLOv8s PyTorch FP32 21.5 0.6967 79.72
YOLOv8s OpenVINO FP32 42.9 0.7136 13.37
YOLOv8s OpenVINO INT8 11.2 0.7086 9.96
YOLOv8m PyTorch FP32 49.7 0.737 202.05
YOLOv8m OpenVINO FP32 99.1 0.7331 28.07
YOLOv8m OpenVINO INT8 25.5 0.7259 21.11
YOLOv8l PyTorch FP32 83.7 0.7769 393.37
YOLOv8l OpenVINO FP32 167.0 0.0 52.73
YOLOv8l OpenVINO INT8 42.6 0.7861 28.11
YOLOv8x PyTorch FP32 130.5 0.7759 610.71
YOLOv8x OpenVINO FP32 260.6 0.748 73.51
YOLOv8x OpenVINO INT8 66.0 0.8085 51.71

Intel Core UltraGPU 基准测试

模型 格式 精度 现状 大小(MB) 公制/mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch FP32 6.2 0.6381 34.69
YOLOv8n OpenVINO FP32 12.3 0.6092 39.06
YOLOv8n OpenVINO INT8 3.6 0.5968 18.37
YOLOv8s PyTorch FP32 21.5 0.6967 79.9
YOLOv8s OpenVINO FP32 42.9 0.7136 82.6
YOLOv8s OpenVINO INT8 11.2 0.7083 29.51
YOLOv8m PyTorch FP32 49.7 0.737 202.43
YOLOv8m OpenVINO FP32 99.1 0.728 181.27
YOLOv8m OpenVINO INT8 25.5 0.7285 51.25
YOLOv8l PyTorch FP32 83.7 0.7769 385.87
YOLOv8l OpenVINO FP32 167.0 0.7551 347.75
YOLOv8l OpenVINO INT8 42.6 0.7675 91.66
YOLOv8x PyTorch FP32 130.5 0.7759 603.63
YOLOv8x OpenVINO FP32 260.6 0.7479 516.39
YOLOv8x OpenVINO INT8 66.0 0.8119 142.42

Intel Core UltraCPU 基准测试

模型 格式 精度 现状 大小(MB) 公制/mAP50-95(B) 推理时间(毫秒/分钟)
YOLOv8n PyTorch FP32 6.2 0.6381 36.98
YOLOv8n OpenVINO FP32 12.3 0.6103 16.68
YOLOv8n OpenVINO INT8 3.6 0.5941 14.6
YOLOv8s PyTorch FP32 21.5 0.6967 79.76
YOLOv8s OpenVINO FP32 42.9 0.7144 32.89
YOLOv8s OpenVINO INT8 11.2 0.7062 26.13
YOLOv8m PyTorch FP32 49.7 0.737 201.44
YOLOv8m OpenVINO FP32 99.1 0.7284 54.4
YOLOv8m OpenVINO INT8 25.5 0.7268 30.76
YOLOv8l PyTorch FP32 83.7 0.7769 385.46
YOLOv8l OpenVINO FP32 167.0 0.7539 80.1
YOLOv8l OpenVINO INT8 42.6 0.7508 52.25
YOLOv8x PyTorch FP32 130.5 0.7759 609.4
YOLOv8x OpenVINO FP32 260.6 0.7637 104.79
YOLOv8x OpenVINO INT8 66.0 0.8077 64.96

Intel Core Ultra NPU 基准测试

复制我们的结果

要在所有导出格式上重现上述Ultralytics 基准,请运行此代码:

示例

from ultralytics import YOLO

# Load a YOLOv8n PyTorch model
model = YOLO("yolov8n.pt")

# Benchmark YOLOv8n speed and accuracy on the COCO8 dataset for all export formats
results = model.benchmark(data="coco8.yaml")
# Benchmark YOLOv8n speed and accuracy on the COCO8 dataset for all export formats
yolo benchmark model=yolov8n.pt data=coco8.yaml

请注意,基准测试结果可能会因系统的具体硬件和软件配置以及运行基准测试时系统的当前工作量而有所不同。为了获得最可靠的结果,请使用包含大量图像的数据集,即 data='coco128.yaml' (128 val images), ordata='coco.yaml'` (5000 val images)。

结论

基准测试结果清楚地表明了将YOLOv8 模型导出为OpenVINO 格式的好处。在不同的模型和硬件平台上,OpenVINO 格式的推理速度始终优于其他格式,同时保持了相当的准确性。

对于英特尔® 数据中心GPU Flex 系列,OpenVINO 格式的推理速度几乎是原始PyTorch 格式的 10 倍。在至强CPU 上,OpenVINO 格式的推理速度是PyTorch 格式的两倍。不同格式的模型准确性几乎相同。

这些基准测试凸显了OpenVINO 作为深度学习模型部署工具的有效性。通过将模型转换为OpenVINO 格式,开发人员可以显著提高性能,从而更容易在实际应用中部署这些模型。

有关使用OpenVINO 的详细信息和说明,请参阅 OpenVINO 官方文档

常见问题

如何将YOLOv8 模型导出为OpenVINO 格式?

将YOLOv8 模型导出为OpenVINO 格式可以大大提高CPU 的速度,并在Intel 硬件上实现GPU 和 NPU 加速。要导出模型,您可以使用Python 或CLI ,如下所示:

示例

from ultralytics import YOLO

# Load a YOLOv8n PyTorch model
model = YOLO("yolov8n.pt")

# Export the model
model.export(format="openvino")  # creates 'yolov8n_openvino_model/'
# Export a YOLOv8n PyTorch model to OpenVINO format
yolo export model=yolov8n.pt format=openvino  # creates 'yolov8n_openvino_model/'

更多信息,请参阅导出格式文档

使用OpenVINO 和YOLOv8 模型有什么好处?

将Intel 的OpenVINO 工具包与YOLOv8 模型一起使用,可带来多种好处:

  1. 性能:CPU 推理速度提高 3 倍,并利用Intel GPU 和 NPU 进行加速。
  2. 模型优化器:转换、优化和执行来自PyTorch 、TensorFlow 和ONNX 等流行框架的模型。
  3. 易于使用:有 80 多本教程笔记本可帮助用户入门,其中包括YOLOv8 。
  4. 异构执行:使用统一的应用程序接口在各种Intel 硬件上部署模型。

有关详细的性能比较,请访问我们的基准测试部分

如何使用导出到OpenVINO 的YOLOv8 模型进行推理?

将YOLOv8 模型导出为OpenVINO 格式后,可以使用Python 或CLI 运行推理:

示例

from ultralytics import YOLO

# Load the exported OpenVINO model
ov_model = YOLO("yolov8n_openvino_model/")

# Run inference
results = ov_model("https://ultralytics.com/images/bus.jpg")
# Run inference with the exported model
yolo predict model=yolov8n_openvino_model source='https://ultralytics.com/images/bus.jpg'

更多详情,请参阅我们的预测模式文档

为什么要选择Ultralytics YOLOv8 而不是其他型号的OpenVINO 导出?

Ultralytics YOLOv8 进行了优化,可实现高精度、高速度的实时目标检测。具体来说,与OpenVINO 结合使用时,YOLOv8 可提供以下功能:

  • 在Intel CPU 上的运行速度最多可提高 3 倍
  • 在Intel GPU 和 NPU 上无缝部署
  • 各种导出格式的准确性一致且具有可比性

有关深入的性能分析,请查看我们在不同硬件上的详细YOLOv8 基准测试

我能否在PyTorch,ONNX 和OpenVINO 等不同格式上对YOLOv8 模型进行基准测试?

是的,您可以对各种格式的YOLOv8 模型进行基准测试,包括PyTorch,TorchScript,ONNX 和OpenVINO 。使用以下代码片段在您选择的数据集上运行基准:

示例

from ultralytics import YOLO

# Load a YOLOv8n PyTorch model
model = YOLO("yolov8n.pt")

# Benchmark YOLOv8n speed and [accuracy](https://www.ultralytics.com/glossary/accuracy) on the COCO8 dataset for all export formats
results = model.benchmark(data="coco8.yaml")
# Benchmark YOLOv8n speed and accuracy on the COCO8 dataset for all export formats
yolo benchmark model=yolov8n.pt data=coco8.yaml

有关详细的基准测试结果,请参阅我们的基准测试部分导出格式文档。

📅创建于 1 年前 ✏️已更新 16 天前

评论