Axelera AI 导出与部署
Ultralytics 与 Axelera AI 合作,旨在 Edge AI 设备上实现高性能、高能效的推理。使用 Voyager SDK 将 Ultralytics YOLO 模型直接导出并部署到 Metis® AIPU。
Axelera AI provides dedicated hardware acceleration for computer vision at the edge, using a proprietary dataflow architecture and in-memory computing to deliver up to 856 TOPS with low power consumption.
选择合适的硬件
Axelera AI 提供多种外形规格以适应不同的部署约束。下表有助于为你的 Ultralytics YOLO 部署确定最佳硬件。
graph TD
A[Start: Select Deployment Target] --> B{Device Type?}
B -->|Edge Server / Workstation| C{Throughput Needs?}
B -->|Embedded / Robotics| D{Space Constraints?}
B -->|Standalone / R&D| E[Dev Kits & Systems]
C -->|Max Density <br> 30+ Streams| F[**Metis PCIe x4**<br>856 TOPS]
C -->|Standard PC <br> Low Profile| G[**Metis PCIe x1**<br>214 TOPS]
D -->|Drones & Handhelds| H[**Metis M.2**<br>2280 M-Key]
D -->|High Performance Embedded| I[**Metis M.2 MAX**<br>Extended Thermal]
E -->|ARM-based All-in-One| J[**Metis Compute Board**<br>RK3588 + AIPU]
E -->|Prototyping| K[**Arduino Portenta x8**<br>Integration Kit]
click F "https://store.axelera.ai/"
click G "https://store.axelera.ai/"
click H "https://store.axelera.ai/"
click J "https://store.axelera.ai/"硬件产品系列
Axelera 硬件阵容经过优化,可以高每瓦 FPS 效率运行 Ultralytics YOLO26 及旧版本。
加速卡
这些卡支持在现有主机设备中实现 AI 加速,从而促进 棕地部署。
| 产品 | 外形规格 | 算力 | 性能 (INT8) | 目标应用 |
|---|---|---|---|---|
| Metis PCIe x4 | PCIe Gen3 x16 | 4x Metis AIPU | 856 TOPS | 高密度 视频分析、智慧城市 |
| Metis PCIe x1 | PCIe Gen3 x1 | 1x Metis AIPU | 214 TOPS | 工业 PC、零售 队列管理 |
| Metis M.2 | M.2 2280 M-Key | 1x Metis AIPU | 214 TOPS | 无人机、机器人、便携式医疗设备 |
| Metis M.2 MAX | M.2 2280 | 1x Metis AIPU | 214 TOPS | 需要高级热管理的环境 |
集成系统
对于交钥匙解决方案,Axelera 与制造商合作提供针对 Metis AIPU 预验证的系统。
- Metis 计算板:一种独立的边缘设备,将 Metis AIPU 与 Rockchip RK3588 ARM CPU 配对。
- 工作站:来自 Dell (Precision 3460XE) 和 Lenovo (ThinkStation P360 Ultra) 的企业级塔式机。
- 工业 PC:来自 Advantech 和 Aetina 的加固型系统,专为 制造自动化 设计。
支持的任务
以下任务在 YOLOv8、YOLO11 和 YOLO26 模型中均受支持。
YOLO26 segmentation is not yet supported through the Ultralytics export command. Users who need YOLO26-seg can deploy via the Voyager SDK using deploy.py, which provides a user-space workaround. Native compiler support will be added in a future release.
安装
导出为 Axelera 格式需要:
- 操作系统:仅限 Linux(推荐 Ubuntu 22.04/24.04)
- 硬件:Axelera AI 加速器(Metis 设备)
- Python:3.10、3.11 和 3.12 版本
- 系统依赖:
sudo apt install libgl1(OpenCV 所需,不通过pip安装)
Ultralytics 安装
pip install ultralytics有关详细说明,请参阅我们的 Ultralytics 安装指南。如果遇到困难,请查阅我们的 常见问题指南。
Axelera 驱动程序安装
-
添加 Axelera 存储库密钥:
sudo sh -c "curl -fsSL https://software.axelera.ai/artifactory/api/security/keypair/axelera/public | gpg --dearmor -o /etc/apt/keyrings/axelera.gpg" -
将存储库添加到 apt:
从下方选择与你所用操作系统匹配的代码片段。
# Ubuntu 22.04 sudo sh -c "echo 'deb [signed-by=/etc/apt/keyrings/axelera.gpg] https://software.axelera.ai/artifactory/axelera-apt-source ubuntu22 main' > /etc/apt/sources.list.d/axelera.list"# Ubuntu 24.04 sudo sh -c "echo 'deb [signed-by=/etc/apt/keyrings/axelera.gpg] https://software.axelera.ai/artifactory/axelera-apt-source ubuntu24 main' > /etc/apt/sources.list.d/axelera.list" -
安装 SDK 并加载驱动程序:
sudo apt update sudo apt install -y metis-dkms=1.4.16 sudo modprobe metis
首次执行 yolo export format=axelera 或使用 Axelera 模型进行 yolo predict 时,系统会自动下载并安装 Axelera SDK 包。根据你的连接速度,这可能需要几分钟,且下载过程中不显示进度。若要手动预先安装:
pip install axelera-devkit==1.6.0 --extra-index-url https://software.axelera.ai/artifactory/api/pypi/axelera-pypi/simple
pip install axelera-rt==1.6.0 --extra-index-url https://software.axelera.ai/artifactory/api/pypi/axelera-pypi/simple将 YOLO 模型导出到 Axelera
使用标准 Ultralytics 导出命令导出你训练过的 YOLO 模型。
from ultralytics import YOLO
# Load a YOLO26 model
model = YOLO("yolo26n.pt")
# Export to Axelera format
model.export(format="axelera") # creates 'yolo26n_axelera_model' directoryAxelera 编译器需要 numpy<2。如果你的环境中 numpy>=2,首次 yolo export 将自动降级它,但由于模块状态陈旧,导出将失败。只需再次运行相同的导出命令 —— 第二次运行时它将会成功。
导出参数
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
format | str | 'axelera' | 针对 Axelera Metis AIPU 硬件的目标格式。 |
imgsz | int 或 tuple | 640 | 模型输入的图像尺寸。 |
batch | int | 1 | 指定导出模型的批量推理大小,或者导出模型在 predict 模式下将同时处理的最大图像数量。 |
int8 | bool | True | 为 AIPU 启用 INT8 量化。 |
data | str | 'coco128.yaml' | 用于量化校准的 数据集 配置。 |
fraction | float | 1.0 | 用于校准的数据集比例(推荐 100-400 张图像)。 |
device | str | None | 导出设备:GPU (device=0) 或 CPU (device=cpu)。 |
有关所有导出选项,请参阅 导出模式文档。
输出结构
yolo26n_axelera_model/
├── yolo26n.axm # Axelera model file
└── metadata.yaml # Model metadata (classes, image size, etc.)运行推理
使用 Ultralytics API 加载导出的模型并运行推理,类似于加载 ONNX 模型。
from ultralytics import YOLO
# Load the exported Axelera model
model = YOLO("yolo26n_axelera_model")
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for r in results:
print(f"Detected {len(r.boxes)} objects")
r.show() # Display resultsAxelera AI 基准测试
Metis AIPU 在最大限度提高吞吐量的同时,最大限度地减少了能耗。
| 模型 | Metis PCIe FPS(每秒帧数) | Metis M.2 FPS(每秒帧数) |
|---|---|---|
| YOLOv8n | 847 | 771 |
| YOLO11n | 746 | 574 |
| YOLO26n | 648.6 | 484.9 |
基准测试基于 Axelera AI 数据。实际 FPS 取决于模型大小、批处理和输入分辨率。
现实世界应用
Axelera 硬件上的 Ultralytics YOLO 支持先进的边缘计算解决方案:
- 智能零售:用于商店优化的实时 目标计数 和 热图分析。
- 工业安全:制造环境中的低延迟 PPE 检测。
- Drone Analytics: High-speed object detection on UAVs for agriculture and search-and-rescue.
- Traffic Systems: Edge-based license plate recognition and speed estimation.
推荐工作流程
- 训练:使用 Ultralytics 训练模式 训练你的模型
- 导出:使用
model.export(format="axelera")导出为 Axelera 格式 - 验证:使用
yolo val验证精度,确认量化损失最小 - 预测:使用
yolo predict进行定性验证 - 部署:部署到无需 PyTorch 依赖的高性能端到端管道 —— 请参阅 YOLO on Voyager SDK 示例,了解如何使用
axelera-rt构建可组合的 Python 管道
设备健康检查
验证你的 Axelera 设备是否工作正常:
# if axdevice cannot be found, please run at least one inference (see above) to ensure the required packages are installed
axdevice有关详细诊断信息,请参阅 AxDevice 文档。
极致性能
此集成使用单核配置以确保兼容性。对于需要最大吞吐量的生产环境,Axelera Voyager SDK 提供了:
- 多核利用(四核 Metis AIPU)
- 流式推理管道
- 针对高分辨率摄像头的分块推理
查看 model-zoo 获取 FPS 基准测试,或联系 Axelera 获取生产支持。
已知问题
- M.2 电源限制:由于电源供应限制,大型或超大型模型在 M.2 加速器上运行时可能会遇到运行时错误。
如需支持,请访问 Axelera 社区。
常见问题 (FAQ)
Axelera 支持哪些 YOLO 版本?
Voyager SDK 支持导出 YOLOv8、YOLO11 和 YOLO26 模型。请参阅支持的任务以了解各模型的任务可用性。
我可以部署自定义训练的模型吗?
可以。任何使用 Ultralytics 训练模式训练的模型,只要使用了受支持的层和操作,都可以导出为 Axelera 格式。
INT8 量化如何影响精度?
Axelera 的 Voyager SDK 会自动为混合精度 AIPU 架构对模型进行量化。对于大多数目标检测任务,性能提升(更高的 FPS,更低的功耗)远大于对 mAP 的微小影响。量化过程根据模型大小需要几秒钟到几小时不等。导出后运行 yolo val 以验证精度。
我应该使用多少张校准图像?
我们建议使用 100 到 400 张图像。超过 400 张不会提供额外收益,反而会增加量化时间。请尝试使用 100、200 和 400 张图像来找到最佳平衡点。
我在哪里可以找到 Voyager SDK?
SDK、驱动程序和编译器工具可通过 Axelera 开发者门户获取。