部署
Ultralytics Platform 为你提供全面的部署选项,将你的 YOLO 模型投入生产环境。你可以通过基于浏览器的推理测试模型,将其部署到全球 43 个区域的专用端点,并实时监控性能。
Watch: Get Started with Ultralytics Platform - Deploy
概述
“部署”部分可以帮助你:
- 通过
Predict(预测)选项卡直接在浏览器中测试模型 - 部署到全球 43 个区域的专用端点
- 监控请求指标、日志和健康检查
- 在空闲时缩容至零(目前部署运行单个活跃实例)

部署选项
Ultralytics Platform 提供多种部署路径:
| 选项 | 描述 | 最佳用途 |
|---|---|---|
| Predict 选项卡 | 支持图像、摄像头和示例的浏览器端推理 | 用于开发和验证 |
| 共享推理 | 跨 3 个区域的多租户服务 | 轻量使用、测试 |
| 专用端点 | 跨 43 个区域的单租户服务 | 生产环境、低延迟 |
工作流程
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| 阶段 | 描述 |
|---|---|
| Test | 使用 Predict 选项卡 验证模型 |
| 配置 (Configure) | 选择区域和部署名称(部署使用固定的默认资源) |
| 部署 | 从 Deploy 选项卡 创建专用端点 |
| 监控 (Monitor) | 在 Monitoring 中追踪请求、延迟、错误和日志 |
架构
共享推理
共享推理服务运行在 3 个关键区域,根据你的数据区域自动路由请求:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| 区域 | 位置 |
|---|---|
| 美国 | 美国爱荷华州 |
| 欧盟 | 欧洲比利时 |
| AP | 亚太地区台湾 |
专用端点
在 Ultralytics Cloud 上部署到全球 43 个区域:
- 美洲:14 个区域
- 欧洲:13 个区域
- 亚太地区:12 个区域
- 中东和非洲:4 个区域
每个端点都是一个单租户服务,包含:
- 默认资源:
1 CPU、2 GiB内存、minInstances=0、maxInstances=1 - 空闲时缩容至零
- 唯一的端点 URL
- 独立的监控、日志和健康检查
部署页面
在侧边栏的 Deploy 下方访问全球部署页面。此页面显示:
- 世界地图,带有已部署区域的图钉(交互式地图)
- 概览卡片:总请求数(24小时)、活跃部署数、错误率(24小时)、P95 延迟(24小时)
- 部署列表,包含三种视图模式:卡片、紧凑和表格
- 新部署按钮,用于从任何已完成的模型创建端点

自动轮询
页面通常每 15 秒轮询一次。当部署处于过渡状态(creating、deploying 或 stopping)时,轮询频率会增加到每 3 秒一次,以获得更快的反馈。
主要特性
全球覆盖
通过 43 个区域覆盖范围,实现靠近你的用户进行部署:
- 北美、南美
- 欧洲、中东、非洲
- 亚太地区、大洋洲
扩缩容行为
端点目前的表现如下:
- 缩容至零:空闲时不产生费用(默认)
- 单个活跃实例:所有计划中
maxInstances目前上限为1
成本节省
缩容至零功能默认启用(最小实例数 = 0)。你只需为活跃的推理时间付费。
低延迟
专用端点提供:
- 冷启动:约 5-15 秒(缓存容器),首次部署最长约 45 秒
- 热启动推理:50-200ms(视模型而定)
- 区域路由以实现最佳性能
健康检查
每个运行中的部署都包含自动健康检查,提供:
- 实时状态指示器(健康/不健康)
- 响应延迟显示
- 不健康时自动重试(每 20 秒轮询一次)
- 手动刷新按钮
快速入门
在 2 分钟内部署模型:
- 训练或上传模型到项目
- 前往模型的 Deploy 选项卡
- 从延迟表中选择一个区域
- 点击 Deploy —— 你的端点即刻上线
快速部署
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
部署完成后,使用端点 URL 和你的 API 密钥从任何应用程序发送推理请求。
快速链接
常见问题 (FAQ)
共享推理和专用推理有什么区别?
| 特性 | 共享 | 专属 |
|---|---|---|
| 延迟 | 可变 | 一致 |
| 成本 | 免费(已包含) | 免费(基础版),按使用量付费(高级版) |
| 规模 | 有限 | 缩容至零,单实例 |
| 区域 | 3 | 3 |
| URL | 通用 | 自定义 |
| 速率 | 20 次请求/分钟 | 无限 |
部署需要多长时间?
专用端点部署通常需要 1-2 分钟:
- 拉取镜像(约 30 秒)
- 容器启动(约 30 秒)
- 健康检查(约 30 秒)
我可以部署多个模型吗?
Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.
当端点处于闲置状态时会发生什么?
如果启用了自动缩容至零(scale-to-zero):
- 端点会在闲置后自动缩减
- 首次请求会触发冷启动
- 后续请求响应迅速
闲置期后的首次请求会触发冷启动。