Link to this section部署#
Ultralytics Platform 提供了全面的部署选项,用于将你的 YOLO 模型投入生产。你可以通过浏览器端推理测试模型,部署到覆盖 43 个全球区域的专用端点,并实时监控性能。
Watch: Get Started with Ultralytics Platform - Deploy
Link to this section概述#
“部署”部分可以帮助你:
- 测试:通过
Predict选项卡直接在浏览器中测试模型 - 部署:部署到覆盖 43 个全球区域的专用端点
- 监控:监控请求指标、日志和健康检查
- 缩容至零:闲置时自动缩容(当前部署运行单个活动实例)

Link to this section部署选项#
Ultralytics Platform 提供多种部署路径:
| 选项 | 描述 | 最适用场景 |
|---|---|---|
| 预测选项卡 (Predict Tab) | 基于浏览器的推理,支持图像、摄像头和示例 | 开发、验证 |
| 共享推理 (Shared Inference) | 跨 3 个区域的多租户服务 | 轻量使用、测试 |
| 专用端点 (Dedicated Endpoints) | 跨 43 个区域的单租户服务 | 生产环境、低延迟 |
Link to this section工作流#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| 阶段 | 描述 |
|---|---|
| 测试 | 使用 Predict 选项卡 验证模型 |
| 配置 | 选择区域和部署名称(部署使用固定的默认资源) |
| 部署 (Deploy) | 从 Deploy 选项卡 创建专用端点 |
| 监控 | 在 监控 (Monitoring) 中跟踪请求、延迟、错误和日志 |
Link to this section架构#
Link to this section共享推理#
共享推理服务运行在 3 个关键区域,根据你的数据区域自动路由请求:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| 区域 | 位置 |
|---|---|
| 美国 (US) | 美国爱荷华州 |
| 欧洲 (EU) | 欧洲,比利时 |
| 亚太 (AP) | 亚太地区,台湾 |
Link to this section专用端点#
在 Ultralytics Cloud 上部署到全球 43 个区域:
- 美洲:14 个区域
- 欧洲:13 个区域
- 亚太地区:12 个区域
- 中东和非洲:4 个区域
每个端点都是一个单租户服务,具备:
- 默认资源:
1 CPU,2 GiB内存,minInstances=0,maxInstances=1 - 闲置时缩容至零
- 唯一端点 URL
- 独立的监控、日志和健康检查
Link to this section部署页面#
通过侧边栏的 Deploy 访问全球部署页面。此页面显示:
- 世界地图:显示部署区域的图钉(交互式地图)
- 概览卡片:总请求数 (24h)、活动部署数、错误率 (24h)、P95 延迟 (24h)
- 部署列表:具有三种视图模式:卡片、紧凑和表格
- 新建部署按钮:用于从任何已完成的模型创建端点

自动轮询
该页面通常每 15 秒轮询一次。当部署处于转换状态(creating、deploying 或 stopping)时,轮询频率增加到每 3 秒一次,以获得更快的反馈。
Link to this section主要特性#
Link to this section全球覆盖#
通过覆盖 43 个区域,你可以靠近你的用户进行部署,包括:
- 北美洲、南美洲
- 欧洲、中东、非洲
- 亚太地区、大洋洲
Link to this section伸缩行为#
端点目前的运行方式如下:
- 缩容至零:闲置时无费用(默认)
- 单个活动实例:目前所有计划中
maxInstances的上限均为1
成本节约
默认启用缩容至零(最小实例数 = 0)。你只需为活跃的推理时间付费。
Link to this section低延迟#
专用端点提供:
- 冷启动:~5-15 秒(缓存容器),最长 ~45 秒(首次部署)
- 热推理:50-200ms(取决于模型)
- 区域路由以实现最佳性能
Link to this section健康检查#
每个运行中的部署都包含自动健康检查,具有:
- 实时状态指示器(健康/不健康)
- 响应延迟显示
- 不健康时自动重试(每 20 秒轮询一次)
- 手动刷新按钮
Link to this section快速入门#
在 2 分钟内部署模型:
- 在项目中训练或上传模型
- 转到模型的 Deploy 选项卡
- 从延迟表中选择一个区域
- 点击 Deploy — 你的端点即刻上线
快速部署
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
部署完成后,将端点 URL 与你的 API 密钥配合使用,即可从任何应用程序发送推理请求。
Link to this section快捷链接#
- 推理 (Inference):在浏览器中测试模型
- 端点 (Endpoints):部署专用端点
- 监控 (Monitoring):跟踪部署性能
Link to this section常见问题解答#
Link to this section共享推理和专用推理有什么区别?#
| 功能 | 共享 | 专用 |
|---|---|---|
| 延迟 | 可变 | 一致 |
| 成本 | 免费(已包含) | 免费(基础版),按使用量付费(高级版) |
| 规模 | 有限 | 缩容至零,单个实例 |
| 区域 | 3 | 43 |
| URL | 通用 | 自定义 |
| 速率 | 20 次请求/分钟 | 通过平台限制为 20 次请求/分钟;直接使用端点 URL 则无限制 |
Link to this section部署需要多长时间?#
专用端点部署通常需要 1-2 分钟:
- 拉取镜像 (~30秒)
- 启动容器 (~30秒)
- 健康检查 (~30秒)
Link to this section我可以部署多个模型吗?#
Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.
Link to this section端点空闲时会发生什么?#
如果启用了缩容至零(scale-to-zero):
- 端点会在不活跃后缩容
- 首次请求会触发冷启动
- 后续请求响应迅速
空闲期后的首次请求会触发冷启动。