部署
Ultralytics Platform 提供全面的部署选项,用于将您的YOLO模型投入生产。通过基于浏览器的推理测试模型,部署到全球43个区域的专用端点,并实时监控性能。
概述
部署部分可帮助您:
- 测试 模型直接在浏览器中使用
Predict选项卡 - 将模型部署到全球 43 个区域的专用端点
- 监控请求指标、日志和健康检查
- 随流量自动扩展(包括缩放到零)

部署选项
Ultralytics Platform 提供多种部署途径:
| 选项 | 描述 | 最适合 |
|---|---|---|
| 预测选项卡 | 基于浏览器的推理,支持图像、网络摄像头和示例 | 开发、验证 |
| 共享推理 | 跨3个区域的多租户服务 | 轻量级使用、测试 |
| 专用端点 | 覆盖43个区域的单租户服务 | 生产、低延迟 |
工作流程
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| 阶段 | 描述 |
|---|---|
| 测试 | 使用...验证模型 Predict 选项卡 |
| 配置 | 选择区域、资源和部署名称 |
| 部署 | 从以下位置创建专用端点 Deploy 选项卡 |
| 监控 | 在监控中追踪请求、延迟、错误和日志 |
架构
共享推理
共享推理服务在3个关键区域运行,根据您的数据区域自动路由请求:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| 区域 | 位置 |
|---|---|
| 美国 | 爱荷华州,美国 |
| 欧盟 | 比利时,欧洲 |
| AP | 香港,亚太地区 |
专用端点
部署到 Ultralytics 云上的全球43个区域:
- 美洲:14个区域
- 欧洲:13个区域
- 亚太: 12个区域
- 中东和非洲:4个区域
每个端点都是一个单租户服务,具有:
- 专用计算资源(可配置CPU和内存)
- 自动扩缩容(空闲时缩容至零)
- 唯一端点URL
- 独立的监控、日志和健康检查
部署页面
从侧边栏的以下部分访问全局部署页面 Deploy. 此页面显示:
- 世界地图(带有部署区域图钉的交互式地图)
- 概览卡片:总请求数 (24小时)、活跃部署、错误率 (24小时)、P95延迟 (24小时)
- 部署列表具有三种视图模式:卡片、紧凑和表格
- 新建部署按钮,用于从任何已完成的模型创建端点

自动轮询
页面每30秒轮询一次以获取指标更新。当部署处于过渡状态(创建中、部署中、停止中)时,轮询频率会增加到每2-3秒一次,以实现近乎即时的反馈。
主要功能
全球覆盖
通过覆盖以下区域的43个区域,将服务部署到离用户更近的地方:
- 北美、南美
- 欧洲、中东、非洲
- 亚太、大洋洲
自动扩缩
端点自动扩缩容:
- 缩放到零: 空闲时无成本(默认)
- 向上扩展: 自动处理流量高峰
成本节约
默认启用按需扩缩(最小实例数 = 0)。您只需为实际推理时间付费。
低延迟
专用端点提供:
- 冷启动:约 5-15 秒(缓存容器),首次部署最长约 45 秒
- 热推理:50-200毫秒(取决于模型)
- 区域路由以实现最佳性能
健康检查
每个正在运行的部署都包含一个自动健康检查,带有:
- 实时状态指示器(健康/不健康)
- 响应延迟显示
- 当状态异常时自动重试(每20秒轮询一次)
- 手动刷新按钮
快速入门
在2分钟内部署模型:
- 训练或上传模型到项目
- 前往模型的 部署 选项卡
- 从延迟表中选择区域
- 点击 部署 — 您的端点已上线
快速部署
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
部署后,使用端点 URL 和您的 API 密钥即可从任何应用程序发送推理请求。
快速链接
常见问题
共享推理和专用推理有什么区别?
| 特性 | 共享 | 专用 |
|---|---|---|
| 延迟 | 可变 | 一致 |
| 成本 | 按请求付费 | 按运行时间付费 |
| 规模 | 有限 | 可配置 |
| 区域 | 3 | 43 |
| URL | 通用 | 自定义 |
部署需要多长时间?
专用端点部署通常需要 1-2 分钟:
- 镜像拉取(约30秒)
- 容器启动(约30秒)
- 健康检查(约30秒)
我可以部署多个模型吗?
是的,每个模型可以在不同区域拥有多个端点。端点总数没有限制(取决于您的套餐)。
当端点处于空闲状态时会发生什么?
启用零扩容时:
- 端点在不活动后缩容
- 首次请求触发冷启动
- 后续请求速度快
空闲期后的首次请求会触发冷启动。
📅 创建于 2 个月前 ✏️ 更新于 25 天前