Link to this section专用端点#
Ultralytics Platform 支持将 YOLO 模型部署到全球 43 个区域的专用端点。每个端点都是一个单租户服务,具备零缩放(scale-to-zero)能力、唯一的端点 URL 以及独立的监控功能。

Link to this section创建端点#
Link to this section通过“部署”(Deploy)选项卡#
在模型的 Deploy 选项卡中部署模型:
- 导航到你的模型
- 点击 Deploy 选项卡
- 从交互式世界地图中选择一个区域——区域根据你当前位置的延迟以绿到红的渐变色进行标记(越快的区域越偏绿,越慢的区域越偏红)
- 点击区域行上的 Deploy
部署名称会根据模型名称和区域城市自动生成(例如 yolo26n-iowa)。
Link to this section通过“部署”(Deployments)页面#
从侧边栏的全局 Deploy 页面创建部署:
- 点击 New Deployment
- 从模型选择器中选择一个模型
- 从地图或表格中选择一个区域
- 检查自动生成的部署名称(可编辑)和默认资源
- 点击 Deploy Model

Link to this section部署生命周期#
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteLink to this section区域选择#
从全球 43 个区域中进行选择。交互式区域地图和表格显示:
- 区域图钉:根据延迟以绿到红的渐变色标记(越快的区域越偏绿,越慢的区域越偏红)
- 已部署区域:以“Deployed”徽章突出显示
- 部署中区域:显示动画脉冲指示器
- 双向高亮:在地图上悬停会高亮对应的表格行,反之亦然

模型 Deploy 选项卡上的区域表格包含:
| 列 | 描述 |
|---|---|
| Location(位置) | 城市和国家(带旗帜图标) |
| Zone(区域) | 区域标识符 |
| 延迟 | 测得的 ping 时间(3 次 ping 的中位数) |
| Distance(距离) | 距你所在位置的距离(以 km 为单位) |
| Actions(操作) | 部署按钮或“Deployed”状态徽章 |
New Deployment 对话框(来自全局 Deploy 页面)显示了一个更简洁的区域表格,仅包含 Location、Latency 和 Select 列。
选择离你的用户最近的区域以获得最低延迟。使用 Rescan 按钮从当前位置重新测量延迟。
Link to this section可用区域#
| 区域 | 位置 |
|---|---|
| us-central1 | 美国爱荷华州 |
| us-east1 | 南卡罗来纳州,美国 |
| us-east4 | 北弗吉尼亚州,美国 |
| us-east5 | 哥伦布,美国 |
| us-south1 | 达拉斯,美国 |
| us-west1 | 俄勒冈州,美国 |
| us-west2 | 洛杉矶,美国 |
| us-west3 | 盐湖城,美国 |
| us-west4 | 拉斯维加斯,美国 |
| northamerica-northeast1 | 蒙特利尔,加拿大 |
| northamerica-northeast2 | 多伦多,加拿大 |
| northamerica-south1 | 克雷塔罗,墨西哥 |
| southamerica-east1 | 圣保罗,巴西 |
| southamerica-west1 | 圣地亚哥,智利 |
Link to this section端点配置#
Link to this section新部署对话框#
New Deployment(新部署)对话框提供:
| 设置 | 描述 | 默认值 |
|---|---|---|
| 模型 | 从已完成的模型中选择 | - |
| 区域 | 部署区域 | - |
| 部署名称 | 自动生成,可编辑 | - |
| CPU 核心数 | 固定默认值 | 1 |
| 内存 (GB) | 固定默认值 | 2 |

部署使用 1 CPU、2 GiB 内存、minInstances = 0 和 maxInstances = 1 的固定默认设置。它们在空闲时会缩减为零,因此你只需为活跃的推理时间付费。
部署名称是根据模型名称和区域城市自动生成的(例如 yolo26n-iowa)。如果你再次将同一个模型部署到同一区域,则会添加一个数字后缀(例如 yolo26n-iowa-2)。
Link to this section部署选项卡(快速部署)#
从模型的 Deploy(部署)选项卡进行部署时,端点会以默认资源(1 CPU,2 GB 内存)创建,并启用缩减为零功能。部署名称为自动生成。
Link to this section管理端点#
Link to this section视图模式#
部署列表支持三种视图模式:
| 模式 | 描述 |
|---|---|
| 卡片 | 带有日志、代码示例和预测面板的完整详细信息卡片 |
| 紧凑 | 包含关键指标的较小卡片网格 |
| 表格 | 带有可排序列表头和搜索功能的数据表 |

Link to this section部署卡片(卡片视图)#
卡片视图中的每个部署卡片显示:
- 页眉:名称、区域标志、状态徽章、启动/停止/删除按钮
- 端点 URL:可复制的 URL,附带 API 文档链接
- 指标:请求计数 (24h)、P95 延迟、错误率
- 健康检查:实时健康指示器,包含延迟和手动刷新功能
- 选项卡:
Logs(日志)、Code(代码)和Predict(预测)
Logs 选项卡显示包含严重性过滤(全部/错误)的最近日志条目。Code 选项卡显示可用的 Python、JavaScript 和 cURL 代码示例,其中包含你实际的端点 URL 和 API 密钥。Predict 选项卡提供了一个内联预测面板,用于直接在部署上进行测试。
Link to this section部署状态#
| 状态 | 描述 |
|---|---|
| 正在创建 | 正在设置部署 |
| 正在部署 | 正在启动容器 |
| 就绪 | 端点已上线并正在接受请求 |
| 正在停止 | 端点正在关闭 |
| 已停止 | 端点已暂停(不计费) |
| Failed(失败) | 部署失败(请查看错误信息) |
Link to this section端点 URL#
每个端点都有一个唯一的 URL,例如:
https://predict-abc123.run.app

点击复制按钮以复制 URL。点击文档图标以查看该端点的自动生成 API 文档。
Link to this section生命周期管理#
控制你的端点状态:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| 操作 | 描述 |
|---|---|
| 启动 | 恢复已停止的端点 |
| 停止 | 暂停端点(不计费) |
| Delete(删除) | 永久移除端点 |
Link to this section停止端点#
停止端点以暂停计费:
- 点击部署卡片上的暂停图标
- 端点状态更改为“正在停止”,然后变为“已停止”
已停止的端点:
- 不接受请求
- 不产生费用
- 可以随时重新启动
Link to this section删除端点#
永久移除端点:
- 点击部署卡片上的删除(垃圾桶)图标
- 在对话框中确认删除
删除是立即且永久的。你随时可以创建新端点。
Link to this section使用端点#
Link to this section身份验证#
每个部署都使用你账户中的 API 密钥创建。请在请求中包含它:
Authorization: Bearer YOUR_API_KEYAPI 密钥前缀显示在部署卡片页脚以便识别。你可以从 API Keys 生成密钥。
Link to this section无速率限制#
直接发送到你专用端点 URL 的请求不受平台 API 速率限制——吞吐量仅受你的端点 CPU、内存和扩展配置限制。(通过平台 API 代理的请求,例如浏览器内测试器,仍使用标准的 20 次请求/分钟预测限制。)这是相比 shared inference(共享推理)的一个关键优势,后者被限制为每 API 密钥 20 次请求/分钟。
Link to this section请求示例#
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Link to this section请求参数#
| 参数 | 类型 | 默认值 | 范围 | 描述 |
|---|---|---|---|---|
file | 文件 | - | - | 图像或视频文件(必填) |
conf | float | 0.25 | 0.01 – 1.0 | 最低置信度阈值 |
iou | float | 0.7 | 0.0 – 0.95 | NMS IoU 阈值 |
imgsz | int | 640 | 32 – 1280 | 输入图像尺寸(以像素为单位) |
normalize | 布尔值 | false | - | 将边界框坐标返回为 0 – 1 |
decimals | int | 5 | 0 – 10 | 坐标值的小数精度 |
source | string | - | - | 图像 URL 或 base64 字符串(file 的替代方案) |
专用端点通过 file 参数接收图像和视频。
- 图像格式(最大 100 MB):AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- 视频格式(最大 100 MB):ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
每个视频帧都会被单独处理,并按帧返回结果。你也可以通过 source 参数传入公共图像 URL 或 base64 编码的图像,而不是 file。
Link to this section响应格式#
与共享推理相同,包含特定任务的字段。
Link to this section定价#
基础专用端点在所有方案中均免费。更高资源的配置(更多 vCPU、更多内存、预热启动)将在未来提供基于使用量的定价。
- 使用缩容至零(默认设置),这样端点仅在接收到请求时才运行
- 为你的流量设置合适的实例上限
- 在监控仪表板中监控使用情况
Link to this section常见问题解答#
Link to this section我可以创建多少个端点?#
端点限制取决于你的方案:
- 免费版:最多 3 个部署
- 专业版:最多 10 个部署
- 企业版:不限部署数量
每个模型仍然可以在你的方案配额内部署到多个区域。
Link to this section部署后可以更改区域吗?#
不可以,区域是固定的。要更改区域,请执行以下操作:
- 删除现有端点
- 在所需区域创建新端点
Link to this section我该如何处理跨区域部署?#
为了实现全球覆盖:
- 部署到多个区域
- 使用负载均衡器或 DNS 路由
- 将用户路由到最近的端点
Link to this section冷启动时间是多久?#
冷启动时间取决于模型大小以及容器是否已在该区域缓存。典型范围如下:
| 场景 | 冷启动 |
|---|---|
| 容器已缓存 | ~5-15 秒 |
| 首次部署/区域 | ~15-45 秒 |
健康检查使用 55 秒的超时时间,以适应最坏情况下的冷启动。
Link to this section我可以使用自定义域名吗?#
自定义域名即将推出。目前,端点使用平台生成的 URL。