专用端点
Ultralytics Platform 支持将 YOLO 模型部署到全球 43 个区域的专用终端节点。每个终端节点都是一个单租户服务,具备自动缩容至零的特性、唯一的终端节点 URL 以及独立的监控功能。

创建终端节点
从“部署”选项卡
从模型的 Deploy 选项卡部署模型:
- 导航到你的模型
- 点击 Deploy 选项卡
- 从交互式世界地图中选择一个区域 — 区域根据你所在位置的延迟进行颜色编码(绿色 < 100ms,黄色 < 200ms,红色 > 200ms)
- 点击区域行上的 Deploy
部署名称会根据模型名称和区域城市自动生成(例如 yolo26n-iowa)。
从“部署”页面
从侧边栏的全局 Deploy 页面创建部署:
- 点击 New Deployment
- 从模型选择器中选择一个模型
- 从地图或表格中选择一个区域
- 检查自动生成的部署名称(可编辑)和默认资源
- 点击 Deploy Model

部署生命周期
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete选择区域
从全球 43 个区域中选择。交互式区域地图和表格显示:
- 区域图钉:根据延迟进行颜色编码(绿色 < 100ms,黄色 < 200ms,红色 > 200ms)
- 已部署区域:以“Deployed”徽章高亮显示
- 正在部署区域:带有动画脉冲指示器
- 双向高亮显示:悬停在地图上会高亮显示表格行,反之亦然

模型 Deploy 选项卡上的区域表格包含:
| 列 | 描述 |
|---|---|
| 位置 | 城市和国家/地区以及国旗图标 |
| 区域 | 区域标识符 |
| 延迟 | 测得的 ping 时间(3 次 ping 的中位数) |
| 距离 | 距你所在位置的距离(以公里为单位) |
| 操作 | 部署按钮或“Deployed”状态徽章 |
New Deployment 对话框(来自全局 Deploy 页面)显示了一个更简单的区域表格,仅包含位置、延迟和选择列。
选择离你的用户最近的区域以获得最低延迟。使用 Rescan 按钮重新测量从你当前位置出发的延迟。
可用区域
| 区域 | 位置 |
|---|---|
| us-central1 | 美国爱荷华州 |
| us-east1 | 南卡罗来纳州,美国 |
| us-east4 | 北弗吉尼亚州,美国 |
| us-east5 | 哥伦布,美国 |
| us-south1 | 达拉斯,美国 |
| us-west1 | 俄勒冈州,美国 |
| us-west2 | 洛杉矶,美国 |
| us-west3 | 盐湖城,美国 |
| us-west4 | 拉斯维加斯,美国 |
| northamerica-northeast1 | 蒙特利尔,加拿大 |
| northamerica-northeast2 | 多伦多,加拿大 |
| northamerica-south1 | 克雷塔罗,墨西哥 |
| southamerica-east1 | 圣保罗,巴西 |
| southamerica-west1 | 圣地亚哥,智利 |
端点配置
新建部署对话框
New Deployment(新建部署)对话框提供:
| 设置 | 描述 | 默认值 |
|---|---|---|
| 模型 | 从已完成的模型中选择 | - |
| 区域 | 部署区域 | - |
| 部署名称 | 自动生成,可编辑 | - |
| CPU 核心数 | 固定默认值 | 1 |
| 内存 (GB) | 固定默认值 | 2 |

部署使用 1 CPU、2 GiB 内存、minInstances = 0 和 maxInstances = 1 的固定默认值。它们会在闲置时缩容至零,因此你只需为活跃的推理时间付费。
部署名称是根据模型名称和区域城市自动生成的(例如 yolo26n-iowa)。如果你再次将同一模型部署到同一区域,系统会添加一个数字后缀(例如 yolo26n-iowa-2)。
部署标签页(快速部署)
当从模型的 Deploy(部署)标签页进行部署时,端点会以默认资源(1 CPU,2 GB 内存)创建,并启用缩容至零功能。部署名称为自动生成。
管理端点
视图模式
部署列表支持三种视图模式:
| 模式 | 描述 |
|---|---|
| 卡片 | 包含日志、代码示例和预测面板的完整详情卡片 |
| 紧凑 | 带有关键指标的较小卡片网格 |
| 表格 | 带有可排序列表和搜索功能的数据表 |

部署卡片(卡片视图)
卡片视图中的每张部署卡片都会显示:
- 标题:名称、区域旗帜、状态徽章、启动/停止/删除按钮
- 端点 URL:可复制的 URL,并附带 API 文档链接
- 指标:请求计数 (24h)、P95 延迟、错误率
- 健康检查:带有延迟显示和手动刷新功能的实时健康指示器
- 标签页:
Logs(日志)、Code(代码)和Predict(预测)
Logs 标签页显示带有严重程度过滤(全部/错误)的近期日志条目。Code 标签页显示使用你的实际端点 URL 和 API 密钥的 Python、JavaScript 和 cURL 代码示例。Predict 标签页提供了一个内联预测面板,可直接在部署上进行测试。
部署状态
| 状态 | 描述 |
|---|---|
| Creating(正在创建) | 正在设置部署 |
| Deploying(正在部署) | 容器正在启动 |
| Ready(就绪) | 端点已上线并正在接收请求 |
| Stopping(正在停止) | 端点正在关闭 |
| Stopped(已停止) | 端点已暂停(不计费) |
| Failed | 部署失败(请参阅错误消息) |
端点 URL
每个端点都有一个唯一的 URL,例如:
https://predict-abc123.run.app

点击复制按钮以复制 URL。点击文档图标以查看该端点自动生成的 API 文档。
生命周期管理
控制你的端点状态:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| 动作 | 描述 |
|---|---|
| Start(启动) | 恢复已停止的端点 |
| Stop(停止) | 暂停端点(不计费) |
| 删除 | 永久删除端点 |
停止端点
停止端点以暂停计费:
- 点击部署卡片上的暂停图标
- 端点状态更改为“正在停止”,然后变为“已停止”
已停止的端点:
- 不接收请求
- 不产生费用
- 可随时重启
删除端点
永久删除端点:
- 点击部署卡片上的删除(垃圾桶)图标
- 在对话框中确认删除
删除是立即且永久的。你随时可以创建新的端点。
使用端点
身份验证
每个部署都是使用你账户中的 API 密钥创建的。请在请求中包含它:
Authorization: Bearer YOUR_API_KEYAPI 密钥前缀显示在部署卡片底部以便识别。你可以从 API Keys 生成密钥。
无速率限制
专用端点不受 Platform API 速率限制。请求直接发送到你的专用服务,因此吞吐量仅受端点的 CPU、内存和扩展配置限制。这是相较于共享推理的一个主要优势,后者每个 API 密钥的速率限制为每分钟 20 个请求。
请求示例
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())请求参数
| 参数 | 类型 | 默认值 | 范围 | 描述 |
|---|---|---|---|---|
file | file | - | - | 图像或视频文件(必填) |
conf | float | 0.25 | 0.01 – 1.0 | 最低置信度阈值 |
iou | float | 0.7 | 0.0 – 0.95 | NMS IoU 阈值 |
imgsz | int | 640 | 32 – 1280 | 以像素为单位的输入图像尺寸 |
normalize | bool | false | - | 将 BBox 坐标作为 0 – 1 返回 |
decimals | int | 5 | 0 – 10 | 坐标值的小数精度 |
source | 字符串 | - | - | 图像 URL 或 base64 字符串(file 的替代方案) |
专用端点通过 file 参数接受图像和视频。
- 图像格式(最大 50 MB):AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- 视频格式(最大 100 MB):ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
每个视频帧都会被单独处理,并返回每帧的结果。你也可以通过 source 参数而不是 file 参数传递公共图像 URL 或 base64 编码的图像。
响应格式
与共享推理相同,包含特定任务的字段。
定价
基础专用端点在所有方案中均为免费。更高资源的配置(更多 vCPU、更多内存、预热启动)将在未来提供基于使用量的定价。
- 使用缩放至零(默认设置),这样端点仅在接收请求时才会运行
- 为你的流量设置合适的实例上限
- 在监控仪表板中监控使用情况
常见问题 (FAQ)
我可以创建多少个端点?
端点限制取决于方案:
- 免费版:最多 3 个部署
- Pro 版:最多 10 个部署
- 企业版:不限部署数量
每个模型仍可在你的方案配额内部署到多个区域。
部署后可以更改区域吗?
不可以,区域是固定的。要更改区域:
- 删除现有端点
- 在所需区域创建新端点
如何处理多区域部署?
为了实现全球覆盖:
- 部署到多个区域
- 使用负载均衡器或 DNS 路由
- 将用户路由到最近的端点
冷启动时间是多少?
冷启动时间取决于模型大小以及容器是否已在区域中缓存。典型范围:
| 场景 | 冷启动 |
|---|---|
| 缓存的容器 | ~5-15 秒 |
| 首次部署/区域 | ~15-45 秒 |
健康检查使用 55 秒超时以适应最坏情况下的冷启动。
可以使用自定义域名吗?
自定义域名即将推出。目前,端点使用平台生成的 URL。