Meet YOLO26: next-gen vision AI.

Link to this section专用端点#

Ultralytics Platform 支持将 YOLO 模型部署到全球 43 个区域的专用端点。每个端点都是一个单租户服务,具备零缩放(scale-to-zero)能力、唯一的端点 URL 以及独立的监控功能。

带有区域地图和表格的 Ultralytics Platform 模型部署选项卡

Link to this section创建端点#

Link to this section通过“部署”(Deploy)选项卡#

在模型的 Deploy 选项卡中部署模型:

  1. 导航到你的模型
  2. 点击 Deploy 选项卡
  3. 从交互式世界地图中选择一个区域——区域根据你当前位置的延迟以绿到红的渐变色进行标记(越快的区域越偏绿,越慢的区域越偏红)
  4. 点击区域行上的 Deploy

部署名称会根据模型名称和区域城市自动生成(例如 yolo26n-iowa)。

Link to this section通过“部署”(Deployments)页面#

从侧边栏的全局 Deploy 页面创建部署:

  1. 点击 New Deployment
  2. 从模型选择器中选择一个模型
  3. 从地图或表格中选择一个区域
  4. 检查自动生成的部署名称(可编辑)和默认资源
  5. 点击 Deploy Model

带有模型选择器和区域地图的 Ultralytics Platform 新部署对话框

Link to this section部署生命周期#

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Link to this section区域选择#

从全球 43 个区域中进行选择。交互式区域地图和表格显示:

  • 区域图钉:根据延迟以绿到红的渐变色标记(越快的区域越偏绿,越慢的区域越偏红)
  • 已部署区域:以“Deployed”徽章突出显示
  • 部署中区域:显示动画脉冲指示器
  • 双向高亮:在地图上悬停会高亮对应的表格行,反之亦然

Ultralytics Platform 部署选项卡区域延迟表格(按延迟排序)

模型 Deploy 选项卡上的区域表格包含:

描述
Location(位置)城市和国家(带旗帜图标)
Zone(区域)区域标识符
延迟测得的 ping 时间(3 次 ping 的中位数)
Distance(距离)距你所在位置的距离(以 km 为单位)
Actions(操作)部署按钮或“Deployed”状态徽章
新部署对话框

New Deployment 对话框(来自全局 Deploy 页面)显示了一个更简洁的区域表格,仅包含 Location、Latency 和 Select 列。

明智选择

选择离你的用户最近的区域以获得最低延迟。使用 Rescan 按钮从当前位置重新测量延迟。

Link to this section可用区域#

区域位置
us-central1美国爱荷华州
us-east1南卡罗来纳州,美国
us-east4北弗吉尼亚州,美国
us-east5哥伦布,美国
us-south1达拉斯,美国
us-west1俄勒冈州,美国
us-west2洛杉矶,美国
us-west3盐湖城,美国
us-west4拉斯维加斯,美国
northamerica-northeast1蒙特利尔,加拿大
northamerica-northeast2多伦多,加拿大
northamerica-south1克雷塔罗,墨西哥
southamerica-east1圣保罗,巴西
southamerica-west1圣地亚哥,智利

Link to this section端点配置#

Link to this section新部署对话框#

New Deployment(新部署)对话框提供:

设置描述默认值
模型从已完成的模型中选择-
区域部署区域-
部署名称自动生成,可编辑-
CPU 核心数固定默认值1
内存 (GB)固定默认值2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

部署使用 1 CPU2 GiB 内存、minInstances = 0maxInstances = 1 的固定默认设置。它们在空闲时会缩减为零,因此你只需为活跃的推理时间付费。

自动生成名称

部署名称是根据模型名称和区域城市自动生成的(例如 yolo26n-iowa)。如果你再次将同一个模型部署到同一区域,则会添加一个数字后缀(例如 yolo26n-iowa-2)。

Link to this section部署选项卡(快速部署)#

从模型的 Deploy(部署)选项卡进行部署时,端点会以默认资源(1 CPU,2 GB 内存)创建,并启用缩减为零功能。部署名称为自动生成。

Link to this section管理端点#

Link to this section视图模式#

部署列表支持三种视图模式:

模式描述
卡片带有日志、代码示例和预测面板的完整详细信息卡片
紧凑包含关键指标的较小卡片网格
表格带有可排序列表头和搜索功能的数据表

Ultralytics Platform Deploy Tab Active Deployments Cards View

Link to this section部署卡片(卡片视图)#

卡片视图中的每个部署卡片显示:

  • 页眉:名称、区域标志、状态徽章、启动/停止/删除按钮
  • 端点 URL:可复制的 URL,附带 API 文档链接
  • 指标:请求计数 (24h)、P95 延迟、错误率
  • 健康检查:实时健康指示器,包含延迟和手动刷新功能
  • 选项卡Logs(日志)、Code(代码)和 Predict(预测)

Logs 选项卡显示包含严重性过滤(全部/错误)的最近日志条目。Code 选项卡显示可用的 Python、JavaScript 和 cURL 代码示例,其中包含你实际的端点 URL 和 API 密钥。Predict 选项卡提供了一个内联预测面板,用于直接在部署上进行测试。

Link to this section部署状态#

状态描述
正在创建正在设置部署
正在部署正在启动容器
就绪端点已上线并正在接受请求
正在停止端点正在关闭
已停止端点已暂停(不计费)
Failed(失败)部署失败(请查看错误信息)

Link to this section端点 URL#

每个端点都有一个唯一的 URL,例如:

https://predict-abc123.run.app

Ultralytics Platform Deployment Card Endpoint Url With Copy Button

点击复制按钮以复制 URL。点击文档图标以查看该端点的自动生成 API 文档。

Link to this section生命周期管理#

控制你的端点状态:

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
操作描述
启动恢复已停止的端点
停止暂停端点(不计费)
Delete(删除)永久移除端点

Link to this section停止端点#

停止端点以暂停计费:

  1. 点击部署卡片上的暂停图标
  2. 端点状态更改为“正在停止”,然后变为“已停止”

已停止的端点:

  • 不接受请求
  • 不产生费用
  • 可以随时重新启动

Link to this section删除端点#

永久移除端点:

  1. 点击部署卡片上的删除(垃圾桶)图标
  2. 在对话框中确认删除
永久操作

删除是立即且永久的。你随时可以创建新端点。

Link to this section使用端点#

Link to this section身份验证#

每个部署都使用你账户中的 API 密钥创建。请在请求中包含它:

Authorization: Bearer YOUR_API_KEY

API 密钥前缀显示在部署卡片页脚以便识别。你可以从 API Keys 生成密钥。

Link to this section无速率限制#

直接发送到你专用端点 URL 的请求不受平台 API 速率限制——吞吐量仅受你的端点 CPU、内存和扩展配置限制。(通过平台 API 代理的请求,例如浏览器内测试器,仍使用标准的 20 次请求/分钟预测限制。)这是相比 shared inference(共享推理)的一个关键优势,后者被限制为每 API 密钥 20 次请求/分钟。

Link to this section请求示例#

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Link to this section请求参数#

参数类型默认值范围描述
file文件--图像或视频文件(必填)
conffloat0.250.01 – 1.0最低置信度阈值
ioufloat0.70.0 – 0.95NMS IoU 阈值
imgszint64032 – 1280输入图像尺寸(以像素为单位)
normalize布尔值false-将边界框坐标返回为 0 – 1
decimalsint50 – 10坐标值的小数精度
sourcestring--图像 URL 或 base64 字符串(file 的替代方案)
视频推理

专用端点通过 file 参数接收图像和视频。

  • 图像格式(最大 100 MB):AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
  • 视频格式(最大 100 MB):ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

每个视频帧都会被单独处理,并按帧返回结果。你也可以通过 source 参数传入公共图像 URL 或 base64 编码的图像,而不是 file

Link to this section响应格式#

共享推理相同,包含特定任务的字段。

Link to this section定价#

基础专用端点在所有方案中均免费。更高资源的配置(更多 vCPU、更多内存、预热启动)将在未来提供基于使用量的定价。

成本优化
  • 使用缩容至零(默认设置),这样端点仅在接收到请求时才运行
  • 为你的流量设置合适的实例上限
  • 监控仪表板中监控使用情况

Link to this section常见问题解答#

Link to this section我可以创建多少个端点?#

端点限制取决于你的方案:

  • 免费版:最多 3 个部署
  • 专业版:最多 10 个部署
  • 企业版:不限部署数量

每个模型仍然可以在你的方案配额内部署到多个区域。

Link to this section部署后可以更改区域吗?#

不可以,区域是固定的。要更改区域,请执行以下操作:

  1. 删除现有端点
  2. 在所需区域创建新端点

Link to this section我该如何处理跨区域部署?#

为了实现全球覆盖:

  1. 部署到多个区域
  2. 使用负载均衡器或 DNS 路由
  3. 将用户路由到最近的端点

Link to this section冷启动时间是多久?#

冷启动时间取决于模型大小以及容器是否已在该区域缓存。典型范围如下:

场景冷启动
容器已缓存~5-15 秒
首次部署/区域~15-45 秒

健康检查使用 55 秒的超时时间,以适应最坏情况下的冷启动。

Link to this section我可以使用自定义域名吗?#

自定义域名即将推出。目前,端点使用平台生成的 URL。

评论