监控

Ultralytics Platform 为已部署的端点提供监控功能。你可以通过自动轮询来跟踪请求指标、查看日志并检查健康状态。

Ultralytics Platform Deploy Page Overview Cards And World Map

部署仪表板

侧边栏中的 Deploy 页面是所有部署的监控仪表板。它在一个视图中集成了世界地图、概览指标和部署管理功能。请参阅 Dedicated Endpoints 以了解如何创建和管理部署。

graph TB
    subgraph Dashboard
        Map[World Map] --- Cards[Overview Cards]
        Cards --- List[Deployments List]
    end
    subgraph "Per Deployment"
        Metrics[Metrics Row]
        Health[Health Check]
        Logs[Logs Tab]
        Code[Code Tab]
        Predict[Predict Tab]
    end
    List --> Metrics
    List --> Health
    List --> Logs
    List --> Code
    List --> Predict

    style Dashboard fill:#f5f5f5,color:#333
    style Map fill:#2196F3,color:#fff
    style Cards fill:#FF9800,color:#fff
    style List fill:#4CAF50,color:#fff

概览卡片

页面顶部的四个摘要卡片显示:

Ultralytics Platform Deploy Page Four Overview Cards

指标描述
总请求数 (24小时)所有端点的请求汇总
活动部署当前正在运行的端点
错误率 (24小时)失败请求的百分比
P95 延迟 (24小时)第 95 百分位响应时间
错误率警报

当错误率超过 5% 时,错误率卡片会以红色高亮显示。请检查各个部署上的 Logs 选项卡以诊断错误。

世界地图

交互式世界地图显示:

  • 所有 43 个可用区域的 区域图钉
  • 已部署区域的 绿色图钉
  • 正在进行部署的区域的 动画蓝色图钉
  • 图钉大小根据部署状态和延迟而变化

Ultralytics Platform Deploy Page World Map With Deployed Regions

部署列表

在概览卡片下方,部署列表显示了你项目中的所有端点。你可以使用视图模式切换开关在以下模式间切换:

视图描述
卡片包含指标、日志、代码和预测选项卡的详细信息卡片
紧凑显示关键指标的较小卡片网格 (1-4 列)
表格包含可排序列表头的数据表:名称、区域、状态、请求、P95、错误
实时更新

仪表板每 15 秒轮询一次部署状态更新。当部署处于转换状态(creatingdeployingstopping)时,轮询频率会增加到每 3 秒一次。指标图表每 60 秒刷新一次。点击刷新按钮可立即更新。

单次部署指标

每个部署卡片(在卡片视图中)显示实时指标:

指标行

指标描述
请求数带图标的请求计数 (24小时)
P95 延迟第 95 百分位响应时间
错误率失败请求的百分比

指标从 sparkline API 端点获取,并每 60 秒刷新一次。

健康检查 (Health Check)

正在运行的部署会显示健康检查指示器:

指示器含义
绿色心形健康 — 显示响应延迟
红色心形不健康 — 显示错误消息
旋转图标正在进行健康检查

当处于不健康状态时,健康检查每 20 秒自动重试一次。点击刷新图标可手动触发健康检查。健康检查使用 55 秒的超时时间,以适应缩容至零的端点的冷启动。

Ultralytics Platform Deployment Card Health Check Healthy With Latency

冷启动容差

健康检查使用 55 秒的超时时间,以应对缩容至零的端点的冷启动(最差情况下约为 45 秒)。一旦端点预热完成,健康检查将在毫秒级内完成。

日志

每个部署卡片都包含一个 Logs 选项卡,用于查看最近的日志条目:

Ultralytics Platform Deployment Card Logs Tab With Severity Filter

日志条目

每个日志条目显示:

字段描述
严重程度颜色编码栏(见下文)
时间戳请求时间(本地格式)
消息日志内容
HTTP 信息状态码和延迟(如适用)

使用筛选器按钮按严重程度过滤日志:

级别颜色描述
DEBUG灰色调试消息
INFO蓝色常规请求
WARNING黄色非关键问题
ERROR红色失败的请求
CRITICAL深红色关键故障

UI 显示最近的 20 条日志。API 默认每次请求返回 50 条条目(最多 200 条)。

调试工作流

排查错误时:首先点击 Errors 以过滤至 ERROR 和 WARNING 条目,然后检查时间戳和 HTTP 状态码。将日志复制到剪贴板以便与你的团队共享。

代码示例

每个部署卡片都包含一个 Code 选项卡,显示包含你实际端点 URL 和 API 密钥的可立即使用的 API 代码:

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())
自动填充的凭据

在平台中查看 Code 选项卡时,你的实际端点 URL 和 API 密钥会自动填充。复制该代码并直接运行。请参阅 API Keys 以生成密钥。

部署预测

每个部署卡片上的 Predict 选项卡都提供了一个内联预测面板——与模型 Predict 选项卡的界面相同,但它通过部署端点运行推理,而不是共享服务。这对于直接从浏览器测试已部署的端点非常有用。有关参数详情和响应格式,请参阅 Inference

API 端点

监控概述

GET /api/monitoring

返回经过身份验证的用户所拥有的所有部署的汇总指标。可通过可选的 owner 查询参数进行工作区感知。

部署指标

GET /api/deployments/{deploymentId}/metrics?sparkline=true&range=24h

返回特定部署的迷你图数据和汇总指标。刷新间隔:60 秒。

参数类型描述
sparklinebool包含迷你图数据
range字符串时间范围:1h6h24h7d30d

部署日志

GET /api/deployments/{deploymentId}/logs?limit=50&severity=ERROR,WARNING

返回最近的日志条目,并支持可选的严重性过滤器和分页。

参数类型描述
limitint要返回的最大条目数(默认:50,最大:200)
severity字符串逗号分隔的严重性过滤器
pageToken字符串来自先前响应的分页令牌

部署健康状态

GET /api/deployments/{deploymentId}/health

返回带有响应延迟的健康检查状态。

{
    "healthy": true,
    "status": 200,
    "latencyMs": 142
}

性能优化

使用监控数据优化你的部署:

如果延迟过高:

  1. 检查实例数量(可能需要更多)
  2. 验证模型大小是否合适
  3. 考虑选择更近的区域
  4. 检查发送的图像大小
降低延迟

imgsz=1280 切换为 imgsz=640,对于大多数使用场景,可以在极小精度损失的情况下获得约 4 倍的加速。部署到离用户更近的区域以降低网络延迟。

常见问题 (FAQ)

数据保留多久?

数据类型保留期限
指标30 天
日志7 天

我可以设置外部监控吗?

可以,端点 URL 适用于外部监控工具:

  • 正常运行时间监控(Pingdom, UptimeRobot)
  • APM 工具(Datadog, New Relic)
  • 通过 /health 端点进行自定义健康检查

延迟数值的准确度如何?

延迟指标衡量的是:

  • P50:中位响应时间
  • P95:第 95 百分位
  • P99:第 99 百分位

这些指标代表服务器端的处理时间,不包括到用户的网络延迟。

为什么我的指标有延迟?

指标会有约 2 分钟的延迟,原因是:

  • 指标聚合流水线
  • 聚合窗口
  • 仪表板缓存

如需实时调试,请查看几乎即时的日志。

我可以同时监控多个端点吗?

可以,部署页面显示了所有端点以及汇总的概览卡片。使用表格视图可比较不同部署之间的性能。

评论