跳转至内容

监控

Ultralytics Platform 为已部署的端点提供监控。通过自动轮询,您可以跟踪请求指标、查看日志并检查健康状态。

Ultralytics 平台 部署页面概览卡片和世界地图

部署仪表板

字段 Deploy 侧边栏中的页面作为您所有部署的监控仪表板。它将世界地图、概览指标和部署管理整合在一个视图中。请参阅 专用端点 用于创建和管理部署。

graph TB
    subgraph Dashboard
        Map[World Map] --- Cards[Overview Cards]
        Cards --- List[Deployments List]
    end
    subgraph "Per Deployment"
        Metrics[Metrics Row]
        Health[Health Check]
        Logs[Logs Tab]
        Code[Code Tab]
        Predict[Predict Tab]
    end
    List --> Metrics
    List --> Health
    List --> Logs
    List --> Code
    List --> Predict

    style Dashboard fill:#f5f5f5,color:#333
    style Map fill:#2196F3,color:#fff
    style Cards fill:#FF9800,color:#fff
    style List fill:#4CAF50,color:#fff

概览卡片

页面顶部的四张摘要卡片显示:

Ultralytics 平台 部署页面四个概览卡片

指标描述
总请求数(24小时)跨所有端点的请求
活动部署当前运行的端点
错误率 (24h)失败请求的百分比
P95 延迟 (24小时)第95百分位响应时间

错误率警报

当错误率超过5%时,错误率卡片会以红色高亮显示。请检查 Logs 在各个部署选项卡上诊断错误。

世界地图

交互式世界地图显示:

  • 区域图钉:适用于所有 43 个可用区域
  • 绿色图钉表示已部署区域
  • 动态蓝色图钉表示正在进行活跃部署的区域
  • 引脚大小根据部署状态和延迟而变化

Ultralytics 平台 部署页面世界地图带已部署区域

部署列表

在概览卡片下方,部署列表显示了您所有项目中的所有端点。使用视图模式切换按钮可在以下模式之间切换:

查看描述
卡片包含指标、日志、代码和预测选项卡的完整详细信息卡
紧凑带关键指标的小型卡片网格(1-4 列)
表格带可排序列的DataTable:名称、区域、状态、请求、P95、错误

实时更新

仪表板每 30 秒轮询一次以获取指标更新。当部署处于过渡状态(创建、部署)时,轮询频率增加到每 3 秒一次。点击刷新按钮可立即更新。

按部署指标

每个部署卡片(在卡片视图中)都显示实时指标:

指标行

指标描述
请求请求计数 (24 小时) 带图标
P95 延迟第95百分位响应时间
错误率失败请求的百分比

指标从迷你图 API 端点获取,每 60 秒刷新一次。

健康检查

正在运行的部署显示健康检查指示器:

指标含义
绿心健康 — 显示响应延迟
红心不健康 — 显示错误消息
旋转图标健康检查进行中

健康检查在不健康时每20秒自动重试。点击刷新图标可手动触发健康检查。健康检查使用55秒的超时时间,以适应零扩容端点上的冷启动。

Ultralytics 平台部署卡片健康检查正常(带延迟)

冷启动容忍度

健康检查使用 55 秒超时,以应对零扩容端点的冷启动(最坏情况下可达约 45 秒)。一旦端点预热,健康检查将在毫秒内完成。

日志

每个部署卡片都包含一个 Logs 选项卡用于查看最近的日志条目:

Ultralytics 平台部署卡片日志选项卡(带严重性过滤器)

日志条目

每个日志条目显示:

字段描述
严重性颜色编码条(见下文)
时间戳请求时间 (本地格式)
消息日志内容
HTTP 信息状态码和延迟(如适用)

使用筛选按钮按严重程度筛选日志:

级别颜色描述
调试灰色调试消息
信息蓝色正常请求
警告黄色非关键问题
错误红色失败请求
严重深红色严重故障
控制描述
错误筛选至错误和警告条目
全部显示所有日志条目
复制复制所有可见日志到剪贴板
刷新重新加载日志条目

UI显示最近的20个条目。API默认为每个请求50个条目(最多200个)。

调试工作流

调查错误时:首先点击错误以筛选出 ERROR 和 WARNING 条目,然后查看时间戳和 HTTP 状态码。将日志复制到剪贴板,以便与您的团队共享。

代码示例

每个部署卡片都包含一个 Code 选项卡显示即用型 API 代码,其中包含您的实际端点 URL 和 API 密钥:

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");

// Send image for inference
const response = await fetch(
  "https://predict-abc123.run.app/predict",
  {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  }
);

const result = await response.json();
console.log(result);
# Send image for inference
curl -X POST "https://predict-abc123.run.app/predict" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@image.jpg" \
  -F "conf=0.25" \
  -F "iou=0.7" \
  -F "imgsz=640"

自动填充凭据

当查看 Code 在平台中的选项卡,您的实际端点 URL 和 API 密钥会自动填充。复制代码并直接运行。请参阅 API 密钥 生成密钥。

部署预测

字段 Predict 每个部署卡上的选项卡都提供一个内联预测面板 — 与模型相同的界面 Predict 选项卡,但通过部署端点运行推理,而不是通过共享服务。这对于直接从浏览器测试已部署的端点非常有用。请参阅 推理 有关参数详情和响应格式。

API 端点

监控概览

GET /api/monitoring

返回由已认证用户拥有的所有部署的聚合指标。通过可选参数实现工作区感知 owner 查询参数。

部署指标

GET /api/deployments/{deploymentId}/metrics?sparkline=true&range=24h

返回特定部署的迷你图数据和汇总指标。刷新间隔:60 秒。

参数类型描述
sparkline布尔值包含迷你图数据
range字符串时间范围: 1h, 6h, 24h, 7d30d

部署日志

GET /api/deployments/{deploymentId}/logs?limit=50&severity=ERROR,WARNING

返回最新日志条目,支持可选的严重性过滤和分页。

参数类型描述
limit整型最大返回条目数 (默认值: 50, 最大值: 200)
severity字符串逗号分隔的严重性过滤器
pageToken字符串来自上一个响应的分页令牌

部署健康状况

GET /api/deployments/{deploymentId}/health

返回健康检查状态及响应延迟。

{
    "healthy": true,
    "status": 200,
    "latencyMs": 142
}

性能优化

使用监控数据来优化您的部署:

如果延迟过高:

  1. 检查实例数量(可能需要更多)
  2. 验证模型大小是否合适
  3. 考虑更近的区域
  4. 检查正在发送的图像大小

降低延迟

从...切换 imgsz=1280imgsz=640 在大多数用例中,以最小的精度损失实现约4倍的加速。部署到离用户更近的区域以降低网络延迟。

如果发生错误:

  1. 在 中查看错误日志 Logs 选项卡
  2. 检查请求格式(需要多部分表单)
  3. 验证 AP key 是否有效
  4. 检查速率限制

如果达到容量限制:

  1. 考虑使用多个区域
  2. 优化请求批处理
  3. 增加 CPU 和内存资源

常见问题

数据保留多长时间?

数据类型保留期
指标30天
日志7天

我能否设置外部监控?

是的,端点 URL 可与外部监控工具配合使用:

  • 正常运行时间监控 (Pingdom, UptimeRobot)
  • APM 工具 (Datadog, New Relic)
  • 通过以下方式进行自定义健康检查 /health 端点

延迟数据的准确性如何?

延迟指标衡量:

  • P50:中位响应时间
  • P95:第95百分位
  • P99:第99百分位

这些表示服务器端处理时间,不包括到用户端的网络延迟。

为什么我的指标会延迟?

指标存在约2分钟的延迟,原因如下:

  • 指标聚合管道
  • 聚合窗口
  • 仪表板缓存

对于实时调试,请检查几乎即时的日志。

我能否同时监控多个端点?

是的,部署页面显示所有端点以及聚合概览卡片。使用表格视图可以比较不同部署的性能。



📅 创建于 2 个月前 ✏️ 更新于 24 天前
glenn-jochersergiuwaxmann

评论