跳转至内容

监控

Ultralytics 已部署的终端节点提供监控服务。通过自动轮询功能,可追踪请求指标、查看日志并检查健康状态。

Ultralytics 页面概览卡片与世界地图

部署仪表板

字段 Deploy 侧边栏中的页面作为所有部署的监控仪表板,将世界地图、概览指标和部署管理整合于单一视图中。查看 专用端点 用于创建和管理部署。

graph TB
    subgraph Dashboard
        Map[World Map] --- Cards[Overview Cards]
        Cards --- List[Deployments List]
    end
    subgraph "Per Deployment"
        Metrics[Metrics Row]
        Health[Health Check]
        Logs[Logs Tab]
        Code[Code Tab]
        Predict[Predict Tab]
    end
    List --> Metrics
    List --> Health
    List --> Logs
    List --> Code
    List --> Predict

    style Dashboard fill:#f5f5f5,color:#333
    style Map fill:#2196F3,color:#fff
    style Cards fill:#FF9800,color:#fff
    style List fill:#4CAF50,color:#fff

概览卡片

页面顶部的四张摘要卡显示:

Ultralytics 概览卡片

指标描述
总请求数(24小时)所有端点的请求
活动部署当前运行的端点
错误率(24小时)失败请求的百分比
P95 延迟(24小时)第95百分位响应时间

错误率警报

当错误率超过5%时,错误率卡会以红色高亮显示。请检查 Logs 单击各个部署选项卡以诊断错误。

世界地图

交互式世界地图显示:

  • 所有43个可用区域的区域图钉
  • 已部署区域的绿色图钉
  • 正在进行部署的区域以蓝色动画图钉标注
  • 引脚尺寸根据部署状态和延迟而变化

Ultralytics (含已部署区域)

部署列表

在概览卡片下方,部署列表会显示您所有项目中的所有端点。使用视图模式切换按钮可在以下模式间切换:

查看描述
卡片包含指标、日志、代码和预测标签的完整详情卡
紧凑小型卡片网格(1-4列)展示关键指标
表格可排序列数据表:名称、区域、状态、请求数、P95、错误数

实时更新

仪表板每30秒轮询一次指标更新。当部署处于过渡状态(创建、部署中)时,轮询频率将提升至每3秒一次。点击刷新按钮可立即获取更新。

按部署计费指标

每张部署卡(在卡片视图中)显示实时指标:

指标行

指标描述
请求请求计数(24小时)带图标
P95 延迟第95百分位响应时间
错误率失败请求的百分比

指标数据从微型图表API端点获取,并每60秒刷新一次。

健康检查

正在运行的部署显示健康检查指示器:

指示器意义
绿心健康 — 显示响应延迟
红心不健康——显示错误信息
旋转图标健康检查正在进行中

健康检查在状态异常时每20秒自动重试。点击刷新图标可手动触发健康检查。该检查采用55秒超时时间,以适应缩减至零端点的冷启动场景。

Ultralytics 部署卡健康检查健康状态,存在延迟

冷启动容错性

健康检查采用55秒超时机制,以应对零负载端点的冷启动(最坏情况下可能长达约45秒)。一旦端点完成预热,健康检查将在毫秒级内完成。

日志

每张部署卡包含一个 Logs 用于查看最近日志条目的标签页:

Ultralytics 日志选项卡(带严重性过滤器)

日志条目

每个日志条目显示:

字段描述
严重性彩色条形图(见下文)
时间戳请求时间(本地格式)
消息日志内容
HTTP 信息状态码和延迟(如适用)

使用筛选按钮按严重程度筛选日志:

级别颜色描述
调试灰色调试信息
信息蓝色正常请求
警告黄色非关键问题
错误红色失败请求
关键深红关键性故障
控制描述
错误筛选出错误和警告条目
全部显示所有日志条目
复制将所有可见日志复制到剪贴板
刷新重新加载日志条目

用户界面显示最近的20条记录。API默认每次请求返回50条记录(最多200条)。

调试工作流

排查错误时:首先点击"错误"按钮筛选出错误和警告条目,然后查看时间戳和HTTP状态码。将日志复制到剪贴板以便与团队共享。

代码示例

每张部署卡包含一个 Code 标签页展示可直接使用的API代码,内含您的实际端点URL和API密钥:

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");

// Send image for inference
const response = await fetch(
  "https://predict-abc123.run.app/predict",
  {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  }
);

const result = await response.json();
console.log(result);
# Send image for inference
curl -X POST "https://predict-abc123.run.app/predict" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@image.jpg" \
  -F "conf=0.25" \
  -F "iou=0.7" \
  -F "imgsz=640"

自动填充凭据

当查看 Code 在平台的选项卡中,您的实际端点URL和API密钥会自动填入。复制代码并直接运行。参见 API 密钥 生成密钥。

部署预测

字段 Predict 每个部署卡上的标签页都提供了一个内联预测面板——与模型的界面相同。 Predict 标签页,但通过部署端点而非共享服务运行推理。这有助于直接从浏览器测试已部署的端点。参见 推理 有关参数详情和响应格式。

API 端点

监控概览

GET /api/monitoring

返回经身份验证的用户拥有的所有部署的汇总指标。通过可选参数实现工作区感知。 owner 查询参数。

部署指标

GET /api/deployments/{deploymentId}/metrics?sparkline=true&range=24h

返回特定部署的微型图数据和摘要指标。刷新间隔:60秒。

参数类型描述
sparkline布尔值包含微型图数据
range字符串时间范围: 1h, 6h, 24h, 7d30d

部署日志

GET /api/deployments/{deploymentId}/logs?limit=50&severity=ERROR,WARNING

返回最近日志条目,可选严重性过滤器和分页功能。

参数类型描述
limit整型返回的最大条目数(默认:50,最大:200)
severity字符串以逗号分隔的严重性过滤器
pageToken字符串来自先前响应的分页令牌

部署健康状况

GET /api/deployments/{deploymentId}/health

返回健康检查状态及响应延迟。

{
    "healthy": true,
    "status": 200,
    "latencyMs": 142
}

性能优化

利用监控数据优化部署:

如果延迟过高:

  1. 检查实例数量(可能需要更多)
  2. 验证模型大小是否合适
  3. 考虑更近的区域
  4. 检查正在发送的图像大小

降低延迟

切换至 imgsz=1280imgsz=640 在多数使用场景下,可实现约4倍的加速效果,且精度损失极小。为降低网络延迟,请将服务部署至更接近用户所在的区域。

如果发生错误:

  1. 在...中查看错误日志 Logs 标签
  2. 检查请求格式(需采用多部分表单)
  3. 验证 AP key 是否有效
  4. 检查速率限制

如果达到容量限制:

  1. 考虑使用多个区域
  2. 优化请求批处理
  3. 增加CPU 内存资源

常见问题

数据保留多长时间?

数据类型保留期
指标30天
日志7天

我能否设置外部监控?

是的,端点 URL 可与外部监控工具配合使用:

  • 正常运行时间监控 (Pingdom, UptimeRobot)
  • APM 工具 (Datadog, New Relic)
  • 通过自定义健康检查 /health 端点

延迟数据的准确性如何?

延迟指标衡量:

  • P50:中位响应时间
  • P95:第95百分位
  • P99:第99百分位

这些表示服务器端处理时间,不包括到用户端的网络延迟。

为什么我的指标会延迟?

指标存在约2分钟的延迟,原因如下:

  • 指标聚合管道
  • 聚合窗口
  • 仪表板缓存

对于实时调试,请检查几乎即时的日志。

我能否同时监控多个端点?

是的,部署页面会显示所有端点及其汇总概览卡片。请使用表格视图来比较不同部署之间的性能表现。



📅 创建于 1 个月前 ✏️ 更新于 4 天前
glenn-jochersergiuwaxmann

评论