跳转至内容

监控

Ultralytics Platform 为已部署的端点提供全面的监控。track 请求指标、查看日志并实时分析性能。

监控仪表板

从侧边栏访问全局监控仪表板:

  1. 点击侧边栏中的 监控
  2. 一览所有部署
  3. 点击单个端点查看详情

概览卡片

指标描述
总请求数所有端点的请求 (24小时)
活动部署当前运行的端点
错误率失败请求的百分比
平均延迟平均响应时间

部署表

查看所有部署的关键指标:

描述
模型带链接的模型名称
区域带标志的部署区域
状态运行中/已停止指示器
请求请求数量 (24小时)
延迟P50 响应时间
错误错误数量 (24小时)
迷你图流量趋势可视化

实时更新

仪表板每30秒轮询一次。点击刷新以立即更新。

端点指标

查看单个端点的详细指标:

  1. 导航到模型的部署选项卡
  2. 点击一个端点
  3. 查看指标面板

可用指标

指标描述单位
请求数量总请求数随时间变化数量
请求延迟响应时间分布ms
错误率失败请求百分比%
实例计数活跃容器实例数量
CPU利用率处理器使用率%
内存使用量RAM消耗MB

时间范围

选择指标时间范围:

范围描述
1h最近一小时
6h最近6小时
24h最近24小时(默认)
7d最近7天

指标图表

交互式图表显示:

  • 折线图显示随时间变化的趋势
  • 悬停查看精确值
  • 缩放以分析特定时间段

日志

查看请求日志以进行调试:

日志条目

每个日志条目显示:

字段描述
时间戳请求时间
严重性信息, 警告, 错误
消息日志内容
请求ID唯一标识符

严重级别

按严重性筛选日志:

级别颜色描述
信息蓝色正常请求
警告黄色非关键问题
错误红色失败请求

日志过滤

筛选日志以查找问题:

  1. 选择严重性级别
  2. 按关键词搜索
  3. 按时间范围筛选

警报

设置端点问题警报(即将推出):

警报类型触发条件
高错误率错误率 > 阈值
高延迟P95 延迟超过阈值
无请求指定期间内零请求
扩缩容实例达到最大容量

性能优化

使用监控数据进行优化:

高延迟

如果延迟过高:

  1. 检查实例数量(可能需要更多)
  2. 验证模型大小是否合适
  3. 考虑更近的区域
  4. 检查正在发送的图像大小

高错误率

如果发生错误:

  1. 查看错误日志以获取详细信息
  2. 检查请求格式
  3. 验证 AP key 是否有效
  4. 检查速率限制

扩展问题

如果达到容量限制:

  1. 增加最大实例数
  2. 设置最小实例数 > 0
  3. 考虑使用多个区域
  4. 优化请求批处理

导出数据

导出监控数据进行分析:

  1. 选择时间范围
  2. 点击导出
  3. 下载 CSV 文件

导出内容包括:

  • 时间戳
  • 请求数量
  • 延迟指标
  • 错误数量
  • 实例指标

常见问题

数据保留多长时间?

数据类型保留期
指标30天
日志7天
警报90天

我能否设置外部监控?

是的,端点 URL 可与外部监控工具配合使用:

  • 正常运行时间监控 (Pingdom, UptimeRobot)
  • APM 工具 (Datadog, New Relic)
  • 自定义健康检查

延迟数据的准确性如何?

延迟指标衡量:

  • P50:中位响应时间
  • P95:第95百分位
  • P99:第99百分位

这些表示服务器端处理时间,不包括到用户端的网络延迟。

为什么我的指标会延迟?

指标存在约2分钟的延迟,原因如下:

  • 指标聚合管道
  • 聚合窗口
  • 仪表板缓存

对于实时调试,请检查几乎即时的日志。

我能否同时监控多个端点?

是的,全局监控仪表板显示所有端点。使用该表比较不同部署的性能。



📅 创建于 20 天前 ✏️ 更新于 20 天前
glenn-jocher

评论