跳转至内容

监测

Ultralytics 已部署的终端节点提供全面监控。实时追踪请求指标、查看日志并分析性能。

监控仪表板

从侧边栏访问全球监控仪表板:

  1. 点击侧边栏中的监控
  2. 一览所有部署情况
  3. 点击各个端点查看详情

概览卡片

指标描述
总请求数所有端点的请求(24小时)
正在进行的部署当前运行的端点
错误率失败请求的百分比
平均延迟平均响应时间

部署表

查看所有部署及其关键指标:

专栏描述
模型带链接的型号名称
区域部署区域带标记
状态运行/停止指示器
请求请求计数(24小时)
延迟P50响应时间
错误错误计数(24小时)
微型图流量趋势可视化

实时更新

仪表盘每30秒自动刷新一次。点击刷新按钮可立即获取最新数据。

终端指标

查看单个端点的详细指标:

  1. 导航至您模型的部署选项卡
  2. 点击一个端点
  3. 查看指标面板

可用指标

指标描述单元
请求计数随时间推移的总请求数计数
请求延迟响应时间分布ms
错误率请求失败率%
实例计数活动容器实例计数
CPU处理器使用率%
内存使用情况RAM消耗MB

时间范围

选择指标的时间范围:

范围描述
1h最后一个小时
6h过去6小时
24h过去24小时(默认)
7d过去7天

计量图表

交互式图表显示:

  • 时间趋势折线图
  • 悬停查看具体数值
  • 放大以分析特定时间段

日志

查看请求日志用于调试:

日志条目

每个日志条目显示:

领域描述
时间戳请求时间
严重性信息, 警告, 错误
消息日志内容
请求ID唯一标识符

严重性级别

按严重程度过滤日志:

等级颜色描述
信息蓝色正常请求
警告黄色非关键问题
错误红色请求失败

日志过滤

过滤日志以查找问题:

  1. 选择严重性级别
  2. 按关键词搜索
  3. 按时间范围筛选

警报

为终端问题设置警报(即将推出):

警报类型触发器
高错误率错误率 > 阈值
高延迟P95延迟 > 阈值
无请求零请求周期
扩展满负荷运行实例

性能优化

利用监测数据进行优化:

高延迟

如果延迟过高:

  1. 检查实例数量(可能需要更多)
  2. 验证模型尺寸是否合适
  3. 考虑更近的区域
  4. 检查正在发送的图像尺寸

高错误率

如果出现错误:

  1. 查看错误日志以获取详细信息
  2. 检查请求格式
  3. 验证API密钥是否有效
  4. 检查速率限制

扩展问题

若达到容量上限:

  1. 增加最大实例数
  2. 设置最小实例数 > 0
  3. 考虑多个区域
  4. 优化请求批处理

导出数据

导出监测数据以供分析:

  1. 选择时间范围
  2. 点击导出
  3. 下载CSV文件

出口包括:

  • 时间戳
  • 请求计数
  • 延迟指标
  • 错误计数
  • 实例指标

常见问题

数据保留多长时间?

数据类型保留
指标30天
日志7天
警报90天

我可以设置外部监控吗?

是的,端点URL可与外部监控工具配合使用:

  • 运行时间监控(Pingdom、UptimeRobot)
  • APM工具(Datadog、New Relic)
  • 自定义健康检查

延迟数据的准确性如何?

延迟指标测量:

  • P50:中位响应时间
  • P95:第95百分位数
  • P99:第99百分位数

这些代表服务器端处理时间,不包括用户端的网络延迟。

为什么我的指标会延迟?

指标存在约2分钟的延迟,原因如下:

  • 指标聚合管道
  • 聚合窗口
  • 仪表板缓存

进行实时调试时,请查看近乎即时的日志。

我可以同时监控多个端点吗?

是的,全球监控仪表板显示所有端点。请使用表格比较不同部署环境中的性能表现。



📅 0 天前创建 ✏️ 0 天前更新
glenn-jocher

评论