监测
Ultralytics 已部署的终端节点提供全面监控。实时追踪请求指标、查看日志并分析性能。
监控仪表板
从侧边栏访问全球监控仪表板:
- 点击侧边栏中的监控
- 一览所有部署情况
- 点击各个端点查看详情
概览卡片
| 指标 | 描述 |
|---|---|
| 总请求数 | 所有端点的请求(24小时) |
| 正在进行的部署 | 当前运行的端点 |
| 错误率 | 失败请求的百分比 |
| 平均延迟 | 平均响应时间 |
部署表
查看所有部署及其关键指标:
| 专栏 | 描述 |
|---|---|
| 模型 | 带链接的型号名称 |
| 区域 | 部署区域带标记 |
| 状态 | 运行/停止指示器 |
| 请求 | 请求计数(24小时) |
| 延迟 | P50响应时间 |
| 错误 | 错误计数(24小时) |
| 微型图 | 流量趋势可视化 |
实时更新
仪表盘每30秒自动刷新一次。点击刷新按钮可立即获取最新数据。
终端指标
查看单个端点的详细指标:
- 导航至您模型的部署选项卡
- 点击一个端点
- 查看指标面板
可用指标
| 指标 | 描述 | 单元 |
|---|---|---|
| 请求计数 | 随时间推移的总请求数 | 计数 |
| 请求延迟 | 响应时间分布 | ms |
| 错误率 | 请求失败率 | % |
| 实例计数 | 活动容器实例 | 计数 |
| CPU | 处理器使用率 | % |
| 内存使用情况 | RAM消耗 | MB |
时间范围
选择指标的时间范围:
| 范围 | 描述 |
|---|---|
| 1h | 最后一个小时 |
| 6h | 过去6小时 |
| 24h | 过去24小时(默认) |
| 7d | 过去7天 |
计量图表
交互式图表显示:
- 时间趋势折线图
- 悬停查看具体数值
- 放大以分析特定时间段
日志
查看请求日志用于调试:
日志条目
每个日志条目显示:
| 领域 | 描述 |
|---|---|
| 时间戳 | 请求时间 |
| 严重性 | 信息, 警告, 错误 |
| 消息 | 日志内容 |
| 请求ID | 唯一标识符 |
严重性级别
按严重程度过滤日志:
| 等级 | 颜色 | 描述 |
|---|---|---|
| 信息 | 蓝色 | 正常请求 |
| 警告 | 黄色 | 非关键问题 |
| 错误 | 红色 | 请求失败 |
日志过滤
过滤日志以查找问题:
- 选择严重性级别
- 按关键词搜索
- 按时间范围筛选
警报
为终端问题设置警报(即将推出):
| 警报类型 | 触发器 |
|---|---|
| 高错误率 | 错误率 > 阈值 |
| 高延迟 | P95延迟 > 阈值 |
| 无请求 | 零请求周期 |
| 扩展 | 满负荷运行实例 |
性能优化
利用监测数据进行优化:
高延迟
如果延迟过高:
- 检查实例数量(可能需要更多)
- 验证模型尺寸是否合适
- 考虑更近的区域
- 检查正在发送的图像尺寸
高错误率
如果出现错误:
- 查看错误日志以获取详细信息
- 检查请求格式
- 验证API密钥是否有效
- 检查速率限制
扩展问题
若达到容量上限:
- 增加最大实例数
- 设置最小实例数 > 0
- 考虑多个区域
- 优化请求批处理
导出数据
导出监测数据以供分析:
- 选择时间范围
- 点击导出
- 下载CSV文件
出口包括:
- 时间戳
- 请求计数
- 延迟指标
- 错误计数
- 实例指标
常见问题
数据保留多长时间?
| 数据类型 | 保留 |
|---|---|
| 指标 | 30天 |
| 日志 | 7天 |
| 警报 | 90天 |
我可以设置外部监控吗?
是的,端点URL可与外部监控工具配合使用:
- 运行时间监控(Pingdom、UptimeRobot)
- APM工具(Datadog、New Relic)
- 自定义健康检查
延迟数据的准确性如何?
延迟指标测量:
- P50:中位响应时间
- P95:第95百分位数
- P99:第99百分位数
这些代表服务器端处理时间,不包括用户端的网络延迟。
为什么我的指标会延迟?
指标存在约2分钟的延迟,原因如下:
- 指标聚合管道
- 聚合窗口
- 仪表板缓存
进行实时调试时,请查看近乎即时的日志。
我可以同时监控多个端点吗?
是的,全球监控仪表板显示所有端点。请使用表格比较不同部署环境中的性能表现。
📅 0 天前创建 ✏️ 0 天前更新