监控
Ultralytics Platform 为已部署的端点提供全面的监控。track 请求指标、查看日志并实时分析性能。
监控仪表板
从侧边栏访问全局监控仪表板:
- 点击侧边栏中的 监控
- 一览所有部署
- 点击单个端点查看详情
概览卡片
| 指标 | 描述 |
|---|---|
| 总请求数 | 所有端点的请求 (24小时) |
| 活动部署 | 当前运行的端点 |
| 错误率 | 失败请求的百分比 |
| 平均延迟 | 平均响应时间 |
部署表
查看所有部署的关键指标:
| 列 | 描述 |
|---|---|
| 模型 | 带链接的模型名称 |
| 区域 | 带标志的部署区域 |
| 状态 | 运行中/已停止指示器 |
| 请求 | 请求数量 (24小时) |
| 延迟 | P50 响应时间 |
| 错误 | 错误数量 (24小时) |
| 迷你图 | 流量趋势可视化 |
实时更新
仪表板每30秒轮询一次。点击刷新以立即更新。
端点指标
查看单个端点的详细指标:
- 导航到模型的部署选项卡
- 点击一个端点
- 查看指标面板
可用指标
| 指标 | 描述 | 单位 |
|---|---|---|
| 请求数量 | 总请求数随时间变化 | 数量 |
| 请求延迟 | 响应时间分布 | ms |
| 错误率 | 失败请求百分比 | % |
| 实例计数 | 活跃容器实例 | 数量 |
| CPU利用率 | 处理器使用率 | % |
| 内存使用量 | RAM消耗 | MB |
时间范围
选择指标时间范围:
| 范围 | 描述 |
|---|---|
| 1h | 最近一小时 |
| 6h | 最近6小时 |
| 24h | 最近24小时(默认) |
| 7d | 最近7天 |
指标图表
交互式图表显示:
- 折线图显示随时间变化的趋势
- 悬停查看精确值
- 缩放以分析特定时间段
日志
查看请求日志以进行调试:
日志条目
每个日志条目显示:
| 字段 | 描述 |
|---|---|
| 时间戳 | 请求时间 |
| 严重性 | 信息, 警告, 错误 |
| 消息 | 日志内容 |
| 请求ID | 唯一标识符 |
严重级别
按严重性筛选日志:
| 级别 | 颜色 | 描述 |
|---|---|---|
| 信息 | 蓝色 | 正常请求 |
| 警告 | 黄色 | 非关键问题 |
| 错误 | 红色 | 失败请求 |
日志过滤
筛选日志以查找问题:
- 选择严重性级别
- 按关键词搜索
- 按时间范围筛选
警报
设置端点问题警报(即将推出):
| 警报类型 | 触发条件 |
|---|---|
| 高错误率 | 错误率 > 阈值 |
| 高延迟 | P95 延迟超过阈值 |
| 无请求 | 指定期间内零请求 |
| 扩缩容 | 实例达到最大容量 |
性能优化
使用监控数据进行优化:
高延迟
如果延迟过高:
- 检查实例数量(可能需要更多)
- 验证模型大小是否合适
- 考虑更近的区域
- 检查正在发送的图像大小
高错误率
如果发生错误:
- 查看错误日志以获取详细信息
- 检查请求格式
- 验证 AP key 是否有效
- 检查速率限制
扩展问题
如果达到容量限制:
- 增加最大实例数
- 设置最小实例数 > 0
- 考虑使用多个区域
- 优化请求批处理
导出数据
导出监控数据进行分析:
- 选择时间范围
- 点击导出
- 下载 CSV 文件
导出内容包括:
- 时间戳
- 请求数量
- 延迟指标
- 错误数量
- 实例指标
常见问题
数据保留多长时间?
| 数据类型 | 保留期 |
|---|---|
| 指标 | 30天 |
| 日志 | 7天 |
| 警报 | 90天 |
我能否设置外部监控?
是的,端点 URL 可与外部监控工具配合使用:
- 正常运行时间监控 (Pingdom, UptimeRobot)
- APM 工具 (Datadog, New Relic)
- 自定义健康检查
延迟数据的准确性如何?
延迟指标衡量:
- P50:中位响应时间
- P95:第95百分位
- P99:第99百分位
这些表示服务器端处理时间,不包括到用户端的网络延迟。
为什么我的指标会延迟?
指标存在约2分钟的延迟,原因如下:
- 指标聚合管道
- 聚合窗口
- 仪表板缓存
对于实时调试,请检查几乎即时的日志。
我能否同时监控多个端点?
是的,全局监控仪表板显示所有端点。使用该表比较不同部署的性能。
📅 创建于 20 天前 ✏️ 更新于 20 天前