监控
Ultralytics Platform 为已部署的端点提供监控。通过自动轮询,您可以跟踪请求指标、查看日志并检查健康状态。

部署仪表板
字段 Deploy 侧边栏中的页面作为您所有部署的监控仪表板。它将世界地图、概览指标和部署管理整合在一个视图中。请参阅 专用端点 用于创建和管理部署。
graph TB
subgraph Dashboard
Map[World Map] --- Cards[Overview Cards]
Cards --- List[Deployments List]
end
subgraph "Per Deployment"
Metrics[Metrics Row]
Health[Health Check]
Logs[Logs Tab]
Code[Code Tab]
Predict[Predict Tab]
end
List --> Metrics
List --> Health
List --> Logs
List --> Code
List --> Predict
style Dashboard fill:#f5f5f5,color:#333
style Map fill:#2196F3,color:#fff
style Cards fill:#FF9800,color:#fff
style List fill:#4CAF50,color:#fff
概览卡片
页面顶部的四张摘要卡片显示:

| 指标 | 描述 |
|---|---|
| 总请求数(24小时) | 跨所有端点的请求 |
| 活动部署 | 当前运行的端点 |
| 错误率 (24h) | 失败请求的百分比 |
| P95 延迟 (24小时) | 第95百分位响应时间 |
错误率警报
当错误率超过5%时,错误率卡片会以红色高亮显示。请检查 Logs 在各个部署选项卡上诊断错误。
世界地图
交互式世界地图显示:
- 区域图钉:适用于所有 43 个可用区域
- 绿色图钉表示已部署区域
- 动态蓝色图钉表示正在进行活跃部署的区域
- 引脚大小根据部署状态和延迟而变化

部署列表
在概览卡片下方,部署列表显示了您所有项目中的所有端点。使用视图模式切换按钮可在以下模式之间切换:
| 查看 | 描述 |
|---|---|
| 卡片 | 包含指标、日志、代码和预测选项卡的完整详细信息卡 |
| 紧凑 | 带关键指标的小型卡片网格(1-4 列) |
| 表格 | 带可排序列的DataTable:名称、区域、状态、请求、P95、错误 |
实时更新
仪表板每 30 秒轮询一次以获取指标更新。当部署处于过渡状态(创建、部署)时,轮询频率增加到每 3 秒一次。点击刷新按钮可立即更新。
按部署指标
每个部署卡片(在卡片视图中)都显示实时指标:
指标行
| 指标 | 描述 |
|---|---|
| 请求 | 请求计数 (24 小时) 带图标 |
| P95 延迟 | 第95百分位响应时间 |
| 错误率 | 失败请求的百分比 |
指标从迷你图 API 端点获取,每 60 秒刷新一次。
健康检查
正在运行的部署显示健康检查指示器:
| 指标 | 含义 |
|---|---|
| 绿心 | 健康 — 显示响应延迟 |
| 红心 | 不健康 — 显示错误消息 |
| 旋转图标 | 健康检查进行中 |
健康检查在不健康时每20秒自动重试。点击刷新图标可手动触发健康检查。健康检查使用55秒的超时时间,以适应零扩容端点上的冷启动。

冷启动容忍度
健康检查使用 55 秒超时,以应对零扩容端点的冷启动(最坏情况下可达约 45 秒)。一旦端点预热,健康检查将在毫秒内完成。
日志
每个部署卡片都包含一个 Logs 选项卡用于查看最近的日志条目:

日志条目
每个日志条目显示:
| 字段 | 描述 |
|---|---|
| 严重性 | 颜色编码条(见下文) |
| 时间戳 | 请求时间 (本地格式) |
| 消息 | 日志内容 |
| HTTP 信息 | 状态码和延迟(如适用) |
使用筛选按钮按严重程度筛选日志:
| 级别 | 颜色 | 描述 |
|---|---|---|
| 调试 | 灰色 | 调试消息 |
| 信息 | 蓝色 | 正常请求 |
| 警告 | 黄色 | 非关键问题 |
| 错误 | 红色 | 失败请求 |
| 严重 | 深红色 | 严重故障 |
| 控制 | 描述 |
|---|---|
| 错误 | 筛选至错误和警告条目 |
| 全部 | 显示所有日志条目 |
| 复制 | 复制所有可见日志到剪贴板 |
| 刷新 | 重新加载日志条目 |
UI显示最近的20个条目。API默认为每个请求50个条目(最多200个)。
调试工作流
调查错误时:首先点击错误以筛选出 ERROR 和 WARNING 条目,然后查看时间戳和 HTTP 状态码。将日志复制到剪贴板,以便与您的团队共享。
代码示例
每个部署卡片都包含一个 Code 选项卡显示即用型 API 代码,其中包含您的实际端点 URL 和 API 密钥:
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
# Send image for inference
curl -X POST "https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
自动填充凭据
当查看 Code 在平台中的选项卡,您的实际端点 URL 和 API 密钥会自动填充。复制代码并直接运行。请参阅 API 密钥 生成密钥。
部署预测
字段 Predict 每个部署卡上的选项卡都提供一个内联预测面板 — 与模型相同的界面 Predict 选项卡,但通过部署端点运行推理,而不是通过共享服务。这对于直接从浏览器测试已部署的端点非常有用。请参阅 推理 有关参数详情和响应格式。
API 端点
监控概览
GET /api/monitoring
返回由已认证用户拥有的所有部署的聚合指标。通过可选参数实现工作区感知 owner 查询参数。
部署指标
GET /api/deployments/{deploymentId}/metrics?sparkline=true&range=24h
返回特定部署的迷你图数据和汇总指标。刷新间隔:60 秒。
| 参数 | 类型 | 描述 |
|---|---|---|
sparkline | 布尔值 | 包含迷你图数据 |
range | 字符串 | 时间范围: 1h, 6h, 24h, 7d或 30d |
部署日志
GET /api/deployments/{deploymentId}/logs?limit=50&severity=ERROR,WARNING
返回最新日志条目,支持可选的严重性过滤和分页。
| 参数 | 类型 | 描述 |
|---|---|---|
limit | 整型 | 最大返回条目数 (默认值: 50, 最大值: 200) |
severity | 字符串 | 逗号分隔的严重性过滤器 |
pageToken | 字符串 | 来自上一个响应的分页令牌 |
部署健康状况
GET /api/deployments/{deploymentId}/health
返回健康检查状态及响应延迟。
{
"healthy": true,
"status": 200,
"latencyMs": 142
}
性能优化
使用监控数据来优化您的部署:
如果延迟过高:
- 检查实例数量(可能需要更多)
- 验证模型大小是否合适
- 考虑更近的区域
- 检查正在发送的图像大小
降低延迟
从...切换 imgsz=1280 到 imgsz=640 在大多数用例中,以最小的精度损失实现约4倍的加速。部署到离用户更近的区域以降低网络延迟。
如果发生错误:
- 在 中查看错误日志
Logs选项卡 - 检查请求格式(需要多部分表单)
- 验证 AP key 是否有效
- 检查速率限制
如果达到容量限制:
- 考虑使用多个区域
- 优化请求批处理
- 增加 CPU 和内存资源
常见问题
数据保留多长时间?
| 数据类型 | 保留期 |
|---|---|
| 指标 | 30天 |
| 日志 | 7天 |
我能否设置外部监控?
是的,端点 URL 可与外部监控工具配合使用:
- 正常运行时间监控 (Pingdom, UptimeRobot)
- APM 工具 (Datadog, New Relic)
- 通过以下方式进行自定义健康检查
/health端点
延迟数据的准确性如何?
延迟指标衡量:
- P50:中位响应时间
- P95:第95百分位
- P99:第99百分位
这些表示服务器端处理时间,不包括到用户端的网络延迟。
为什么我的指标会延迟?
指标存在约2分钟的延迟,原因如下:
- 指标聚合管道
- 聚合窗口
- 仪表板缓存
对于实时调试,请检查几乎即时的日志。
我能否同时监控多个端点?
是的,部署页面显示所有端点以及聚合概览卡片。使用表格视图可以比较不同部署的性能。