部署

Ultralytics Platform 为你提供全面的部署选项,将你的 YOLO 模型投入生产环境。你可以通过基于浏览器的推理测试模型,将其部署到全球 43 个区域的专用端点,并实时监控性能。



Watch: Get Started with Ultralytics Platform - Deploy

概述

“部署”部分可以帮助你:

  • 通过 Predict(预测)选项卡直接在浏览器中测试模型
  • 部署到全球 43 个区域的专用端点
  • 监控请求指标、日志和健康检查
  • 在空闲时缩容至零(目前部署运行单个活跃实例)

Ultralytics Platform 部署页面世界地图及概览卡片

部署选项

Ultralytics Platform 提供多种部署路径:

选项描述最佳用途
Predict 选项卡支持图像、摄像头和示例的浏览器端推理用于开发和验证
共享推理跨 3 个区域的多租户服务轻量使用、测试
专用端点跨 43 个区域的单租户服务生产环境、低延迟

工作流程

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
阶段描述
Test使用 Predict 选项卡 验证模型
配置 (Configure)选择区域和部署名称(部署使用固定的默认资源)
部署Deploy 选项卡 创建专用端点
监控 (Monitor)Monitoring 中追踪请求、延迟、错误和日志

架构

共享推理

共享推理服务运行在 3 个关键区域,根据你的数据区域自动路由请求:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
区域位置
美国美国爱荷华州
欧盟欧洲比利时
AP亚太地区台湾

专用端点

在 Ultralytics Cloud 上部署到全球 43 个区域:

  • 美洲:14 个区域
  • 欧洲:13 个区域
  • 亚太地区:12 个区域
  • 中东和非洲:4 个区域

每个端点都是一个单租户服务,包含:

  • 默认资源:1 CPU2 GiB 内存、minInstances=0maxInstances=1
  • 空闲时缩容至零
  • 唯一的端点 URL
  • 独立的监控、日志和健康检查

部署页面

在侧边栏的 Deploy 下方访问全球部署页面。此页面显示:

  • 世界地图,带有已部署区域的图钉(交互式地图)
  • 概览卡片:总请求数(24小时)、活跃部署数、错误率(24小时)、P95 延迟(24小时)
  • 部署列表,包含三种视图模式:卡片、紧凑和表格
  • 新部署按钮,用于从任何已完成的模型创建端点

Ultralytics Platform 部署页面概览卡片及部署列表

自动轮询

页面通常每 15 秒轮询一次。当部署处于过渡状态(creatingdeployingstopping)时,轮询频率会增加到每 3 秒一次,以获得更快的反馈。

主要特性

全球覆盖

通过 43 个区域覆盖范围,实现靠近你的用户进行部署:

  • 北美、南美
  • 欧洲、中东、非洲
  • 亚太地区、大洋洲

扩缩容行为

端点目前的表现如下:

  • 缩容至零:空闲时不产生费用(默认)
  • 单个活跃实例:所有计划中 maxInstances 目前上限为 1
成本节省

缩容至零功能默认启用(最小实例数 = 0)。你只需为活跃的推理时间付费。

低延迟

专用端点提供:

  • 冷启动:约 5-15 秒(缓存容器),首次部署最长约 45 秒
  • 热启动推理:50-200ms(视模型而定)
  • 区域路由以实现最佳性能

健康检查

每个运行中的部署都包含自动健康检查,提供:

  • 实时状态指示器(健康/不健康)
  • 响应延迟显示
  • 不健康时自动重试(每 20 秒轮询一次)
  • 手动刷新按钮

快速入门

在 2 分钟内部署模型:

  1. 训练或上传模型到项目
  2. 前往模型的 Deploy 选项卡
  3. 从延迟表中选择一个区域
  4. 点击 Deploy —— 你的端点即刻上线
快速部署
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

部署完成后,使用端点 URL 和你的 API 密钥从任何应用程序发送推理请求。

快速链接

  • 推理:在浏览器中测试模型
  • 端点:部署专用端点
  • 监控:追踪部署性能

常见问题 (FAQ)

共享推理和专用推理有什么区别?

特性共享专属
延迟可变一致
成本免费(已包含)免费(基础版),按使用量付费(高级版)
规模有限缩容至零,单实例
区域33
URL通用自定义
速率20 次请求/分钟无限

部署需要多长时间?

专用端点部署通常需要 1-2 分钟:

  1. 拉取镜像(约 30 秒)
  2. 容器启动(约 30 秒)
  3. 健康检查(约 30 秒)

我可以部署多个模型吗?

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

当端点处于闲置状态时会发生什么?

如果启用了自动缩容至零(scale-to-zero):

  • 端点会在闲置后自动缩减
  • 首次请求会触发冷启动
  • 后续请求响应迅速

闲置期后的首次请求会触发冷启动。

评论