跳转至内容

部署

Ultralytics Platform 为将您的 YOLO 模型投入生产提供了全面的部署选项。您可以使用 Inference API 测试模型,将其部署到专用端点,并实时监控性能。

概述

部署部分可帮助您:

  • 在浏览器中直接测试模型
  • 将模型部署到全球 43 个区域的专用端点
  • 监控请求指标和日志
  • 根据流量自动扩展

部署选项

Ultralytics Platform 提供多种部署途径:

选项描述最适合
测试选项卡基于浏览器的推理测试开发、验证
共享 API多租户推理服务轻量级使用、测试
专用端点单租户生产服务生产、低延迟

工作流程

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
阶段描述
测试使用 sample_images 验证模型
配置选择区域和扩展选项
部署创建专用端点
监控跟踪请求、延迟和错误

架构

共享推理

共享推理服务在3个主要区域运行:

区域位置
美国爱荷华州,美国
欧盟比利时,欧洲
AP台湾,亚太地区

请求会自动路由到您的数据区域。

专用端点

部署至全球43个区域:

  • 美洲:15个区域
  • 欧洲:12个区域
  • 亚太地区:16个区域

每个端点都是一个单租户服务,具有:

  • 专用计算资源
  • 自动扩缩容(0到N个实例)
  • 自定义URL
  • 独立监控

主要功能

全球覆盖

通过覆盖以下区域的43个区域,将服务部署到离用户更近的地方:

  • 北美、南美
  • 欧洲、中东、非洲
  • 亚太、大洋洲

自动扩缩

端点自动扩缩容:

  • 缩容至零:空闲时无成本
  • 扩容:应对流量高峰
  • 可配置限制:设置最小/最大实例数

低延迟

专用端点提供:

  • 冷启动:约2-5秒
  • 热推理:50-200毫秒(取决于模型)
  • 区域路由以实现最佳性能
  • 推理:在浏览器中测试模型
  • 端点:部署专用端点
  • 监控:跟踪部署性能

常见问题

共享推理和专用推理有什么区别?

特性共享专用
延迟可变一致
成本按请求付费按运行时间付费
规模有限可配置
区域343
URL通用自定义

部署需要多长时间?

专用端点部署通常需要 1-2 分钟:

  1. 镜像拉取(约30秒)
  2. 容器启动(约30秒)
  3. 健康检查(约30秒)

我可以部署多个模型吗?

是的,每个模型可以在不同区域拥有多个端点。端点总数没有限制(取决于您的套餐)。

当端点处于空闲状态时会发生什么?

启用零扩容时:

  • 端点在不活动后缩容
  • 首次请求触发冷启动
  • 后续请求速度快

为避免冷启动,请将最小实例数设置为 > 0。



📅 创建于 20 天前 ✏️ 更新于 14 天前
glenn-jocher

评论