Link to this section部署#

Ultralytics Platform 提供了全面的部署选项，用于将你的 YOLO 模型投入生产。你可以通过浏览器端推理测试模型，部署到覆盖 43 个全球区域的专用端点，并实时监控性能。

Watch: Get Started with Ultralytics Platform - Deploy

Link to this section概述#

“部署”部分可以帮助你：

测试：通过 Predict 选项卡直接在浏览器中测试模型
部署：部署到覆盖 43 个全球区域的专用端点
监控：监控请求指标、日志和健康检查
缩容至零：闲置时自动缩容（当前部署运行单个活动实例）

Ultralytics Platform 部署页面世界地图与概览卡片

Link to this section部署选项#

Ultralytics Platform 提供多种部署路径：

选项	描述	最适用场景
预测选项卡 (Predict Tab)	基于浏览器的推理，支持图像、摄像头和示例	开发、验证
共享推理 (Shared Inference)	跨 3 个区域的多租户服务	轻量使用、测试
专用端点 (Dedicated Endpoints)	跨 43 个区域的单租户服务	生产环境、低延迟

Link to this section工作流#

graph LR
    A[✅ Test]:::start --> B[⚙️ Configure]:::proc
    B --> C[🌐 Deploy]:::proc
    C --> D[📊 Monitor]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef out fill:#9C27B0,color:#fff

阶段	描述
测试	使用 `Predict` 选项卡验证模型
配置	选择区域和部署名称（部署使用固定的默认资源）
部署 (Deploy)	从 `Deploy` 选项卡创建专用端点
监控	在监控 (Monitoring) 中跟踪请求、延迟、错误和日志

Link to this section架构#

Link to this section共享推理#

共享推理服务运行在 3 个关键区域，根据你的数据区域自动路由请求：

graph TB
    User[User Request]:::start --> API[Platform API]:::proc
    API --> Router{Region Router}:::decide
    Router -->|US users| US["US Predict Service<br/>Iowa"]:::out
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]:::out
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef decide fill:#FF9800,color:#fff
    classDef out fill:#9C27B0,color:#fff

区域	位置
美国 (US)	美国爱荷华州
欧洲 (EU)	欧洲，比利时
亚太 (AP)	亚太地区，台湾

Link to this section专用端点#

在 Ultralytics Cloud 上部署到全球 43 个区域：

美洲：14 个区域
欧洲：13 个区域
亚太地区：12 个区域
中东和非洲：4 个区域

每个端点都是一个单租户服务，具备：

默认资源：1 CPU，2 GiB 内存，minInstances=0，maxInstances=1
闲置时缩容至零
唯一端点 URL
独立的监控、日志和健康检查

Link to this section部署页面#

通过侧边栏的 Deploy 访问全球部署页面。此页面显示：

世界地图：显示部署区域的图钉（交互式地图）
概览卡片：总请求数 (24h)、活动部署数、错误率 (24h)、P95 延迟 (24h)
部署列表：具有三种视图模式：卡片、紧凑和表格
新建部署按钮：用于从任何已完成的模型创建端点

Ultralytics Platform 部署页面概览卡片和部署列表

自动轮询

该页面通常每 15 秒轮询一次。当部署处于转换状态（creating、deploying 或 stopping）时，轮询频率增加到每 3 秒一次，以获得更快的反馈。

Link to this section主要特性#

Link to this section全球覆盖#

通过覆盖 43 个区域，你可以靠近你的用户进行部署，包括：

北美洲、南美洲
欧洲、中东、非洲
亚太地区、大洋洲

Link to this section伸缩行为#

端点目前的运行方式如下：

缩容至零：闲置时无费用（默认）
单个活动实例：目前所有计划中 maxInstances 的上限均为 1

成本节约

默认启用缩容至零（最小实例数 = 0）。你只需为活跃的推理时间付费。

Link to this section低延迟#

专用端点提供：

冷启动：~5-15 秒（缓存容器），最长 ~45 秒（首次部署）
热推理：50-200ms（取决于模型）
区域路由以实现最佳性能

Link to this section健康检查#

每个运行中的部署都包含自动健康检查，具有：

实时状态指示器（健康/不健康）
响应延迟显示
不健康时自动重试（每 20 秒轮询一次）
手动刷新按钮

Link to this section快速入门#

在 2 分钟内部署模型：

在项目中训练或上传模型
转到模型的 Deploy 选项卡
从延迟表中选择一个区域
点击 Deploy — 你的端点即刻上线

快速部署

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

部署完成后，将端点 URL 与你的 API 密钥配合使用，即可从任何应用程序发送推理请求。

Link to this section快捷链接#

推理 (Inference)：在浏览器中测试模型
端点 (Endpoints)：部署专用端点
监控 (Monitoring)：跟踪部署性能

Link to this section常见问题解答#

Link to this section共享推理和专用推理有什么区别？#

功能	共享	专用
延迟	可变	一致
成本	免费（已包含）	免费（基础版），按使用量付费（高级版）
规模	有限	缩容至零，单个实例
区域	3	43
URL	通用	自定义
速率	20 次请求/分钟	通过平台限制为 20 次请求/分钟；直接使用端点 URL 则无限制

Link to this section部署需要多长时间？#

专用端点部署通常需要 1-2 分钟：

拉取镜像 (~30秒)
启动容器 (~30秒)
健康检查 (~30秒)

Link to this section我可以部署多个模型吗？#

是的，每个模型可以在不同区域拥有多个端点。部署数量受计划限制：免费版 3，Pro 版 10，企业版 unlimited。

Link to this section端点空闲时会发生什么？#

如果启用了缩容至零（scale-to-zero）：

端点会在不活跃后缩容
首次请求会触发冷启动
后续请求响应迅速

空闲期后的首次请求会触发冷启动。

贡献者

GLglenn-jocher¹³ RAraimbekovm¹ RIRizwanMunawar¹ SEsergiuwaxmann¹

创建于 2026年1月14日更新于 4天前