デプロイ
Ultralytics Platformは、YOLOモデルを本番環境へデプロイするための包括的なオプションを提供します。ブラウザベースの推論によるモデルテスト、世界43リージョンにわたる専用エンドポイントへのデプロイ、およびリアルタイムでのパフォーマンス監視が可能です。
Watch: Get Started with Ultralytics Platform - Deploy
概要
デプロイセクションでは、以下の機能を利用できます。
Predictタブを使用してブラウザ上で直接モデルをテスト- 世界43リージョンの専用エンドポイントにデプロイ
- リクエストメトリクス、ログ、ヘルスチェックの監視
- アイドル時のゼロスケール(デプロイメントは現在、1つのアクティブなインスタンスを実行します)

デプロイオプション
Ultralytics Platformは複数のデプロイ経路を提供します。
| オプション | 説明 | 用途 |
|---|---|---|
| Predictタブ | 画像、ウェブカメラ、およびサンプルを使用したブラウザベースの推論 | 開発、検証 |
| 共有推論 | 3リージョンにわたるマルチテナントサービス | 軽量な使用、テスト |
| 専用エンドポイント | 43リージョンにわたるシングルテナントサービス | 本番環境、低遅延 |
ワークフロー
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| ステージ | 説明 |
|---|---|
| Test | Predictタブでモデルを検証する |
| 構成 | リージョンとデプロイメント名を選択する(デプロイメントには固定のデフォルトリソースが使用されます) |
| デプロイ | Deployタブから専用エンドポイントを作成する |
| 監視 | Monitoringでリクエスト、遅延、エラー、ログを追跡する |
アーキテクチャ
共有推論
共有推論サービスは3つの主要リージョンで実行され、データリージョンに基づいてリクエストを自動的にルーティングします。
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| 領域 (Region) | 場所 |
|---|---|
| 米国 | 米国アイオワ州 |
| EU | 欧州ベルギー |
| AP | アジア太平洋、台湾 |
専用エンドポイント
Ultralytics Cloudで世界43リージョンにデプロイします。
- アメリカ: 14リージョン
- ヨーロッパ: 13リージョン
- アジア太平洋: 12リージョン
- 中東・アフリカ: 4リージョン
各エンドポイントは、以下の構成を持つシングルテナントサービスです。
1 CPU、2 GiBメモリ、minInstances=0、maxInstances=1のデフォルトリソース- アイドル時のゼロスケール
- 固有のエンドポイントURL
- 独立した監視、ログ、およびヘルスチェック
デプロイメントページ
サイドバーのDeployからグローバルなデプロイメントページにアクセスします。このページには以下が表示されます。
- 世界地図(デプロイ済みリージョンのピン付き、インタラクティブマップ)
- 概要カード: 合計リクエスト数(24時間)、アクティブなデプロイメント数、エラー率(24時間)、P95遅延(24時間)
- デプロイメントリスト: カード、コンパクト、テーブルの3つの表示モード
- 新規デプロイメントボタン(完了したモデルからエンドポイントを作成)

通常、ページは15秒ごとにポーリングを行います。デプロイメントが移行状態(creating、deploying、またはstopping)にある場合、より迅速なフィードバックのためにポーリングは3秒ごとに行われます。
主な特徴
グローバルカバレッジ
43のリージョンにより、ユーザーに近い場所へデプロイできます。
- 北米、南米
- ヨーロッパ、中東、アフリカ
- アジア太平洋、オセアニア
スケーリング動作
エンドポイントは現在、以下のように動作します。
- ゼロスケール: アイドル時のコストはゼロ(デフォルト)
- 単一のアクティブインスタンス:
maxInstancesは現在、すべてのプランで1に制限されています
ゼロスケールはデフォルトで有効です(最小インスタンス数 = 0)。アクティブな推論時間に対してのみ料金が発生します。
低遅延
専用エンドポイントは以下を提供します。
- コールドスタート: 約5〜15秒(キャッシュされたコンテナ)、最大約45秒(初回デプロイ)
- ウォーム推論: 50〜200ms(モデル依存)
- 最適なパフォーマンスのためのリージョンルーティング
ヘルスチェック
各実行中のデプロイメントには、以下の自動ヘルスチェックが含まれます。
- ライブステータスインジケータ(正常/異常)
- 応答遅延表示
- 異常時の自動再試行(20秒ごとにポーリング)
- 手動更新ボタン
クイックスタート
2分以内にモデルをデプロイする手順:
- モデルをプロジェクトにトレーニングまたはアップロードする
- モデルのDeployタブに移動する
- 遅延テーブルからリージョンを選択する
- Deployをクリックする — エンドポイントが公開されます
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
デプロイ後、APIキーと共にエンドポイントURLを使用して、あらゆるアプリケーションから推論リクエストを送信できます。
クイックリンク
FAQ
共有推論と専用推論の違いは何ですか?
| 機能 | 共有 | 専用 |
|---|---|---|
| 遅延 | 変動あり | 一貫性あり |
| コスト | 無料(含まれる) | 無料(基本)、使用量ベース(高度) |
| スケール | 制限あり | ゼロスケール、単一インスタンス |
| リージョン | 3 | 3 |
| URL | 汎用 | カスタムモデル |
| レート | 20リクエスト/分 | 無制限 |
デプロイにはどのくらい時間がかかりますか?
専用エンドポイントのデプロイは通常1〜2分かかります。
- イメージのプル(約30秒)
- コンテナの起動(約30秒)
- ヘルスチェック(約30秒)
複数のモデルをデプロイできますか?
はい、各モデルは異なるリージョンで複数のエンドポイントを持つことができます。デプロイ数はプランによって制限されており、Freeは 3、Proは 10、Enterpriseは unlimited となっています。
エンドポイントがアイドル状態になるとどうなりますか?
スケール・ツー・ゼロ(scale-to-zero)が有効な場合:
- 非アクティブになるとエンドポイントはスケールダウンします
- 最初のリクエストでコールドスタートが発生します
- その後のリクエストは高速に処理されます
アイドル期間後の最初のリクエストでは、コールドスタートが発生します。