Link to this sectionデプロイ#
Ultralytics Platformは、YOLOモデルを本番環境で運用するための包括的なデプロイオプションを提供します。ブラウザベースの推論でモデルをテストし、世界43のリージョンにまたがる専用エンドポイントにデプロイし、パフォーマンスをリアルタイムで監視可能です。
Watch: Get Started with Ultralytics Platform - Deploy
Link to this section概要#
デプロイセクションでは、以下のことができます。
Predictタブを使用してブラウザ上で直接モデルをテストする- 世界43のリージョンにある専用エンドポイントにデプロイする
- リクエストメトリクス、ログ、ヘルスチェックを監視する
- アイドル時にゼロまでスケールさせる(デプロイメントは現在、単一のアクティブなインスタンスで実行されます)

Link to this sectionデプロイオプション#
Ultralytics Platformは複数のデプロイパスを提供します。
| オプション | 説明 | 最適な用途 |
|---|---|---|
| Predictタブ | 画像、ウェブカメラ、サンプルを使用したブラウザベースの推論 | 開発、検証 |
| 共有推論 | 3つのリージョンにまたがるマルチテナントサービス | 軽量な使用、テスト |
| 専用エンドポイント | 43のリージョンにまたがるシングルテナントサービス | 本番環境、低レイテンシ |
Link to this sectionワークフロー#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| ステージ | 説明 |
|---|---|
| テスト | Predictタブでモデルを検証する |
| 設定 | リージョンとデプロイ名を選択する(デプロイメントには固定されたデフォルトリソースが使用されます) |
| デプロイ | Deployタブから専用エンドポイントを作成する |
| 監視 | Monitoringでリクエスト、レイテンシ、エラー、ログを追跡する |
Link to this sectionアーキテクチャ#
Link to this section共有推論#
共有推論サービスは3つの主要リージョンで実行され、データリージョンに基づいてリクエストを自動的にルーティングします。
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| リージョン | 場所 |
|---|---|
| 米国 | 米国アイオワ州 |
| 欧州 | ヨーロッパ、ベルギー |
| アジア太平洋 | アジア太平洋、台湾 |
Link to this section専用エンドポイント#
Ultralytics Cloudを使用して世界43リージョンにデプロイします。
- 南北アメリカ: 14リージョン
- 欧州: 13リージョン
- アジア太平洋: 12リージョン
- 中東・アフリカ: 4リージョン
各エンドポイントは以下の特性を持つシングルテナントサービスです。
1 CPU、2 GiBメモリ、minInstances=0、maxInstances=1のデフォルトリソース- アイドル時のゼロへのスケーリング
- 固有のエンドポイントURL
- 独立した監視、ログ、ヘルスチェック
Link to this sectionデプロイメントページ#
サイドバーのDeployからグローバルなデプロイメントページにアクセスできます。このページには以下が表示されます。
- 世界地図:デプロイされたリージョンのピン(インタラクティブマップ)
- 概要カード:合計リクエスト数(24時間)、アクティブなデプロイメント数、エラー率(24時間)、P95レイテンシ(24時間)
- デプロイメントリスト:カード、コンパクト、テーブルの3つの表示モード
- **New Deployment(新規デプロイ)**ボタン:完了したモデルからエンドポイントを作成

このページは通常15秒ごとにポーリングします。デプロイメントが移行状態(creating、deploying、またはstopping)にある場合は、より迅速なフィードバックのためにポーリング間隔が3秒に短縮されます。
Link to this section主な特徴#
Link to this sectionグローバルカバレッジ#
以下の43リージョンをカバーしており、ユーザーに近い場所へデプロイできます。
- 北米、南米
- 欧州、中東、アフリカ
- アジア太平洋、オセアニア
Link to this sectionスケーリング動作#
エンドポイントは現在、以下の動作をします。
- ゼロへのスケーリング: アイドル時はコストがかかりません(デフォルト)
- 単一のアクティブインスタンス: 現在、すべてのプランで
maxInstancesは1に制限されています
ゼロへのスケーリングがデフォルトで有効になっています(最小インスタンス数 = 0)。アクティブな推論時間に対してのみ料金が発生します。
Link to this section低レイテンシ#
専用エンドポイントは以下を提供します。
- コールドスタート:約5〜15秒(キャッシュされたコンテナ)、最大約45秒(初回デプロイ時)
- ウォーム推論:50〜200ms(モデルにより異なります)
- 最適なパフォーマンスのためのリージョンルーティング
Link to this sectionヘルスチェック#
実行中の各デプロイメントには、自動ヘルスチェックが含まれます。
- ライブステータスインジケーター(正常/異常)
- レスポンスレイテンシの表示
- 異常時の自動再試行(20秒ごとにポーリング)
- 手動更新ボタン
Link to this sectionクイックスタート#
2分以内にモデルをデプロイする手順:
- プロジェクトにモデルをトレーニングまたはアップロードする
- モデルのDeployタブに移動する
- レイテンシテーブルからリージョンを選択する
- Deployをクリックすると、エンドポイントが公開されます
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
デプロイ後、APIキーを使用してエンドポイントURLにアクセスし、あらゆるアプリケーションから推論リクエストを送信できます。
Link to this sectionクイックリンク#
- Inference(推論):ブラウザでモデルをテスト
- Endpoints(エンドポイント):専用エンドポイントをデプロイ
- Monitoring(監視):デプロイメントのパフォーマンスを追跡
Link to this sectionよくある質問 (FAQ)#
Link to this section共有推論と専用推論の違いは何ですか?#
| 機能 | 共有 | 専用 |
|---|---|---|
| レイテンシ | 可変 | 安定 |
| コスト | 無料(含まれる) | 無料(基本)、従量課金(高度) |
| スケール | 制限あり | ゼロへのスケーリング、単一インスタンス |
| リージョン | 3 | 43 |
| URL | 汎用 | カスタム |
| レート | 20 リクエスト/分 | プラットフォーム経由で20 リクエスト/分。直接エンドポイントURL経由なら無制限 |
Link to this sectionデプロイにはどれくらいの時間がかかりますか?#
専用エンドポイントのデプロイは通常1〜2分かかります:
- イメージのプル(約30秒)
- コンテナの起動(約30秒)
- ヘルスチェック(約30秒)
Link to this section複数のモデルをデプロイできますか?#
はい、各モデルは異なるリージョンに複数のエンドポイントを持つことができます。デプロイ数はプランによって制限されます:Freeは3、Proは10、Enterpriseはunlimitedです。
Link to this sectionエンドポイントがアイドル状態になるとどうなりますか?#
スケール・トゥ・ゼロ(scale-to-zero)が有効な場合:
- 非アクティブになるとエンドポイントはスケールダウンします
- 最初のリクエストでコールドスタートがトリガーされます
- その後のリクエストは高速です
アイドル期間後の最初のリクエストはコールドスタートをトリガーします。