デプロイ
Ultralytics Platformは、YOLOモデルを本番環境に導入するための包括的なデプロイオプションを提供します。ブラウザベースの推論でモデルをテストし、世界43の地域にある専用エンドポイントにデプロイし、リアルタイムでパフォーマンスを監視できます。
見る: Ultralytics の利用開始 - デプロイ
概要
デプロイセクションでは、以下のことが可能です。
- テスト ブラウザ内で直接モデルを
Predictタブ - デプロイ(世界43の地域にある専用エンドポイントへ)
- 監視 リクエストメトリクス、ログ、ヘルスチェック
- アイドル時にスケールダウンして0にする(現在、デプロイメントはアクティブなインスタンスを1つだけ実行している)

デプロイオプション
Ultralytics Platformは、複数のデプロイパスを提供します。
| オプション | 説明 | 最適な用途 |
|---|---|---|
| 予測タブ | 画像、ウェブカメラ、および例を使用したブラウザベースの推論 | 開発、検証 |
| 共有推論 | 3つのリージョンにまたがるマルチテナントサービス | 軽度の使用、テスト |
| 専用エンドポイント | 43のリージョンにまたがるシングルテナントサービス | 本番、低レイテンシ |
ワークフロー
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| ステージ | 説明 |
|---|---|
| テスト | モデルを Predict タブ |
| 設定 | 地域とデプロイメント名を選択してください(デプロイメントでは固定のデフォルトリソースが使用されます) |
| デプロイ | 専用のエンドポイントを以下から作成します。 Deploy タブ |
| 監視 | モニタリングでリクエスト、レイテンシ、エラー、ログを追跡する |
アーキテクチャ
共有推論
共有推論サービスは3つの主要リージョンで稼働し、お客様のデータリージョンに基づいてリクエストを自動的にルーティングします:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| リージョン | ロケーション |
|---|---|
| 米国 | アイオワ州、米国 |
| 欧州 | ベルギー、ヨーロッパ |
| AP | 香港、アジア太平洋 |
専用エンドポイント
Ultralytics Cloudで世界43リージョンにデプロイ:
- アメリカ大陸: 14リージョン
- ヨーロッパ: 13リージョン
- アジア太平洋: 12リージョン
- 中東およびアフリカ: 4リージョン
各エンドポイントは、以下の機能を備えたシングルテナントサービスです。
- のデフォルトのリソース
1 CPU,2 GiB記憶、minInstances=0,maxInstances=1 - アイドル時はスケールをゼロにする
- 一意のエンドポイントURL
- 独立した監視、ログ、およびヘルスチェック
デプロイメントページ
サイドバーの「グローバルデプロイメント」ページにアクセスします。 Deploy。このページには以下が表示されます:
- 展開地域ピン付き世界地図(インタラクティブマップ)
- 概要カード: 総リクエスト数 (24時間)、アクティブなデプロイ、エラー率 (24時間)、P95レイテンシ (24時間)
- デプロイリスト: 3つの表示モード(カード、コンパクト、テーブル)
- 新規デプロイボタン:完了した任意のモデルからエンドポイントを作成

自動ポーリング
通常、このページは15秒ごとにポーリングを行います。デプロイが移行状態にある場合(creating, deploying、または stopping)、ポーリング間隔が3秒ごとに短縮され、フィードバックがより迅速になります。
主な特徴
グローバルカバレッジ
以下の43のリージョンをカバーし、ユーザーの近くにデプロイできます。
- 北米、南米
- ヨーロッパ、中東、アフリカ
- アジア太平洋、オセアニア
スケーリング挙動
現在、エンドポイントは次のように動作します:
- スケールトゥゼロ: アイドル時はコストなし(デフォルト)
- アクティブなインスタンスが1つ:
maxInstances現在は上限が1すべてのプランで
費用削減
スケール・トゥ・ゼロはデフォルトで有効です(最小インスタンス数 = 0)。アクティブな推論時間に対してのみ課金されます。
低レイテンシー
専用エンドポイントは以下を提供します。
- コールドスタート:約5~15秒(キャッシュされたコンテナ)、最大約45秒(初回デプロイ)
- ウォーム推論: 50〜200ミリ秒 (モデルに依存)
- 最適なパフォーマンスのためのリージョンルーティング
健康診断
各実行中のデプロイメントには、自動ヘルスチェックが含まれています。
- 稼働状態インジケーター(正常/異常)
- 応答遅延表示
- 異常時の自動再試行(20秒ごとにポーリング)
- 手動更新ボタン
クイックスタート
2分以内にモデルをデプロイ:
- モデルをプロジェクトにトレーニングまたはアップロードする
- モデルの「デプロイ」タブに移動する
- レイテンシテーブルから地域を選択してください
- デプロイをクリックすると、エンドポイントが稼働します。
クイックデプロイ
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
デプロイ後、APIキー付きのエンドポイントURLを使用して、あらゆるアプリケーションから推論リクエストを送信できます。
クイックリンク
よくある質問
共有推論と専用推論の違いは何ですか?
| 機能 | 共有 | 専用 |
|---|---|---|
| レイテンシー | 可変 | 一貫性 |
| コスト | 無料(料金に含まれています) | 無料(基本プラン)、従量課金制(上級プラン) |
| スケール | 制限あり | スケール・トゥ・ゼロ、シングルインスタンス |
| リージョン | 3 | 43 |
| URL | 汎用 | カスタム |
| レート | 20 リクエスト/分 | 無制限 |
デプロイにはどのくらい時間がかかりますか?
専用エンドポイントのデプロイには通常1〜2分かかります。
- イメージプル(約30秒)
- コンテナ起動(約30秒)
- ヘルスチェック(約30秒)
複数のモデルをデプロイできますか?
はい、各モデルは異なるリージョンに複数のエンドポイントを持つことができます。デプロイメント数はプランによって制限されます:無料プラン 3, Pro 10, エンタープライズ unlimited.
エンドポイントがアイドル状態の場合、どうなりますか?
スケール・トゥ・ゼロが有効な場合:
- 非アクティブ後にエンドポイントがスケールダウンします
- 最初の要求でコールドスタートが発生します
- 以降の要求は高速です
アイドル期間後の最初のリクエストはコールドスタートをトリガーします。