コンテンツにスキップ

展開

Ultralytics 、YOLO 本番環境に導入するための包括的なデプロイオプションを提供します。推論APIでモデルをテストし、専用エンドポイントにデプロイし、パフォーマンスをリアルタイムで監視できます。

概要

デプロイメントセクションでは、以下のことを行います:

  • ブラウザ上で直接テストモデルを実行
  • 43のグローバルリージョンにある専用エンドポイントにデプロイする
  • リクエストのメトリクスとログを監視する
  • トラフィックに応じて自動的に拡張する

デプロイメントオプション

Ultralytics 複数のデプロイメントパスを提供します:

オプション説明最適
テストタブブラウザベースの推論テスト開発、検証
共有APIマルチテナント推論サービス軽い使用、テスト
専用エンドポイントシングルテナント向け本番環境サービス生産、低遅延

ワークフロー

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ステージ説明
テストサンプル画像でモデルを検証する
設定地域とスケーリングオプションを選択
デプロイ専用エンドポイントを作成する
監視リクエスト、レイテンシ、エラーを追跡する

アーキテクチャ

共有推論

共有推論サービスは3つの主要リージョンで稼働しています:

地域場所
米国米国中部(アイオワ州)
EUEU西(ベルギー)
APアジア太平洋(香港)

リクエストは自動的にお客様のデータリージョンにルーティングされます。

専用エンドポイント

世界43のリージョンにデプロイ:

  • アメリカ大陸:15地域
  • ヨーロッパ:12地域
  • アジア太平洋地域:16地域

各エンドポイントはシングルテナントサービスであり、以下の特徴を備えています:

  • 専用コンピューティングリソース
  • 自動スケーリング(0~Nインスタンス)
  • カスタムURL
  • 独立監視

主な特徴

グローバルカバレッジ

43のリージョンでユーザーに近い場所にデプロイ:

  • 北アメリカ、南アメリカ
  • ヨーロッパ、中東、アフリカ
  • アジア太平洋、オセアニア

自動スケーリング

エンドポイントは自動的にスケーリングされます:

  • ゼロスケール:アイドル時はコストなし
  • スケールアップ:トラフィックの急増に対応する
  • 設定可能な制限: 最小/最大インスタンス数を設定

低遅延

専用エンドポイントは以下を提供します:

  • コールドスタート: 約2~5秒
  • ウォーム推論: 50-200ミリ秒 (モデル依存)
  • 最適なパフォーマンスのための地域別ルーティング
  • 推論: ブラウザでモデルをテストする
  • エンドポイント: 専用エンドポイントを展開する
  • 監視: デプロイメントのパフォーマンスを追跡する

よくある質問

共有推論と専用推論の違いは何ですか?

特徴共有専任の
レイテンシー変数一貫した
費用リクエストごとの支払い稼働時間に対する支払い
スケール限定設定可能
地域343
URLジェネリックカスタム

デプロイにはどれくらい時間がかかりますか?

専用エンドポイントのデプロイには通常1~2分かかります:

  1. イメージプル(約30秒)
  2. コンテナ起動(約30秒)
  3. ヘルスチェック(約30秒)

複数のモデルを展開できますか?

はい、各モデルは異なるリージョンに複数のエンドポイントを持つことができます。エンドポイントの総数に制限はありません(ご利用のプランに準じます)。

エンドポイントがアイドル状態になると何が起こりますか?

スケール・トゥ・ゼロを有効にした場合:

  • エンドポイントは非アクティブ状態後にスケールダウンする
  • 最初のリクエストがコールドスタートをトリガーする
  • その後のリクエストは高速です

コールドスタートを回避するには、最小インスタンス数を 0 より大きく設定してください。



📅 0日前に作成 ✏️ 0日前に更新
glenn-jocher

コメント