Passer au contenu

Déploiement

La Plateforme Ultralytics propose des options de déploiement complètes pour mettre vos modèles YOLO en production. Testez les modèles avec l'inférence basée sur navigateur, déployez-les vers des points de terminaison dédiés dans 43 régions mondiales et surveillez les performances en temps réel.



Regarder : Premiers pas avec Ultralytics - Déploiement

Aperçu

La section Déploiement vous aide à :

  • Test modèles directement dans le navigateur avec le Predict onglet
  • Déployer sur des points de terminaison dédiés dans 43 régions du monde
  • Surveiller les métriques de requête, les journaux et les vérifications de santé
  • Mise à l'échelle automatique avec le trafic (y compris la mise à l'échelle à zéro)

Page de déploiement Ultralytics Carte du monde avec cartes de présentation

Options de déploiement

La plateforme Ultralytics offre plusieurs chemins de déploiement :

OptionDescriptionIdéal pour
Onglet PrédireInférence basée sur navigateur avec image, webcam et exemplesDéveloppement, validation
Inférence partagéeService multi-locataires dans 3 régionsUtilisation légère, tests
Points de terminaison dédiésServices à locataire unique dans 43 régionsProduction, faible latence

Flux de travail

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ÉtapeDescription
TestValider le modèle avec le Predict onglet
ConfigurerSélectionnez la région, les ressources et le nom du déploiement.
DéployerCréer un point de terminaison dédié à partir du Deploy onglet
SurveillerSuivez les demandes, la latence, les erreurs et les journaux dans Monitoring.

Architecture

Inférence partagée

Le service d'inférence partagé fonctionne dans trois régions clés et achemine automatiquement les demandes en fonction de votre région de données :

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RégionEmplacement
États-UnisIowa, États-Unis
UEBelgique, Europe
APHong Kong, Asie-Pacifique

Points de terminaison dédiés

Déployez dans 43 régions du monde entier sur Ultralytics Cloud :

  • Amériques : 14 régions
  • Europe : 13 régions
  • Asie-Pacifique : 12 régions
  • Moyen-Orient et Afrique : 4 régions

Chaque point de terminaison est un service mono-locataire doté de :

  • Ressources de calcul dédiées (CPU et mémoire configurables)
  • Mise à l'échelle automatique (mise à l'échelle à zéro en cas d'inactivité)
  • URL unique du point de terminaison
  • Surveillance indépendante, journaux et contrôles de santé

Page des déploiements

Accéder à la page des déploiements globaux depuis la barre latérale sous Deploy. Cette page affiche :

  • Carte du monde avec des épingles de régions déployées (carte interactive)
  • Cartes de synthèse : Requêtes totales (24h), Déploiements actifs, Taux d'erreur (24h), Latence P95 (24h)
  • Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
  • Nouveau déploiement : bouton pour créer des points de terminaison à partir de n'importe quel modèle terminé

Page de déploiement Ultralytics Aperçu des cartes et liste des déploiements

Interrogation automatique

La page effectue un sondage toutes les 30 secondes pour mettre à jour les métriques. Lorsque les déploiements sont dans un état transitoire (création, déploiement, arrêt), la fréquence des sondages passe à toutes les 2-3 secondes pour un retour quasi instantané.

Principales caractéristiques

Couverture mondiale

Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :

  • Amérique du Nord, Amérique du Sud
  • Europe, Moyen-Orient, Afrique
  • Asie-Pacifique, Océanie

Mise à l'échelle automatique

Les points de terminaison s'adaptent automatiquement :

  • Mise à l'échelle à zéro : Aucun coût en veille (par défaut)
  • Mise à l'échelle : Gérer automatiquement les pics de trafic

Économies de coûts

La mise à l'échelle à zéro est activée par défaut (nombre minimum d'instances = 0). Vous ne payez que pour le temps d'inférence actif.

Faible latence

Les points de terminaison dédiés offrent :

  • Démarrage à froid : ~5-15 secondes (conteneur mis en cache), jusqu'à ~45 secondes (premier déploiement)
  • Inférence à chaud : 50-200 ms (dépend du modèle)
  • Routage régional pour des performances optimales

Bilans de santé

Chaque déploiement en cours inclut une vérification automatique de l'état avec :

  • Indicateur d'état en temps réel (en bon état/défectueux)
  • Affichage de la latence de réponse
  • Nouvelle tentative automatique en cas de dysfonctionnement (interrogation toutes les 20 secondes)
  • Bouton d'actualisation manuelle

Démarrage rapide

Déployer un modèle en moins de 2 minutes :

  1. Entraîner ou télécharger un modèle dans un projet
  2. Accédez à l'onglet Déployer du modèle.
  3. Sélectionnez une région dans le tableau des latences.
  4. Cliquez sur Déployer — votre point de terminaison est actif

Déploiement rapide

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Une fois déployé, utilisez l'URL du point de terminaison avec votre clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.

FAQ

Quelle est la différence entre l'inférence partagée et dédiée ?

FonctionnalitéPartagéDédié
LatenceVariableCohérent
CoûtGratuit (inclus)Gratuit (version de base), payant en fonction de l'utilisation (version avancée)
ÉchelleLimitéConfigurable
Régions343
URLGénériquePersonnalisé
Tarif20 requêtes/minIllimité

Combien de temps prend le déploiement ?

Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :

  1. Téléchargement de l'image (~30s)
  2. Démarrage du conteneur (~30s)
  3. Vérification de l'état de santé (~30s)

Puis-je déployer plusieurs modèles ?

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite sur le nombre total de points de terminaison (sous réserve de votre forfait).

Que se passe-t-il lorsqu'un point de terminaison est inactif ?

Avec la mise à l'échelle à zéro activée :

  • Le point de terminaison se met en veille après une période d'inactivité.
  • La première requête déclenche un démarrage à froid.
  • Les requêtes suivantes sont rapides.

Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.



📅 Créé il y a 2 mois ✏️ Mis à jour il y a 10 jours
glenn-jocherRizwanMunawarsergiuwaxmann

Commentaires