Déploiement

Ultralytics Platform offre des options de déploiement complètes pour mettre tes modèles YOLO en production. Teste tes modèles avec l'inférence via navigateur, déploie-les sur des endpoints dédiés dans 43 régions mondiales et surveille les performances en temps réel.



Watch: Get Started with Ultralytics Platform - Deploy

Présentation

La section Déploiement t'aide à :

  • Tester des modèles directement dans le navigateur avec l'onglet Predict
  • Déployer vers des endpoints dédiés dans 43 régions mondiales
  • Surveiller les métriques de requêtes, les logs et les vérifications de santé
  • Mise à l'échelle vers zéro en cas d'inactivité (les déploiements exécutent actuellement une instance active unique)

Carte mondiale de la page de déploiement d'Ultralytics Platform avec cartes de présentation

Options de déploiement

Ultralytics Platform propose plusieurs chemins de déploiement :

OptionDescriptionIdéal pour
Onglet PredictInférence via navigateur avec image, webcam et exemplesDéveloppement, validation
Inférence partagéeService multi-locataire dans 3 régionsUsage léger, tests
Endpoints dédiésServices mono-locataires dans 43 régionsProduction, faible latence

Flux de travail

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ÉtapeDescription
TestValide ton modèle avec l'onglet Predict
ConfigurerSélectionne la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes)
DéployerCrée un endpoint dédié depuis l'onglet Deploy
SurveillerSuis les requêtes, la latence, les erreurs et les logs dans Monitoring

Architecture

Inférence partagée

Le service d'inférence partagée s'exécute dans 3 régions clés, routant automatiquement les requêtes en fonction de la région de tes données :

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RégionEmplacement
États-UnisIowa, USA
UEBelgique, Europe
APTaïwan, Asie-Pacifique

Endpoints dédiés

Déploie dans 43 régions à travers le monde sur Ultralytics Cloud :

  • Amériques : 14 régions
  • Europe : 13 régions
  • Asie-Pacifique : 12 régions
  • Moyen-Orient et Afrique : 4 régions

Chaque endpoint est un service mono-locataire avec :

  • Ressources par défaut de 1 CPU, 2 GiB de mémoire, minInstances=0, maxInstances=1
  • Mise à l'échelle vers zéro en cas d'inactivité
  • URL d'endpoint unique
  • Surveillance, logs et vérifications de santé indépendants

Page Déploiements

Accède à la page des déploiements globaux depuis la barre latérale sous Deploy. Cette page affiche :

  • Carte du monde avec les marqueurs des régions déployées (carte interactive)
  • Cartes de présentation : Total des requêtes (24h), Déploiements actifs, Taux d'erreur (24h), Latence P95 (24h)
  • Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
  • Bouton Nouveau déploiement pour créer des endpoints à partir de n'importe quel modèle terminé

Cartes de présentation et liste des déploiements sur la page de déploiement d'Ultralytics Platform

Interrogation automatique

La page interroge le système toutes les 15 secondes en temps normal. Lorsque les déploiements sont dans un état transitoire (creating, deploying ou stopping), l'interrogation passe à toutes les 3 secondes pour un retour plus rapide.

Fonctionnalités clés

Couverture mondiale

Déploie au plus près de tes utilisateurs avec 43 régions couvrant :

  • Amérique du Nord, Amérique du Sud
  • Europe, Moyen-Orient, Afrique
  • Asie-Pacifique, Océanie

Comportement de mise à l'échelle

Les endpoints se comportent actuellement comme suit :

  • Mise à l'échelle vers zéro : Aucun coût en cas d'inactivité (par défaut)
  • Instance active unique : maxInstances est actuellement limité à 1 sur tous les plans
Économies

La mise à l'échelle vers zéro est activée par défaut (instances min = 0). Tu ne paies que pour le temps d'inférence actif.

Faible latence

Les endpoints dédiés offrent :

  • Démarrage à froid : ~5-15 secondes (conteneur en cache), jusqu'à ~45 secondes (premier déploiement)
  • Inférence à chaud : 50-200ms (dépend du modèle)
  • Routage régional pour une performance optimale

Vérifications de santé

Chaque déploiement en cours inclut une vérification de santé automatique avec :

  • Indicateur de statut en direct (sain/non sain)
  • Affichage de la latence de réponse
  • Réessai automatique si non sain (interroge toutes les 20 secondes)
  • Bouton de rafraîchissement manuel

Démarrage rapide

Déploie un modèle en moins de 2 minutes :

  1. Entraîne ou téléverse un modèle vers un projet
  2. Va sur l'onglet Deploy du modèle
  3. Sélectionne une région dans le tableau de latence
  4. Clique sur Deploy — ton endpoint est en ligne
Déploiement rapide
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Une fois déployé, utilise l'URL de l'endpoint avec ta clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.

Liens rapides

  • Inférence : Teste tes modèles dans le navigateur
  • Endpoints : Déploie des endpoints dédiés
  • Monitoring : Suis les performances du déploiement

FAQ

Quelle est la différence entre l'inférence partagée et dédiée ?

FonctionnalitéPartagéeDédié
LatenceVariableCohérente
CoûtGratuit (inclus)Gratuit (basique), basé sur l'usage (avancé)
Mise à l'échelleLimitéeMise à l'échelle vers zéro, instance unique
Régions343
URLGénériquePersonnalisé
Débit20 req/minIllimité

Combien de temps prend le déploiement ?

Le déploiement d'un endpoint dédié prend généralement 1-2 minutes :

  1. Extraction de l'image (~30s)
  2. Démarrage du conteneur (~30s)
  3. Vérification de santé (~30s)

Puis-je déployer plusieurs modèles ?

Oui, chaque modèle peut avoir plusieurs endpoints dans différentes régions. Le nombre de déploiements est limité par ton forfait : Free 3, Pro 10, Enterprise unlimited.

Que se passe-t-il lorsqu'un endpoint est inactif ?

Avec le scale-to-zero activé :

  • L'endpoint réduit ses ressources après une période d'inactivité
  • La première requête déclenche un cold start
  • Les requêtes suivantes sont rapides

Les premières requêtes après une période d'inactivité déclenchent un cold start.

Commentaires