Passer au contenu

Déploiement

La plateforme Ultralytics offre des options de déploiement complètes pour mettre vos modèles YOLO en production. Testez les modèles avec l'Inference API, déployez-les sur des points de terminaison dédiés et surveillez les performances en temps réel.

Aperçu

La section Déploiement vous aide à :

  • Tester les modèles directement dans le navigateur
  • Déployer sur des points de terminaison dédiés dans 43 régions du monde
  • Surveiller les métriques de requêtes et les journaux
  • Mettre à l'échelle automatiquement en fonction du trafic

Options de déploiement

La plateforme Ultralytics offre plusieurs chemins de déploiement :

OptionDescriptionIdéal pour
Onglet TestTest d'inférence basé sur le navigateurDéveloppement, validation
API partagéeService d'inférence multi-locataireUtilisation légère, tests
Points de terminaison dédiésServices de production mono-locataireProduction, faible latence

Flux de travail

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ÉtapeDescription
TestValider le modèle avec des sample_images
ConfigurerSélectionner la région et les options de mise à l'échelle
DéployerCréer un point de terminaison dédié
Surveillertrack les requêtes, la latence et les erreurs

Architecture

Inférence partagée

Le service d'inférence partagé est opérationnel dans 3 régions clés :

RégionEmplacement
États-UnisIowa, États-Unis
UEBelgique, Europe
APTaïwan, Asie-Pacifique

Les requêtes sont automatiquement acheminées vers votre région de données.

Points de terminaison dédiés

Déployez dans 43 régions du monde entier :

  • Amériques : 15 régions
  • Europe : 12 régions
  • Asie-Pacifique : 16 régions

Chaque point de terminaison est un service mono-locataire doté de :

  • Ressources de calcul dédiées
  • Mise à l'échelle automatique (0 à N instances)
  • URL personnalisée
  • Surveillance indépendante

Principales caractéristiques

Couverture mondiale

Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :

  • Amérique du Nord, Amérique du Sud
  • Europe, Moyen-Orient, Afrique
  • Asie-Pacifique, Océanie

Mise à l'échelle automatique

Les points de terminaison s'adaptent automatiquement :

  • Mise à l'échelle à zéro : Aucun coût en cas d'inactivité
  • Montée en charge : Gère les pics de trafic
  • Limites configurables : Définissez le nombre minimal/maximal d'instances

Faible latence

Les points de terminaison dédiés offrent :

  • Démarrage à froid : ~2-5 secondes
  • Inférence à chaud : 50-200 ms (dépend du modèle)
  • Routage régional pour des performances optimales

FAQ

Quelle est la différence entre l'inférence partagée et dédiée ?

FonctionnalitéPartagéDédié
LatenceVariableCohérent
CoûtPaiement par requêtePaiement à l'utilisation
ÉchelleLimitéConfigurable
Régions343
URLGénériquePersonnalisé

Combien de temps prend le déploiement ?

Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :

  1. Téléchargement de l'image (~30s)
  2. Démarrage du conteneur (~30s)
  3. Vérification de l'état de santé (~30s)

Puis-je déployer plusieurs modèles ?

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite sur le nombre total de points de terminaison (sous réserve de votre forfait).

Que se passe-t-il lorsqu'un point de terminaison est inactif ?

Avec la mise à l'échelle à zéro activée :

  • Le point de terminaison se met en veille après une période d'inactivité.
  • La première requête déclenche un démarrage à froid.
  • Les requêtes suivantes sont rapides.

Pour éviter les démarrages à froid, définissez le nombre minimal d'instances à une valeur supérieure à 0.



📅 Créé il y a 20 jours ✏️ Mis à jour il y a 14 jours
glenn-jocher

Commentaires