Passer au contenu

Déploiement

Ultralytics offre des options de déploiement complètes pour mettre vos YOLO en production. Testez les modèles avec l'API d'inférence, déployez-les sur des points de terminaison dédiés et surveillez leurs performances en temps réel.

Aperçu

La section Déploiement vous aide à :

  • Testez les modèles directement dans le navigateur
  • Déployez sur des points de terminaison dédiés dans 43 régions du monde entier.
  • Surveiller les métriques et les journaux des requêtes
  • Évoluez automatiquement en fonction du trafic

Options de déploiement

Ultralytics offre plusieurs chemins de déploiement :

OptionDescriptionIdéal pour
Onglet TestTest d'inférence basé sur un navigateurDéveloppement, validation
API partagéeService d'inférence multi-locatairesUtilisation légère, test
Terminaux dédiésServices de production à locataire uniqueProduction, faible latence

Flux de travail

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ScèneDescription
TestValider le modèle avec des images échantillons
ConfigurerSélectionnez la région et les options de mise à l'échelle
DéployerCréer un point de terminaison dédié
MoniteurSuivre les demandes, la latence et les erreurs

Architecture

Inférence partagée

Le service d'inférence partagé fonctionne dans trois régions clés :

RégionEmplacement
États-UnisCentre des États-Unis (Iowa)
UEUE Ouest (Belgique)
APAsie-Pacifique (Hong Kong)

Les demandes sont automatiquement acheminées vers votre région de données.

Terminaux dédiés

Déployer dans 43 régions à travers le monde :

  • Amériques: 15 régions
  • Europe: 12 régions
  • Asie-Pacifique: 16 régions

Chaque point de terminaison est un service à locataire unique avec :

  • Ressources informatiques dédiées
  • Auto-scaling (0-N instances)
  • URL personnalisée
  • Surveillance indépendante

Principales caractéristiques

Couverture mondiale

Déployez-vous à proximité de vos utilisateurs grâce à 43 régions couvrant :

  • Amérique du Nord, Amérique du Sud
  • Europe, Moyen-Orient, Afrique
  • Asie-Pacifique, Océanie

Auto-scaling

Les points finaux s'adaptent automatiquement :

  • Échelle à zéro: aucun coût en veille
  • Augmenter la capacité: gérer les pics de trafic
  • Limites configurables: définir les instances minimales/maximales

Faible latence

Les terminaux dédiés offrent :

  • Démarrage à froid : environ 2 à 5 secondes
  • Inférence à chaud : 50 à 200 ms (selon le modèle)
  • Routage régional pour des performances optimales

FAQ

Quelle est la différence entre l'inférence partagée et l'inférence dédiée ?

FonctionnalitéPartagéDédié
LatenceVariableCohérent
CoûtPaiement à la demandePayer pour le temps de disponibilité
ÉchelleLimitéConfigurable
Régions343
URLGénériquePersonnalisé

Combien de temps dure le déploiement ?

Le déploiement d'un terminal dédié prend généralement 1 à 2 minutes :

  1. Extraction d'image (~30 s)
  2. Démarrage du conteneur (~30 s)
  3. Bilan de santé (~30 s)

Puis-je déployer plusieurs modèles ?

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite au nombre total de points de terminaison (sous réserve de votre forfait).

Que se passe-t-il lorsqu'un terminal est inactif ?

Avec l'option « scale-to-zero » activée :

  • Le terminal réduit son activité après une période d'inactivité.
  • La première requête déclenche un démarrage à froid
  • Les demandes suivantes sont rapides

Pour éviter les démarrages à froid, définissez un nombre minimum d'instances > 0.



📅 Créé il y a 0 jour ✏️ Mis à jour il y a 0 jour
glenn-jocher

Commentaires