Passer au contenu

Déploiement

Ultralytics offre des options de déploiement complètes pour mettre vos YOLO en production. Testez les modèles grâce à l'inférence basée sur un navigateur, déployez-les sur des points de terminaison dédiés dans 43 régions du monde et surveillez leurs performances en temps réel.

Aperçu

La section Déploiement vous aide à :

  • Test modèles directement dans le navigateur avec le Predict onglet
  • Déployer sur des points de terminaison dédiés dans 43 régions du monde
  • Surveillez les métriques des requêtes, les journaux et les contrôles d'intégrité.
  • Évoluez automatiquement en fonction du trafic (y compris l'évolutivité à zéro)

Page de déploiement Ultralytics Carte du monde avec cartes de présentation

Options de déploiement

La plateforme Ultralytics offre plusieurs chemins de déploiement :

OptionDescriptionIdéal pour
Onglet PrédireInférence basée sur un navigateur avec image, webcam et exemplesDéveloppement, validation
Inférence partagéeService multi-locataires dans 3 régionsUtilisation légère, tests
Points de terminaison dédiésServices à locataire unique dans 43 régionsProduction, faible latence

Flux de travail

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ÉtapeDescription
TestValider le modèle avec le Predict onglet
ConfigurerSélectionnez la région, les ressources et le nom du déploiement.
DéployerCréer un point de terminaison dédié à partir du Deploy onglet
SurveillerSuivez les demandes, la latence, les erreurs et les journaux dans Monitoring.

Architecture

Inférence partagée

Le service d'inférence partagé fonctionne dans trois régions clés et achemine automatiquement les demandes en fonction de votre région de données :

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RégionEmplacement
États-UnisIowa, États-Unis
UEBelgique, Europe
APHong Kong, Asie-Pacifique

Points de terminaison dédiés

Déployez dans 43 régions à travers le monde sur Ultralytics :

  • Amériques: 14 régions
  • Europe: 13 régions
  • Asie-Pacifique: 12 régions
  • Moyen-Orient et Afrique: 4 régions

Chaque point de terminaison est un service mono-locataire doté de :

  • Ressources informatiques dédiées ( CPU mémoire configurables)
  • Auto-scaling (réduction à zéro en cas d'inactivité)
  • URL unique du point de terminaison
  • Surveillance indépendante, journaux et contrôles de santé

Page Déploiements

Accédez à la page des déploiements mondiaux depuis la barre latérale sous DeployCette page affiche :

  • Carte du monde avec repères des régions déployées (carte interactive)
  • Cartes récapitulatives: Nombre total de requêtes (24 h), Déploiements actifs, Taux d'erreur (24 h), Latence P95 (24 h)
  • Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
  • Nouveau bouton Déploiement pour créer des points de terminaison à partir de n'importe quel modèle terminé

Page de déploiement Ultralytics Aperçu des cartes et liste des déploiements

Sondage automatique

La page effectue un sondage toutes les 30 secondes pour mettre à jour les métriques. Lorsque les déploiements sont dans un état transitoire (création, déploiement, arrêt), la fréquence des sondages passe à toutes les 2-3 secondes pour un retour quasi instantané.

Principales caractéristiques

Couverture mondiale

Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :

  • Amérique du Nord, Amérique du Sud
  • Europe, Moyen-Orient, Afrique
  • Asie-Pacifique, Océanie

Mise à l'échelle automatique

Les points de terminaison s'adaptent automatiquement :

  • Échelle à zéro: aucun coût en veille (par défaut)
  • Mise à l'échelle: gérez automatiquement les pics de trafic

Réduction des coûts

La mise à l'échelle à zéro est activée par défaut (nombre minimum d'instances = 0). Vous ne payez que pour le temps d'inférence actif.

Faible latence

Les points de terminaison dédiés offrent :

  • Démarrage à froid : environ 5 à 15 secondes (conteneur mis en cache), jusqu'à environ 45 secondes (premier déploiement)
  • Inférence à chaud : 50-200 ms (dépend du modèle)
  • Routage régional pour des performances optimales

Bilans de santé

Chaque déploiement en cours comprend un contrôle de santé automatique avec :

  • Indicateur d'état en temps réel (en bon état/défectueux)
  • Affichage de la latence de réponse
  • Réessayer automatiquement en cas de dysfonctionnement (vérification toutes les 20 secondes)
  • Bouton d'actualisation manuelle

Démarrage rapide

Déployez un modèle en moins de 2 minutes :

  1. Entraîner ou télécharger un modèle dans un projet
  2. Accédez à l'onglet Déployer du modèle.
  3. Sélectionnez une région dans le tableau des latences.
  4. Cliquez sur Déployer — votre point de terminaison est opérationnel.

Déploiement rapide

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Une fois déployé, utilisez l'URL du point de terminaison avec votre clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.

FAQ

Quelle est la différence entre l'inférence partagée et dédiée ?

FonctionnalitéPartagéDédié
LatenceVariableCohérent
CoûtPaiement par requêtePaiement à l'utilisation
ÉchelleLimitéConfigurable
Régions343
URLGénériquePersonnalisé

Combien de temps prend le déploiement ?

Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :

  1. Téléchargement de l'image (~30s)
  2. Démarrage du conteneur (~30s)
  3. Vérification de l'état de santé (~30s)

Puis-je déployer plusieurs modèles ?

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite sur le nombre total de points de terminaison (sous réserve de votre forfait).

Que se passe-t-il lorsqu'un point de terminaison est inactif ?

Avec la mise à l'échelle à zéro activée :

  • Le point de terminaison se met en veille après une période d'inactivité.
  • La première requête déclenche un démarrage à froid.
  • Les requêtes suivantes sont rapides.

Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.



📅 Créé il y a 1 mois ✏️ Mis à jour il y a 4 jours
glenn-jochersergiuwaxmann

Commentaires