Déploiement

Q: What happens when an endpoint is idle?

Avec l'option « scale-to-zero » activée : les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.

La Plateforme Ultralytics propose des options de déploiement complètes pour mettre vos modèles YOLO en production. Testez les modèles avec l'inférence basée sur navigateur, déployez-les vers des points de terminaison dédiés dans 43 régions mondiales et surveillez les performances en temps réel.

Regarder : Premiers pas avec Ultralytics - Déploiement

Aperçu

La section Déploiement vous aide à :

Test modèles directement dans le navigateur avec le Predict onglet
Déployer sur des points de terminaison dédiés dans 43 régions du monde
Surveiller les métriques de requête, les journaux et les vérifications de santé
Mise à l'échelle automatique avec le trafic (y compris la mise à l'échelle à zéro)

Page de déploiement Ultralytics Carte du monde avec cartes de présentation

Options de déploiement

La plateforme Ultralytics offre plusieurs chemins de déploiement :

Option	Description	Idéal pour
Onglet Prédire	Inférence basée sur navigateur avec image, webcam et exemples	Développement, validation
Inférence partagée	Service multi-locataires dans 3 régions	Utilisation légère, tests
Points de terminaison dédiés	Services à locataire unique dans 43 régions	Production, faible latence

Flux de travail

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff

Étape	Description
Test	Valider le modèle avec le `Predict` onglet
Configurer	Sélectionnez la région, les ressources et le nom du déploiement.
Déployer	Créer un point de terminaison dédié à partir du `Deploy` onglet
Surveiller	Suivez les demandes, la latence, les erreurs et les journaux dans Monitoring.

Architecture

Inférence partagée

Le service d'inférence partagé fonctionne dans trois régions clés et achemine automatiquement les demandes en fonction de votre région de données :

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff

Région	Emplacement
États-Unis	Iowa, États-Unis
UE	Belgique, Europe
AP	Hong Kong, Asie-Pacifique

Points de terminaison dédiés

Déployez dans 43 régions du monde entier sur Ultralytics Cloud :

Amériques : 14 régions
Europe : 13 régions
Asie-Pacifique : 12 régions
Moyen-Orient et Afrique : 4 régions

Chaque point de terminaison est un service mono-locataire doté de :

Ressources de calcul dédiées (CPU et mémoire configurables)
Mise à l'échelle automatique (mise à l'échelle à zéro en cas d'inactivité)
URL unique du point de terminaison
Surveillance indépendante, journaux et contrôles de santé

Page des déploiements

Accéder à la page des déploiements globaux depuis la barre latérale sous Deploy. Cette page affiche :

Carte du monde avec des épingles de régions déployées (carte interactive)
Cartes de synthèse : Requêtes totales (24h), Déploiements actifs, Taux d'erreur (24h), Latence P95 (24h)
Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
Nouveau déploiement : bouton pour créer des points de terminaison à partir de n'importe quel modèle terminé

Page de déploiement Ultralytics Aperçu des cartes et liste des déploiements

Interrogation automatique

La page effectue un sondage toutes les 30 secondes pour mettre à jour les métriques. Lorsque les déploiements sont dans un état transitoire (création, déploiement, arrêt), la fréquence des sondages passe à toutes les 2-3 secondes pour un retour quasi instantané.

Principales caractéristiques

Couverture mondiale

Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :

Amérique du Nord, Amérique du Sud
Europe, Moyen-Orient, Afrique
Asie-Pacifique, Océanie

Mise à l'échelle automatique

Les points de terminaison s'adaptent automatiquement :

Mise à l'échelle à zéro : Aucun coût en veille (par défaut)
Mise à l'échelle : Gérer automatiquement les pics de trafic

Économies de coûts

La mise à l'échelle à zéro est activée par défaut (nombre minimum d'instances = 0). Vous ne payez que pour le temps d'inférence actif.

Faible latence

Les points de terminaison dédiés offrent :

Démarrage à froid : ~5-15 secondes (conteneur mis en cache), jusqu'à ~45 secondes (premier déploiement)
Inférence à chaud : 50-200 ms (dépend du modèle)
Routage régional pour des performances optimales

Bilans de santé

Chaque déploiement en cours inclut une vérification automatique de l'état avec :

Indicateur d'état en temps réel (en bon état/défectueux)
Affichage de la latence de réponse
Nouvelle tentative automatique en cas de dysfonctionnement (interrogation toutes les 20 secondes)
Bouton d'actualisation manuelle

Démarrage rapide

Déployer un modèle en moins de 2 minutes :

Entraîner ou télécharger un modèle dans un projet
Accédez à l'onglet Déployer du modèle.
Sélectionnez une région dans le tableau des latences.
Cliquez sur Déployer — votre point de terminaison est actif

Déploiement rapide

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Une fois déployé, utilisez l'URL du point de terminaison avec votre clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.

Liens rapides

Inférence : Testez les modèles dans le navigateur
Points de terminaison : Déployez des points de terminaison dédiés
Surveillance : Suivez les performances de déploiement

FAQ

Quelle est la différence entre l'inférence partagée et dédiée ?

Fonctionnalité	Partagé	Dédié
Latence	Variable	Cohérent
Coût	Gratuit (inclus)	Gratuit (version de base), payant en fonction de l'utilisation (version avancée)
Échelle	Limité	Configurable
Régions	3	43
URL	Générique	Personnalisé
Tarif	20 requêtes/min	Illimité

Combien de temps prend le déploiement ?

Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :

Téléchargement de l'image (~30s)
Démarrage du conteneur (~30s)
Vérification de l'état de santé (~30s)

Puis-je déployer plusieurs modèles ?

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite sur le nombre total de points de terminaison (sous réserve de votre forfait).

Que se passe-t-il lorsqu'un point de terminaison est inactif ?

Avec la mise à l'échelle à zéro activée :

Le point de terminaison se met en veille après une période d'inactivité.
La première requête déclenche un démarrage à froid.
Les requêtes suivantes sont rapides.

Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.

📅 Créé il y a 2 mois ✏️ Mis à jour il y a 10 jours