Déploiement
Ultralytics Platform offre des options de déploiement complètes pour mettre tes modèles YOLO en production. Teste tes modèles avec l'inférence via navigateur, déploie-les sur des endpoints dédiés dans 43 régions mondiales et surveille les performances en temps réel.
Watch: Get Started with Ultralytics Platform - Deploy
Présentation
La section Déploiement t'aide à :
- Tester des modèles directement dans le navigateur avec l'onglet
Predict - Déployer vers des endpoints dédiés dans 43 régions mondiales
- Surveiller les métriques de requêtes, les logs et les vérifications de santé
- Mise à l'échelle vers zéro en cas d'inactivité (les déploiements exécutent actuellement une instance active unique)

Options de déploiement
Ultralytics Platform propose plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Predict | Inférence via navigateur avec image, webcam et exemples | Développement, validation |
| Inférence partagée | Service multi-locataire dans 3 régions | Usage léger, tests |
| Endpoints dédiés | Services mono-locataires dans 43 régions | Production, faible latence |
Flux de travail
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Étape | Description |
|---|---|
| Test | Valide ton modèle avec l'onglet Predict |
| Configurer | Sélectionne la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes) |
| Déployer | Crée un endpoint dédié depuis l'onglet Deploy |
| Surveiller | Suis les requêtes, la latence, les erreurs et les logs dans Monitoring |
Architecture
Inférence partagée
Le service d'inférence partagée s'exécute dans 3 régions clés, routant automatiquement les requêtes en fonction de la région de tes données :
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Région | Emplacement |
|---|---|
| États-Unis | Iowa, USA |
| UE | Belgique, Europe |
| AP | Taïwan, Asie-Pacifique |
Endpoints dédiés
Déploie dans 43 régions à travers le monde sur Ultralytics Cloud :
- Amériques : 14 régions
- Europe : 13 régions
- Asie-Pacifique : 12 régions
- Moyen-Orient et Afrique : 4 régions
Chaque endpoint est un service mono-locataire avec :
- Ressources par défaut de
1 CPU,2 GiBde mémoire,minInstances=0,maxInstances=1 - Mise à l'échelle vers zéro en cas d'inactivité
- URL d'endpoint unique
- Surveillance, logs et vérifications de santé indépendants
Page Déploiements
Accède à la page des déploiements globaux depuis la barre latérale sous Deploy. Cette page affiche :
- Carte du monde avec les marqueurs des régions déployées (carte interactive)
- Cartes de présentation : Total des requêtes (24h), Déploiements actifs, Taux d'erreur (24h), Latence P95 (24h)
- Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
- Bouton Nouveau déploiement pour créer des endpoints à partir de n'importe quel modèle terminé

La page interroge le système toutes les 15 secondes en temps normal. Lorsque les déploiements sont dans un état transitoire (creating, deploying ou stopping), l'interrogation passe à toutes les 3 secondes pour un retour plus rapide.
Fonctionnalités clés
Couverture mondiale
Déploie au plus près de tes utilisateurs avec 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Comportement de mise à l'échelle
Les endpoints se comportent actuellement comme suit :
- Mise à l'échelle vers zéro : Aucun coût en cas d'inactivité (par défaut)
- Instance active unique :
maxInstancesest actuellement limité à1sur tous les plans
La mise à l'échelle vers zéro est activée par défaut (instances min = 0). Tu ne paies que pour le temps d'inférence actif.
Faible latence
Les endpoints dédiés offrent :
- Démarrage à froid : ~5-15 secondes (conteneur en cache), jusqu'à ~45 secondes (premier déploiement)
- Inférence à chaud : 50-200ms (dépend du modèle)
- Routage régional pour une performance optimale
Vérifications de santé
Chaque déploiement en cours inclut une vérification de santé automatique avec :
- Indicateur de statut en direct (sain/non sain)
- Affichage de la latence de réponse
- Réessai automatique si non sain (interroge toutes les 20 secondes)
- Bouton de rafraîchissement manuel
Démarrage rapide
Déploie un modèle en moins de 2 minutes :
- Entraîne ou téléverse un modèle vers un projet
- Va sur l'onglet Deploy du modèle
- Sélectionne une région dans le tableau de latence
- Clique sur Deploy — ton endpoint est en ligne
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Une fois déployé, utilise l'URL de l'endpoint avec ta clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.
Liens rapides
- Inférence : Teste tes modèles dans le navigateur
- Endpoints : Déploie des endpoints dédiés
- Monitoring : Suis les performances du déploiement
FAQ
Quelle est la différence entre l'inférence partagée et dédiée ?
| Fonctionnalité | Partagée | Dédié |
|---|---|---|
| Latence | Variable | Cohérente |
| Coût | Gratuit (inclus) | Gratuit (basique), basé sur l'usage (avancé) |
| Mise à l'échelle | Limitée | Mise à l'échelle vers zéro, instance unique |
| Régions | 3 | 43 |
| URL | Générique | Personnalisé |
| Débit | 20 req/min | Illimité |
Combien de temps prend le déploiement ?
Le déploiement d'un endpoint dédié prend généralement 1-2 minutes :
- Extraction de l'image (~30s)
- Démarrage du conteneur (~30s)
- Vérification de santé (~30s)
Puis-je déployer plusieurs modèles ?
Oui, chaque modèle peut avoir plusieurs endpoints dans différentes régions. Le nombre de déploiements est limité par ton forfait : Free 3, Pro 10, Enterprise unlimited.
Que se passe-t-il lorsqu'un endpoint est inactif ?
Avec le scale-to-zero activé :
- L'endpoint réduit ses ressources après une période d'inactivité
- La première requête déclenche un cold start
- Les requêtes suivantes sont rapides
Les premières requêtes après une période d'inactivité déclenchent un cold start.