Link to this sectionDéploiement#
Ultralytics Platform offre des options de déploiement complètes pour mettre tes modèles YOLO en production. Teste tes modèles avec l'inférence via navigateur, déploie-les sur des endpoints dédiés dans 43 régions mondiales et surveille les performances en temps réel.
Watch: Get Started with Ultralytics Platform - Deploy
Link to this sectionPrésentation#
La section Déploiement t'aide à :
- Tester des modèles directement dans le navigateur avec l'onglet
Predict - Déployer vers des endpoints dédiés dans 43 régions mondiales
- Surveiller les métriques de requêtes, les logs et les vérifications de santé
- Mise à l'échelle vers zéro en cas d'inactivité (les déploiements exécutent actuellement une instance active unique)

Link to this sectionOptions de déploiement#
Ultralytics Platform propose plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Predict | Inférence via navigateur avec image, webcam et exemples | Développement, validation |
| Inférence partagée | Service multi-locataire dans 3 régions | Usage léger, tests |
| Endpoints dédiés | Services mono-locataires dans 43 régions | Production, faible latence |
Link to this sectionFlux de travail#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Étape | Description |
|---|---|
| Test | Valide ton modèle avec l'onglet Predict |
| Configurer | Sélectionne la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes) |
| Déployer | Crée un endpoint dédié depuis l'onglet Deploy |
| Surveiller | Suis les requêtes, la latence, les erreurs et les logs dans Monitoring |
Link to this sectionArchitecture#
Link to this sectionInférence partagée#
Le service d'inférence partagée s'exécute dans 3 régions clés, routant automatiquement les requêtes en fonction de la région de tes données :
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Région | Emplacement |
|---|---|
| États-Unis | Iowa, USA |
| UE | Belgique, Europe |
| AP | Taïwan, Asie-Pacifique |
Link to this sectionEndpoints dédiés#
Déploie dans 43 régions à travers le monde sur Ultralytics Cloud :
- Amériques : 14 régions
- Europe : 13 régions
- Asie-Pacifique : 12 régions
- Moyen-Orient et Afrique : 4 régions
Chaque endpoint est un service mono-locataire avec :
- Ressources par défaut de
1 CPU,2 GiBde mémoire,minInstances=0,maxInstances=1 - Mise à l'échelle vers zéro en cas d'inactivité
- URL d'endpoint unique
- Surveillance, logs et vérifications de santé indépendants
Link to this sectionPage Déploiements#
Accède à la page des déploiements globaux depuis la barre latérale sous Deploy. Cette page affiche :
- Carte du monde avec les marqueurs des régions déployées (carte interactive)
- Cartes de présentation : Total des requêtes (24h), Déploiements actifs, Taux d'erreur (24h), Latence P95 (24h)
- Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
- Bouton Nouveau déploiement pour créer des endpoints à partir de n'importe quel modèle terminé

La page interroge le système toutes les 15 secondes en temps normal. Lorsque les déploiements sont dans un état transitoire (creating, deploying ou stopping), l'interrogation passe à toutes les 3 secondes pour un retour plus rapide.
Link to this sectionFonctionnalités clés#
Link to this sectionCouverture mondiale#
Déploie au plus près de tes utilisateurs avec 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Link to this sectionComportement de mise à l'échelle#
Les endpoints se comportent actuellement comme suit :
- Mise à l'échelle vers zéro : Aucun coût en cas d'inactivité (par défaut)
- Instance active unique :
maxInstancesest actuellement limité à1sur tous les plans
La mise à l'échelle vers zéro est activée par défaut (instances min = 0). Tu ne paies que pour le temps d'inférence actif.
Link to this sectionFaible latence#
Les endpoints dédiés offrent :
- Démarrage à froid : ~5-15 secondes (conteneur en cache), jusqu'à ~45 secondes (premier déploiement)
- Inférence à chaud : 50-200ms (dépend du modèle)
- Routage régional pour une performance optimale
Link to this sectionVérifications de santé#
Chaque déploiement en cours inclut une vérification de santé automatique avec :
- Indicateur de statut en direct (sain/non sain)
- Affichage de la latence de réponse
- Réessai automatique si non sain (interroge toutes les 20 secondes)
- Bouton de rafraîchissement manuel
Link to this sectionDémarrage rapide#
Déploie un modèle en moins de 2 minutes :
- Entraîne ou téléverse un modèle vers un projet
- Va sur l'onglet Deploy du modèle
- Sélectionne une région dans le tableau de latence
- Clique sur Deploy — ton endpoint est en ligne
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Une fois déployé, utilise l'URL de l'endpoint avec ta clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.
Link to this sectionLiens rapides#
- Inférence : Teste tes modèles dans le navigateur
- Endpoints : Déploie des endpoints dédiés
- Monitoring : Suis les performances du déploiement
Link to this sectionFAQ#
Link to this sectionQuelle est la différence entre l'inférence partagée et dédiée ?#
| Fonctionnalité | Partagée | Dédié |
|---|---|---|
| Latence | Variable | Cohérente |
| Coût | Gratuit (inclus) | Gratuit (basique), basé sur l'usage (avancé) |
| Mise à l'échelle | Limitée | Mise à l'échelle vers zéro, instance unique |
| Régions | 3 | 43 |
| URL | Générique | Personnalisé |
| Débit | 20 req/min | Illimité |
Link to this sectionCombien de temps prend le déploiement ?#
Le déploiement d'un endpoint dédié prend généralement 1-2 minutes :
- Extraction de l'image (~30s)
- Démarrage du conteneur (~30s)
- Vérification de santé (~30s)
Link to this sectionPuis-je déployer plusieurs modèles ?#
Oui, chaque modèle peut avoir plusieurs endpoints dans différentes régions. Le nombre de déploiements est limité par ton forfait : Free 3, Pro 10, Enterprise unlimited.
Link to this sectionQue se passe-t-il lorsqu'un endpoint est inactif ?#
Avec le scale-to-zero activé :
- L'endpoint réduit ses ressources après une période d'inactivité
- La première requête déclenche un cold start
- Les requêtes suivantes sont rapides
Les premières requêtes après une période d'inactivité déclenchent un cold start.