Link to this sectionDéploiement#
Ultralytics Platform fournit des options de déploiement complètes pour mettre tes modèles YOLO en production. Teste tes modèles avec l'inférence par navigateur, déploie-les vers des terminaux dédiés dans 43 régions mondiales et surveille les performances en temps réel.
Watch: Get Started with Ultralytics Platform - Deploy
Link to this sectionPrésentation#
La section Déploiement t'aide à :
- Tester des modèles directement dans le navigateur avec l'onglet
Predict - Déployer vers des terminaux dédiés dans 43 régions mondiales
- Surveiller les métriques de requêtes, les journaux et les vérifications d'état
- Réduire à zéro en cas d'inactivité (les déploiements exécutent actuellement une instance active unique)

Link to this sectionOptions de déploiement#
Ultralytics Platform propose plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Predict | Inférence basée sur navigateur avec image, webcam et exemples | Développement, validation |
| Inférence partagée | Service multi-tenant sur 3 régions | Usage léger, tests |
| Terminaux dédiés | Services single-tenant sur 43 régions | Production, faible latence |
Link to this sectionFlux de travail#
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Étape | Description |
|---|---|
| Test | Valide ton modèle avec l'onglet Predict |
| Configurer | Sélectionne la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes) |
| Déployer | Crée un terminal dédié depuis l'onglet Deploy |
| Surveiller | Suis les requêtes, la latence, les erreurs et les journaux dans Monitoring |
Link to this sectionArchitecture#
Link to this sectionInférence partagée#
Le service d'inférence partagée s'exécute dans 3 régions clés, acheminant automatiquement les requêtes en fonction de la région de tes données :
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Région | Emplacement |
|---|---|
| US | Iowa, USA |
| EU | Belgique, Europe |
| AP | Taïwan, Asie-Pacifique |
Link to this sectionTerminaux dédiés#
Déploie dans 43 régions du monde sur Ultralytics Cloud :
- Amériques : 14 régions
- Europe : 13 régions
- Asie-Pacifique : 12 régions
- Moyen-Orient et Afrique : 4 régions
Chaque terminal est un service single-tenant avec :
- Ressources par défaut de
1 CPU,2 GiBde mémoire,minInstances=0,maxInstances=1 - Réduction à zéro en cas d'inactivité
- URL de terminal unique
- Surveillance, journaux et vérifications d'état indépendants
Link to this sectionPage des déploiements#
Accède à la page des déploiements mondiaux depuis la barre latérale sous Deploy. Cette page affiche :
- Carte du monde avec des épingles des régions déployées (carte interactive)
- Cartes de présentation : Nombre total de requêtes (24h), déploiements actifs, taux d'erreur (24h), latence P95 (24h)
- Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
- Bouton Nouveau déploiement pour créer des terminaux à partir de n'importe quel modèle terminé

La page s'interroge normalement toutes les 15 secondes. Lorsque les déploiements sont dans un état transitoire (creating, deploying ou stopping), l'interrogation passe à toutes les 3 secondes pour un retour plus rapide.
Link to this sectionFonctionnalités clés#
Link to this sectionCouverture mondiale#
Déploie près de tes utilisateurs avec 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Link to this sectionComportement de mise à l'échelle#
Les terminaux se comportent actuellement comme suit :
- Réduction à zéro : Aucun coût en cas d'inactivité (par défaut)
- Instance active unique :
maxInstancesest actuellement plafonné à1sur tous les plans
La réduction à zéro est activée par défaut (instances min = 0). Tu ne paies que pour le temps d'inférence actif.
Link to this sectionFaible latence#
Les terminaux dédiés offrent :
- Démarrage à froid : ~5-15 secondes (conteneur en cache), jusqu'à ~45 secondes (premier déploiement)
- Inférence à chaud : 50-200ms (selon le modèle)
- Routage régional pour une performance optimale
Link to this sectionVérifications d'état#
Chaque déploiement en cours inclut une vérification d'état automatique avec :
- Indicateur d'état en direct (sain/non sain)
- Affichage de la latence de réponse
- Réessai automatique en cas d'état non sain (interrogation toutes les 20 secondes)
- Bouton de rafraîchissement manuel
Link to this sectionDémarrage rapide#
Déploie un modèle en moins de 2 minutes :
- Entraîne ou téléverse un modèle vers un projet
- Va dans l'onglet Deploy du modèle
- Sélectionne une région dans le tableau de latence
- Clique sur Deploy — ton terminal est en ligne
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Une fois déployé, utilise l'URL du terminal avec ta clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.
Link to this sectionLiens rapides#
- Inférence : Teste les modèles dans le navigateur
- Terminaux : Déploie des terminaux dédiés
- Surveillance : Suis les performances de déploiement
Link to this sectionFAQ#
Link to this sectionQuelle est la différence entre l'inférence partagée et dédiée ?#
| Fonctionnalité | Partagée | Dédiée |
|---|---|---|
| Latence | Variable | Constante |
| Coût | Gratuit (inclus) | Gratuit (basique), basé sur l'usage (avancé) |
| Échelle | Limitée | Réduction à zéro, instance unique |
| Régions | 3 | 43 |
| URL | Générique | Personnalisée |
| Débit | 20 req/min | 20 req/min via Platform ; illimité sur l'URL de point de terminaison direct |
Link to this sectionCombien de temps prend le déploiement ?#
Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :
- Extraction d'image (~30s)
- Démarrage du conteneur (~30s)
- Vérification de l'état (~30s)
Link to this sectionPuis-je déployer plusieurs modèles ?#
Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Les nombres de déploiements sont limités par forfait : Free 3, Pro 10, Enterprise unlimited.
Link to this sectionQue se passe-t-il lorsqu'un point de terminaison est inactif ?#
Avec la mise à l'échelle à zéro activée :
- Le point de terminaison réduit sa capacité après inactivité
- La première requête déclenche un démarrage à froid
- Les requêtes suivantes sont rapides
Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.