Déploiement
La Plateforme Ultralytics propose des options de déploiement complètes pour mettre vos modèles YOLO en production. Testez les modèles avec l'inférence basée sur navigateur, déployez-les vers des points de terminaison dédiés dans 43 régions mondiales et surveillez les performances en temps réel.
Regarder : Premiers pas avec Ultralytics - Déploiement
Aperçu
La section Déploiement vous aide à :
- Test modèles directement dans le navigateur avec le
Predictonglet - Déployer sur des points de terminaison dédiés dans 43 régions du monde
- Surveiller les métriques de requête, les journaux et les vérifications de santé
- Revenir à zéro en mode veille (les déploiements n'utilisent actuellement qu'une seule instance active)

Options de déploiement
La plateforme Ultralytics offre plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Prédire | Inférence basée sur navigateur avec image, webcam et exemples | Développement, validation |
| Inférence partagée | Service multi-locataires dans 3 régions | Utilisation légère, tests |
| Points de terminaison dédiés | Services à locataire unique dans 43 régions | Production, faible latence |
Flux de travail
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Étape | Description |
|---|---|
| Test | Valider le modèle avec le Predict onglet |
| Configurer | Sélectionnez la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes) |
| Déployer | Créer un point de terminaison dédié à partir du Deploy onglet |
| Surveiller | Suivez les demandes, la latence, les erreurs et les journaux dans Monitoring. |
Architecture
Inférence partagée
Le service d'inférence partagé fonctionne dans trois régions clés et achemine automatiquement les demandes en fonction de votre région de données :
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| Région | Emplacement |
|---|---|
| États-Unis | Iowa, États-Unis |
| UE | Belgique, Europe |
| AP | Hong Kong, Asie-Pacifique |
Points de terminaison dédiés
Déployez dans 43 régions du monde entier sur Ultralytics Cloud :
- Amériques : 14 régions
- Europe : 13 régions
- Asie-Pacifique : 12 régions
- Moyen-Orient et Afrique : 4 régions
Chaque point de terminaison est un service mono-locataire doté de :
- Ressources par défaut de
1 CPU,2 GiBmémoire,minInstances=0,maxInstances=1 - Remise à zéro de l'échelle en mode veille
- URL unique du point de terminaison
- Surveillance indépendante, journaux et contrôles de santé
Page des déploiements
Accéder à la page des déploiements globaux depuis la barre latérale sous Deploy. Cette page affiche :
- Carte du monde avec des épingles de régions déployées (carte interactive)
- Cartes de synthèse : Requêtes totales (24h), Déploiements actifs, Taux d'erreur (24h), Latence P95 (24h)
- Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
- Nouveau déploiement : bouton pour créer des points de terminaison à partir de n'importe quel modèle terminé

Interrogation automatique
En temps normal, la page effectue une requête toutes les 15 secondes. Lorsque les déploiements sont en phase de transition (creating, deploying, ou stopping), la fréquence de sondage passe à toutes les 3 secondes pour un retour d'information plus rapide.
Principales caractéristiques
Couverture mondiale
Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Comportement à l'échelle
Les points de terminaison se comportent actuellement comme suit :
- Mise à l'échelle à zéro : Aucun coût en veille (par défaut)
- Une seule instance active:
maxInstancesest actuellement plafonné à1sur tous les forfaits
Économies de coûts
La mise à l'échelle à zéro est activée par défaut (nombre minimum d'instances = 0). Vous ne payez que pour le temps d'inférence actif.
Faible latence
Les points de terminaison dédiés offrent :
- Démarrage à froid : ~5-15 secondes (conteneur mis en cache), jusqu'à ~45 secondes (premier déploiement)
- Inférence à chaud : 50-200 ms (dépend du modèle)
- Routage régional pour des performances optimales
Bilans de santé
Chaque déploiement en cours inclut une vérification automatique de l'état avec :
- Indicateur d'état en temps réel (en bon état/défectueux)
- Affichage de la latence de réponse
- Nouvelle tentative automatique en cas de dysfonctionnement (interrogation toutes les 20 secondes)
- Bouton d'actualisation manuelle
Démarrage rapide
Déployer un modèle en moins de 2 minutes :
- Entraîner ou télécharger un modèle dans un projet
- Accédez à l'onglet Déployer du modèle.
- Sélectionnez une région dans le tableau des latences.
- Cliquez sur Déployer — votre point de terminaison est actif
Déploiement rapide
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Une fois déployé, utilisez l'URL du point de terminaison avec votre clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.
Liens rapides
- Inférence : Testez les modèles dans le navigateur
- Points de terminaison : Déployez des points de terminaison dédiés
- Surveillance : Suivez les performances de déploiement
FAQ
Quelle est la différence entre l'inférence partagée et dédiée ?
| Fonctionnalité | Partagé | Dédié |
|---|---|---|
| Latence | Variable | Cohérent |
| Coût | Gratuit (inclus) | Gratuit (version de base), payant en fonction de l'utilisation (version avancée) |
| Échelle | Limité | Mise à l'échelle à zéro, instance unique |
| Régions | 3 | 43 |
| URL | Générique | Personnalisé |
| Tarif | 20 requêtes/min | Illimité |
Combien de temps prend le déploiement ?
Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :
- Téléchargement de l'image (~30s)
- Démarrage du conteneur (~30s)
- Vérification de l'état de santé (~30s)
Puis-je déployer plusieurs modèles ?
Oui, chaque modèle peut disposer de plusieurs points de terminaison dans différentes régions. Le nombre de déploiements est limité en fonction du forfait : Gratuit 3, Pro 10, Entreprise unlimited.
Que se passe-t-il lorsqu'un point de terminaison est inactif ?
Avec la mise à l'échelle à zéro activée :
- Le point de terminaison se met en veille après une période d'inactivité.
- La première requête déclenche un démarrage à froid.
- Les requêtes suivantes sont rapides.
Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.