Déploiement
Ultralytics offre des options de déploiement complètes pour mettre vos YOLO en production. Testez les modèles grâce à l'inférence basée sur un navigateur, déployez-les sur des points de terminaison dédiés dans 43 régions du monde et surveillez leurs performances en temps réel.
Aperçu
La section Déploiement vous aide à :
- Test modèles directement dans le navigateur avec le
Predictonglet - Déployer sur des points de terminaison dédiés dans 43 régions du monde
- Surveillez les métriques des requêtes, les journaux et les contrôles d'intégrité.
- Évoluez automatiquement en fonction du trafic (y compris l'évolutivité à zéro)

Options de déploiement
La plateforme Ultralytics offre plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Prédire | Inférence basée sur un navigateur avec image, webcam et exemples | Développement, validation |
| Inférence partagée | Service multi-locataires dans 3 régions | Utilisation légère, tests |
| Points de terminaison dédiés | Services à locataire unique dans 43 régions | Production, faible latence |
Flux de travail
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Étape | Description |
|---|---|
| Test | Valider le modèle avec le Predict onglet |
| Configurer | Sélectionnez la région, les ressources et le nom du déploiement. |
| Déployer | Créer un point de terminaison dédié à partir du Deploy onglet |
| Surveiller | Suivez les demandes, la latence, les erreurs et les journaux dans Monitoring. |
Architecture
Inférence partagée
Le service d'inférence partagé fonctionne dans trois régions clés et achemine automatiquement les demandes en fonction de votre région de données :
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| Région | Emplacement |
|---|---|
| États-Unis | Iowa, États-Unis |
| UE | Belgique, Europe |
| AP | Hong Kong, Asie-Pacifique |
Points de terminaison dédiés
Déployez dans 43 régions à travers le monde sur Ultralytics :
- Amériques: 14 régions
- Europe: 13 régions
- Asie-Pacifique: 12 régions
- Moyen-Orient et Afrique: 4 régions
Chaque point de terminaison est un service mono-locataire doté de :
- Ressources informatiques dédiées ( CPU mémoire configurables)
- Auto-scaling (réduction à zéro en cas d'inactivité)
- URL unique du point de terminaison
- Surveillance indépendante, journaux et contrôles de santé
Page Déploiements
Accédez à la page des déploiements mondiaux depuis la barre latérale sous DeployCette page affiche :
- Carte du monde avec repères des régions déployées (carte interactive)
- Cartes récapitulatives: Nombre total de requêtes (24 h), Déploiements actifs, Taux d'erreur (24 h), Latence P95 (24 h)
- Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
- Nouveau bouton Déploiement pour créer des points de terminaison à partir de n'importe quel modèle terminé

Sondage automatique
La page effectue un sondage toutes les 30 secondes pour mettre à jour les métriques. Lorsque les déploiements sont dans un état transitoire (création, déploiement, arrêt), la fréquence des sondages passe à toutes les 2-3 secondes pour un retour quasi instantané.
Principales caractéristiques
Couverture mondiale
Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Mise à l'échelle automatique
Les points de terminaison s'adaptent automatiquement :
- Échelle à zéro: aucun coût en veille (par défaut)
- Mise à l'échelle: gérez automatiquement les pics de trafic
Réduction des coûts
La mise à l'échelle à zéro est activée par défaut (nombre minimum d'instances = 0). Vous ne payez que pour le temps d'inférence actif.
Faible latence
Les points de terminaison dédiés offrent :
- Démarrage à froid : environ 5 à 15 secondes (conteneur mis en cache), jusqu'à environ 45 secondes (premier déploiement)
- Inférence à chaud : 50-200 ms (dépend du modèle)
- Routage régional pour des performances optimales
Bilans de santé
Chaque déploiement en cours comprend un contrôle de santé automatique avec :
- Indicateur d'état en temps réel (en bon état/défectueux)
- Affichage de la latence de réponse
- Réessayer automatiquement en cas de dysfonctionnement (vérification toutes les 20 secondes)
- Bouton d'actualisation manuelle
Démarrage rapide
Déployez un modèle en moins de 2 minutes :
- Entraîner ou télécharger un modèle dans un projet
- Accédez à l'onglet Déployer du modèle.
- Sélectionnez une région dans le tableau des latences.
- Cliquez sur Déployer — votre point de terminaison est opérationnel.
Déploiement rapide
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Une fois déployé, utilisez l'URL du point de terminaison avec votre clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.
Liens rapides
- Inférence : Testez les modèles dans le navigateur
- Points de terminaison : Déployez des points de terminaison dédiés
- Surveillance : Suivez les performances de déploiement
FAQ
Quelle est la différence entre l'inférence partagée et dédiée ?
| Fonctionnalité | Partagé | Dédié |
|---|---|---|
| Latence | Variable | Cohérent |
| Coût | Paiement par requête | Paiement à l'utilisation |
| Échelle | Limité | Configurable |
| Régions | 3 | 43 |
| URL | Générique | Personnalisé |
Combien de temps prend le déploiement ?
Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :
- Téléchargement de l'image (~30s)
- Démarrage du conteneur (~30s)
- Vérification de l'état de santé (~30s)
Puis-je déployer plusieurs modèles ?
Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite sur le nombre total de points de terminaison (sous réserve de votre forfait).
Que se passe-t-il lorsqu'un point de terminaison est inactif ?
Avec la mise à l'échelle à zéro activée :
- Le point de terminaison se met en veille après une période d'inactivité.
- La première requête déclenche un démarrage à froid.
- Les requêtes suivantes sont rapides.
Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.