Déploiement
La plateforme Ultralytics offre des options de déploiement complètes pour mettre vos modèles YOLO en production. Testez les modèles avec l'Inference API, déployez-les sur des points de terminaison dédiés et surveillez les performances en temps réel.
Aperçu
La section Déploiement vous aide à :
- Tester les modèles directement dans le navigateur
- Déployer sur des points de terminaison dédiés dans 43 régions du monde
- Surveiller les métriques de requêtes et les journaux
- Mettre à l'échelle automatiquement en fonction du trafic
Options de déploiement
La plateforme Ultralytics offre plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Test | Test d'inférence basé sur le navigateur | Développement, validation |
| API partagée | Service d'inférence multi-locataire | Utilisation légère, tests |
| Points de terminaison dédiés | Services de production mono-locataire | Production, faible latence |
Flux de travail
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Étape | Description |
|---|---|
| Test | Valider le modèle avec des sample_images |
| Configurer | Sélectionner la région et les options de mise à l'échelle |
| Déployer | Créer un point de terminaison dédié |
| Surveiller | track les requêtes, la latence et les erreurs |
Architecture
Inférence partagée
Le service d'inférence partagé est opérationnel dans 3 régions clés :
| Région | Emplacement |
|---|---|
| États-Unis | Iowa, États-Unis |
| UE | Belgique, Europe |
| AP | Taïwan, Asie-Pacifique |
Les requêtes sont automatiquement acheminées vers votre région de données.
Points de terminaison dédiés
Déployez dans 43 régions du monde entier :
- Amériques : 15 régions
- Europe : 12 régions
- Asie-Pacifique : 16 régions
Chaque point de terminaison est un service mono-locataire doté de :
- Ressources de calcul dédiées
- Mise à l'échelle automatique (0 à N instances)
- URL personnalisée
- Surveillance indépendante
Principales caractéristiques
Couverture mondiale
Déployez au plus près de vos utilisateurs grâce à 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Mise à l'échelle automatique
Les points de terminaison s'adaptent automatiquement :
- Mise à l'échelle à zéro : Aucun coût en cas d'inactivité
- Montée en charge : Gère les pics de trafic
- Limites configurables : Définissez le nombre minimal/maximal d'instances
Faible latence
Les points de terminaison dédiés offrent :
- Démarrage à froid : ~2-5 secondes
- Inférence à chaud : 50-200 ms (dépend du modèle)
- Routage régional pour des performances optimales
Liens rapides
- Inférence : Testez les modèles dans le navigateur
- Points de terminaison : Déployez des points de terminaison dédiés
- Surveillance : Suivez les performances de déploiement
FAQ
Quelle est la différence entre l'inférence partagée et dédiée ?
| Fonctionnalité | Partagé | Dédié |
|---|---|---|
| Latence | Variable | Cohérent |
| Coût | Paiement par requête | Paiement à l'utilisation |
| Échelle | Limité | Configurable |
| Régions | 3 | 43 |
| URL | Générique | Personnalisé |
Combien de temps prend le déploiement ?
Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :
- Téléchargement de l'image (~30s)
- Démarrage du conteneur (~30s)
- Vérification de l'état de santé (~30s)
Puis-je déployer plusieurs modèles ?
Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite sur le nombre total de points de terminaison (sous réserve de votre forfait).
Que se passe-t-il lorsqu'un point de terminaison est inactif ?
Avec la mise à l'échelle à zéro activée :
- Le point de terminaison se met en veille après une période d'inactivité.
- La première requête déclenche un démarrage à froid.
- Les requêtes suivantes sont rapides.
Pour éviter les démarrages à froid, définissez le nombre minimal d'instances à une valeur supérieure à 0.