Déploiement
Ultralytics offre des options de déploiement complètes pour mettre vos YOLO en production. Testez les modèles avec l'API d'inférence, déployez-les sur des points de terminaison dédiés et surveillez leurs performances en temps réel.
Aperçu
La section Déploiement vous aide à :
- Testez les modèles directement dans le navigateur
- Déployez sur des points de terminaison dédiés dans 43 régions du monde entier.
- Surveiller les métriques et les journaux des requêtes
- Évoluez automatiquement en fonction du trafic
Options de déploiement
Ultralytics offre plusieurs chemins de déploiement :
| Option | Description | Idéal pour |
|---|---|---|
| Onglet Test | Test d'inférence basé sur un navigateur | Développement, validation |
| API partagée | Service d'inférence multi-locataires | Utilisation légère, test |
| Terminaux dédiés | Services de production à locataire unique | Production, faible latence |
Flux de travail
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Scène | Description |
|---|---|
| Test | Valider le modèle avec des images échantillons |
| Configurer | Sélectionnez la région et les options de mise à l'échelle |
| Déployer | Créer un point de terminaison dédié |
| Moniteur | Suivre les demandes, la latence et les erreurs |
Architecture
Inférence partagée
Le service d'inférence partagé fonctionne dans trois régions clés :
| Région | Emplacement |
|---|---|
| États-Unis | Centre des États-Unis (Iowa) |
| UE | UE Ouest (Belgique) |
| AP | Asie-Pacifique (Hong Kong) |
Les demandes sont automatiquement acheminées vers votre région de données.
Terminaux dédiés
Déployer dans 43 régions à travers le monde :
- Amériques: 15 régions
- Europe: 12 régions
- Asie-Pacifique: 16 régions
Chaque point de terminaison est un service à locataire unique avec :
- Ressources informatiques dédiées
- Auto-scaling (0-N instances)
- URL personnalisée
- Surveillance indépendante
Principales caractéristiques
Couverture mondiale
Déployez-vous à proximité de vos utilisateurs grâce à 43 régions couvrant :
- Amérique du Nord, Amérique du Sud
- Europe, Moyen-Orient, Afrique
- Asie-Pacifique, Océanie
Auto-scaling
Les points finaux s'adaptent automatiquement :
- Échelle à zéro: aucun coût en veille
- Augmenter la capacité: gérer les pics de trafic
- Limites configurables: définir les instances minimales/maximales
Faible latence
Les terminaux dédiés offrent :
- Démarrage à froid : environ 2 à 5 secondes
- Inférence à chaud : 50 à 200 ms (selon le modèle)
- Routage régional pour des performances optimales
Liens rapides
- Inférence: Tester les modèles dans le navigateur
- Points d'extrémité: Déployer des points de terminaison dédiés
- Surveillance: Suivre les performances de déploiement
FAQ
Quelle est la différence entre l'inférence partagée et l'inférence dédiée ?
| Fonctionnalité | Partagé | Dédié |
|---|---|---|
| Latence | Variable | Cohérent |
| Coût | Paiement à la demande | Payer pour le temps de disponibilité |
| Échelle | Limité | Configurable |
| Régions | 3 | 43 |
| URL | Générique | Personnalisé |
Combien de temps dure le déploiement ?
Le déploiement d'un terminal dédié prend généralement 1 à 2 minutes :
- Extraction d'image (~30 s)
- Démarrage du conteneur (~30 s)
- Bilan de santé (~30 s)
Puis-je déployer plusieurs modèles ?
Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Il n'y a pas de limite au nombre total de points de terminaison (sous réserve de votre forfait).
Que se passe-t-il lorsqu'un terminal est inactif ?
Avec l'option « scale-to-zero » activée :
- Le terminal réduit son activité après une période d'inactivité.
- La première requête déclenche un démarrage à froid
- Les demandes suivantes sont rapides
Pour éviter les démarrages à froid, définissez un nombre minimum d'instances > 0.