Link to this sectionDéploiement#

Q: Quelle est la différence entre l'inférence partagée et dédiée ?

| Fonctionnalité | Partagée | Dédiée | | -------------- | ---------------- | --------------------------------------------------------------------------- | | Latence | Variable | Constante | | Coût | Gratuit (inclus) | Gratuit (basique), basé sur l'usage (avancé) | | Échelle | Limitée | Réduction à zéro, instance unique | | Régions | 3 | 43 | | URL | Générique | Personnalisée | | Débit | 20 req/min | 20 req/min via Platform ; illimité sur l'URL de point de terminaison direct |

Ultralytics Platform fournit des options de déploiement complètes pour mettre tes modèles YOLO en production. Teste tes modèles avec l'inférence par navigateur, déploie-les vers des terminaux dédiés dans 43 régions mondiales et surveille les performances en temps réel.

Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionPrésentation#

La section Déploiement t'aide à :

Tester des modèles directement dans le navigateur avec l'onglet Predict
Déployer vers des terminaux dédiés dans 43 régions mondiales
Surveiller les métriques de requêtes, les journaux et les vérifications d'état
Réduire à zéro en cas d'inactivité (les déploiements exécutent actuellement une instance active unique)

Carte du monde de la page de déploiement d'Ultralytics Platform avec cartes de présentation

Link to this sectionOptions de déploiement#

Ultralytics Platform propose plusieurs chemins de déploiement :

Option	Description	Idéal pour
Onglet Predict	Inférence basée sur navigateur avec image, webcam et exemples	Développement, validation
Inférence partagée	Service multi-tenant sur 3 régions	Usage léger, tests
Terminaux dédiés	Services single-tenant sur 43 régions	Production, faible latence

Link to this sectionFlux de travail#

graph LR
    A[✅ Test]:::start --> B[⚙️ Configure]:::proc
    B --> C[🌐 Deploy]:::proc
    C --> D[📊 Monitor]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef out fill:#9C27B0,color:#fff

Étape	Description
Test	Valide ton modèle avec l'onglet `Predict`
Configurer	Sélectionne la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes)
Déployer	Crée un terminal dédié depuis l'onglet `Deploy`
Surveiller	Suis les requêtes, la latence, les erreurs et les journaux dans Monitoring

Link to this sectionArchitecture#

Link to this sectionInférence partagée#

Le service d'inférence partagée s'exécute dans 3 régions clés, acheminant automatiquement les requêtes en fonction de la région de tes données :

graph TB
    User[User Request]:::start --> API[Platform API]:::proc
    API --> Router{Region Router}:::decide
    Router -->|US users| US["US Predict Service<br/>Iowa"]:::out
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]:::out
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]:::out

    classDef start fill:#4CAF50,color:#fff
    classDef proc fill:#2196F3,color:#fff
    classDef decide fill:#FF9800,color:#fff
    classDef out fill:#9C27B0,color:#fff

Région	Emplacement
US	Iowa, USA
EU	Belgique, Europe
AP	Taïwan, Asie-Pacifique

Link to this sectionTerminaux dédiés#

Déploie dans 43 régions du monde sur Ultralytics Cloud :

Amériques : 14 régions
Europe : 13 régions
Asie-Pacifique : 12 régions
Moyen-Orient et Afrique : 4 régions

Chaque terminal est un service single-tenant avec :

Ressources par défaut de 1 CPU, 2 GiB de mémoire, minInstances=0, maxInstances=1
Réduction à zéro en cas d'inactivité
URL de terminal unique
Surveillance, journaux et vérifications d'état indépendants

Link to this sectionPage des déploiements#

Accède à la page des déploiements mondiaux depuis la barre latérale sous Deploy. Cette page affiche :

Carte du monde avec des épingles des régions déployées (carte interactive)
Cartes de présentation : Nombre total de requêtes (24h), déploiements actifs, taux d'erreur (24h), latence P95 (24h)
Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
Bouton Nouveau déploiement pour créer des terminaux à partir de n'importe quel modèle terminé

Cartes de présentation et liste des déploiements de la page de déploiement d'Ultralytics Platform

Interrogation automatique

La page s'interroge normalement toutes les 15 secondes. Lorsque les déploiements sont dans un état transitoire (creating, deploying ou stopping), l'interrogation passe à toutes les 3 secondes pour un retour plus rapide.

Link to this sectionFonctionnalités clés#

Link to this sectionCouverture mondiale#

Déploie près de tes utilisateurs avec 43 régions couvrant :

Amérique du Nord, Amérique du Sud
Europe, Moyen-Orient, Afrique
Asie-Pacifique, Océanie

Link to this sectionComportement de mise à l'échelle#

Les terminaux se comportent actuellement comme suit :

Réduction à zéro : Aucun coût en cas d'inactivité (par défaut)
Instance active unique : maxInstances est actuellement plafonné à 1 sur tous les plans

Économies

La réduction à zéro est activée par défaut (instances min = 0). Tu ne paies que pour le temps d'inférence actif.

Link to this sectionFaible latence#

Les terminaux dédiés offrent :

Démarrage à froid : ~5-15 secondes (conteneur en cache), jusqu'à ~45 secondes (premier déploiement)
Inférence à chaud : 50-200ms (selon le modèle)
Routage régional pour une performance optimale

Link to this sectionVérifications d'état#

Chaque déploiement en cours inclut une vérification d'état automatique avec :

Indicateur d'état en direct (sain/non sain)
Affichage de la latence de réponse
Réessai automatique en cas d'état non sain (interrogation toutes les 20 secondes)
Bouton de rafraîchissement manuel

Link to this sectionDémarrage rapide#

Déploie un modèle en moins de 2 minutes :

Entraîne ou téléverse un modèle vers un projet
Va dans l'onglet Deploy du modèle
Sélectionne une région dans le tableau de latence
Clique sur Deploy — ton terminal est en ligne

Déploiement rapide

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Une fois déployé, utilise l'URL du terminal avec ta clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.

Link to this sectionLiens rapides#

Inférence : Teste les modèles dans le navigateur
Terminaux : Déploie des terminaux dédiés
Surveillance : Suis les performances de déploiement

Link to this sectionFAQ#

Link to this sectionQuelle est la différence entre l'inférence partagée et dédiée ?#

Fonctionnalité	Partagée	Dédiée
Latence	Variable	Constante
Coût	Gratuit (inclus)	Gratuit (basique), basé sur l'usage (avancé)
Échelle	Limitée	Réduction à zéro, instance unique
Régions	3	43
URL	Générique	Personnalisée
Débit	20 req/min	20 req/min via Platform ; illimité sur l'URL de point de terminaison direct

Link to this sectionCombien de temps prend le déploiement ?#

Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :

Extraction d'image (~30s)
Démarrage du conteneur (~30s)
Vérification de l'état (~30s)

Link to this sectionPuis-je déployer plusieurs modèles ?#

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Les nombres de déploiements sont limités par forfait : Free 3, Pro 10, Enterprise unlimited.

Link to this sectionQue se passe-t-il lorsqu'un point de terminaison est inactif ?#

Avec la mise à l'échelle à zéro activée :

Le point de terminaison réduit sa capacité après inactivité
La première requête déclenche un démarrage à froid
Les requêtes suivantes sont rapides

Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.

Contributeurs

GLglenn-jocher¹³ RAraimbekovm¹ RIRizwanMunawar¹ SEsergiuwaxmann¹

Créé 14 janv. 2026Mis à jour il y a 3 jours