Meet YOLO26: next-gen vision AI.

Link to this sectionDéploiement#

Ultralytics Platform fournit des options de déploiement complètes pour mettre tes modèles YOLO en production. Teste tes modèles avec l'inférence par navigateur, déploie-les vers des terminaux dédiés dans 43 régions mondiales et surveille les performances en temps réel.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionPrésentation#

La section Déploiement t'aide à :

  • Tester des modèles directement dans le navigateur avec l'onglet Predict
  • Déployer vers des terminaux dédiés dans 43 régions mondiales
  • Surveiller les métriques de requêtes, les journaux et les vérifications d'état
  • Réduire à zéro en cas d'inactivité (les déploiements exécutent actuellement une instance active unique)

Carte du monde de la page de déploiement d'Ultralytics Platform avec cartes de présentation

Link to this sectionOptions de déploiement#

Ultralytics Platform propose plusieurs chemins de déploiement :

OptionDescriptionIdéal pour
Onglet PredictInférence basée sur navigateur avec image, webcam et exemplesDéveloppement, validation
Inférence partagéeService multi-tenant sur 3 régionsUsage léger, tests
Terminaux dédiésServices single-tenant sur 43 régionsProduction, faible latence

Link to this sectionFlux de travail#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
ÉtapeDescription
TestValide ton modèle avec l'onglet Predict
ConfigurerSélectionne la région et le nom du déploiement (les déploiements utilisent des ressources par défaut fixes)
DéployerCrée un terminal dédié depuis l'onglet Deploy
SurveillerSuis les requêtes, la latence, les erreurs et les journaux dans Monitoring

Link to this sectionArchitecture#

Link to this sectionInférence partagée#

Le service d'inférence partagée s'exécute dans 3 régions clés, acheminant automatiquement les requêtes en fonction de la région de tes données :

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RégionEmplacement
USIowa, USA
EUBelgique, Europe
APTaïwan, Asie-Pacifique

Link to this sectionTerminaux dédiés#

Déploie dans 43 régions du monde sur Ultralytics Cloud :

  • Amériques : 14 régions
  • Europe : 13 régions
  • Asie-Pacifique : 12 régions
  • Moyen-Orient et Afrique : 4 régions

Chaque terminal est un service single-tenant avec :

  • Ressources par défaut de 1 CPU, 2 GiB de mémoire, minInstances=0, maxInstances=1
  • Réduction à zéro en cas d'inactivité
  • URL de terminal unique
  • Surveillance, journaux et vérifications d'état indépendants

Link to this sectionPage des déploiements#

Accède à la page des déploiements mondiaux depuis la barre latérale sous Deploy. Cette page affiche :

  • Carte du monde avec des épingles des régions déployées (carte interactive)
  • Cartes de présentation : Nombre total de requêtes (24h), déploiements actifs, taux d'erreur (24h), latence P95 (24h)
  • Liste des déploiements avec trois modes d'affichage : cartes, compact et tableau
  • Bouton Nouveau déploiement pour créer des terminaux à partir de n'importe quel modèle terminé

Cartes de présentation et liste des déploiements de la page de déploiement d'Ultralytics Platform

Interrogation automatique

La page s'interroge normalement toutes les 15 secondes. Lorsque les déploiements sont dans un état transitoire (creating, deploying ou stopping), l'interrogation passe à toutes les 3 secondes pour un retour plus rapide.

Link to this sectionFonctionnalités clés#

Link to this sectionCouverture mondiale#

Déploie près de tes utilisateurs avec 43 régions couvrant :

  • Amérique du Nord, Amérique du Sud
  • Europe, Moyen-Orient, Afrique
  • Asie-Pacifique, Océanie

Link to this sectionComportement de mise à l'échelle#

Les terminaux se comportent actuellement comme suit :

  • Réduction à zéro : Aucun coût en cas d'inactivité (par défaut)
  • Instance active unique : maxInstances est actuellement plafonné à 1 sur tous les plans
Économies

La réduction à zéro est activée par défaut (instances min = 0). Tu ne paies que pour le temps d'inférence actif.

Link to this sectionFaible latence#

Les terminaux dédiés offrent :

  • Démarrage à froid : ~5-15 secondes (conteneur en cache), jusqu'à ~45 secondes (premier déploiement)
  • Inférence à chaud : 50-200ms (selon le modèle)
  • Routage régional pour une performance optimale

Link to this sectionVérifications d'état#

Chaque déploiement en cours inclut une vérification d'état automatique avec :

  • Indicateur d'état en direct (sain/non sain)
  • Affichage de la latence de réponse
  • Réessai automatique en cas d'état non sain (interrogation toutes les 20 secondes)
  • Bouton de rafraîchissement manuel

Link to this sectionDémarrage rapide#

Déploie un modèle en moins de 2 minutes :

  1. Entraîne ou téléverse un modèle vers un projet
  2. Va dans l'onglet Deploy du modèle
  3. Sélectionne une région dans le tableau de latence
  4. Clique sur Deploy — ton terminal est en ligne
Déploiement rapide
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Une fois déployé, utilise l'URL du terminal avec ta clé API pour envoyer des requêtes d'inférence depuis n'importe quelle application.

Link to this sectionLiens rapides#

Link to this sectionFAQ#

Link to this sectionQuelle est la différence entre l'inférence partagée et dédiée ?#

FonctionnalitéPartagéeDédiée
LatenceVariableConstante
CoûtGratuit (inclus)Gratuit (basique), basé sur l'usage (avancé)
ÉchelleLimitéeRéduction à zéro, instance unique
Régions343
URLGénériquePersonnalisée
Débit20 req/min20 req/min via Platform ; illimité sur l'URL de point de terminaison direct

Link to this sectionCombien de temps prend le déploiement ?#

Le déploiement d'un point de terminaison dédié prend généralement 1 à 2 minutes :

  1. Extraction d'image (~30s)
  2. Démarrage du conteneur (~30s)
  3. Vérification de l'état (~30s)

Link to this sectionPuis-je déployer plusieurs modèles ?#

Oui, chaque modèle peut avoir plusieurs points de terminaison dans différentes régions. Les nombres de déploiements sont limités par forfait : Free 3, Pro 10, Enterprise unlimited.

Link to this sectionQue se passe-t-il lorsqu'un point de terminaison est inactif ?#

Avec la mise à l'échelle à zéro activée :

  • Le point de terminaison réduit sa capacité après inactivité
  • La première requête déclenche un démarrage à froid
  • Les requêtes suivantes sont rapides

Les premières requêtes après une période d'inactivité déclenchent un démarrage à froid.

Commentaires