Endpoints dédiés

Ultralytics Platform permet le déploiement de modèles YOLO sur des points de terminaison dédiés dans 43 régions mondiales. Chaque point de terminaison est un service à locataire unique avec une capacité de mise à l'échelle vers zéro, une URL unique et une surveillance indépendante.

Onglet de déploiement de modèle de la plateforme Ultralytics avec carte des régions et tableau

Créer un point de terminaison

Depuis l'onglet Déploiement

Déploie un modèle depuis son onglet Deploy :

  1. Navigue vers ton modèle
  2. Clique sur l'onglet Deploy
  3. Sélectionne une région sur la carte interactive du monde — les régions sont codées par couleur selon la latence depuis ton emplacement (vert < 100ms, jaune < 200ms, rouge > 200ms)
  4. Clique sur Deploy sur la ligne de la région

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par ex. yolo26n-iowa).

Depuis la page Déploiements

Crée un déploiement depuis la page globale Deploy dans la barre latérale :

  1. Clique sur New Deployment
  2. Sélectionne un modèle dans le sélecteur de modèle
  3. Sélectionne une région depuis la carte ou le tableau
  4. Vérifie le nom du déploiement généré automatiquement (modifiable) et les ressources par défaut
  5. Clique sur Deploy Model

Boîte de dialogue Nouveau déploiement de la plateforme Ultralytics avec sélecteur de modèle et carte des régions

Cycle de vie du déploiement

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Sélection de la région

Choisis parmi 43 régions dans le monde. La carte interactive des régions et le tableau affichent :

  • Épingles de région : Codées par couleur selon la latence (vert < 100ms, jaune < 200ms, rouge > 200ms)
  • Régions déployées : Mises en évidence avec un badge "Deployed"
  • Régions en cours de déploiement : Indicateur de pulsation animé
  • Mise en évidence bidirectionnelle : Survoler la carte met en surbrillance la ligne du tableau, et vice versa

Tableau de latence des régions de l'onglet Déploiement de la plateforme Ultralytics trié par latence

Le tableau des régions dans l'onglet Deploy du modèle inclut :

ColonneDescription
EmplacementVille et pays avec icône de drapeau
ZoneIdentifiant de région
LatenceTemps de ping mesuré (médiane de 3 pings)
DistanceDistance depuis ton emplacement en km
ActionsBouton Déployer ou badge de statut "Deployed"
Boîte de dialogue Nouveau déploiement

La boîte de dialogue New Deployment (depuis la page globale Deploy) affiche un tableau des régions plus simple avec seulement les colonnes Emplacement, Latence et Sélectionner.

Choisis judicieusement

Sélectionne la région la plus proche de tes utilisateurs pour une latence minimale. Utilise le bouton Rescan pour remesurer la latence depuis ton emplacement actuel.

Régions disponibles

ZoneEmplacement
us-central1Iowa, USA
us-east1Caroline du Sud, États-Unis
us-east4Virginie du Nord, États-Unis
us-east5Columbus, États-Unis
us-south1Dallas, États-Unis
us-west1Oregon, États-Unis
us-west2Los Angeles, États-Unis
us-west3Salt Lake City, États-Unis
us-west4Las Vegas, États-Unis
northamerica-northeast1Montréal, Canada
northamerica-northeast2Toronto, Canada
northamerica-south1Querétaro, Mexique
southamerica-east1São Paulo, Brésil
southamerica-west1Santiago, Chili

Configuration de l'endpoint

Boîte de dialogue Nouveau déploiement

La fenêtre New Deployment propose :

ParamètreDescriptionDéfaut
ModèleSélectionne parmi les modèles terminés-
RégionRégion de déploiement-
Nom du déploiementAuto-généré, modifiable-
Cœurs CPUValeur par défaut fixe1
Mémoire (Go)Valeur par défaut fixe2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

Les déploiements utilisent des valeurs par défaut fixes de 1 CPU, 2 GiB de mémoire, minInstances = 0 et maxInstances = 1. Ils passent à zéro lorsqu'ils sont inactifs, tu ne paies donc que pour le temps d'inférence actif.

Noms auto-générés

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par ex. yolo26n-iowa). Si tu redéploies le même modèle dans la même région, un suffixe numérique est ajouté (par ex. yolo26n-iowa-2).

Onglet Déployer (Déploiement rapide)

Lors du déploiement depuis l'onglet Deploy du modèle, les endpoints sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et la mise à l'échelle à zéro activée. Le nom du déploiement est auto-généré.

Gérer les endpoints

Modes d'affichage

La liste des déploiements prend en charge trois modes d'affichage :

ModeDescription
CartesCartes détaillées complètes avec journaux, exemples de code et panneau de prédiction
CompactGrille de cartes plus petites avec métriques clés
TableauDataTable avec colonnes triables et recherche

Ultralytics Platform Deploy Tab Active Deployments Cards View

Carte de déploiement (Vue Cartes)

Chaque carte de déploiement dans la vue cartes affiche :

  • En-tête : Nom, drapeau de la région, badge d'état, boutons démarrer/arrêter/supprimer
  • URL de l'endpoint : URL copiable avec lien vers la documentation API
  • Métriques : Nombre de requêtes (24h), latence P95, taux d'erreur
  • Vérification de santé : Indicateur en temps réel avec latence et rafraîchissement manuel
  • Onglets : Logs, Code et Predict

L'onglet Logs affiche les entrées récentes des journaux avec un filtrage par gravité (Tous / Erreurs). L'onglet Code montre des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec ton URL d'endpoint réelle et ta clé API. L'onglet Predict fournit un panneau de prédiction intégré pour tester directement sur le déploiement.

États du déploiement

StatutDescription
CreatingLe déploiement est en cours de configuration
DeployingLe conteneur démarre
ReadyL'endpoint est actif et accepte les requêtes
StoppingL'endpoint s'arrête
StoppedL'endpoint est mis en pause (pas de facturation)
ÉchouéLe déploiement a échoué (voir le message d'erreur)

URL de l'endpoint

Chaque endpoint possède une URL unique, par exemple :

https://predict-abc123.run.app

Ultralytics Platform Deployment Card Endpoint Url With Copy Button

Clique sur le bouton copier pour copier l'URL. Clique sur l'icône de documentation pour voir la documentation API auto-générée pour l'endpoint.

Gestion du cycle de vie

Contrôle l'état de ton endpoint :

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
ActionDescription
StartRedémarre un endpoint arrêté
StopMet l'endpoint en pause (pas de facturation)
SupprimerSupprime définitivement l'endpoint

Arrêter l'endpoint

Arrête un endpoint pour mettre en pause la facturation :

  1. Clique sur l'icône pause sur la carte de déploiement
  2. L'état de l'endpoint passe à "Stopping" puis "Stopped"

Endpoints arrêtés :

  • N'acceptent pas de requêtes
  • N'entraînent aucun frais
  • Peuvent être redémarrés à tout moment

Supprimer l'endpoint

Supprime définitivement un endpoint :

  1. Clique sur l'icône supprimer (corbeille) sur la carte de déploiement
  2. Confirme la suppression dans la fenêtre
Action permanente

La suppression est immédiate et irréversible. Tu peux toujours créer un nouvel endpoint.

Utilisation des endpoints

Authentification

Chaque déploiement est créé avec une clé API issue de ton compte. Inclus-la dans tes requêtes :

Authorization: Bearer YOUR_API_KEY

Le préfixe de la clé API est affiché dans le pied de page de la carte de déploiement pour identification. Génère des clés à partir de API Keys.

Aucune limite de débit

Les endpoints dédiés ne sont pas soumis aux limites de débit de l'API Platform. Les requêtes sont envoyées directement à ton service dédié, le débit est donc uniquement limité par la configuration du CPU, de la mémoire et du scaling de ton endpoint. Il s'agit d'un avantage clé par rapport à l'inférence partagée, qui est limitée à 20 requêtes/min par clé API.

Exemple de requête

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Paramètres de requête

ParamètreTypeDéfautPlageDescription
filefile--Fichier image ou vidéo (obligatoire)
confflottant0.250,01 – 1,0Seuil de confiance minimum
iouflottant0.70,0 – 0,95Seuil NMS IoU
imgszint64032 – 1280Taille de l'image d'entrée en pixels
normalizeboolfaux-Renvoie les coordonnées de la BBox sous forme de 0 – 1
decimalsint50 – 10Précision décimale pour les valeurs de coordonnées
sourcechaîne--URL d'image ou chaîne base64 (alternative à file)
Inférence vidéo

Les endpoints dédiés acceptent à la fois les images et les vidéos via le paramètre file.

  • Formats d'image (jusqu'à 50 Mo) : AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
  • Formats vidéo (jusqu'à 100 Mo) : ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Chaque image vidéo est traitée individuellement et les résultats sont renvoyés par image. Tu peux aussi transmettre une URL d'image publique ou une image encodée en base64 via le paramètre source au lieu de file.

Format de réponse

Identique à l'inférence partagée avec des champs spécifiques à la tâche.

Tarification

Les endpoints dédiés de base sont gratuits sur tous les plans. Les configurations à plus haute capacité (plus de vCPU, plus de mémoire, démarrage à chaud) offriront une tarification basée sur l'utilisation à l'avenir.

Optimisation des coûts
  • Utilise le scaling-to-zero (par défaut) pour que les endpoints ne fonctionnent que lors de la réception de requêtes
  • Définis le nombre maximum d'instances approprié pour ton trafic
  • Surveille l'utilisation dans le tableau de bord Monitoring

FAQ

Combien d'endpoints puis-je créer ?

Les limites d'endpoints dépendent du plan :

  • Free : Jusqu'à 3 déploiements
  • Pro : Jusqu'à 10 déploiements
  • Enterprise : Déploiements illimités

Chaque modèle peut toujours être déployé dans plusieurs régions selon ton quota de plan.

Puis-je changer la région après le déploiement ?

Non, les régions sont fixes. Pour changer de région :

  1. Supprime l'endpoint existant
  2. Crée un nouvel endpoint dans la région souhaitée

Comment gérer un déploiement multi-région ?

Pour une couverture mondiale :

  1. Déploie dans plusieurs régions
  2. Utilise un équilibreur de charge ou un routage DNS
  3. Achemine les utilisateurs vers l'endpoint le plus proche

Quel est le temps de cold start ?

Le temps de cold start dépend de la taille du modèle et si le conteneur est déjà mis en cache dans la région. Plages typiques :

ScénarioCold Start
Conteneur mis en cache~5-15 secondes
Premier déploiement/région~15-45 secondes

Le contrôle d'état utilise un délai d'attente de 55 secondes pour accommoder les pires cas de cold start.

Puis-je utiliser des domaines personnalisés ?

Les domaines personnalisés seront bientôt disponibles. Actuellement, les endpoints utilisent des URL générées par la plateforme.

Commentaires