Endpoints dédiés

Ultralytics Platform permet le déploiement de modèles YOLO sur des points de terminaison dédiés dans 43 régions mondiales. Chaque point de terminaison est un service à locataire unique avec une capacité de mise à l'échelle vers zéro, une URL unique et une surveillance indépendante.

Onglet de déploiement de modèle de la plateforme Ultralytics avec carte des régions et tableau

Créer un point de terminaison

Depuis l'onglet Déploiement

Déploie un modèle depuis son onglet Deploy :

Navigue vers ton modèle
Clique sur l'onglet Deploy
Sélectionne une région sur la carte interactive du monde — les régions sont codées par couleur selon la latence depuis ton emplacement (vert < 100ms, jaune < 200ms, rouge > 200ms)
Clique sur Deploy sur la ligne de la région

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par ex. yolo26n-iowa).

Depuis la page Déploiements

Crée un déploiement depuis la page globale Deploy dans la barre latérale :

Clique sur New Deployment
Sélectionne un modèle dans le sélecteur de modèle
Sélectionne une région depuis la carte ou le tableau
Vérifie le nom du déploiement généré automatiquement (modifiable) et les ressources par défaut
Clique sur Deploy Model

Boîte de dialogue Nouveau déploiement de la plateforme Ultralytics avec sélecteur de modèle et carte des régions

Cycle de vie du déploiement

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Sélection de la région

Choisis parmi 43 régions dans le monde. La carte interactive des régions et le tableau affichent :

Épingles de région : Codées par couleur selon la latence (vert < 100ms, jaune < 200ms, rouge > 200ms)
Régions déployées : Mises en évidence avec un badge "Deployed"
Régions en cours de déploiement : Indicateur de pulsation animé
Mise en évidence bidirectionnelle : Survoler la carte met en surbrillance la ligne du tableau, et vice versa

Tableau de latence des régions de l'onglet Déploiement de la plateforme Ultralytics trié par latence

Le tableau des régions dans l'onglet Deploy du modèle inclut :

Colonne	Description
Emplacement	Ville et pays avec icône de drapeau
Zone	Identifiant de région
Latence	Temps de ping mesuré (médiane de 3 pings)
Distance	Distance depuis ton emplacement en km
Actions	Bouton Déployer ou badge de statut "Deployed"

Boîte de dialogue Nouveau déploiement

La boîte de dialogue New Deployment (depuis la page globale Deploy) affiche un tableau des régions plus simple avec seulement les colonnes Emplacement, Latence et Sélectionner.

Choisis judicieusement

Sélectionne la région la plus proche de tes utilisateurs pour une latence minimale. Utilise le bouton Rescan pour remesurer la latence depuis ton emplacement actuel.

Régions disponibles

Zone	Emplacement
us-central1	Iowa, USA
us-east1	Caroline du Sud, États-Unis
us-east4	Virginie du Nord, États-Unis
us-east5	Columbus, États-Unis
us-south1	Dallas, États-Unis
us-west1	Oregon, États-Unis
us-west2	Los Angeles, États-Unis
us-west3	Salt Lake City, États-Unis
us-west4	Las Vegas, États-Unis
northamerica-northeast1	Montréal, Canada
northamerica-northeast2	Toronto, Canada
northamerica-south1	Querétaro, Mexique
southamerica-east1	São Paulo, Brésil
southamerica-west1	Santiago, Chili

Configuration de l'endpoint

Boîte de dialogue Nouveau déploiement

La fenêtre New Deployment propose :

Paramètre	Description	Défaut
Modèle	Sélectionne parmi les modèles terminés	-
Région	Région de déploiement	-
Nom du déploiement	Auto-généré, modifiable	-
Cœurs CPU	Valeur par défaut fixe	1
Mémoire (Go)	Valeur par défaut fixe	2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

Les déploiements utilisent des valeurs par défaut fixes de 1 CPU, 2 GiB de mémoire, minInstances = 0 et maxInstances = 1. Ils passent à zéro lorsqu'ils sont inactifs, tu ne paies donc que pour le temps d'inférence actif.

Noms auto-générés

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par ex. yolo26n-iowa). Si tu redéploies le même modèle dans la même région, un suffixe numérique est ajouté (par ex. yolo26n-iowa-2).

Onglet Déployer (Déploiement rapide)

Lors du déploiement depuis l'onglet Deploy du modèle, les endpoints sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et la mise à l'échelle à zéro activée. Le nom du déploiement est auto-généré.

Gérer les endpoints

Modes d'affichage

La liste des déploiements prend en charge trois modes d'affichage :

Mode	Description
Cartes	Cartes détaillées complètes avec journaux, exemples de code et panneau de prédiction
Compact	Grille de cartes plus petites avec métriques clés
Tableau	DataTable avec colonnes triables et recherche

Ultralytics Platform Deploy Tab Active Deployments Cards View

Carte de déploiement (Vue Cartes)

Chaque carte de déploiement dans la vue cartes affiche :

En-tête : Nom, drapeau de la région, badge d'état, boutons démarrer/arrêter/supprimer
URL de l'endpoint : URL copiable avec lien vers la documentation API
Métriques : Nombre de requêtes (24h), latence P95, taux d'erreur
Vérification de santé : Indicateur en temps réel avec latence et rafraîchissement manuel
Onglets : Logs, Code et Predict

L'onglet Logs affiche les entrées récentes des journaux avec un filtrage par gravité (Tous / Erreurs). L'onglet Code montre des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec ton URL d'endpoint réelle et ta clé API. L'onglet Predict fournit un panneau de prédiction intégré pour tester directement sur le déploiement.

États du déploiement

Statut	Description
Creating	Le déploiement est en cours de configuration
Deploying	Le conteneur démarre
Ready	L'endpoint est actif et accepte les requêtes
Stopping	L'endpoint s'arrête
Stopped	L'endpoint est mis en pause (pas de facturation)
Échoué	Le déploiement a échoué (voir le message d'erreur)

URL de l'endpoint

Chaque endpoint possède une URL unique, par exemple :

https://predict-abc123.run.app

Clique sur le bouton copier pour copier l'URL. Clique sur l'icône de documentation pour voir la documentation API auto-générée pour l'endpoint.

Gestion du cycle de vie

Contrôle l'état de ton endpoint :

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff

Action	Description
Start	Redémarre un endpoint arrêté
Stop	Met l'endpoint en pause (pas de facturation)
Supprimer	Supprime définitivement l'endpoint

Arrêter l'endpoint

Arrête un endpoint pour mettre en pause la facturation :

Clique sur l'icône pause sur la carte de déploiement
L'état de l'endpoint passe à "Stopping" puis "Stopped"

Endpoints arrêtés :

N'acceptent pas de requêtes
N'entraînent aucun frais
Peuvent être redémarrés à tout moment

Supprimer l'endpoint

Supprime définitivement un endpoint :

Clique sur l'icône supprimer (corbeille) sur la carte de déploiement
Confirme la suppression dans la fenêtre

Action permanente

La suppression est immédiate et irréversible. Tu peux toujours créer un nouvel endpoint.

Utilisation des endpoints

Authentification

Chaque déploiement est créé avec une clé API issue de ton compte. Inclus-la dans tes requêtes :

Authorization: Bearer YOUR_API_KEY

Le préfixe de la clé API est affiché dans le pied de page de la carte de déploiement pour identification. Génère des clés à partir de API Keys.

Aucune limite de débit

Les endpoints dédiés ne sont pas soumis aux limites de débit de l'API Platform. Les requêtes sont envoyées directement à ton service dédié, le débit est donc uniquement limité par la configuration du CPU, de la mémoire et du scaling de ton endpoint. Il s'agit d'un avantage clé par rapport à l'inférence partagée, qui est limitée à 20 requêtes/min par clé API.

Exemple de requête

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Paramètres de requête

Paramètre	Type	Défaut	Plage	Description
`file`	file	-	-	Fichier image ou vidéo (obligatoire)
`conf`	flottant	0.25	0,01 – 1,0	Seuil de confiance minimum
`iou`	flottant	0.7	0,0 – 0,95	Seuil NMS IoU
`imgsz`	int	640	32 – 1280	Taille de l'image d'entrée en pixels
`normalize`	bool	faux	-	Renvoie les coordonnées de la BBox sous forme de 0 – 1
`decimals`	int	5	0 – 10	Précision décimale pour les valeurs de coordonnées
`source`	chaîne	-	-	URL d'image ou chaîne base64 (alternative à `file`)

Inférence vidéo

Les endpoints dédiés acceptent à la fois les images et les vidéos via le paramètre file.

Formats d'image (jusqu'à 50 Mo) : AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
Formats vidéo (jusqu'à 100 Mo) : ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Chaque image vidéo est traitée individuellement et les résultats sont renvoyés par image. Tu peux aussi transmettre une URL d'image publique ou une image encodée en base64 via le paramètre source au lieu de file.

Format de réponse

Identique à l'inférence partagée avec des champs spécifiques à la tâche.

Tarification

Les endpoints dédiés de base sont gratuits sur tous les plans. Les configurations à plus haute capacité (plus de vCPU, plus de mémoire, démarrage à chaud) offriront une tarification basée sur l'utilisation à l'avenir.

Optimisation des coûts

Utilise le scaling-to-zero (par défaut) pour que les endpoints ne fonctionnent que lors de la réception de requêtes
Définis le nombre maximum d'instances approprié pour ton trafic
Surveille l'utilisation dans le tableau de bord Monitoring

FAQ

Combien d'endpoints puis-je créer ?

Les limites d'endpoints dépendent du plan :

Free : Jusqu'à 3 déploiements
Pro : Jusqu'à 10 déploiements
Enterprise : Déploiements illimités

Chaque modèle peut toujours être déployé dans plusieurs régions selon ton quota de plan.

Puis-je changer la région après le déploiement ?

Non, les régions sont fixes. Pour changer de région :

Supprime l'endpoint existant
Crée un nouvel endpoint dans la région souhaitée

Comment gérer un déploiement multi-région ?

Pour une couverture mondiale :

Déploie dans plusieurs régions
Utilise un équilibreur de charge ou un routage DNS
Achemine les utilisateurs vers l'endpoint le plus proche

Quel est le temps de cold start ?

Le temps de cold start dépend de la taille du modèle et si le conteneur est déjà mis en cache dans la région. Plages typiques :

Scénario	Cold Start
Conteneur mis en cache	~5-15 secondes
Premier déploiement/région	~15-45 secondes

Le contrôle d'état utilise un délai d'attente de 55 secondes pour accommoder les pires cas de cold start.

Puis-je utiliser des domaines personnalisés ?

Les domaines personnalisés seront bientôt disponibles. Actuellement, les endpoints utilisent des URL générées par la plateforme.

Contributors

GLglenn-jocher⁹ T-t-hakobyan¹ SEsergiuwaxmann¹

Created il y a 4 moisUpdated il y a 4 semaines

Endpoints dédiés

Créer un point de terminaison

Depuis l'onglet Déploiement

Depuis la page Déploiements

Cycle de vie du déploiement

Sélection de la région

Régions disponibles

Configuration de l'endpoint

Boîte de dialogue Nouveau déploiement

Onglet Déployer (Déploiement rapide)

Gérer les endpoints

Modes d'affichage

Carte de déploiement (Vue Cartes)

États du déploiement

URL de l'endpoint

Gestion du cycle de vie

Arrêter l'endpoint

Supprimer l'endpoint

Utilisation des endpoints

Authentification

Aucune limite de débit

Exemple de requête

Paramètres de requête

Format de réponse

Tarification

FAQ

Combien d'endpoints puis-je créer ?

Puis-je changer la région après le déploiement ?

Comment gérer un déploiement multi-région ?

Quel est le temps de cold start ?

Puis-je utiliser des domaines personnalisés ?

Commentaires