Endpoints dédiés
Ultralytics Platform permet le déploiement de modèles YOLO sur des points de terminaison dédiés dans 43 régions mondiales. Chaque point de terminaison est un service à locataire unique avec une capacité de mise à l'échelle vers zéro, une URL unique et une surveillance indépendante.

Créer un point de terminaison
Depuis l'onglet Déploiement
Déploie un modèle depuis son onglet Deploy :
- Navigue vers ton modèle
- Clique sur l'onglet Deploy
- Sélectionne une région sur la carte interactive du monde — les régions sont codées par couleur selon la latence depuis ton emplacement (vert < 100ms, jaune < 200ms, rouge > 200ms)
- Clique sur Deploy sur la ligne de la région
Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par ex. yolo26n-iowa).
Depuis la page Déploiements
Crée un déploiement depuis la page globale Deploy dans la barre latérale :
- Clique sur New Deployment
- Sélectionne un modèle dans le sélecteur de modèle
- Sélectionne une région depuis la carte ou le tableau
- Vérifie le nom du déploiement généré automatiquement (modifiable) et les ressources par défaut
- Clique sur Deploy Model

Cycle de vie du déploiement
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: DeleteSélection de la région
Choisis parmi 43 régions dans le monde. La carte interactive des régions et le tableau affichent :
- Épingles de région : Codées par couleur selon la latence (vert < 100ms, jaune < 200ms, rouge > 200ms)
- Régions déployées : Mises en évidence avec un badge "Deployed"
- Régions en cours de déploiement : Indicateur de pulsation animé
- Mise en évidence bidirectionnelle : Survoler la carte met en surbrillance la ligne du tableau, et vice versa

Le tableau des régions dans l'onglet Deploy du modèle inclut :
| Colonne | Description |
|---|---|
| Emplacement | Ville et pays avec icône de drapeau |
| Zone | Identifiant de région |
| Latence | Temps de ping mesuré (médiane de 3 pings) |
| Distance | Distance depuis ton emplacement en km |
| Actions | Bouton Déployer ou badge de statut "Deployed" |
La boîte de dialogue New Deployment (depuis la page globale Deploy) affiche un tableau des régions plus simple avec seulement les colonnes Emplacement, Latence et Sélectionner.
Sélectionne la région la plus proche de tes utilisateurs pour une latence minimale. Utilise le bouton Rescan pour remesurer la latence depuis ton emplacement actuel.
Régions disponibles
| Zone | Emplacement |
|---|---|
| us-central1 | Iowa, USA |
| us-east1 | Caroline du Sud, États-Unis |
| us-east4 | Virginie du Nord, États-Unis |
| us-east5 | Columbus, États-Unis |
| us-south1 | Dallas, États-Unis |
| us-west1 | Oregon, États-Unis |
| us-west2 | Los Angeles, États-Unis |
| us-west3 | Salt Lake City, États-Unis |
| us-west4 | Las Vegas, États-Unis |
| northamerica-northeast1 | Montréal, Canada |
| northamerica-northeast2 | Toronto, Canada |
| northamerica-south1 | Querétaro, Mexique |
| southamerica-east1 | São Paulo, Brésil |
| southamerica-west1 | Santiago, Chili |
Configuration de l'endpoint
Boîte de dialogue Nouveau déploiement
La fenêtre New Deployment propose :
| Paramètre | Description | Défaut |
|---|---|---|
| Modèle | Sélectionne parmi les modèles terminés | - |
| Région | Région de déploiement | - |
| Nom du déploiement | Auto-généré, modifiable | - |
| Cœurs CPU | Valeur par défaut fixe | 1 |
| Mémoire (Go) | Valeur par défaut fixe | 2 |

Les déploiements utilisent des valeurs par défaut fixes de 1 CPU, 2 GiB de mémoire, minInstances = 0 et maxInstances = 1. Ils passent à zéro lorsqu'ils sont inactifs, tu ne paies donc que pour le temps d'inférence actif.
Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par ex. yolo26n-iowa). Si tu redéploies le même modèle dans la même région, un suffixe numérique est ajouté (par ex. yolo26n-iowa-2).
Onglet Déployer (Déploiement rapide)
Lors du déploiement depuis l'onglet Deploy du modèle, les endpoints sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et la mise à l'échelle à zéro activée. Le nom du déploiement est auto-généré.
Gérer les endpoints
Modes d'affichage
La liste des déploiements prend en charge trois modes d'affichage :
| Mode | Description |
|---|---|
| Cartes | Cartes détaillées complètes avec journaux, exemples de code et panneau de prédiction |
| Compact | Grille de cartes plus petites avec métriques clés |
| Tableau | DataTable avec colonnes triables et recherche |

Carte de déploiement (Vue Cartes)
Chaque carte de déploiement dans la vue cartes affiche :
- En-tête : Nom, drapeau de la région, badge d'état, boutons démarrer/arrêter/supprimer
- URL de l'endpoint : URL copiable avec lien vers la documentation API
- Métriques : Nombre de requêtes (24h), latence P95, taux d'erreur
- Vérification de santé : Indicateur en temps réel avec latence et rafraîchissement manuel
- Onglets :
Logs,CodeetPredict
L'onglet Logs affiche les entrées récentes des journaux avec un filtrage par gravité (Tous / Erreurs). L'onglet Code montre des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec ton URL d'endpoint réelle et ta clé API. L'onglet Predict fournit un panneau de prédiction intégré pour tester directement sur le déploiement.
États du déploiement
| Statut | Description |
|---|---|
| Creating | Le déploiement est en cours de configuration |
| Deploying | Le conteneur démarre |
| Ready | L'endpoint est actif et accepte les requêtes |
| Stopping | L'endpoint s'arrête |
| Stopped | L'endpoint est mis en pause (pas de facturation) |
| Échoué | Le déploiement a échoué (voir le message d'erreur) |
URL de l'endpoint
Chaque endpoint possède une URL unique, par exemple :
https://predict-abc123.run.app

Clique sur le bouton copier pour copier l'URL. Clique sur l'icône de documentation pour voir la documentation API auto-générée pour l'endpoint.
Gestion du cycle de vie
Contrôle l'état de ton endpoint :
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff| Action | Description |
|---|---|
| Start | Redémarre un endpoint arrêté |
| Stop | Met l'endpoint en pause (pas de facturation) |
| Supprimer | Supprime définitivement l'endpoint |
Arrêter l'endpoint
Arrête un endpoint pour mettre en pause la facturation :
- Clique sur l'icône pause sur la carte de déploiement
- L'état de l'endpoint passe à "Stopping" puis "Stopped"
Endpoints arrêtés :
- N'acceptent pas de requêtes
- N'entraînent aucun frais
- Peuvent être redémarrés à tout moment
Supprimer l'endpoint
Supprime définitivement un endpoint :
- Clique sur l'icône supprimer (corbeille) sur la carte de déploiement
- Confirme la suppression dans la fenêtre
La suppression est immédiate et irréversible. Tu peux toujours créer un nouvel endpoint.
Utilisation des endpoints
Authentification
Chaque déploiement est créé avec une clé API issue de ton compte. Inclus-la dans tes requêtes :
Authorization: Bearer YOUR_API_KEYLe préfixe de la clé API est affiché dans le pied de page de la carte de déploiement pour identification. Génère des clés à partir de API Keys.
Aucune limite de débit
Les endpoints dédiés ne sont pas soumis aux limites de débit de l'API Platform. Les requêtes sont envoyées directement à ton service dédié, le débit est donc uniquement limité par la configuration du CPU, de la mémoire et du scaling de ton endpoint. Il s'agit d'un avantage clé par rapport à l'inférence partagée, qui est limitée à 20 requêtes/min par clé API.
Exemple de requête
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())Paramètres de requête
| Paramètre | Type | Défaut | Plage | Description |
|---|---|---|---|---|
file | file | - | - | Fichier image ou vidéo (obligatoire) |
conf | flottant | 0.25 | 0,01 – 1,0 | Seuil de confiance minimum |
iou | flottant | 0.7 | 0,0 – 0,95 | Seuil NMS IoU |
imgsz | int | 640 | 32 – 1280 | Taille de l'image d'entrée en pixels |
normalize | bool | faux | - | Renvoie les coordonnées de la BBox sous forme de 0 – 1 |
decimals | int | 5 | 0 – 10 | Précision décimale pour les valeurs de coordonnées |
source | chaîne | - | - | URL d'image ou chaîne base64 (alternative à file) |
Les endpoints dédiés acceptent à la fois les images et les vidéos via le paramètre file.
- Formats d'image (jusqu'à 50 Mo) : AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
- Formats vidéo (jusqu'à 100 Mo) : ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV
Chaque image vidéo est traitée individuellement et les résultats sont renvoyés par image. Tu peux aussi transmettre une URL d'image publique ou une image encodée en base64 via le paramètre source au lieu de file.
Format de réponse
Identique à l'inférence partagée avec des champs spécifiques à la tâche.
Tarification
Les endpoints dédiés de base sont gratuits sur tous les plans. Les configurations à plus haute capacité (plus de vCPU, plus de mémoire, démarrage à chaud) offriront une tarification basée sur l'utilisation à l'avenir.
- Utilise le scaling-to-zero (par défaut) pour que les endpoints ne fonctionnent que lors de la réception de requêtes
- Définis le nombre maximum d'instances approprié pour ton trafic
- Surveille l'utilisation dans le tableau de bord Monitoring
FAQ
Combien d'endpoints puis-je créer ?
Les limites d'endpoints dépendent du plan :
- Free : Jusqu'à 3 déploiements
- Pro : Jusqu'à 10 déploiements
- Enterprise : Déploiements illimités
Chaque modèle peut toujours être déployé dans plusieurs régions selon ton quota de plan.
Puis-je changer la région après le déploiement ?
Non, les régions sont fixes. Pour changer de région :
- Supprime l'endpoint existant
- Crée un nouvel endpoint dans la région souhaitée
Comment gérer un déploiement multi-région ?
Pour une couverture mondiale :
- Déploie dans plusieurs régions
- Utilise un équilibreur de charge ou un routage DNS
- Achemine les utilisateurs vers l'endpoint le plus proche
Quel est le temps de cold start ?
Le temps de cold start dépend de la taille du modèle et si le conteneur est déjà mis en cache dans la région. Plages typiques :
| Scénario | Cold Start |
|---|---|
| Conteneur mis en cache | ~5-15 secondes |
| Premier déploiement/région | ~15-45 secondes |
Le contrôle d'état utilise un délai d'attente de 55 secondes pour accommoder les pires cas de cold start.
Puis-je utiliser des domaines personnalisés ?
Les domaines personnalisés seront bientôt disponibles. Actuellement, les endpoints utilisent des URL générées par la plateforme.