Points de terminaison dédiés
Ultralytics permet le déploiement de YOLO vers des points de terminaison dédiés dans 43 régions du monde. Chaque point de terminaison est un service à locataire unique avec mise à l'échelle automatique, une URL de point de terminaison unique et une surveillance indépendante.

Créer un point de terminaison
À partir de l'onglet Déployer
Déployer un modèle à partir de son Deploy onglet :
- Accédez à votre modèle
- Cliquez sur l'onglet Déployer
- Sélectionnez une région dans le tableau des régions (triées par latence depuis votre emplacement)
- Cliquez sur Déployer dans la ligne de la région.
Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo11n-iowa).
Depuis la page Déploiements
Créer un déploiement à partir du global Deploy page dans la barre latérale :
- Cliquez sur Nouveau déploiement.
- Sélectionnez un modèle dans le sélecteur de modèles.
- Sélectionnez une région sur la carte ou dans le tableau.
- Personnalisez éventuellement le nom du déploiement et les ressources.
- Cliquez sur Déployer le modèle

Cycle de vie du déploiement
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete
Sélection de la région
Choisissez parmi 43 régions à travers le monde. La carte interactive et le tableau présentent :
- Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
- Régions déployées: mises en évidence par un badge « Déployé ».
- Régions de déploiement: indicateur d'impulsion animé
- Mise en surbrillance bidirectionnelle: passer la souris sur la carte met en surbrillance la ligne du tableau, et vice versa.

Le tableau régional sur le modèle Deploy L'onglet comprend :
| Colonne | Description |
|---|---|
| Emplacement | Ville et pays avec icône drapeau |
| Zone | Identifiant de la région |
| Latence | Temps de ping mesuré (médiane de 3 pings) |
| Distance | Distance depuis votre emplacement en km |
| Actions | Bouton Déployer ou badge d'état « Déployé » |
Nouvelle boîte de dialogue de déploiement
L'argument New Deployment dialogue (à partir du global Deploy page) affiche un tableau régional plus simple comprenant uniquement les colonnes Emplacement, Latence et Sélection.
Choisissez judicieusement
Sélectionnez la région la plus proche de vos utilisateurs pour obtenir la latence la plus faible. Utilisez le bouton « Rescan » (Réanalyser) pour mesurer à nouveau la latence depuis votre emplacement actuel.
Régions disponibles
| Zone | Emplacement |
|---|---|
| us-central1 | Iowa, États-Unis |
| us-east1 | Caroline du Sud, États-Unis |
| us-east4 | Virginie du Nord, États-Unis |
| us-east5 | Columbus, États-Unis |
| us-south1 | Dallas, États-Unis |
| us-west1 | Oregon, États-Unis |
| us-west2 | Los Angeles, États-Unis |
| us-west3 | Salt Lake City, États-Unis |
| us-west4 | Las Vegas, États-Unis |
| northamerica-northeast1 | Montréal, Canada |
| northamerica-northeast2 | Toronto, Canada |
| Amérique du Nord-Sud 1 | Querétaro, Mexique |
| southamerica-east1 | Sao Paulo, Brésil |
| southamerica-west1 | Santiago, Chili |
| Zone | Emplacement |
|---|---|
| europe-west1 | Saint-Ghislain, Belgique |
| europe-west2 | Londres, Royaume-Uni |
| europe-west3 | Francfort, Allemagne |
| europe-west4 | Eemshaven, Pays-Bas |
| europe-west6 | Zurich, Suisse |
| europe-west8 | Milan, Italie |
| europe-west9 | Paris, France |
| europe-west10 | Berlin, Allemagne |
| europe-west12 | Turin, Italie |
| europe-north1 | Hamina, Finlande |
| europe-nord2 | Stockholm, Suède |
| europe-central2 | Varsovie, Pologne |
| europe-southwest1 | Madrid, Espagne |
| Zone | Emplacement |
|---|---|
| asia-east1 | Changhua, Taïwan |
| asia-east2 | Kowloon, Hong Kong |
| asia-northeast1 | Tokyo, Japon |
| asia-northeast2 | Osaka, Japon |
| asia-northeast3 | Séoul, Corée du Sud |
| asia-south1 | Mumbai, Inde |
| asia-south2 | Delhi, Inde |
| asia-southeast1 | Jurong West, Singapour |
| asia-southeast2 | Jakarta, Indonésie |
| Asie-Sud-Est3 | Bangkok, Thaïlande |
| australia-southeast1 | Sydney, Australie |
| australia-southeast2 | Melbourne, Australie |
| Zone | Emplacement |
|---|---|
| afrique-sud1 | Johannesburg, Afrique du Sud |
| me-central1 | Doha, Qatar |
| me-central2 | Dammam, Arabie Saoudite |
| me-west1 | Tel Aviv, Israël |
Configuration du point de terminaison
Nouvelle boîte de dialogue de déploiement
L'argument New Deployment dialog fournit :
| Paramètre | Description | Par défaut |
|---|---|---|
| Modèle | Sélectionnez parmi les modèles terminés | - |
| Région | Région de déploiement | - |
| Nom du déploiement | Généré automatiquement, modifiable | - |
| CPU | CPU (1-8) | 1 |
| Mémoire (Go) | Allocation de mémoire (1 à 32 Go) | 2 |

Les paramètres des ressources sont disponibles dans la section Ressources, qui peut être réduite. Les déploiements utilisent par défaut l'échelle zéro (nombre minimal d'instances = 0, nombre maximal d'instances = 1) : vous ne payez que pour le temps d'inférence actif.
Noms générés automatiquement
Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo11n-iowa). Si vous déployez à nouveau le même modèle dans la même région, un suffixe numérique est ajouté (par exemple, yolo11n-iowa-2).
Onglet Déploiement (Déploiement rapide)
Lors du déploiement à partir du modèle Deploy onglet, les points de terminaison sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et l'option « scale-to-zero » activée. Le nom du déploiement est généré automatiquement.
Gérer les points de terminaison
Modes d'affichage
La liste des déploiements prend en charge trois modes d'affichage :
| Mode | Description |
|---|---|
| Cartes | Fiches détaillées avec journaux, exemples de code, panneau de prévision |
| Compact | Grille de petites cartes avec les indicateurs clés |
| Tableau | Tableau de données avec colonnes triables et fonction de recherche |

Carte de déploiement (vue Cartes)
Chaque carte de déploiement dans la vue des cartes affiche :
- En-tête: nom, drapeau régional, badge de statut, boutons Démarrer/Arrêter/Supprimer
- URL finale: URL copiable avec lien vers la documentation API
- Indicateurs: nombre de requêtes (24 h), latence P95, taux d'erreur
- Bilan de santé: indicateur de santé en temps réel avec latence et actualisation manuelle
- Onglets:
Logs,Code, etPredict
L'argument Logs L'onglet affiche les entrées récentes du journal avec un filtrage par niveau de gravité (Tout / Erreurs). Le Code L'onglet affiche des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec votre URL de point de terminaison et votre clé API réelles. Le Predict L'onglet fournit un panneau de prédiction en ligne pour tester directement sur le déploiement.
Statuts de déploiement
| Statut | Description |
|---|---|
| Création | Le déploiement est en cours de configuration. |
| Déploiement | Le conteneur démarre |
| Prêt | Le point final est actif et accepte les demandes. |
| Arrêt | Le terminal est en cours d'arrêt. |
| Arrêté | Le terminal est en pause (pas de facturation) |
| Échec | Déploiement échoué (voir message d'erreur) |
URL du point de terminaison
Chaque point de terminaison dispose d'une URL unique, par exemple :
https://predict-abc123.run.app

Cliquez sur le bouton Copier pour copier l'URL. Cliquez sur l'icône Docs pour afficher la documentation API générée automatiquement pour le point de terminaison.
Gestion du cycle de vie
Contrôlez l'état de votre point de terminaison :
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff
| Action | Description |
|---|---|
| Démarrer | Redémarrer un point de terminaison arrêté |
| Arrêter | Mettre le point de terminaison en pause (pas de facturation) |
| Supprimer | Supprimer définitivement le point de terminaison |
Arrêter le point de terminaison
Arrêtez un point de terminaison pour suspendre la facturation :
- Cliquez sur l'icône de pause sur la carte de déploiement.
- Le statut du terminal passe à « Arrêt en cours », puis à « Arrêté ».
Points de terminaison arrêtés :
- N'acceptent pas les requêtes
- N'engendrez pas de frais
- Peut être redémarré à tout moment
Supprimer le point de terminaison
Supprimer définitivement un point de terminaison :
- Cliquez sur l'icône Supprimer (corbeille) sur la carte de déploiement.
- Confirmer la suppression dans la boîte de dialogue
Action permanente
La suppression est immédiate et permanente. Vous pouvez toujours créer un nouveau point de terminaison.
Utilisation des points de terminaison
Authentification
Chaque déploiement est créé à l'aide d'une clé API provenant de votre compte. Incluez-la dans les requêtes :
Authorization: Bearer YOUR_API_KEY
Le préfixe de la clé API est affiché en bas de la carte de déploiement à des fins d'identification. Générez des clés à partir des clés API.
Pas de limites de taux
Les points de terminaison dédiés ne sont pas soumis aux limites de débit de l'API de la plateforme. Les requêtes sont directement transmises à votre service dédié, de sorte que le débit n'est limité que par la configuration de votre point de terminaison en termes CPU, de mémoire et de mise à l'échelle. Il s'agit là d'un avantage clé par rapport à l'inférence partagée, dont le débit est limité à 20 requêtes/minute par clé API.
Exemple de requête
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
curl -X POST \
"https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
Paramètres de requête
| Paramètre | Type | Par défaut | Description |
|---|---|---|---|
file | fichier | - | Fichier image (obligatoire) |
conf | flottant | 0.25 | Seuil de confiance minimum |
iou | flottant | 0.7 | Seuil IoU de NMS |
imgsz | int | 640 | Taille de l'image d'entrée |
normalize | chaîne de caractères | - | Renvoyer les coordonnées normalisées |
Format de réponse
Identique à l'inférence partagée avec des champs spécifiques à la tâche.
Tarification
Les points de terminaison dédiés sont facturés en fonction de :
| Composant | Tarif |
|---|---|
| CPU | Par vCPU-seconde |
| Mémoire | Par Go-seconde |
| Requêtes | Par million de requêtes |
Optimisation des coûts
- Utilisez la mise à l'échelle à zéro pour les points de terminaison de développement
- Définissez un nombre maximal d'instances approprié
- Surveillez l'utilisation dans le tableau de bord Monitoring
- Vérifiez les coûts dans Paramètres > Facturation
FAQ
Combien de points de terminaison puis-je créer ?
Les limites des terminaux dépendent du forfait :
- Gratuit: jusqu'à 3 déploiements
- Avantage: jusqu'à 10 déploiements
- Entreprise: déploiements illimités
Chaque modèle peut toujours être déployé dans plusieurs régions dans la limite du quota de votre forfait.
Puis-je modifier la région après le déploiement ?
Non, les régions sont fixes. Pour modifier les régions :
- Supprimez le point de terminaison existant
- Créez un nouveau point de terminaison dans la région souhaitée
Comment gérer le déploiement multi-régions ?
Pour une couverture mondiale :
- Déployer dans plusieurs régions
- Utilisez un équilibreur de charge ou le routage DNS
- Dirigez les utilisateurs vers le point de terminaison le plus proche
Quel est le temps de démarrage à froid ?
Le temps de démarrage à froid dépend de la taille du modèle et du fait que le conteneur soit déjà mis en cache dans la région. Plages types :
| Scénario | Démarrage à froid |
|---|---|
| Conteneur mis en cache | ~5 à 15 secondes |
| Premier déploiement/région | ~15 à 45 secondes |
Le contrôle de santé utilise un délai d'attente de 55 secondes pour tenir compte des démarrages à froid les plus défavorables.
Puis-je utiliser des noms de domaine personnalisés ?
Les domaines personnalisés seront bientôt disponibles. Actuellement, les points de terminaison utilisent des URL générées par la plateforme.