Points de terminaison dédiés

Q: How many endpoints can I create?

Les limites des points de terminaison dépendent du plan : chaque modèle peut toujours être déployé dans plusieurs régions dans la limite du quota de votre plan.

La Plateforme Ultralytics permet le déploiement de modèles YOLO vers des points de terminaison dédiés dans 43 régions mondiales. Chaque point de terminaison est un service à locataire unique avec auto-mise à l'échelle, une URL de point de terminaison unique et une surveillance indépendante.

Onglet « Déploiement » du modèle Ultralytics avec carte régionale et tableau

Créer un point de terminaison

À partir de l'onglet Déployer

Déployer un modèle depuis son Deploy onglet :

Accédez à votre modèle
Cliquez sur l'onglet Déployer
Select a region from the interactive world map — regions are color-coded by latency from your location (green < 100ms, yellow < 200ms, red > 200ms)
Cliquez sur Déployer sur la ligne de la région

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo26n-iowa).

Depuis la page Déploiements

Créer un déploiement à partir du global Deploy page dans la barre latérale :

Cliquez sur Nouveau déploiement
Sélectionnez un modèle dans le sélecteur de modèles.
Sélectionnez une région sur la carte ou dans le tableau.
Personnalisez éventuellement le nom du déploiement et les ressources.
Cliquez sur Déployer le modèle

Ultralytics Nouvelle boîte de dialogue de déploiement avec sélecteur de modèle et carte régionale

Cycle de vie du déploiement

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Sélection de la région

Choisissez parmi 43 régions dans le monde entier. La carte et le tableau interactifs des régions affichent :

Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
Régions déployées : Mises en évidence par un badge « Déployé »
Régions en cours de déploiement : Indicateur de pulsation animé
Mise en évidence bidirectionnelle : Le survol sur la carte met en évidence la ligne du tableau, et vice versa.

Tableau de latence de la région de l'onglet Déploiement Ultralytics , trié par latence

Le tableau régional sur le modèle Deploy L'onglet comprend :

Colonne	Description
Emplacement	Ville et pays avec icône de drapeau
Zone	Identifiant de la région
Latence	Temps de ping mesuré (médiane de 3 pings)
Distance	Distance de votre emplacement en km
Actions	Bouton "Déployer" ou badge de statut "Déployé"

Nouvelle boîte de dialogue de déploiement

L'argument New Deployment dialogue (à partir du global Deploy page) affiche un tableau régional plus simple comprenant uniquement les colonnes Emplacement, Latence et Sélection.

Choisissez judicieusement

Sélectionnez la région la plus proche de vos utilisateurs pour obtenir la latence la plus faible. Utilisez le bouton « Rescan » (Réanalyser) pour mesurer à nouveau la latence depuis votre emplacement actuel.

Régions disponibles

Amériques (14)Europe (13)Asie-Pacifique (12)Moyen-Orient et Afrique (4)

Zone	Emplacement
us-central1	Iowa, États-Unis
us-east1	Caroline du Sud, États-Unis
us-east4	Virginie du Nord, États-Unis
us-east5	Columbus, États-Unis
us-south1	Dallas, États-Unis
us-west1	Oregon, États-Unis
us-west2	Los Angeles, États-Unis
us-west3	Salt Lake City, États-Unis
us-west4	Las Vegas, États-Unis
northamerica-northeast1	Montréal, Canada
northamerica-northeast2	Toronto, Canada
Amérique du Nord-Sud 1	Querétaro, Mexique
southamerica-east1	Sao Paulo, Brésil
southamerica-west1	Santiago, Chili

Zone	Emplacement
europe-west1	Saint-Ghislain, Belgique
europe-west2	Londres, Royaume-Uni
europe-west3	Francfort, Allemagne
europe-west4	Eemshaven, Pays-Bas
europe-west6	Zurich, Suisse
europe-west8	Milan, Italie
europe-west9	Paris, France
europe-west10	Berlin, Allemagne
europe-west12	Turin, Italie
europe-north1	Hamina, Finlande
europe-nord2	Stockholm, Suède
europe-central2	Varsovie, Pologne
europe-southwest1	Madrid, Espagne

Zone	Emplacement
asia-east1	Changhua, Taïwan
asia-east2	Kowloon, Hong Kong
asia-northeast1	Tokyo, Japon
asia-northeast2	Osaka, Japon
asia-northeast3	Séoul, Corée du Sud
asia-south1	Mumbai, Inde
asia-south2	Delhi, Inde
asia-southeast1	Jurong West, Singapour
asia-southeast2	Jakarta, Indonésie
asia-southeast3	Bangkok, Thaïlande
australia-southeast1	Sydney, Australie
australia-southeast2	Melbourne, Australie

Zone	Emplacement
africa-south1	Johannesburg, Afrique du Sud
me-central1	Doha, Qatar
me-central2	Dammam, Arabie Saoudite
me-west1	Tel Aviv, Israël

Configuration du point de terminaison

Nouvelle boîte de dialogue de déploiement

L'argument New Deployment le dialogue fournit :

Paramètre	Description	Par défaut
Modèle	Sélectionnez parmi les modèles terminés	-
Région	Région de déploiement	-
Nom du déploiement	Généré automatiquement, modifiable	-
Cœurs CPU	Allocation CPU (1-8)	1
Mémoire (Go)	Allocation de mémoire (1 à 32 Go)	2

Nouveau déploiement Ultralytics Extension du panneau de ressources du dialogue

Les paramètres des ressources sont disponibles dans la section Ressources, qui peut être réduite. Les déploiements utilisent par défaut l'échelle zéro (nombre minimal d'instances = 0, nombre maximal d'instances = 1) : vous ne payez que pour le temps d'inférence actif.

Noms générés automatiquement

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo26n-iowa). Si vous déployez le même modèle dans la même région à nouveau, un suffixe numérique est ajouté (par exemple, yolo26n-iowa-2).

Onglet Déploiement (Déploiement rapide)

Lors du déploiement à partir du modèle Deploy onglet, les points de terminaison sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et l'option « scale-to-zero » activée. Le nom du déploiement est généré automatiquement.

Gérer les points de terminaison

Modes d'affichage

La liste des déploiements prend en charge trois modes d'affichage :

Mode	Description
Cartes	Fiches détaillées avec journaux, exemples de code, panneau de prévision
Compact	Grille de petites cartes avec les indicateurs clés
Tableau	Tableau de données avec colonnes triables et fonction de recherche

Onglet Déploiements Ultralytics Affichage des cartes des déploiements actifs

Carte de déploiement (Vue Cartes)

Chaque carte de déploiement dans la vue cartes affiche :

En-tête: nom, drapeau régional, badge de statut, boutons Démarrer/Arrêter/Supprimer
URL du point de terminaison : URL copiable avec lien vers la documentation de l'API
Métriques : Nombre de requêtes (24h), latence P95, taux d'erreur
Bilan de santé: indicateur de santé en temps réel avec latence et actualisation manuelle
Onglets: Logs, Code, et Predict

L'argument Logs L'onglet affiche les entrées récentes du journal avec un filtrage par niveau de gravité (Tout / Erreurs). Le Code L'onglet affiche des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec votre URL de point de terminaison et votre clé API réelles. Le Predict L'onglet fournit un panneau de prédiction en ligne pour tester directement sur le déploiement.

Statuts de déploiement

Statut	Description
Création	Le déploiement est en cours de configuration
Déploiement	Le conteneur démarre
Prêt	Le point final est actif et accepte les demandes.
Arrêt	Le terminal est en cours d'arrêt.
Arrêté	Le terminal est en pause (pas de facturation)
Échec	Déploiement échoué (voir message d'erreur)

URL du point de terminaison

Chaque point de terminaison a une URL unique, par exemple :

https://predict-abc123.run.app

Cliquez sur le bouton de copie pour copier l'URL. Cliquez sur l'icône de documentation pour consulter la documentation API auto-générée pour le point de terminaison.

Gestion du cycle de vie

Contrôlez l'état de votre point de terminaison :

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff

Action	Description
Démarrer	Redémarrer un point de terminaison arrêté
Arrêter	Mettre le point de terminaison en pause (pas de facturation)
Supprimer	Supprimer définitivement le point de terminaison

Arrêter le point de terminaison

Arrêtez un point de terminaison pour suspendre la facturation :

Cliquez sur l'icône de pause sur la carte de déploiement
Le statut du terminal passe à « Arrêt en cours », puis à « Arrêté ».

Points de terminaison arrêtés :

N'acceptent pas les requêtes
N'engendrez pas de frais
Peut être redémarré à tout moment

Supprimer le point de terminaison

Supprimer définitivement un point de terminaison :

Cliquez sur l'icône de suppression (corbeille) sur la carte de déploiement
Confirmer la suppression dans la boîte de dialogue

Action permanente

La suppression est immédiate et permanente. Vous pouvez toujours créer un nouveau point de terminaison.

Utilisation des points de terminaison

Authentification

Chaque déploiement est créé avec une clé API de votre compte. Incluez-la dans les requêtes :

Authorization: Bearer YOUR_API_KEY

Le préfixe de la clé API est affiché en bas de la carte de déploiement à des fins d'identification. Générez des clés à partir des clés API.

Pas de limites de taux

Les points de terminaison dédiés ne sont pas soumis aux limites de débit de l'API de la plateforme. Les requêtes vont directement à votre service dédié, de sorte que le débit est limité uniquement par le CPU, la mémoire et la configuration de mise à l'échelle de votre point de terminaison. C'est un avantage clé par rapport à l'inférence partagée, qui est limitée à 20 requêtes/min par clé API.

Exemple de requête

PythonJavaScriptcURL

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");

// Send image for inference
const response = await fetch(
  "https://predict-abc123.run.app/predict",
  {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  }
);

const result = await response.json();
console.log(result);

curl -X POST \
  "https://predict-abc123.run.app/predict" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@image.jpg" \
  -F "conf=0.25" \
  -F "iou=0.7" \
  -F "imgsz=640"

Paramètres de requête

Paramètre	Type	Par défaut	Description
`file`	fichier	-	Fichier image ou vidéo (obligatoire)
`conf`	flottant	0.25	Seuil de confiance minimum
`iou`	flottant	0.7	Seuil IoU de NMS
`imgsz`	int	640	Taille de l'image d'entrée
`normalize`	chaîne de caractères	-	Renvoyer les coordonnées normalisées

Déduction vidéo

Les points de terminaison dédiés acceptent les fichiers vidéo en plus des images. Formats vidéo pris en charge (jusqu'à 100 Mo) : ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV. Chaque image est traitée individuellement et les résultats sont renvoyés par image. Formats d'image pris en charge (jusqu'à 50 Mo) : AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP.

Format de réponse

Identique à l'inférence partagée avec des champs spécifiques à la tâche.

Tarification

Les points de terminaison dédiés de base sont gratuits sur tous les plans. Les configurations à ressources plus élevées (plus de vCPU, plus de mémoire, démarrage à chaud) offriront une tarification basée sur l'utilisation à l'avenir.

Optimisation des coûts

Utilisez le mode « scale-to-zero » (par défaut) afin que les nœuds ne s'exécutent que lorsqu'ils reçoivent des requêtes
Définissez un nombre maximal d'instances adapté à votre trafic
Surveillez l'utilisation dans le tableau de bord Monitoring

FAQ

Combien de points de terminaison puis-je créer ?

Les limites des terminaux dépendent du forfait :

Gratuit: jusqu'à 3 déploiements
Pro: Jusqu'à 10 déploiements
Entreprise : Déploiements illimités

Chaque modèle peut toujours être déployé dans plusieurs régions dans la limite de votre quota de plan.

Puis-je modifier la région après le déploiement ?

Non, les régions sont fixes. Pour modifier les régions :

Supprimez le point de terminaison existant
Créez un nouveau point de terminaison dans la région souhaitée

Comment gérer le déploiement multi-régions ?

Pour une couverture mondiale :

Déployer dans plusieurs régions
Utilisez un équilibreur de charge ou le routage DNS
Dirigez les utilisateurs vers le point de terminaison le plus proche

Quel est le temps de démarrage à froid ?

Le temps de démarrage à froid dépend de la taille du modèle et de la mise en cache préalable du conteneur dans la région. Plages typiques :

Scénario	Démarrage à froid
Conteneur mis en cache	~5 à 15 secondes
Premier déploiement/région	~15 à 45 secondes

Le contrôle de santé utilise un délai d'attente de 55 secondes pour tenir compte des démarrages à froid les plus défavorables.

Puis-je utiliser des noms de domaine personnalisés ?

Les domaines personnalisés seront bientôt disponibles. Actuellement, les points de terminaison utilisent des URL générées par la plateforme.

📅 Créé il y a 2 mois ✏️ Mis à jour il y a 7 jours

Points de terminaison dédiés

Créer un point de terminaison

À partir de l'onglet Déployer

Depuis la page Déploiements

Cycle de vie du déploiement

Sélection de la région

Régions disponibles

Configuration du point de terminaison

Nouvelle boîte de dialogue de déploiement

Onglet Déploiement (Déploiement rapide)

Gérer les points de terminaison

Modes d'affichage

Carte de déploiement (Vue Cartes)

Statuts de déploiement

URL du point de terminaison

Gestion du cycle de vie

Arrêter le point de terminaison

Supprimer le point de terminaison

Utilisation des points de terminaison

Authentification

Pas de limites de taux

Exemple de requête

Paramètres de requête

Format de réponse

Tarification

FAQ

Combien de points de terminaison puis-je créer ?

Puis-je modifier la région après le déploiement ?

Comment gérer le déploiement multi-régions ?

Quel est le temps de démarrage à froid ?

Puis-je utiliser des noms de domaine personnalisés ?

Commentaires