Passer au contenu

Points de terminaison dédiés

Ultralytics permet le déploiement de YOLO vers des points de terminaison dédiés dans 43 régions du monde. Chaque point de terminaison est un service à locataire unique avec mise à l'échelle automatique, une URL de point de terminaison unique et une surveillance indépendante.

Onglet « Déploiement » du modèle Ultralytics avec carte régionale et tableau

Créer un point de terminaison

À partir de l'onglet Déployer

Déployer un modèle à partir de son Deploy onglet :

  1. Accédez à votre modèle
  2. Cliquez sur l'onglet Déployer
  3. Sélectionnez une région dans le tableau des régions (triées par latence depuis votre emplacement)
  4. Cliquez sur Déployer dans la ligne de la région.

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo11n-iowa).

Depuis la page Déploiements

Créer un déploiement à partir du global Deploy page dans la barre latérale :

  1. Cliquez sur Nouveau déploiement.
  2. Sélectionnez un modèle dans le sélecteur de modèles.
  3. Sélectionnez une région sur la carte ou dans le tableau.
  4. Personnalisez éventuellement le nom du déploiement et les ressources.
  5. Cliquez sur Déployer le modèle

Ultralytics Nouvelle boîte de dialogue de déploiement avec sélecteur de modèle et carte régionale

Cycle de vie du déploiement

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Sélection de la région

Choisissez parmi 43 régions à travers le monde. La carte interactive et le tableau présentent :

  • Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
  • Régions déployées: mises en évidence par un badge « Déployé ».
  • Régions de déploiement: indicateur d'impulsion animé
  • Mise en surbrillance bidirectionnelle: passer la souris sur la carte met en surbrillance la ligne du tableau, et vice versa.

Tableau de latence de la région de l'onglet Déploiement Ultralytics , trié par latence

Le tableau régional sur le modèle Deploy L'onglet comprend :

ColonneDescription
EmplacementVille et pays avec icône drapeau
ZoneIdentifiant de la région
LatenceTemps de ping mesuré (médiane de 3 pings)
DistanceDistance depuis votre emplacement en km
ActionsBouton Déployer ou badge d'état « Déployé »

Nouvelle boîte de dialogue de déploiement

L'argument New Deployment dialogue (à partir du global Deploy page) affiche un tableau régional plus simple comprenant uniquement les colonnes Emplacement, Latence et Sélection.

Choisissez judicieusement

Sélectionnez la région la plus proche de vos utilisateurs pour obtenir la latence la plus faible. Utilisez le bouton « Rescan » (Réanalyser) pour mesurer à nouveau la latence depuis votre emplacement actuel.

Régions disponibles

ZoneEmplacement
us-central1Iowa, États-Unis
us-east1Caroline du Sud, États-Unis
us-east4Virginie du Nord, États-Unis
us-east5Columbus, États-Unis
us-south1Dallas, États-Unis
us-west1Oregon, États-Unis
us-west2Los Angeles, États-Unis
us-west3Salt Lake City, États-Unis
us-west4Las Vegas, États-Unis
northamerica-northeast1Montréal, Canada
northamerica-northeast2Toronto, Canada
Amérique du Nord-Sud 1Querétaro, Mexique
southamerica-east1Sao Paulo, Brésil
southamerica-west1Santiago, Chili
ZoneEmplacement
europe-west1Saint-Ghislain, Belgique
europe-west2Londres, Royaume-Uni
europe-west3Francfort, Allemagne
europe-west4Eemshaven, Pays-Bas
europe-west6Zurich, Suisse
europe-west8Milan, Italie
europe-west9Paris, France
europe-west10Berlin, Allemagne
europe-west12Turin, Italie
europe-north1Hamina, Finlande
europe-nord2Stockholm, Suède
europe-central2Varsovie, Pologne
europe-southwest1Madrid, Espagne
ZoneEmplacement
asia-east1Changhua, Taïwan
asia-east2Kowloon, Hong Kong
asia-northeast1Tokyo, Japon
asia-northeast2Osaka, Japon
asia-northeast3Séoul, Corée du Sud
asia-south1Mumbai, Inde
asia-south2Delhi, Inde
asia-southeast1Jurong West, Singapour
asia-southeast2Jakarta, Indonésie
Asie-Sud-Est3Bangkok, Thaïlande
australia-southeast1Sydney, Australie
australia-southeast2Melbourne, Australie
ZoneEmplacement
afrique-sud1Johannesburg, Afrique du Sud
me-central1Doha, Qatar
me-central2Dammam, Arabie Saoudite
me-west1Tel Aviv, Israël

Configuration du point de terminaison

Nouvelle boîte de dialogue de déploiement

L'argument New Deployment dialog fournit :

ParamètreDescriptionPar défaut
ModèleSélectionnez parmi les modèles terminés-
RégionRégion de déploiement-
Nom du déploiementGénéré automatiquement, modifiable-
CPUCPU (1-8)1
Mémoire (Go)Allocation de mémoire (1 à 32 Go)2

Nouveau déploiement Ultralytics Extension du panneau de ressources du dialogue

Les paramètres des ressources sont disponibles dans la section Ressources, qui peut être réduite. Les déploiements utilisent par défaut l'échelle zéro (nombre minimal d'instances = 0, nombre maximal d'instances = 1) : vous ne payez que pour le temps d'inférence actif.

Noms générés automatiquement

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo11n-iowa). Si vous déployez à nouveau le même modèle dans la même région, un suffixe numérique est ajouté (par exemple, yolo11n-iowa-2).

Onglet Déploiement (Déploiement rapide)

Lors du déploiement à partir du modèle Deploy onglet, les points de terminaison sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et l'option « scale-to-zero » activée. Le nom du déploiement est généré automatiquement.

Gérer les points de terminaison

Modes d'affichage

La liste des déploiements prend en charge trois modes d'affichage :

ModeDescription
CartesFiches détaillées avec journaux, exemples de code, panneau de prévision
CompactGrille de petites cartes avec les indicateurs clés
TableauTableau de données avec colonnes triables et fonction de recherche

Onglet Déploiements Ultralytics Affichage des cartes des déploiements actifs

Carte de déploiement (vue Cartes)

Chaque carte de déploiement dans la vue des cartes affiche :

  • En-tête: nom, drapeau régional, badge de statut, boutons Démarrer/Arrêter/Supprimer
  • URL finale: URL copiable avec lien vers la documentation API
  • Indicateurs: nombre de requêtes (24 h), latence P95, taux d'erreur
  • Bilan de santé: indicateur de santé en temps réel avec latence et actualisation manuelle
  • Onglets: Logs, Code, et Predict

L'argument Logs L'onglet affiche les entrées récentes du journal avec un filtrage par niveau de gravité (Tout / Erreurs). Le Code L'onglet affiche des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec votre URL de point de terminaison et votre clé API réelles. Le Predict L'onglet fournit un panneau de prédiction en ligne pour tester directement sur le déploiement.

Statuts de déploiement

StatutDescription
CréationLe déploiement est en cours de configuration.
DéploiementLe conteneur démarre
PrêtLe point final est actif et accepte les demandes.
ArrêtLe terminal est en cours d'arrêt.
ArrêtéLe terminal est en pause (pas de facturation)
ÉchecDéploiement échoué (voir message d'erreur)

URL du point de terminaison

Chaque point de terminaison dispose d'une URL unique, par exemple :

https://predict-abc123.run.app

Carte de déploiement Ultralytics URL du point de terminaison avec bouton Copier

Cliquez sur le bouton Copier pour copier l'URL. Cliquez sur l'icône Docs pour afficher la documentation API générée automatiquement pour le point de terminaison.

Gestion du cycle de vie

Contrôlez l'état de votre point de terminaison :

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
ActionDescription
DémarrerRedémarrer un point de terminaison arrêté
ArrêterMettre le point de terminaison en pause (pas de facturation)
SupprimerSupprimer définitivement le point de terminaison

Arrêter le point de terminaison

Arrêtez un point de terminaison pour suspendre la facturation :

  1. Cliquez sur l'icône de pause sur la carte de déploiement.
  2. Le statut du terminal passe à « Arrêt en cours », puis à « Arrêté ».

Points de terminaison arrêtés :

  • N'acceptent pas les requêtes
  • N'engendrez pas de frais
  • Peut être redémarré à tout moment

Supprimer le point de terminaison

Supprimer définitivement un point de terminaison :

  1. Cliquez sur l'icône Supprimer (corbeille) sur la carte de déploiement.
  2. Confirmer la suppression dans la boîte de dialogue

Action permanente

La suppression est immédiate et permanente. Vous pouvez toujours créer un nouveau point de terminaison.

Utilisation des points de terminaison

Authentification

Chaque déploiement est créé à l'aide d'une clé API provenant de votre compte. Incluez-la dans les requêtes :

Authorization: Bearer YOUR_API_KEY

Le préfixe de la clé API est affiché en bas de la carte de déploiement à des fins d'identification. Générez des clés à partir des clés API.

Pas de limites de taux

Les points de terminaison dédiés ne sont pas soumis aux limites de débit de l'API de la plateforme. Les requêtes sont directement transmises à votre service dédié, de sorte que le débit n'est limité que par la configuration de votre point de terminaison en termes CPU, de mémoire et de mise à l'échelle. Il s'agit là d'un avantage clé par rapport à l'inférence partagée, dont le débit est limité à 20 requêtes/minute par clé API.

Exemple de requête

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");

// Send image for inference
const response = await fetch(
  "https://predict-abc123.run.app/predict",
  {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  }
);

const result = await response.json();
console.log(result);
curl -X POST \
  "https://predict-abc123.run.app/predict" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@image.jpg" \
  -F "conf=0.25" \
  -F "iou=0.7" \
  -F "imgsz=640"

Paramètres de requête

ParamètreTypePar défautDescription
filefichier-Fichier image (obligatoire)
confflottant0.25Seuil de confiance minimum
iouflottant0.7Seuil IoU de NMS
imgszint640Taille de l'image d'entrée
normalizechaîne de caractères-Renvoyer les coordonnées normalisées

Format de réponse

Identique à l'inférence partagée avec des champs spécifiques à la tâche.

Tarification

Les points de terminaison dédiés sont facturés en fonction de :

ComposantTarif
CPUPar vCPU-seconde
MémoirePar Go-seconde
RequêtesPar million de requêtes

Optimisation des coûts

  • Utilisez la mise à l'échelle à zéro pour les points de terminaison de développement
  • Définissez un nombre maximal d'instances approprié
  • Surveillez l'utilisation dans le tableau de bord Monitoring
  • Vérifiez les coûts dans Paramètres > Facturation

FAQ

Combien de points de terminaison puis-je créer ?

Les limites des terminaux dépendent du forfait :

  • Gratuit: jusqu'à 3 déploiements
  • Avantage: jusqu'à 10 déploiements
  • Entreprise: déploiements illimités

Chaque modèle peut toujours être déployé dans plusieurs régions dans la limite du quota de votre forfait.

Puis-je modifier la région après le déploiement ?

Non, les régions sont fixes. Pour modifier les régions :

  1. Supprimez le point de terminaison existant
  2. Créez un nouveau point de terminaison dans la région souhaitée

Comment gérer le déploiement multi-régions ?

Pour une couverture mondiale :

  1. Déployer dans plusieurs régions
  2. Utilisez un équilibreur de charge ou le routage DNS
  3. Dirigez les utilisateurs vers le point de terminaison le plus proche

Quel est le temps de démarrage à froid ?

Le temps de démarrage à froid dépend de la taille du modèle et du fait que le conteneur soit déjà mis en cache dans la région. Plages types :

ScénarioDémarrage à froid
Conteneur mis en cache~5 à 15 secondes
Premier déploiement/région~15 à 45 secondes

Le contrôle de santé utilise un délai d'attente de 55 secondes pour tenir compte des démarrages à froid les plus défavorables.

Puis-je utiliser des noms de domaine personnalisés ?

Les domaines personnalisés seront bientôt disponibles. Actuellement, les points de terminaison utilisent des URL générées par la plateforme.



📅 Créé il y a 1 mois ✏️ Mis à jour il y a 5 jours
glenn-jochersergiuwaxmann

Commentaires