Passer au contenu

Points de terminaison dédiés

La Plateforme Ultralytics permet le déploiement de modèles YOLO vers des points de terminaison dédiés dans 43 régions mondiales. Chaque point de terminaison est un service à locataire unique avec auto-mise à l'échelle, une URL de point de terminaison unique et une surveillance indépendante.

Onglet « Déploiement » du modèle Ultralytics avec carte régionale et tableau

Créer un point de terminaison

À partir de l'onglet Déployer

Déployer un modèle depuis son Deploy onglet :

  1. Accédez à votre modèle
  2. Cliquez sur l'onglet Déployer
  3. Select a region from the interactive world map — regions are color-coded by latency from your location (green < 100ms, yellow < 200ms, red > 200ms)
  4. Cliquez sur Déployer sur la ligne de la région

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo26n-iowa).

Depuis la page Déploiements

Créer un déploiement à partir du global Deploy page dans la barre latérale :

  1. Cliquez sur Nouveau déploiement
  2. Sélectionnez un modèle dans le sélecteur de modèles.
  3. Sélectionnez une région sur la carte ou dans le tableau.
  4. Personnalisez éventuellement le nom du déploiement et les ressources.
  5. Cliquez sur Déployer le modèle

Ultralytics Nouvelle boîte de dialogue de déploiement avec sélecteur de modèle et carte régionale

Cycle de vie du déploiement

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

Sélection de la région

Choisissez parmi 43 régions dans le monde entier. La carte et le tableau interactifs des régions affichent :

  • Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
  • Régions déployées : Mises en évidence par un badge « Déployé »
  • Régions en cours de déploiement : Indicateur de pulsation animé
  • Mise en évidence bidirectionnelle : Le survol sur la carte met en évidence la ligne du tableau, et vice versa.

Tableau de latence de la région de l'onglet Déploiement Ultralytics , trié par latence

Le tableau régional sur le modèle Deploy L'onglet comprend :

ColonneDescription
EmplacementVille et pays avec icône de drapeau
ZoneIdentifiant de la région
LatenceTemps de ping mesuré (médiane de 3 pings)
DistanceDistance de votre emplacement en km
ActionsBouton "Déployer" ou badge de statut "Déployé"

Nouvelle boîte de dialogue de déploiement

L'argument New Deployment dialogue (à partir du global Deploy page) affiche un tableau régional plus simple comprenant uniquement les colonnes Emplacement, Latence et Sélection.

Choisissez judicieusement

Sélectionnez la région la plus proche de vos utilisateurs pour obtenir la latence la plus faible. Utilisez le bouton « Rescan » (Réanalyser) pour mesurer à nouveau la latence depuis votre emplacement actuel.

Régions disponibles

ZoneEmplacement
us-central1Iowa, États-Unis
us-east1Caroline du Sud, États-Unis
us-east4Virginie du Nord, États-Unis
us-east5Columbus, États-Unis
us-south1Dallas, États-Unis
us-west1Oregon, États-Unis
us-west2Los Angeles, États-Unis
us-west3Salt Lake City, États-Unis
us-west4Las Vegas, États-Unis
northamerica-northeast1Montréal, Canada
northamerica-northeast2Toronto, Canada
Amérique du Nord-Sud 1Querétaro, Mexique
southamerica-east1Sao Paulo, Brésil
southamerica-west1Santiago, Chili
ZoneEmplacement
europe-west1Saint-Ghislain, Belgique
europe-west2Londres, Royaume-Uni
europe-west3Francfort, Allemagne
europe-west4Eemshaven, Pays-Bas
europe-west6Zurich, Suisse
europe-west8Milan, Italie
europe-west9Paris, France
europe-west10Berlin, Allemagne
europe-west12Turin, Italie
europe-north1Hamina, Finlande
europe-nord2Stockholm, Suède
europe-central2Varsovie, Pologne
europe-southwest1Madrid, Espagne
ZoneEmplacement
asia-east1Changhua, Taïwan
asia-east2Kowloon, Hong Kong
asia-northeast1Tokyo, Japon
asia-northeast2Osaka, Japon
asia-northeast3Séoul, Corée du Sud
asia-south1Mumbai, Inde
asia-south2Delhi, Inde
asia-southeast1Jurong West, Singapour
asia-southeast2Jakarta, Indonésie
asia-southeast3Bangkok, Thaïlande
australia-southeast1Sydney, Australie
australia-southeast2Melbourne, Australie
ZoneEmplacement
africa-south1Johannesburg, Afrique du Sud
me-central1Doha, Qatar
me-central2Dammam, Arabie Saoudite
me-west1Tel Aviv, Israël

Configuration du point de terminaison

Nouvelle boîte de dialogue de déploiement

L'argument New Deployment le dialogue fournit :

ParamètreDescriptionPar défaut
ModèleSélectionnez parmi les modèles terminés-
RégionRégion de déploiement-
Nom du déploiementGénéré automatiquement, modifiable-
Cœurs CPUAllocation CPU (1-8)1
Mémoire (Go)Allocation de mémoire (1 à 32 Go)2

Nouveau déploiement Ultralytics Extension du panneau de ressources du dialogue

Les paramètres des ressources sont disponibles dans la section Ressources, qui peut être réduite. Les déploiements utilisent par défaut l'échelle zéro (nombre minimal d'instances = 0, nombre maximal d'instances = 1) : vous ne payez que pour le temps d'inférence actif.

Noms générés automatiquement

Le nom du déploiement est généré automatiquement à partir du nom du modèle et de la ville de la région (par exemple, yolo26n-iowa). Si vous déployez le même modèle dans la même région à nouveau, un suffixe numérique est ajouté (par exemple, yolo26n-iowa-2).

Onglet Déploiement (Déploiement rapide)

Lors du déploiement à partir du modèle Deploy onglet, les points de terminaison sont créés avec des ressources par défaut (1 CPU, 2 Go de mémoire) et l'option « scale-to-zero » activée. Le nom du déploiement est généré automatiquement.

Gérer les points de terminaison

Modes d'affichage

La liste des déploiements prend en charge trois modes d'affichage :

ModeDescription
CartesFiches détaillées avec journaux, exemples de code, panneau de prévision
CompactGrille de petites cartes avec les indicateurs clés
TableauTableau de données avec colonnes triables et fonction de recherche

Onglet Déploiements Ultralytics Affichage des cartes des déploiements actifs

Carte de déploiement (Vue Cartes)

Chaque carte de déploiement dans la vue cartes affiche :

  • En-tête: nom, drapeau régional, badge de statut, boutons Démarrer/Arrêter/Supprimer
  • URL du point de terminaison : URL copiable avec lien vers la documentation de l'API
  • Métriques : Nombre de requêtes (24h), latence P95, taux d'erreur
  • Bilan de santé: indicateur de santé en temps réel avec latence et actualisation manuelle
  • Onglets: Logs, Code, et Predict

L'argument Logs L'onglet affiche les entrées récentes du journal avec un filtrage par niveau de gravité (Tout / Erreurs). Le Code L'onglet affiche des exemples de code prêts à l'emploi en Python, JavaScript et cURL avec votre URL de point de terminaison et votre clé API réelles. Le Predict L'onglet fournit un panneau de prédiction en ligne pour tester directement sur le déploiement.

Statuts de déploiement

StatutDescription
CréationLe déploiement est en cours de configuration
DéploiementLe conteneur démarre
PrêtLe point final est actif et accepte les demandes.
ArrêtLe terminal est en cours d'arrêt.
ArrêtéLe terminal est en pause (pas de facturation)
ÉchecDéploiement échoué (voir message d'erreur)

URL du point de terminaison

Chaque point de terminaison a une URL unique, par exemple :

https://predict-abc123.run.app

Carte de déploiement Ultralytics URL du point de terminaison avec bouton Copier

Cliquez sur le bouton de copie pour copier l'URL. Cliquez sur l'icône de documentation pour consulter la documentation API auto-générée pour le point de terminaison.

Gestion du cycle de vie

Contrôlez l'état de votre point de terminaison :

graph LR
    R[Ready] -->|Stop| S[Stopped]
    S -->|Start| R
    R -->|Delete| D[Deleted]
    S -->|Delete| D

    style R fill:#4CAF50,color:#fff
    style S fill:#9E9E9E,color:#fff
    style D fill:#F44336,color:#fff
ActionDescription
DémarrerRedémarrer un point de terminaison arrêté
ArrêterMettre le point de terminaison en pause (pas de facturation)
SupprimerSupprimer définitivement le point de terminaison

Arrêter le point de terminaison

Arrêtez un point de terminaison pour suspendre la facturation :

  1. Cliquez sur l'icône de pause sur la carte de déploiement
  2. Le statut du terminal passe à « Arrêt en cours », puis à « Arrêté ».

Points de terminaison arrêtés :

  • N'acceptent pas les requêtes
  • N'engendrez pas de frais
  • Peut être redémarré à tout moment

Supprimer le point de terminaison

Supprimer définitivement un point de terminaison :

  1. Cliquez sur l'icône de suppression (corbeille) sur la carte de déploiement
  2. Confirmer la suppression dans la boîte de dialogue

Action permanente

La suppression est immédiate et permanente. Vous pouvez toujours créer un nouveau point de terminaison.

Utilisation des points de terminaison

Authentification

Chaque déploiement est créé avec une clé API de votre compte. Incluez-la dans les requêtes :

Authorization: Bearer YOUR_API_KEY

Le préfixe de la clé API est affiché en bas de la carte de déploiement à des fins d'identification. Générez des clés à partir des clés API.

Pas de limites de taux

Les points de terminaison dédiés ne sont pas soumis aux limites de débit de l'API de la plateforme. Les requêtes vont directement à votre service dédié, de sorte que le débit est limité uniquement par le CPU, la mémoire et la configuration de mise à l'échelle de votre point de terminaison. C'est un avantage clé par rapport à l'inférence partagée, qui est limitée à 20 requêtes/min par clé API.

Exemple de requête

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");

// Send image for inference
const response = await fetch(
  "https://predict-abc123.run.app/predict",
  {
    method: "POST",
    headers: { Authorization: "Bearer YOUR_API_KEY" },
    body: formData,
  }
);

const result = await response.json();
console.log(result);
curl -X POST \
  "https://predict-abc123.run.app/predict" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F "file=@image.jpg" \
  -F "conf=0.25" \
  -F "iou=0.7" \
  -F "imgsz=640"

Paramètres de requête

ParamètreTypePar défautDescription
filefichier-Fichier image ou vidéo (obligatoire)
confflottant0.25Seuil de confiance minimum
iouflottant0.7Seuil IoU de NMS
imgszint640Taille de l'image d'entrée
normalizechaîne de caractères-Renvoyer les coordonnées normalisées

Déduction vidéo

Les points de terminaison dédiés acceptent les fichiers vidéo en plus des images. Formats vidéo pris en charge (jusqu'à 100 Mo) : ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV. Chaque image est traitée individuellement et les résultats sont renvoyés par image. Formats d'image pris en charge (jusqu'à 50 Mo) : AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP.

Format de réponse

Identique à l'inférence partagée avec des champs spécifiques à la tâche.

Tarification

Les points de terminaison dédiés de base sont gratuits sur tous les plans. Les configurations à ressources plus élevées (plus de vCPU, plus de mémoire, démarrage à chaud) offriront une tarification basée sur l'utilisation à l'avenir.

Optimisation des coûts

  • Utilisez le mode « scale-to-zero » (par défaut) afin que les nœuds ne s'exécutent que lorsqu'ils reçoivent des requêtes
  • Définissez un nombre maximal d'instances adapté à votre trafic
  • Surveillez l'utilisation dans le tableau de bord Monitoring

FAQ

Combien de points de terminaison puis-je créer ?

Les limites des terminaux dépendent du forfait :

  • Gratuit: jusqu'à 3 déploiements
  • Pro: Jusqu'à 10 déploiements
  • Entreprise : Déploiements illimités

Chaque modèle peut toujours être déployé dans plusieurs régions dans la limite de votre quota de plan.

Puis-je modifier la région après le déploiement ?

Non, les régions sont fixes. Pour modifier les régions :

  1. Supprimez le point de terminaison existant
  2. Créez un nouveau point de terminaison dans la région souhaitée

Comment gérer le déploiement multi-régions ?

Pour une couverture mondiale :

  1. Déployer dans plusieurs régions
  2. Utilisez un équilibreur de charge ou le routage DNS
  3. Dirigez les utilisateurs vers le point de terminaison le plus proche

Quel est le temps de démarrage à froid ?

Le temps de démarrage à froid dépend de la taille du modèle et de la mise en cache préalable du conteneur dans la région. Plages typiques :

ScénarioDémarrage à froid
Conteneur mis en cache~5 à 15 secondes
Premier déploiement/région~15 à 45 secondes

Le contrôle de santé utilise un délai d'attente de 55 secondes pour tenir compte des démarrages à froid les plus défavorables.

Puis-je utiliser des noms de domaine personnalisés ?

Les domaines personnalisés seront bientôt disponibles. Actuellement, les points de terminaison utilisent des URL générées par la plateforme.



📅 Créé il y a 2 mois ✏️ Mis à jour il y a 7 jours
glenn-jochert-hakobyansergiuwaxmann

Commentaires