Link to this sectionPuntos de conexión dedicados#

Q: ¿Cuántos endpoints puedo crear?

Los límites de los endpoints dependen del plan: Free: Hasta 3 despliegues; Pro: Hasta 10 despliegues; Enterprise: Despliegues ilimitados. Cada modelo puede seguir desplegándose en múltiples regiones dentro de la cuota de tu plan.

Q: ¿Cómo gestiono el despliegue en varias regiones?

Para una cobertura global: Despliega en múltiples regiones; Utiliza un balanceador de carga o enrutamiento DNS; Dirige a los usuarios al endpoint más cercano

Ultralytics Platform permite el despliegue de modelos YOLO en endpoints dedicados en 42 regiones globales. Cada endpoint es un servicio de inquilino único con comportamiento de escalado a cero, una URL de endpoint única y monitorización independiente.

Pestaña de despliegue de modelos de Ultralytics Platform con mapa de regiones y tabla

Link to this sectionCrear endpoint#

Link to this sectionDesde la pestaña de despliegue#

Despliega un modelo desde su pestaña Deploy:

Navega hasta tu modelo
Haz clic en la pestaña Deploy
Selecciona una región en el mapa interactivo del mundo; las regiones están codificadas por colores según la latencia desde tu ubicación en un degradado de verde a rojo (las regiones más rápidas son más verdes, las regiones más lentas son más rojas)
Haz clic en Deploy en la fila de la región

El nombre del despliegue se genera automáticamente a partir del nombre del modelo y la ciudad de la región (p. ej., yolo26n-iowa).

Link to this sectionDesde la página de despliegues#

Crea un despliegue desde la página global Deploy en la barra lateral:

Haz clic en New Deployment
Selecciona un modelo desde el selector de modelos
Selecciona una región desde el mapa o la tabla
Revisa el nombre del despliegue generado automáticamente (editable) y los recursos predeterminados
Haz clic en Deploy Model

Diálogo de nuevo despliegue de Ultralytics Platform con selector de modelos y mapa de regiones

Link to this sectionCiclo de vida del despliegue#

stateDiagram-v2
    [*] --> Creating: Deploy
    Creating --> Deploying: Container starting
    Deploying --> Ready: Health check passed
    Ready --> Stopping: Stop
    Stopping --> Stopped: Stopped
    Stopped --> Ready: Start
    Ready --> [*]: Delete
    Stopped --> [*]: Delete
    Creating --> Failed: Error
    Deploying --> Failed: Error
    Failed --> [*]: Delete

    classDef proc fill:#2196F3,color:#fff
    classDef out fill:#9C27B0,color:#fff
    classDef error fill:#F44336,color:#fff
    classDef extern fill:#607D8B,color:#fff
    class Creating,Deploying,Stopping proc
    class Ready out
    class Failed error
    class Stopped extern

Link to this sectionSelección de región#

Elige entre 42 regiones en todo el mundo. El mapa de regiones interactivo y la tabla muestran:

Marcadores de región: Codificados por colores según la latencia en un degradado de verde a rojo (las regiones más rápidas son más verdes, las más lentas son más rojas)
Regiones desplegadas: Resaltadas con una insignia de "Deployed"
Regiones en despliegue: Indicador de pulso animado
Resaltado bidireccional: Pasar el cursor sobre el mapa resalta la fila de la tabla y viceversa

Tabla de latencia de regiones de la pestaña Deploy de Ultralytics Platform ordenada por latencia

La tabla de regiones en la pestaña Deploy del modelo incluye:

Columna	Descripción
Ubicación	Ciudad y país con icono de bandera
Zona	Identificador de la región
Latencia	Tiempo de ping medido (mediana de 3 pings)
Distancia	Distancia desde tu ubicación en km
Acciones	Botón de desplegar o insignia de estado "Deployed"

Diálogo de nuevo despliegue

El diálogo New Deployment (desde la página global Deploy) muestra una tabla de regiones más sencilla con solo las columnas de ubicación, latencia y selección.

Elige con cuidado

Selecciona la región más cercana a tus usuarios para obtener la menor latencia. Usa el botón Rescan para volver a medir la latencia desde tu ubicación actual.

Link to this sectionRegiones disponibles#

Zona	Ubicación
us-central1	Iowa, EE. UU.
us-east1	Carolina del Sur, EE. UU.
us-east4	Virginia del Norte, EE. UU.
us-east5	Columbus, EE. UU.
us-south1	Dallas, EE. UU.
us-west1	Oregón, EE. UU.
us-west2	Los Ángeles, EE. UU.
us-west3	Salt Lake City, EE. UU.
us-west4	Las Vegas, EE. UU.
northamerica-northeast1	Montreal, Canadá
northamerica-northeast2	Toronto, Canadá
northamerica-south1	Querétaro, México
southamerica-east1	São Paulo, Brasil
southamerica-west1	Santiago, Chile

Link to this sectionConfiguración del Endpoint#

Link to this sectionDiálogo de nuevo despliegue#

El cuadro de diálogo New Deployment ofrece:

Configuración	Descripción	Predeterminado
Modelo	Selecciona entre modelos finalizados	-
Región	Región del despliegue	-
Nombre de la implementación	Generado automáticamente, editable	-
Núcleos de CPU	Predeterminado fijo	1
Memoria (GB)	Predeterminado fijo	2

Ultralytics Platform New Deployment Dialog Resources Panel Expanded

Las implementaciones utilizan valores predeterminados fijos de 1 CPU, 2 GiB de memoria, minInstances = 0 y maxInstances = 1. Se reducen a cero cuando están inactivas, por lo que solo pagas por el tiempo de inferencia activo.

Nombres generados automáticamente

El nombre de la implementación se genera automáticamente a partir del nombre del modelo y la ciudad de la región (por ejemplo, yolo26n-iowa). Si vuelves a implementar el mismo modelo en la misma región, se añade un sufijo numérico (por ejemplo, yolo26n-iowa-2).

Link to this sectionPestaña Deploy (Implementación rápida)#

Al implementar desde la pestaña Deploy del modelo, los endpoints se crean con recursos predeterminados (1 CPU, 2 GB de memoria) con la función de escala a cero activada. El nombre de la implementación se genera automáticamente.

Link to this sectionGestionar endpoints#

Link to this sectionModos de visualización#

La lista de implementaciones admite tres modos de visualización:

Modo	Descripción
Tarjetas	Tarjetas de detalles completos con registros, ejemplos de código y panel de predicción
Compacto	Cuadrícula de tarjetas más pequeñas con métricas clave
Tabla	DataTable con columnas ordenables y búsqueda

Ultralytics Platform Deploy Tab Active Deployments Cards View

Link to this sectionTarjeta de implementación (Vista de tarjetas)#

Cada tarjeta de implementación en la vista de tarjetas muestra:

Encabezado: Nombre, bandera de la región, distintivo de estado, botones de iniciar/detener/eliminar
URL del endpoint: URL que se puede copiar con enlace a la documentación de la API
Métricas: Número de solicitudes (24h), latencia P95, tasa de errores
Verificación de estado: Indicador de estado en tiempo real con latencia y actualización manual
Pestañas: Logs, Code y Predict

La pestaña Logs muestra las entradas de registro recientes con filtrado por gravedad (Todos / Errores). La pestaña Code muestra ejemplos de código listos para usar en Python, JavaScript y cURL con tu URL de endpoint real y tu clave de API. La pestaña Predict proporciona un panel de predicción integrado para realizar pruebas directamente en la implementación.

Link to this sectionEstados de implementación#

Estado	Descripción
Creando	La implementación se está configurando
Implementando	El contenedor se está iniciando
Listo	El endpoint está activo y aceptando solicitudes
Deteniendo	El endpoint se está apagando
Detenido	El endpoint está pausado (sin facturación)
Failed	La implementación falló (consulta el mensaje de error)

Link to this sectionURL del endpoint#

Cada endpoint tiene una URL única, por ejemplo:

https://predict-abc123.run.app

Haz clic en el botón de copiar para copiar la URL. Haz clic en el icono de documentación para ver la documentación de la API generada automáticamente para el endpoint.

Link to this sectionGestión del ciclo de vida#

Controla el estado de tu endpoint:

graph LR
    R[Ready]:::out -->|Stop| S[Stopped]:::extern
    S -->|Start| R
    R -->|Delete| D[Deleted]:::error
    S -->|Delete| D

    classDef out fill:#9C27B0,color:#fff
    classDef error fill:#F44336,color:#fff
    classDef extern fill:#607D8B,color:#fff

Acción	Descripción
Iniciar	Reanuda un endpoint detenido
Detener	Pausa el endpoint (sin facturación)
Eliminar	Elimina permanentemente el endpoint

Link to this sectionDetener endpoint#

Detén un endpoint para pausar la facturación:

Haz clic en el icono de pausa en la tarjeta de implementación
El estado del endpoint cambia a "Deteniendo" y luego a "Detenido"

Endpoints detenidos:

No aceptan solicitudes
No generan cargos
Se pueden reiniciar en cualquier momento

Link to this sectionEliminar endpoint#

Elimina permanentemente un endpoint:

Haz clic en el icono de eliminar (papelera) en la tarjeta de implementación
Confirma la eliminación en el cuadro de diálogo

Acción permanente

La eliminación es inmediata y permanente. Siempre puedes crear un nuevo endpoint.

Link to this sectionUso de endpoints#

Link to this sectionAutenticación#

Cada implementación se crea con una clave de API de tu cuenta. Inclúyela en las solicitudes:

Authorization: Bearer YOUR_API_KEY

El prefijo de la clave de API se muestra en el pie de página de la tarjeta de implementación para su identificación. Genera claves desde API Keys.

Link to this sectionSin límites de velocidad#

Las solicitudes enviadas directamente a la URL de tu endpoint dedicado no están sujetas a los límites de velocidad de la Platform API; el rendimiento está limitado únicamente por la configuración de CPU, memoria y escalado de tu endpoint. (Las solicitudes enviadas a través de la Platform API, como el probador en el navegador, siguen utilizando el límite estándar de 20 solicitudes/min para predicciones). Esta es una ventaja clave frente a la shared inference, que tiene un límite de velocidad de 20 solicitudes/min por cada clave de API.

Link to this sectionEjemplo de solicitud#

import requests

# Deployment endpoint
url = "https://predict-abc123.run.app/predict"

# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}

# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}

# Send image for inference
with open("image.jpg", "rb") as f:
    response = requests.post(url, headers=headers, data=data, files={"file": f})

print(response.json())

Link to this sectionParámetros de petición#

Parámetro	Tipo	Predeterminado	Rango	Descripción
`file`	archivo	-	-	Archivo de imagen o vídeo (obligatorio)
`conf`	float	0.25	0.01 – 1.0	Umbral de confianza mínimo
`iou`	float	0.7	0.0 – 0.95	Umbral de IoU para NMS
`imgsz`	entero	640	32 – 1280	Tamaño de la imagen de entrada en píxeles
`normalize`	bool	false	-	Devuelve las coordenadas del bounding box entre 0 y 1
`decimals`	entero	5	0 – 10	Precisión decimal para los valores de las coordenadas
`source`	cadena	-	-	URL de imagen o cadena base64 (alternativa a `file`)

Inferencia de vídeo

Los endpoints dedicados aceptan tanto imágenes como vídeos a través del parámetro file.

Formatos de imagen (hasta 100 MB): AVIF, BMP, DNG, HEIC, JP2, JPEG, JPG, MPO, PNG, TIF, TIFF, WEBP
Formatos de vídeo (hasta 100 MB): ASF, AVI, GIF, M4V, MKV, MOV, MP4, MPEG, MPG, TS, WEBM, WMV

Cada fotograma de vídeo se procesa individualmente y los resultados se devuelven por fotograma. También puedes pasar una URL de imagen pública o una imagen codificada en base64 a través del parámetro source en lugar de file.

Link to this sectionFormato de respuesta#

Igual que en la inferencia compartida con campos específicos de la tarea.

Link to this sectionPrecios#

Los endpoints dedicados básicos son gratuitos en todos los planes. Las configuraciones de mayores recursos (más vCPUs, más memoria, arranque en caliente) ofrecerán precios basados en el uso en el futuro.

Optimización de costes

Utiliza el escalado a cero (por defecto) para que los endpoints solo funcionen cuando reciban solicitudes
Establece las instancias máximas adecuadas para tu tráfico
Monitorea el uso en el panel de Monitorización

Link to this sectionFAQ#

Link to this section¿Cuántos endpoints puedo crear?#

Los límites de los endpoints dependen del plan:

Free: Hasta 3 despliegues
Pro: Hasta 10 despliegues
Enterprise: Despliegues ilimitados

Cada modelo puede seguir desplegándose en múltiples regiones dentro de la cuota de tu plan.

Link to this section¿Puedo cambiar la región después del despliegue?#

No, las regiones son fijas. Para cambiar de región:

Elimina el endpoint existente
Crea un nuevo endpoint en la región deseada

Link to this section¿Cómo gestiono el despliegue en varias regiones?#

Para una cobertura global:

Despliega en múltiples regiones
Utiliza un balanceador de carga o enrutamiento DNS
Dirige a los usuarios al endpoint más cercano

Link to this section¿Cuál es el tiempo de arranque en frío?#

El tiempo de arranque en frío depende del tamaño del modelo y de si el contenedor ya está almacenado en caché en la región. Rangos típicos:

Escenario	Arranque en frío
Contenedor en caché	~5-15 segundos
Primer despliegue/región	~15-45 segundos

La comprobación de estado utiliza un tiempo de espera de 55 segundos para adaptarse a los peores casos de arranque en frío.

Link to this section¿Puedo utilizar dominios personalizados?#

Los dominios personalizados estarán disponibles próximamente. Actualmente, los endpoints utilizan URLs generadas por la plataforma.

Colaboradores

GLglenn-jocher¹⁴ T-t-hakobyan¹ SEsergiuwaxmann¹

Creado 14 ene 2026Actualizado hace 11 horas