Endpoints Dedicados
La Plataforma Ultralytics permite el despliegue de modelos YOLO en puntos finales dedicados en 43 regiones globales. Cada punto final es un servicio de inquilino único con autoescalado, una URL de punto final única y monitoreo independiente.

Crear Punto de Conexión
Desde la pestaña Desplegar
Implementar un modelo desde su Deploy pestaña:
- Navega a tu modelo
- Haz clic en la pestaña Desplegar
- Seleccione una región de la tabla de regiones (ordenada por latencia desde su ubicación)
- Haz clic en Desplegar en la fila de la región
El nombre de la implementación se genera automáticamente a partir del nombre del modelo y la ciudad de la región (p. ej., yolo11n-iowa).
Desde la página de Despliegues
Crear un despliegue desde el global Deploy página en la barra lateral:
- Haz clic en Nuevo despliegue
- Seleccione un modelo del selector de modelos
- Seleccione una región del mapa o la tabla
- Opcionalmente, personalice el nombre y los recursos del despliegue
- Haz clic en Desplegar modelo

Ciclo de Vida del Despliegue
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete
Selección de región
Elija entre 43 regiones en todo el mundo. El mapa y la tabla de regiones interactivos muestran:
- Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
- Regiones desplegadas: Resaltadas con una insignia de "Desplegado"
- Regiones en despliegue: Indicador de pulso animado
- Resaltado bidireccional: Al pasar el ratón sobre el mapa, se resalta la fila de la tabla, y viceversa.

La tabla de regiones en el modelo Deploy la pestaña incluye:
| Columna | Descripción |
|---|---|
| Ubicación | Ciudad y país con icono de bandera |
| Zona | Identificador de región |
| Latencia | Tiempo de ping medido (mediana de 3 pings) |
| Distancia | Distancia desde su ubicación en km |
| Acciones | Botón de Implementar o insignia de estado "Implementado" |
Nuevo diálogo de despliegue
El New Deployment diálogo (desde el global Deploy página) muestra una tabla de región más sencilla con solo las columnas Ubicación, Latencia y Selección.
Elija sabiamente
Seleccione la región más cercana a sus usuarios para obtener la latencia más baja. Utilice el botón Volver a escanear para volver a medir la latencia desde su ubicación actual.
Regiones Disponibles
| Zona | Ubicación |
|---|---|
| us-central1 | Iowa, EE. UU. |
| us-east1 | Carolina del Sur, EE. UU. |
| us-east4 | Norte de Virginia, EE. UU. |
| us-east5 | Columbus, EE. UU. |
| us-south1 | Dallas, EE. UU. |
| us-west1 | Oregón, EE. UU. |
| us-west2 | Los Ángeles, EE. UU. |
| us-west3 | Salt Lake City, EE. UU. |
| us-west4 | Las Vegas, EE. UU. |
| northamerica-northeast1 | Montreal, Canadá |
| northamerica-northeast2 | Toronto, Canadá |
| northamerica-south1 | Querétaro, México |
| southamerica-east1 | São Paulo, Brasil |
| southamerica-west1 | Santiago, Chile |
| Zona | Ubicación |
|---|---|
| europe-west1 | St. Ghislain, Bélgica |
| europe-west2 | Londres, Reino Unido |
| europe-west3 | Fráncfort, Alemania |
| europe-west4 | Eemshaven, Países Bajos |
| europe-west6 | Zúrich, Suiza |
| europe-west8 | Milán, Italia |
| europe-west9 | París, Francia |
| europe-west10 | Berlín, Alemania |
| europe-west12 | Turín, Italia |
| europe-north1 | Hamina, Finlandia |
| europe-north2 | Estocolmo, Suecia |
| europe-central2 | Varsovia, Polonia |
| europe-southwest1 | Madrid, España |
| Zona | Ubicación |
|---|---|
| asia-east1 | Changhua, Taiwán |
| asia-east2 | Kowloon, Hong Kong |
| asia-northeast1 | Tokio, Japón |
| asia-northeast2 | Osaka, Japón |
| asia-northeast3 | Seúl, Corea del Sur |
| asia-south1 | Mumbai, India |
| asia-south2 | Delhi, India |
| asia-southeast1 | Jurong Oeste, Singapur |
| asia-southeast2 | Yakarta, Indonesia |
| asia-southeast3 | Bangkok, Tailandia |
| australia-southeast1 | Sídney, Australia |
| australia-southeast2 | Melbourne, Australia |
| Zona | Ubicación |
|---|---|
| africa-south1 | Johannesburgo, Sudáfrica |
| me-central1 | Doha, Catar |
| me-central2 | Dammam, Arabia Saudita |
| me-west1 | Tel Aviv, Israel |
Configuración del Punto de Conexión
Nuevo diálogo de despliegue
El New Deployment El diálogo proporciona:
| Configuración | Descripción | Predeterminado |
|---|---|---|
| Modelo | Seleccione entre los modelos completados | - |
| Región | Región de despliegue | - |
| Nombre del Despliegue | Autogenerado, editable | - |
| Núcleos de CPU | Asignación de CPU (1-8) | 1 |
| Memoria (GB) | Asignación de memoria (1-32 GB) | 2 |

La configuración de recursos está disponible en la sección desplegable Recursos. Las implementaciones utilizan el escalado a cero por defecto (instancias mínimas = 0, instancias máximas = 1) — solo paga por el tiempo de inferencia activo.
Nombres autogenerados
El nombre de la implementación se genera automáticamente a partir del nombre del modelo y la ciudad de la región (p. ej., yolo11n-iowa). Si despliega el mismo modelo en la misma región de nuevo, se añade un sufijo numérico (p. ej., yolo11n-iowa-2).
Pestaña Implementar (Implementación Rápida)
Al desplegar desde el modelo Deploy pestaña, los endpoints se crean con recursos predeterminados (1 CPU, 2 GB de memoria) con escalado a cero habilitado. El nombre del despliegue se genera automáticamente.
Gestionar Endpoints
Modos de Vista
La lista de implementaciones admite tres modos de vista:
| Modo | Descripción |
|---|---|
| Tarjetas | Tarjetas de detalles completos con registros, ejemplos de código, panel de predicción |
| Compacto | Cuadrícula de tarjetas más pequeñas con métricas clave |
| Tabla | Tabla de datos con columnas ordenables y búsqueda |

Tarjeta de Despliegue (Vista de Tarjetas)
Cada tarjeta de despliegue en la vista de tarjetas muestra:
- Encabezado: Nombre, bandera de región, insignia de estado, botones de iniciar/detener/eliminar
- URL del Endpoint: URL copiable con enlace a la documentación de la API
- Métricas: Recuento de solicitudes (24h), latencia P95, tasa de error
- Verificación de estado: Indicador de estado en tiempo real con latencia y actualización manual
- Pestañas:
Logs,Code, yPredict
El Logs pestaña muestra entradas de registro recientes con filtrado por severidad (Todas / Errores). La Code pestaña muestra ejemplos de código listos para usar en Python, JavaScript y cURL con su URL de endpoint y clave API reales. La Predict la pestaña proporciona un panel de predicción en línea para realizar pruebas directamente en el despliegue.
Estados del Despliegue
| Estado | Descripción |
|---|---|
| Creando | El despliegue se está configurando |
| Implementando | El contenedor se está iniciando |
| Listo | El endpoint está activo y aceptando solicitudes |
| Deteniendo | El endpoint se está apagando |
| Detenido | El endpoint está pausado (sin facturación) |
| Fallido | Despliegue fallido (ver mensaje de error) |
URL del Punto de Conexión
Cada punto final tiene una URL única, por ejemplo:
https://predict-abc123.run.app

Haga clic en el botón de copiar para copiar la URL. Haga clic en el icono de documentación para ver la documentación API autogenerada para el endpoint.
Gestión del Ciclo de Vida
Controle el estado de su endpoint:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff
| Acción | Descripción |
|---|---|
| Iniciar | Reanudar un endpoint detenido |
| Detener | Pausar el endpoint (sin facturación) |
| Eliminar | Eliminar permanentemente el endpoint |
Detener Endpoint
Detener un endpoint para pausar la facturación:
- Haga clic en el icono de pausa en la tarjeta de despliegue
- El estado del endpoint cambia a "Deteniendo" y luego a "Detenido"
Endpoints detenidos:
- No aceptan solicitudes
- No generan cargos
- Pueden reiniciarse en cualquier momento
Eliminar Endpoint
Eliminar permanentemente un endpoint:
- Haga clic en el icono de eliminar (papelera) en la tarjeta de despliegue.
- Confirmar eliminación en el diálogo
Acción permanente
La eliminación es inmediata y permanente. Siempre puede crear un nuevo endpoint.
Uso de Endpoints
Autenticación
Cada despliegue se crea con una clave API de su cuenta. Inclúyala en las solicitudes:
Authorization: Bearer YOUR_API_KEY
El prefijo de la clave API se muestra en el pie de la tarjeta de despliegue para su identificación. Genere claves desde API Keys.
Sin límites de tasa
Los puntos finales dedicados no están sujetos a los límites de tasa de la API de la Plataforma. Las solicitudes van directamente a su servicio dedicado, por lo que el rendimiento está limitado únicamente por la CPU, la memoria y la configuración de escalado de su punto final. Esta es una ventaja clave sobre la inferencia compartida, que está limitada a 20 solicitudes/min por clave de API.
Ejemplo de Solicitud
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
curl -X POST \
"https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
Parámetros de Solicitud
| Parámetro | Tipo | Predeterminado | Descripción |
|---|---|---|---|
file | archivo | - | Archivo de imagen (obligatorio) |
conf | float | 0.25 | Umbral mínimo de confianza |
iou | float | 0.7 | Umbral de IoU de NMS |
imgsz | int | 640 | Tamaño de la imagen de entrada |
normalize | string | - | Devolver coordenadas normalizadas |
Formato de Respuesta
Igual que la inferencia compartida con campos específicos de la tarea.
Precios
Los endpoints dedicados facturan en función de:
| Componente | Tarifa |
|---|---|
| CPU | Por vCPU-segundo |
| Memoria | Por GB-segundo |
| Solicitudes | Por millón de solicitudes |
Optimización de costes
- Utilice el escalado a cero para endpoints de desarrollo
- Establezca un número máximo de instancias adecuado
- Supervise el uso en el panel de control de Monitorización
- Revisar los costos en Configuración > Facturación
Preguntas frecuentes
¿Cuántos endpoints puedo crear?
Los límites del endpoint dependen del plan:
- Gratis: Hasta 3 despliegues
- Pro: Hasta 10 despliegues
- Empresarial: Despliegues ilimitados
Cada modelo aún puede ser desplegado a múltiples regiones dentro de la cuota de su plan.
¿Puedo cambiar la región después del despliegue?
No, las regiones son fijas. Para cambiar de región:
- Elimine el endpoint existente
- Cree un nuevo endpoint en la región deseada
¿Cómo gestiono el despliegue multirregión?
Para cobertura global:
- Despliegue en múltiples regiones
- Utilice un balanceador de carga o enrutamiento DNS
- Dirija a los usuarios al endpoint más cercano
¿Cuál es el tiempo de arranque en frío?
El tiempo de arranque en frío depende del tamaño del modelo y de si el contenedor ya está en caché en la región. Rangos típicos:
| Escenario | Arranque en frío |
|---|---|
| Contenedor en caché | ~5-15 segundos |
| Primera implementación/región | ~15-45 segundos |
La comprobación de estado utiliza un tiempo de espera de 55 segundos para acomodar los arranques en frío en el peor de los casos.
¿Puedo usar dominios personalizados?
Los dominios personalizados estarán disponibles próximamente. Actualmente, los puntos de conexión utilizan URLs generadas por la plataforma.