Endpoints Dedicados
Ultralytics permite implementar YOLO en terminales dedicados en 43 regiones de todo el mundo. Cada terminal es un servicio de un solo inquilino con autoescalado, una URL de terminal única y supervisión independiente.

Crear Punto de Conexión
Desde la pestaña Implementar
Implementar un modelo desde su Deploy pestaña:
- Navega a tu modelo
- Haz clic en la pestaña Desplegar
- Seleccione una región de la tabla de regiones (ordenadas por latencia desde su ubicación).
- Haga clic en Implementar en la fila de la región.
El nombre de la implementación se genera automáticamente a partir del nombre del modelo y la ciudad de la región (por ejemplo, yolo11n-iowa).
Desde la página Implementaciones
Crear una implementación desde el global Deploy página en la barra lateral:
- Haga clic en Nueva implementación.
- Seleccione un modelo en el selector de modelos.
- Seleccione una región del mapa o la tabla.
- Opcionalmente, personalice el nombre de la implementación y los recursos.
- Haga clic en Implementar modelo.

Ciclo de vida del despliegue
stateDiagram-v2
[*] --> Creating: Deploy
Creating --> Deploying: Container starting
Deploying --> Ready: Health check passed
Ready --> Stopping: Stop
Stopping --> Stopped: Stopped
Stopped --> Ready: Start
Ready --> [*]: Delete
Stopped --> [*]: Delete
Creating --> Failed: Error
Deploying --> Failed: Error
Failed --> [*]: Delete
Selección de región
Elija entre 43 regiones de todo el mundo. El mapa interactivo y la tabla muestran:
- Region pins: Color-coded by latency (green < 100ms, yellow < 200ms, red > 200ms)
- Regiones implementadas: resaltadas con una insignia «Implementado».
- Regiones de implementación: Indicador de pulso animado
- Resaltado bidireccional: al pasar el cursor por el mapa se resalta la fila de la tabla, y viceversa.

La tabla de regiones en el modelo Deploy La pestaña incluye:
| Columna | Descripción |
|---|---|
| Ubicación | Ciudad y país con icono de bandera |
| Zona | Identificador de región |
| Latencia | Tiempo de ping medido (mediana de 3 pings) |
| Distancia | Distancia desde tu ubicación en km |
| Acciones | Botón «Implementar» o insignia de estado «Implementado» |
Nuevo cuadro de diálogo de implementación
El New Deployment diálogo (desde el global Deploy página) muestra una tabla de regiones más sencilla con solo las columnas Ubicación, Latencia y Selección.
Elija sabiamente
Seleccione la región más cercana a sus usuarios para obtener la menor latencia. Utilice el botón «Volver a escanear» para volver a medir la latencia desde su ubicación actual.
Regiones Disponibles
| Zona | Ubicación |
|---|---|
| us-central1 | Iowa, EE. UU. |
| us-east1 | Carolina del Sur, EE. UU. |
| us-east4 | Norte de Virginia, EE. UU. |
| us-east5 | Columbus, EE. UU. |
| us-south1 | Dallas, EE. UU. |
| us-west1 | Oregón, EE. UU. |
| us-west2 | Los Ángeles, EE. UU. |
| us-west3 | Salt Lake City, EE. UU. |
| us-west4 | Las Vegas, EE. UU. |
| northamerica-northeast1 | Montreal, Canadá |
| northamerica-northeast2 | Toronto, Canadá |
| América del Norte-Sur 1 | Querétaro, México |
| southamerica-east1 | Sao Paulo, Brasil |
| southamerica-west1 | Santiago, Chile |
| Zona | Ubicación |
|---|---|
| europe-west1 | San Ghislain, Bélgica |
| europe-west2 | Londres, Reino Unido |
| europe-west3 | Fráncfort, Alemania |
| europe-west4 | Eemshaven, Países Bajos |
| europe-west6 | Zúrich, Suiza |
| europe-west8 | Milán, Italia |
| europe-west9 | París, Francia |
| europe-west10 | Berlín, Alemania |
| europe-west12 | Turín, Italia |
| europe-north1 | Hamina, Finlandia |
| Europa-Norte2 | Estocolmo, Suecia |
| europe-central2 | Varsovia, Polonia |
| europe-southwest1 | Madrid, España |
| Zona | Ubicación |
|---|---|
| asia-east1 | Changhua, Taiwán |
| asia-east2 | Kowloon, Hong Kong |
| asia-northeast1 | Tokio, Japón |
| asia-northeast2 | Osaka, Japón |
| asia-northeast3 | Seúl, Corea del Sur |
| asia-south1 | Mumbai, India |
| asia-south2 | Delhi, India |
| asia-southeast1 | Jurong West, Singapur |
| asia-southeast2 | Yakarta, Indonesia |
| asia-sudeste3 | Bangkok, Tailandia |
| australia-southeast1 | Sídney, Australia |
| australia-southeast2 | Melbourne, Australia |
| Zona | Ubicación |
|---|---|
| África-Sur1 | Johannesburgo, Sudáfrica |
| me-central1 | Doha, Catar |
| me-central2 | Dammam, Arabia Saudita |
| me-west1 | Tel Aviv, Israel |
Configuración del Punto de Conexión
Nuevo cuadro de diálogo de implementación
El New Deployment El diálogo proporciona:
| Configuración | Descripción | Predeterminado |
|---|---|---|
| Modelo | Seleccionar entre modelos completados | - |
| Región | Región de despliegue | - |
| Nombre de la implementación | Generado automáticamente, editable | - |
| CPU | CPU (1-8) | 1 |
| Memoria (GB) | Asignación de memoria (1-32 GB) | 2 |

La configuración de recursos está disponible en la sección plegable Recursos. Las implementaciones utilizan la escala a cero de forma predeterminada (instancias mínimas = 0, instancias máximas = 1); solo se paga por el tiempo de inferencia activo.
Nombres generados automáticamente
El nombre de la implementación se genera automáticamente a partir del nombre del modelo y la ciudad de la región (por ejemplo, yolo11n-iowa). Si vuelve a implementar el mismo modelo en la misma región, se añade un sufijo numérico (por ejemplo, yolo11n-iowa-2).
Pestaña Implementar (Implementación rápida)
Al implementar desde el modelo Deploy En la pestaña, los puntos finales se crean con recursos predeterminados (1 CPU, 2 GB de memoria) con la escala a cero habilitada. El nombre de la implementación se genera automáticamente.
Gestionar Endpoints
Modos de visualización
La lista de implementaciones admite tres modos de visualización:
| Modo | Descripción |
|---|---|
| Tarjetas | Tarjetas con información detallada con registros, ejemplos de código y panel de predicción. |
| Compacto | Cuadrícula de tarjetas más pequeñas con métricas clave |
| Tabla | Tabla de datos con columnas ordenables y búsqueda |

Tarjeta de implementación (vista de tarjetas)
Cada tarjeta de implementación en la vista de tarjetas muestra:
- Encabezado: nombre, bandera de la región, insignia de estado, botones de inicio/parada/eliminación.
- URL del punto final: URL copiable con enlace a la documentación de la API.
- Métricas: Recuento de solicitudes (24 h), latencia P95, tasa de error
- Comprobación del estado: indicador de estado en tiempo real con latencia y actualización manual.
- Pestañas:
Logs,Code, yPredict
El Logs La pestaña muestra las entradas recientes del registro con filtrado por gravedad (Todas / Errores). La Code La pestaña muestra ejemplos de código listos para usar en Python, JavaScript y cURL con su URL de punto final real y su clave API. El Predict La pestaña proporciona un panel de predicción en línea para realizar pruebas directamente en la implementación.
Estados de implementación
| Estado | Descripción |
|---|---|
| Creación | Se está configurando la implementación. |
| Implementación | El contenedor está arrancando. |
| Listo | El punto final está activo y aceptando solicitudes. |
| Detener | El punto final se está apagando. |
| Detenido | El punto final está en pausa (sin facturación). |
| Fallido | El despliegue ha fallado (véase el mensaje de error). |
URL del Punto de Conexión
Cada punto final tiene una URL única, por ejemplo:
https://predict-abc123.run.app

Haga clic en el botón Copiar para copiar la URL. Haga clic en el icono de documentos para ver la documentación de la API generada automáticamente para el punto final.
Gestión del Ciclo de Vida
Controle el estado de su endpoint:
graph LR
R[Ready] -->|Stop| S[Stopped]
S -->|Start| R
R -->|Delete| D[Deleted]
S -->|Delete| D
style R fill:#4CAF50,color:#fff
style S fill:#9E9E9E,color:#fff
style D fill:#F44336,color:#fff
| Acción | Descripción |
|---|---|
| Iniciar | Reanudar un endpoint detenido |
| Detener | Pausar el endpoint (sin facturación) |
| Eliminar | Eliminar permanentemente el endpoint |
Detener Endpoint
Detener un endpoint para pausar la facturación:
- Haga clic en el icono de pausa de la tarjeta de implementación.
- El estado del punto final cambia a «Deteniéndose» y luego a «Detenido».
Endpoints detenidos:
- No aceptan solicitudes
- No generan cargos
- Pueden reiniciarse en cualquier momento
Eliminar Endpoint
Eliminar permanentemente un endpoint:
- Haga clic en el icono de eliminar (papelera) en la tarjeta de implementación.
- Confirmar eliminación en el cuadro de diálogo
Acción permanente
La eliminación es inmediata y permanente. Siempre puede crear un nuevo endpoint.
Uso de Endpoints
Autenticación
Cada implementación se crea con una clave API de tu cuenta. Inclúyela en las solicitudes:
Authorization: Bearer YOUR_API_KEY
El prefijo de la clave API se muestra en el pie de página de la tarjeta de implementación para su identificación. Genere claves desde Claves API.
Sin límites de velocidad
Los puntos finales dedicados no están sujetos a los límites de velocidad de la API de la plataforma. Las solicitudes se envían directamente a su servicio dedicado, por lo que el rendimiento solo está limitado por CPU, la memoria y la configuración de escalado de su punto final. Esta es una ventaja clave con respecto a la inferencia compartida, que tiene un límite de velocidad de 20 solicitudes por minuto por clave API.
Ejemplo de Solicitud
import requests
# Deployment endpoint
url = "https://predict-abc123.run.app/predict"
# Headers with your deployment API key
headers = {"Authorization": "Bearer YOUR_API_KEY"}
# Inference parameters
data = {"conf": 0.25, "iou": 0.7, "imgsz": 640}
# Send image for inference
with open("image.jpg", "rb") as f:
response = requests.post(url, headers=headers, data=data, files={"file": f})
print(response.json())
// Build form data with image and parameters
const formData = new FormData();
formData.append("file", fileInput.files[0]);
formData.append("conf", "0.25");
formData.append("iou", "0.7");
formData.append("imgsz", "640");
// Send image for inference
const response = await fetch(
"https://predict-abc123.run.app/predict",
{
method: "POST",
headers: { Authorization: "Bearer YOUR_API_KEY" },
body: formData,
}
);
const result = await response.json();
console.log(result);
curl -X POST \
"https://predict-abc123.run.app/predict" \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@image.jpg" \
-F "conf=0.25" \
-F "iou=0.7" \
-F "imgsz=640"
Parámetros de solicitud
| Parámetro | Tipo | Predeterminado | Descripción |
|---|---|---|---|
file | archivo | - | Archivo de imagen (obligatorio) |
conf | float | 0.25 | Umbral mínimo de confianza |
iou | float | 0.7 | Umbral de IoU de NMS |
imgsz | int | 640 | Tamaño de la imagen de entrada |
normalize | string | - | Devolver coordenadas normalizadas |
Formato de Respuesta
Igual que la inferencia compartida con campos específicos de la tarea.
Precios
Los endpoints dedicados facturan en función de:
| Componente | Tarifa |
|---|---|
| CPU | Por vCPU-segundo |
| Memoria | Por GB-segundo |
| Solicitudes | Por millón de solicitudes |
Optimización de costes
- Utilice el escalado a cero para endpoints de desarrollo
- Establezca un número máximo de instancias adecuado
- Supervise el uso en el panel de control de Monitorización
- Revisa los costes en Configuración > Facturación.
Preguntas frecuentes
¿Cuántos endpoints puedo crear?
Los límites de los puntos finales dependen del plan:
- Gratis: hasta 3 implementaciones
- Ventaja: hasta 10 implementaciones.
- Empresa: Implementaciones ilimitadas
Cada modelo se puede seguir implementando en varias regiones dentro de la cuota de su plan.
¿Puedo cambiar la región después del despliegue?
No, las regiones son fijas. Para cambiar de región:
- Elimine el endpoint existente
- Cree un nuevo endpoint en la región deseada
¿Cómo gestiono el despliegue multirregión?
Para cobertura global:
- Despliegue en múltiples regiones
- Utilice un balanceador de carga o enrutamiento DNS
- Dirija a los usuarios al endpoint más cercano
¿Cuál es el tiempo de arranque en frío?
El tiempo de inicio en frío depende del tamaño del modelo y de si el contenedor ya está almacenado en caché en la región. Rangos típicos:
| Escenario | Arranque en frío |
|---|---|
| Contenedor almacenado en caché | ~5-15 segundos |
| Primera implementación/región | ~15-45 segundos |
La comprobación de estado utiliza un tiempo de espera de 55 segundos para adaptarse a los arranques en frío más desfavorables.
¿Puedo usar dominios personalizados?
Los dominios personalizados estarán disponibles próximamente. Actualmente, los puntos de conexión utilizan URLs generadas por la plataforma.