Despliegue
La Plataforma Ultralytics proporciona opciones de despliegue completas para poner sus modelos YOLO en producción. Pruebe modelos con inferencia basada en navegador, despliegue a puntos finales dedicados en 43 regiones globales y monitoree el rendimiento en tiempo real.
Visión general
La sección de Despliegue le ayuda a:
- Prueba modelos directamente en el navegador con el
Predictpestaña - Desplegar en endpoints dedicados en 43 regiones globales
- Monitorizar métricas de solicitudes, registros y comprobaciones de estado
- Escala automáticamente con el tráfico (incluido el escalado a cero)

Opciones de Despliegue
Ultralytics Platform ofrece múltiples rutas de despliegue:
| Opción | Descripción | Ideal para |
|---|---|---|
| Pestaña de Predicción | Inferencia basada en navegador con imagen, cámara web y ejemplos | Desarrollo, validación |
| Inferencia Compartida | Servicio multi-inquilino en 3 regiones | Uso ligero, pruebas |
| Endpoints Dedicados | Servicios de inquilino único en 43 regiones | Producción, baja latencia |
Flujo de Trabajo
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descripción |
|---|---|
| Prueba | Validar el modelo con el Predict pestaña |
| Configurar | Seleccione la región, los recursos y el nombre de la implementación |
| Despliegue | Crear un endpoint dedicado desde el Deploy pestaña |
| Monitorizar | Track solicitudes, latencia, errores y registros en Monitoring |
Arquitectura
Inferencia Compartida
El servicio de inferencia compartido se ejecuta en 3 regiones clave, enrutando automáticamente las solicitudes según su región de datos:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| Región | Ubicación |
|---|---|
| EE. UU. | Iowa, EE. UU. |
| UE | Bélgica, Europa |
| AP | Hong Kong, Asia-Pacífico |
Endpoints Dedicados
Implementar en 43 regiones de todo el mundo en Ultralytics Cloud:
- Américas: 14 regiones
- Europa: 13 regiones
- Asia-Pacífico: 12 regiones
- Oriente Medio y África: 4 regiones
Cada punto final es un servicio de inquilino único con:
- Recursos de cómputo dedicados (CPU y memoria configurables)
- Autoescalado (escalado a cero cuando está inactivo)
- URL de endpoint única
- Monitorización independiente, registros y comprobaciones de estado
Página de Despliegues
Acceda a la página de despliegues globales desde la barra lateral en Deploy. Esta página muestra:
- Mapa mundial con pines de regiones desplegadas (mapa interactivo)
- Tarjetas de resumen: Solicitudes Totales (24h), Despliegues Activos, Tasa de Errores (24h), Latencia P95 (24h)
- Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
- Nuevo Despliegue botón para crear puntos finales a partir de cualquier modelo completado

Sondeo automático
La página consulta cada 30 segundos para obtener actualizaciones de métricas. Cuando las implementaciones están en un estado de transición (creando, desplegando, deteniendo), la frecuencia de consulta aumenta a cada 2-3 segundos para una retroalimentación casi instantánea.
Características clave
Cobertura Global
Despliegue cerca de sus usuarios con 43 regiones que cubren:
- América del Norte, América del Sur
- Europa, Oriente Medio, África
- Asia Pacífico, Oceanía
Autoescalado
Los endpoints escalan automáticamente:
- Escalado a cero: Sin coste cuando está inactivo (predeterminado)
- Escalado ascendente: Gestiona picos de tráfico automáticamente
Ahorro de Costos
El escalado a cero está habilitado por defecto (instancias mínimas = 0). Solo pagas por el tiempo de inferencia activo.
Baja Latencia
Los endpoints dedicados ofrecen:
- Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
- Inferencia en caliente: 50-200ms (depende del modelo)
- Enrutamiento regional para un rendimiento óptimo
Verificaciones de Estado
Cada despliegue en ejecución incluye una verificación de estado automática con:
- Indicador de estado en vivo (saludable/no saludable)
- Visualización de la latencia de respuesta
- Reintento automático en caso de estado no saludable (sondea cada 20 segundos)
- Botón de actualización manual
Inicio rápido
Implementar un modelo en menos de 2 minutos:
- Entrenar o subir un modelo a un proyecto
- Ir a la pestaña Implementar del modelo
- Seleccione una región de la tabla de latencia
- Haz clic en Desplegar — tu endpoint está activo
Despliegue rápido
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Una vez implementado, utilice la URL del endpoint con su clave API para enviar solicitudes de inferencia desde cualquier aplicación.
Enlaces rápidos
- Inferencia: Prueba modelos en el navegador
- Endpoints: Despliega endpoints dedicados
- Monitorización: track el rendimiento del despliegue
Preguntas frecuentes
¿Cuál es la diferencia entre la inferencia compartida y la dedicada?
| Característica | Compartido | Dedicado |
|---|---|---|
| Latencia | Variable | Consistente |
| Coste | Pago por solicitud | Pago por tiempo de actividad |
| Escala | Limitado | Configurable |
| Regiones | 3 | 43 |
| URL | Genérico | Personalizado |
¿Cuánto tiempo tarda el despliegue?
El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:
- Extracción de imagen (~30s)
- Inicio de contenedor (~30s)
- Verificación de estado (~30s)
¿Puedo desplegar múltiples modelos?
Sí, cada modelo puede tener múltiples endpoints en diferentes regiones. No hay límite en el número total de endpoints (sujeto a su plan).
¿Qué sucede cuando un endpoint está inactivo?
Con el escalado a cero habilitado:
- El endpoint se escala a cero después de la inactividad
- La primera solicitud provoca un arranque en frío
- Las solicitudes posteriores son rápidas
Las primeras solicitudes después de un período de inactividad desencadenan un arranque en frío.