Despliegue
La Plataforma Ultralytics proporciona opciones de despliegue completas para poner sus modelos YOLO en producción. Pruebe modelos con inferencia basada en navegador, despliegue a puntos finales dedicados en 43 regiones globales y monitoree el rendimiento en tiempo real.
Ver: Primeros pasos con la plataforma Ultralytics - Implementación
Visión general
La sección de Despliegue le ayuda a:
- Prueba modelos directamente en el navegador con el
Predictpestaña - Desplegar en endpoints dedicados en 43 regiones globales
- Monitorizar métricas de solicitudes, registros y comprobaciones de estado
- Reducir a cero cuando esté inactivo (actualmente, las implementaciones ejecutan una sola instancia activa)

Opciones de Despliegue
Ultralytics Platform ofrece múltiples rutas de despliegue:
| Opción | Descripción | Ideal para |
|---|---|---|
| Pestaña de Predicción | Inferencia basada en navegador con imagen, cámara web y ejemplos | Desarrollo, validación |
| Inferencia Compartida | Servicio multi-inquilino en 3 regiones | Uso ligero, pruebas |
| Endpoints Dedicados | Servicios de inquilino único en 43 regiones | Producción, baja latencia |
Flujo de Trabajo
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descripción |
|---|---|
| Prueba | Validar el modelo con el Predict pestaña |
| Configurar | Selecciona la región y el nombre de la implementación (las implementaciones utilizan recursos predeterminados fijos) |
| Despliegue | Crear un endpoint dedicado desde el Deploy pestaña |
| Monitorizar | Track solicitudes, latencia, errores y registros en Monitoring |
Arquitectura
Inferencia Compartida
El servicio de inferencia compartido se ejecuta en 3 regiones clave, enrutando automáticamente las solicitudes según su región de datos:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff
| Región | Ubicación |
|---|---|
| EE. UU. | Iowa, EE. UU. |
| UE | Bélgica, Europa |
| AP | Hong Kong, Asia-Pacífico |
Endpoints Dedicados
Implementar en 43 regiones de todo el mundo en Ultralytics Cloud:
- Américas: 14 regiones
- Europa: 13 regiones
- Asia-Pacífico: 12 regiones
- Oriente Medio y África: 4 regiones
Cada punto final es un servicio de inquilino único con:
- Recursos predeterminados de
1 CPU,2 GiBmemoria,minInstances=0,maxInstances=1 - Poner la báscula a cero cuando esté inactiva
- URL de endpoint única
- Monitorización independiente, registros y comprobaciones de estado
Página de Despliegues
Acceda a la página de despliegues globales desde la barra lateral en Deploy. Esta página muestra:
- Mapa mundial con pines de regiones desplegadas (mapa interactivo)
- Tarjetas de resumen: Solicitudes Totales (24h), Despliegues Activos, Tasa de Errores (24h), Latencia P95 (24h)
- Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
- Nuevo Despliegue botón para crear puntos finales a partir de cualquier modelo completado

Sondeo automático
Normalmente, la página realiza una consulta cada 15 segundos. Cuando las implementaciones se encuentran en un estado de transición (creating, deploying, o stopping), la frecuencia de sondeo aumenta a cada 3 segundos para obtener una respuesta más rápida.
Características clave
Cobertura Global
Despliegue cerca de sus usuarios con 43 regiones que cubren:
- América del Norte, América del Sur
- Europa, Oriente Medio, África
- Asia Pacífico, Oceanía
Comportamiento de escalado
Actualmente, los puntos finales se comportan de la siguiente manera:
- Escalado a cero: Sin coste cuando está inactivo (predeterminado)
- Una sola instancia activa:
maxInstancesactualmente tiene un límite máximo de1en todos los planes
Ahorro de Costos
El escalado a cero está habilitado por defecto (instancias mínimas = 0). Solo pagas por el tiempo de inferencia activo.
Baja Latencia
Los endpoints dedicados ofrecen:
- Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
- Inferencia en caliente: 50-200ms (depende del modelo)
- Enrutamiento regional para un rendimiento óptimo
Verificaciones de Estado
Cada despliegue en ejecución incluye una verificación de estado automática con:
- Indicador de estado en vivo (saludable/no saludable)
- Visualización de la latencia de respuesta
- Reintento automático en caso de estado no saludable (sondea cada 20 segundos)
- Botón de actualización manual
Inicio rápido
Implementar un modelo en menos de 2 minutos:
- Entrenar o subir un modelo a un proyecto
- Ir a la pestaña Implementar del modelo
- Seleccione una región de la tabla de latencia
- Haz clic en Desplegar — tu endpoint está activo
Despliegue rápido
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Una vez implementado, utilice la URL del endpoint con su clave API para enviar solicitudes de inferencia desde cualquier aplicación.
Enlaces rápidos
- Inferencia: Prueba modelos en el navegador
- Endpoints: Despliega endpoints dedicados
- Monitorización: track el rendimiento del despliegue
Preguntas frecuentes
¿Cuál es la diferencia entre la inferencia compartida y la dedicada?
| Característica | Compartido | Dedicado |
|---|---|---|
| Latencia | Variable | Consistente |
| Coste | Gratis (incluido) | Gratuito (básico), basado en el uso (avanzado) |
| Escala | Limitado | Escalado a cero, instancia única |
| Regiones | 3 | 43 |
| URL | Genérico | Personalizado |
| Tarifa | 20 solicitudes/min | Ilimitado |
¿Cuánto tiempo tarda el despliegue?
El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:
- Extracción de imagen (~30s)
- Inicio de contenedor (~30s)
- Verificación de estado (~30s)
¿Puedo desplegar múltiples modelos?
Sí, cada modelo puede tener varios puntos de conexión en diferentes regiones. El número de implementaciones está limitado por el plan: Gratuito 3, Pro 10, Empresa unlimited.
¿Qué sucede cuando un endpoint está inactivo?
Con el escalado a cero habilitado:
- El endpoint se escala a cero después de la inactividad
- La primera solicitud provoca un arranque en frío
- Las solicitudes posteriores son rápidas
Las primeras solicitudes después de un período de inactividad desencadenan un arranque en frío.