Despliegue
Ultralytics Platform ofrece opciones integrales de despliegue para poner tus modelos YOLO en producción. Prueba tus modelos con inferencia basada en el navegador, despliega en puntos de enlace dedicados a través de 43 regiones globales y supervisa el rendimiento en tiempo real.
Watch: Get Started with Ultralytics Platform - Deploy
Descripción general
La sección de despliegue te ayuda a:
- Probar modelos directamente en el navegador con la pestaña
Predict - Desplegar en puntos de enlace dedicados en 43 regiones globales
- Supervisar métricas de solicitudes, registros y comprobaciones de estado
- Escalar a cero cuando esté inactivo (los despliegues ejecutan actualmente una única instancia activa)

Opciones de despliegue
La plataforma Ultralytics ofrece múltiples rutas de despliegue:
| Opción | Descripción | Ideal para |
|---|---|---|
| Pestaña Predict | Inferencia basada en navegador con imagen, cámara web y ejemplos | Desarrollo, validación |
| Inferencia compartida | Servicio multiinquilino a través de 3 regiones | Uso ligero, pruebas |
| Puntos de enlace dedicados | Servicios de inquilino único a través de 43 regiones | Producción, baja latencia |
Flujo de trabajo
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| Etapa | Descripción |
|---|---|
| Test | Valida el modelo con la pestaña Predict |
| Configurar | Selecciona la región y el nombre del despliegue (los despliegues utilizan recursos predeterminados fijos) |
| Desplegar | Crea un punto de enlace dedicado desde la pestaña Deploy |
| Monitorizar | Realiza un seguimiento de las solicitudes, la latencia, los errores y los registros en Monitorización |
Arquitectura
Inferencia compartida
El servicio de inferencia compartida se ejecuta en 3 regiones clave, redirigiendo automáticamente las solicitudes según tu región de datos:
graph TB
User[User Request] --> API[Platform API]
API --> Router{Region Router}
Router -->|US users| US["US Predict Service<br/>Iowa"]
Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]
style User fill:#f5f5f5,color:#333
style API fill:#2196F3,color:#fff
style Router fill:#FF9800,color:#fff
style US fill:#4CAF50,color:#fff
style EU fill:#4CAF50,color:#fff
style AP fill:#4CAF50,color:#fff| Región | Ubicación |
|---|---|
| EE. UU. | Iowa, EE. UU. |
| UE | Bélgica, Europa |
| AP | Taiwán, Asia-Pacífico |
Puntos de enlace dedicados
Despliega en 43 regiones de todo el mundo en la nube de Ultralytics:
- Américas: 14 regiones
- Europa: 13 regiones
- Asia-Pacífico: 12 regiones
- Oriente Medio y África: 4 regiones
Cada punto de enlace es un servicio de inquilino único con:
- Recursos predeterminados de
1 CPU,2 GiBde memoria,minInstances=0,maxInstances=1 - Escalado a cero cuando está inactivo
- URL de punto de enlace único
- Supervisión, registros y comprobaciones de estado independientes
Página de despliegues
Accede a la página global de despliegues desde la barra lateral bajo Deploy. Esta página muestra:
- Mapa mundial con marcadores de región desplegados (mapa interactivo)
- Tarjetas de descripción general: Total de solicitudes (24h), Despliegues activos, Tasa de errores (24h), Latencia P95 (24h)
- Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
- Botón New Deployment para crear puntos de enlace a partir de cualquier modelo completado

La página realiza un sondeo cada 15 segundos normalmente. Cuando los despliegues están en un estado de transición (creating, deploying o stopping), el sondeo aumenta a cada 3 segundos para obtener comentarios más rápidos.
Características clave
Cobertura global
Despliega cerca de tus usuarios con 43 regiones que cubren:
- América del Norte, América del Sur
- Europa, Oriente Medio, África
- Asia-Pacífico, Oceanía
Comportamiento de escalado
Los puntos de enlace se comportan actualmente de la siguiente manera:
- Escalar a cero: Sin coste cuando está inactivo (predeterminado)
- Instancia única activa:
maxInstancesestá limitado actualmente a1en todos los planes
El escalado a cero está habilitado de forma predeterminada (min instancias = 0). Solo pagas por el tiempo de inferencia activo.
Baja latencia
Los puntos de enlace dedicados ofrecen:
- Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
- Inferencia en caliente: 50-200 ms (depende del modelo)
- Enrutamiento regional para un rendimiento óptimo
Comprobaciones de estado
Cada despliegue en ejecución incluye una comprobación de estado automática con:
- Indicador de estado en vivo (saludable/no saludable)
- Visualización de la latencia de respuesta
- Reintento automático cuando no es saludable (sondea cada 20 segundos)
- Botón de actualización manual
Inicio rápido
Despliega un modelo en menos de 2 minutos:
- Entrena o sube un modelo a un proyecto
- Ve a la pestaña Deploy del modelo
- Selecciona una región de la tabla de latencia
- Haz clic en Deploy: tu punto de enlace está activo
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready
Una vez desplegado, utiliza la URL del punto de enlace con tu clave API para enviar solicitudes de inferencia desde cualquier aplicación.
Enlaces rápidos
- Inferencia: Prueba modelos en el navegador
- Puntos de enlace: Despliega puntos de enlace dedicados
- Monitorización: Realiza un seguimiento del rendimiento del despliegue
Preguntas frecuentes
¿Cuál es la diferencia entre la inferencia compartida y la dedicada?
| Característica | Compartida | Dedicado |
|---|---|---|
| Latencia | Variable | Consistente |
| Coste | Gratuito (incluido) | Gratuito (básico), basado en el uso (avanzado) |
| Escala | Limitada | Escalado a cero, instancia única |
| Regiones | 3 | 43 |
| URL | Genérica | Personalizado |
| Tasa | 20 sol/min | Ilimitado |
¿Cuánto tiempo lleva el despliegue?
El despliegue de un punto de enlace dedicado suele llevar de 1 a 2 minutos:
- Extracción de imagen (~30 s)
- Inicio del contenedor (~30 s)
- Comprobación de estado (~30 s)
¿Puedo desplegar varios modelos?
Sí, cada modelo puede tener varios endpoints en diferentes regiones. Los límites de despliegue dependen del plan: Free 3, Pro 10, Enterprise unlimited.
¿Qué ocurre cuando un endpoint está inactivo?
Con el escalado a cero habilitado:
- El endpoint reduce su escala tras la inactividad
- La primera solicitud activa un arranque en frío
- Las solicitudes posteriores son rápidas
Las primeras solicitudes después de un periodo de inactividad activan un arranque en frío.