Despliegue

Ultralytics Platform ofrece opciones integrales de despliegue para poner tus modelos YOLO en producción. Prueba tus modelos con inferencia basada en el navegador, despliega en puntos de enlace dedicados a través de 43 regiones globales y supervisa el rendimiento en tiempo real.



Watch: Get Started with Ultralytics Platform - Deploy

Descripción general

La sección de despliegue te ayuda a:

  • Probar modelos directamente en el navegador con la pestaña Predict
  • Desplegar en puntos de enlace dedicados en 43 regiones globales
  • Supervisar métricas de solicitudes, registros y comprobaciones de estado
  • Escalar a cero cuando esté inactivo (los despliegues ejecutan actualmente una única instancia activa)

Mapa mundial de la página de despliegue de la plataforma Ultralytics con tarjetas de descripción general

Opciones de despliegue

La plataforma Ultralytics ofrece múltiples rutas de despliegue:

OpciónDescripciónIdeal para
Pestaña PredictInferencia basada en navegador con imagen, cámara web y ejemplosDesarrollo, validación
Inferencia compartidaServicio multiinquilino a través de 3 regionesUso ligero, pruebas
Puntos de enlace dedicadosServicios de inquilino único a través de 43 regionesProducción, baja latencia

Flujo de trabajo

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
TestValida el modelo con la pestaña Predict
ConfigurarSelecciona la región y el nombre del despliegue (los despliegues utilizan recursos predeterminados fijos)
DesplegarCrea un punto de enlace dedicado desde la pestaña Deploy
MonitorizarRealiza un seguimiento de las solicitudes, la latencia, los errores y los registros en Monitorización

Arquitectura

Inferencia compartida

El servicio de inferencia compartida se ejecuta en 3 regiones clave, redirigiendo automáticamente las solicitudes según tu región de datos:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiónUbicación
EE. UU.Iowa, EE. UU.
UEBélgica, Europa
APTaiwán, Asia-Pacífico

Puntos de enlace dedicados

Despliega en 43 regiones de todo el mundo en la nube de Ultralytics:

  • Américas: 14 regiones
  • Europa: 13 regiones
  • Asia-Pacífico: 12 regiones
  • Oriente Medio y África: 4 regiones

Cada punto de enlace es un servicio de inquilino único con:

  • Recursos predeterminados de 1 CPU, 2 GiB de memoria, minInstances=0, maxInstances=1
  • Escalado a cero cuando está inactivo
  • URL de punto de enlace único
  • Supervisión, registros y comprobaciones de estado independientes

Página de despliegues

Accede a la página global de despliegues desde la barra lateral bajo Deploy. Esta página muestra:

  • Mapa mundial con marcadores de región desplegados (mapa interactivo)
  • Tarjetas de descripción general: Total de solicitudes (24h), Despliegues activos, Tasa de errores (24h), Latencia P95 (24h)
  • Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
  • Botón New Deployment para crear puntos de enlace a partir de cualquier modelo completado

Tarjetas de descripción general y lista de despliegues de la página de despliegue de la plataforma Ultralytics

Sondeo automático

La página realiza un sondeo cada 15 segundos normalmente. Cuando los despliegues están en un estado de transición (creating, deploying o stopping), el sondeo aumenta a cada 3 segundos para obtener comentarios más rápidos.

Características clave

Cobertura global

Despliega cerca de tus usuarios con 43 regiones que cubren:

  • América del Norte, América del Sur
  • Europa, Oriente Medio, África
  • Asia-Pacífico, Oceanía

Comportamiento de escalado

Los puntos de enlace se comportan actualmente de la siguiente manera:

  • Escalar a cero: Sin coste cuando está inactivo (predeterminado)
  • Instancia única activa: maxInstances está limitado actualmente a 1 en todos los planes
Ahorro de costes

El escalado a cero está habilitado de forma predeterminada (min instancias = 0). Solo pagas por el tiempo de inferencia activo.

Baja latencia

Los puntos de enlace dedicados ofrecen:

  • Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
  • Inferencia en caliente: 50-200 ms (depende del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Comprobaciones de estado

Cada despliegue en ejecución incluye una comprobación de estado automática con:

  • Indicador de estado en vivo (saludable/no saludable)
  • Visualización de la latencia de respuesta
  • Reintento automático cuando no es saludable (sondea cada 20 segundos)
  • Botón de actualización manual

Inicio rápido

Despliega un modelo en menos de 2 minutos:

  1. Entrena o sube un modelo a un proyecto
  2. Ve a la pestaña Deploy del modelo
  3. Selecciona una región de la tabla de latencia
  4. Haz clic en Deploy: tu punto de enlace está activo
Despliegue rápido
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una vez desplegado, utiliza la URL del punto de enlace con tu clave API para enviar solicitudes de inferencia desde cualquier aplicación.

Enlaces rápidos

Preguntas frecuentes

¿Cuál es la diferencia entre la inferencia compartida y la dedicada?

CaracterísticaCompartidaDedicado
LatenciaVariableConsistente
CosteGratuito (incluido)Gratuito (básico), basado en el uso (avanzado)
EscalaLimitadaEscalado a cero, instancia única
Regiones343
URLGenéricaPersonalizado
Tasa20 sol/minIlimitado

¿Cuánto tiempo lleva el despliegue?

El despliegue de un punto de enlace dedicado suele llevar de 1 a 2 minutos:

  1. Extracción de imagen (~30 s)
  2. Inicio del contenedor (~30 s)
  3. Comprobación de estado (~30 s)

¿Puedo desplegar varios modelos?

Sí, cada modelo puede tener varios endpoints en diferentes regiones. Los límites de despliegue dependen del plan: Free 3, Pro 10, Enterprise unlimited.

¿Qué ocurre cuando un endpoint está inactivo?

Con el escalado a cero habilitado:

  • El endpoint reduce su escala tras la inactividad
  • La primera solicitud activa un arranque en frío
  • Las solicitudes posteriores son rápidas

Las primeras solicitudes después de un periodo de inactividad activan un arranque en frío.

Comentarios