Ir al contenido

Despliegue

La Plataforma Ultralytics proporciona opciones de despliegue completas para poner sus modelos YOLO en producción. Pruebe modelos con inferencia basada en navegador, despliegue a puntos finales dedicados en 43 regiones globales y monitoree el rendimiento en tiempo real.

Visión general

La sección de Despliegue le ayuda a:

  • Prueba modelos directamente en el navegador con el Predict pestaña
  • Desplegar en endpoints dedicados en 43 regiones globales
  • Monitorizar métricas de solicitudes, registros y comprobaciones de estado
  • Escala automáticamente con el tráfico (incluido el escalado a cero)

Mapa mundial con tarjetas de resumen de la página de Despliegue de la Plataforma Ultralytics

Opciones de Despliegue

Ultralytics Platform ofrece múltiples rutas de despliegue:

OpciónDescripciónIdeal para
Pestaña de PredicciónInferencia basada en navegador con imagen, cámara web y ejemplosDesarrollo, validación
Inferencia CompartidaServicio multi-inquilino en 3 regionesUso ligero, pruebas
Endpoints DedicadosServicios de inquilino único en 43 regionesProducción, baja latencia

Flujo de Trabajo

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
PruebaValidar el modelo con el Predict pestaña
ConfigurarSeleccione la región, los recursos y el nombre de la implementación
DespliegueCrear un endpoint dedicado desde el Deploy pestaña
MonitorizarTrack solicitudes, latencia, errores y registros en Monitoring

Arquitectura

Inferencia Compartida

El servicio de inferencia compartido se ejecuta en 3 regiones clave, enrutando automáticamente las solicitudes según su región de datos:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiónUbicación
EE. UU.Iowa, EE. UU.
UEBélgica, Europa
APHong Kong, Asia-Pacífico

Endpoints Dedicados

Implementar en 43 regiones de todo el mundo en Ultralytics Cloud:

  • Américas: 14 regiones
  • Europa: 13 regiones
  • Asia-Pacífico: 12 regiones
  • Oriente Medio y África: 4 regiones

Cada punto final es un servicio de inquilino único con:

  • Recursos de cómputo dedicados (CPU y memoria configurables)
  • Autoescalado (escalado a cero cuando está inactivo)
  • URL de endpoint única
  • Monitorización independiente, registros y comprobaciones de estado

Página de Despliegues

Acceda a la página de despliegues globales desde la barra lateral en Deploy. Esta página muestra:

  • Mapa mundial con pines de regiones desplegadas (mapa interactivo)
  • Tarjetas de resumen: Solicitudes Totales (24h), Despliegues Activos, Tasa de Errores (24h), Latencia P95 (24h)
  • Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
  • Nuevo Despliegue botón para crear puntos finales a partir de cualquier modelo completado

Tarjetas de resumen y lista de despliegues de la página de Despliegue de la Plataforma Ultralytics

Sondeo automático

La página consulta cada 30 segundos para obtener actualizaciones de métricas. Cuando las implementaciones están en un estado de transición (creando, desplegando, deteniendo), la frecuencia de consulta aumenta a cada 2-3 segundos para una retroalimentación casi instantánea.

Características clave

Cobertura Global

Despliegue cerca de sus usuarios con 43 regiones que cubren:

  • América del Norte, América del Sur
  • Europa, Oriente Medio, África
  • Asia Pacífico, Oceanía

Autoescalado

Los endpoints escalan automáticamente:

  • Escalado a cero: Sin coste cuando está inactivo (predeterminado)
  • Escalado ascendente: Gestiona picos de tráfico automáticamente

Ahorro de Costos

El escalado a cero está habilitado por defecto (instancias mínimas = 0). Solo pagas por el tiempo de inferencia activo.

Baja Latencia

Los endpoints dedicados ofrecen:

  • Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
  • Inferencia en caliente: 50-200ms (depende del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Verificaciones de Estado

Cada despliegue en ejecución incluye una verificación de estado automática con:

  • Indicador de estado en vivo (saludable/no saludable)
  • Visualización de la latencia de respuesta
  • Reintento automático en caso de estado no saludable (sondea cada 20 segundos)
  • Botón de actualización manual

Inicio rápido

Implementar un modelo en menos de 2 minutos:

  1. Entrenar o subir un modelo a un proyecto
  2. Ir a la pestaña Implementar del modelo
  3. Seleccione una región de la tabla de latencia
  4. Haz clic en Desplegar — tu endpoint está activo

Despliegue rápido

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una vez implementado, utilice la URL del endpoint con su clave API para enviar solicitudes de inferencia desde cualquier aplicación.

Preguntas frecuentes

¿Cuál es la diferencia entre la inferencia compartida y la dedicada?

CaracterísticaCompartidoDedicado
LatenciaVariableConsistente
CostePago por solicitudPago por tiempo de actividad
EscalaLimitadoConfigurable
Regiones343
URLGenéricoPersonalizado

¿Cuánto tiempo tarda el despliegue?

El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:

  1. Extracción de imagen (~30s)
  2. Inicio de contenedor (~30s)
  3. Verificación de estado (~30s)

¿Puedo desplegar múltiples modelos?

Sí, cada modelo puede tener múltiples endpoints en diferentes regiones. No hay límite en el número total de endpoints (sujeto a su plan).

¿Qué sucede cuando un endpoint está inactivo?

Con el escalado a cero habilitado:

  • El endpoint se escala a cero después de la inactividad
  • La primera solicitud provoca un arranque en frío
  • Las solicitudes posteriores son rápidas

Las primeras solicitudes después de un período de inactividad desencadenan un arranque en frío.



📅 Creado hace 2 meses ✏️ Actualizado hace 25 días
glenn-jochersergiuwaxmann

Comentarios