Ir al contenido

Despliegue

La Plataforma Ultralytics proporciona opciones de despliegue completas para poner sus modelos YOLO en producción. Pruebe modelos con inferencia basada en navegador, despliegue a puntos finales dedicados en 43 regiones globales y monitoree el rendimiento en tiempo real.



Ver: Primeros pasos con la plataforma Ultralytics - Implementación

Visión general

La sección de Despliegue le ayuda a:

  • Prueba modelos directamente en el navegador con el Predict pestaña
  • Desplegar en endpoints dedicados en 43 regiones globales
  • Monitorizar métricas de solicitudes, registros y comprobaciones de estado
  • Reducir a cero cuando esté inactivo (actualmente, las implementaciones ejecutan una sola instancia activa)

Mapa mundial con tarjetas de resumen de la página de Despliegue de la Plataforma Ultralytics

Opciones de Despliegue

Ultralytics Platform ofrece múltiples rutas de despliegue:

OpciónDescripciónIdeal para
Pestaña de PredicciónInferencia basada en navegador con imagen, cámara web y ejemplosDesarrollo, validación
Inferencia CompartidaServicio multi-inquilino en 3 regionesUso ligero, pruebas
Endpoints DedicadosServicios de inquilino único en 43 regionesProducción, baja latencia

Flujo de Trabajo

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
PruebaValidar el modelo con el Predict pestaña
ConfigurarSelecciona la región y el nombre de la implementación (las implementaciones utilizan recursos predeterminados fijos)
DespliegueCrear un endpoint dedicado desde el Deploy pestaña
MonitorizarTrack solicitudes, latencia, errores y registros en Monitoring

Arquitectura

Inferencia Compartida

El servicio de inferencia compartido se ejecuta en 3 regiones clave, enrutando automáticamente las solicitudes según su región de datos:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiónUbicación
EE. UU.Iowa, EE. UU.
UEBélgica, Europa
APHong Kong, Asia-Pacífico

Endpoints Dedicados

Implementar en 43 regiones de todo el mundo en Ultralytics Cloud:

  • Américas: 14 regiones
  • Europa: 13 regiones
  • Asia-Pacífico: 12 regiones
  • Oriente Medio y África: 4 regiones

Cada punto final es un servicio de inquilino único con:

  • Recursos predeterminados de 1 CPU, 2 GiB memoria, minInstances=0, maxInstances=1
  • Poner la báscula a cero cuando esté inactiva
  • URL de endpoint única
  • Monitorización independiente, registros y comprobaciones de estado

Página de Despliegues

Acceda a la página de despliegues globales desde la barra lateral en Deploy. Esta página muestra:

  • Mapa mundial con pines de regiones desplegadas (mapa interactivo)
  • Tarjetas de resumen: Solicitudes Totales (24h), Despliegues Activos, Tasa de Errores (24h), Latencia P95 (24h)
  • Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
  • Nuevo Despliegue botón para crear puntos finales a partir de cualquier modelo completado

Tarjetas de resumen y lista de despliegues de la página de Despliegue de la Plataforma Ultralytics

Sondeo automático

Normalmente, la página realiza una consulta cada 15 segundos. Cuando las implementaciones se encuentran en un estado de transición (creating, deploying, o stopping), la frecuencia de sondeo aumenta a cada 3 segundos para obtener una respuesta más rápida.

Características clave

Cobertura Global

Despliegue cerca de sus usuarios con 43 regiones que cubren:

  • América del Norte, América del Sur
  • Europa, Oriente Medio, África
  • Asia Pacífico, Oceanía

Comportamiento de escalado

Actualmente, los puntos finales se comportan de la siguiente manera:

  • Escalado a cero: Sin coste cuando está inactivo (predeterminado)
  • Una sola instancia activa: maxInstances actualmente tiene un límite máximo de 1 en todos los planes

Ahorro de Costos

El escalado a cero está habilitado por defecto (instancias mínimas = 0). Solo pagas por el tiempo de inferencia activo.

Baja Latencia

Los endpoints dedicados ofrecen:

  • Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
  • Inferencia en caliente: 50-200ms (depende del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Verificaciones de Estado

Cada despliegue en ejecución incluye una verificación de estado automática con:

  • Indicador de estado en vivo (saludable/no saludable)
  • Visualización de la latencia de respuesta
  • Reintento automático en caso de estado no saludable (sondea cada 20 segundos)
  • Botón de actualización manual

Inicio rápido

Implementar un modelo en menos de 2 minutos:

  1. Entrenar o subir un modelo a un proyecto
  2. Ir a la pestaña Implementar del modelo
  3. Seleccione una región de la tabla de latencia
  4. Haz clic en Desplegar — tu endpoint está activo

Despliegue rápido

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una vez implementado, utilice la URL del endpoint con su clave API para enviar solicitudes de inferencia desde cualquier aplicación.

Preguntas frecuentes

¿Cuál es la diferencia entre la inferencia compartida y la dedicada?

CaracterísticaCompartidoDedicado
LatenciaVariableConsistente
CosteGratis (incluido)Gratuito (básico), basado en el uso (avanzado)
EscalaLimitadoEscalado a cero, instancia única
Regiones343
URLGenéricoPersonalizado
Tarifa20 solicitudes/minIlimitado

¿Cuánto tiempo tarda el despliegue?

El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:

  1. Extracción de imagen (~30s)
  2. Inicio de contenedor (~30s)
  3. Verificación de estado (~30s)

¿Puedo desplegar múltiples modelos?

Sí, cada modelo puede tener varios puntos de conexión en diferentes regiones. El número de implementaciones está limitado por el plan: Gratuito 3, Pro 10, Empresa unlimited.

¿Qué sucede cuando un endpoint está inactivo?

Con el escalado a cero habilitado:

  • El endpoint se escala a cero después de la inactividad
  • La primera solicitud provoca un arranque en frío
  • Las solicitudes posteriores son rápidas

Las primeras solicitudes después de un período de inactividad desencadenan un arranque en frío.



📅 Creado hace 2 meses ✏️ Actualizado hace 1 día
glenn-jocherRizwanMunawarsergiuwaxmann

Comentarios