Ir al contenido

Despliegue

Ultralytics ofrece opciones de implementación completas para poner en producción sus YOLO . Pruebe los modelos con inferencia basada en navegador, impleméntelos en terminales dedicados en 43 regiones de todo el mundo y supervise el rendimiento en tiempo real.

Visión general

La sección de Despliegue le ayuda a:

  • Prueba modelos directamente en el navegador con el Predict pestaña
  • Desplegar en endpoints dedicados en 43 regiones globales
  • Supervisar métricas de solicitudes, registros y comprobaciones de estado.
  • Escalar automáticamente con el tráfico (incluido el escalado a cero)

Página de implementación Ultralytics Mapa mundial con tarjetas de descripción general

Opciones de Despliegue

Ultralytics Platform ofrece múltiples rutas de despliegue:

OpciónDescripciónIdeal para
Pestaña PredecirInferencia basada en navegador con imágenes, cámara web y ejemplos.Desarrollo, validación
Inferencia CompartidaServicio multitenant en 3 regionesUso ligero, pruebas
Endpoints DedicadosServicios para un único inquilino en 43 regionesProducción, baja latencia

Flujo de Trabajo

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
PruebaValidar el modelo con el Predict pestaña
ConfigurarSeleccione la región, los recursos y el nombre de la implementación.
DespliegueCree un punto final dedicado desde el Deploy pestaña
MonitorizarRealiza un seguimiento de las solicitudes, la latencia, los errores y los registros en Monitoring.

Arquitectura

Inferencia Compartida

El servicio de inferencia compartida se ejecuta en tres regiones clave y enruta automáticamente las solicitudes en función de su región de datos:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Hong Kong"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiónUbicación
EE. UU.Iowa, EE. UU.
UEBélgica, Europa
APHong Kong, Asia-Pacífico

Endpoints Dedicados

Implemente en 43 regiones de todo el mundo en Ultralytics :

  • América: 14 regiones
  • Europa: 13 regiones
  • Asia-Pacífico: 12 regiones
  • Oriente Medio y África: 4 regiones

Cada punto final es un servicio de inquilino único con:

  • Recursos informáticos dedicados ( CPU memoria configurables)
  • Autoescalado (escalado a cero cuando está inactivo)
  • URL de punto final único
  • Supervisión independiente, registros y comprobaciones de estado

Página de implementaciones

Acceda a la página de implementaciones globales desde la barra lateral, debajo de Deploy. Esta página muestra:

  • Mapa mundial con marcadores de regiones desplegadas (mapa interactivo)
  • Tarjetas de resumen: Total de solicitudes (24 h), Implementaciones activas, Tasa de error (24 h), Latencia P95 (24 h)
  • Lista de implementaciones con tres modos de visualización: tarjetas, compacto y tabla.
  • Nuevo botón «Implementar» para crear puntos finales a partir de cualquier modelo completado.

Descripción general de la página de implementación de Ultralytics Tarjetas y lista de implementaciones

Encuesta automática

La página realiza sondeos cada 30 segundos para obtener actualizaciones métricas. Cuando las implementaciones se encuentran en un estado de transición (creación, implementación, detención), los sondeos aumentan a cada 2-3 segundos para obtener una respuesta casi instantánea.

Características clave

Cobertura Global

Despliegue cerca de sus usuarios con 43 regiones que cubren:

  • América del Norte, América del Sur
  • Europa, Oriente Medio, África
  • Asia Pacífico, Oceanía

Autoescalado

Los endpoints escalan automáticamente:

  • Escala a cero: sin coste cuando está inactivo (predeterminado)
  • Ampliación: gestiona automáticamente los picos de tráfico.

Ahorro de costes

La escala a cero está habilitada de forma predeterminada (instancias mínimas = 0). Solo pagas por el tiempo de inferencia activo.

Baja Latencia

Los endpoints dedicados ofrecen:

  • Inicio en frío: ~5-15 segundos (contenedor almacenado en caché), hasta ~45 segundos (primera implementación)
  • Inferencia en caliente: 50-200ms (depende del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Revisiones médicas

Cada implementación en ejecución incluye una comprobación automática del estado con:

  • Indicador de estado en tiempo real (correcto/incorrecto)
  • Visualización de la latencia de respuesta
  • Reintento automático cuando no funciona correctamente (consultas cada 20 segundos)
  • Botón de actualización manual

Inicio rápido

Implemente un modelo en menos de 2 minutos:

  1. Entrenar o cargar un modelo en un proyecto
  2. Vaya a la pestaña Implementar del modelo.
  3. Seleccione una región de la tabla de latencia.
  4. Haga clic en Implementar: su punto final está activo.

Despliegue rápido

Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una vez implementado, utilice la URL del punto final con su clave API para enviar solicitudes de inferencia desde cualquier aplicación.

Preguntas frecuentes

¿Cuál es la diferencia entre la inferencia compartida y la dedicada?

CaracterísticaCompartidoDedicado
LatenciaVariableConsistente
CostePago por solicitudPago por tiempo de actividad
EscalaLimitadoConfigurable
Regiones343
URLGenéricoPersonalizado

¿Cuánto tiempo tarda el despliegue?

El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:

  1. Extracción de imagen (~30s)
  2. Inicio de contenedor (~30s)
  3. Verificación de estado (~30s)

¿Puedo desplegar múltiples modelos?

Sí, cada modelo puede tener múltiples endpoints en diferentes regiones. No hay límite en el número total de endpoints (sujeto a su plan).

¿Qué sucede cuando un endpoint está inactivo?

Con el escalado a cero habilitado:

  • El endpoint se escala a cero después de la inactividad
  • La primera solicitud provoca un arranque en frío
  • Las solicitudes posteriores son rápidas

Las primeras solicitudes tras un periodo de inactividad activan un arranque en frío.



📅 Creado hace 1 mes ✏️ Actualizado hace 5 días
glenn-jochersergiuwaxmann

Comentarios