Ir al contenido

Despliegue

Ultralytics Platform ofrece opciones de despliegue completas para poner sus modelos YOLO en producción. Pruebe modelos con la Inference API, despliegue en endpoints dedicados y supervise el rendimiento en tiempo real.

Visión general

La sección de Despliegue le ayuda a:

  • Probar modelos directamente en el navegador
  • Desplegar en endpoints dedicados en 43 regiones globales
  • Monitorizar métricas de solicitud y registros
  • Escalar automáticamente con el tráfico

Opciones de Despliegue

Ultralytics Platform ofrece múltiples rutas de despliegue:

OpciónDescripciónIdeal para
Pestaña de PruebaPruebas de inferencia basadas en navegadorDesarrollo, validación
API compartidaServicio de inferencia multi-inquilinoUso ligero, pruebas
Endpoints DedicadosServicios de producción de inquilino únicoProducción, baja latencia

Flujo de Trabajo

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
PruebaValidar modelo con sample_images
ConfigurarSeleccionar región y opciones de escalado
DespliegueCrear punto final dedicado
Monitorizartrack solicitudes, latencia y errores

Arquitectura

Inferencia Compartida

El servicio de inferencia compartido se ejecuta en 3 regiones clave:

RegiónUbicación
EE. UU.Iowa, EE. UU.
UEBélgica, Europa
APTaiwán, Asia-Pacífico

Las solicitudes se enrutan automáticamente a su región de datos.

Endpoints Dedicados

Despliegue en 43 regiones a nivel mundial:

  • América: 15 regiones
  • Europa: 12 regiones
  • Asia Pacífico: 16 regiones

Cada punto final es un servicio de inquilino único con:

  • Recursos de cómputo dedicados
  • Autoescalado (0-N instancias)
  • URL personalizada
  • Monitorización independiente

Características clave

Cobertura Global

Despliegue cerca de sus usuarios con 43 regiones que cubren:

  • América del Norte, América del Sur
  • Europa, Oriente Medio, África
  • Asia Pacífico, Oceanía

Autoescalado

Los endpoints escalan automáticamente:

  • Escalado a cero: Sin coste cuando está inactivo
  • Escalado ascendente: Gestiona picos de tráfico
  • Límites configurables: Define instancias mín./máx.

Baja Latencia

Los endpoints dedicados ofrecen:

  • Arranque en frío: ~2-5 segundos
  • Inferencia en caliente: 50-200ms (depende del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Preguntas frecuentes

¿Cuál es la diferencia entre la inferencia compartida y la dedicada?

CaracterísticaCompartidoDedicado
LatenciaVariableConsistente
CostePago por solicitudPago por tiempo de actividad
EscalaLimitadoConfigurable
Regiones343
URLGenéricoPersonalizado

¿Cuánto tiempo tarda el despliegue?

El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:

  1. Extracción de imagen (~30s)
  2. Inicio de contenedor (~30s)
  3. Verificación de estado (~30s)

¿Puedo desplegar múltiples modelos?

Sí, cada modelo puede tener múltiples endpoints en diferentes regiones. No hay límite en el número total de endpoints (sujeto a su plan).

¿Qué sucede cuando un endpoint está inactivo?

Con el escalado a cero habilitado:

  • El endpoint se escala a cero después de la inactividad
  • La primera solicitud provoca un arranque en frío
  • Las solicitudes posteriores son rápidas

Para evitar arranques en frío, configure el número mínimo de instancias > 0.



📅 Creado hace 20 días ✏️ Actualizado hace 14 días
glenn-jocher

Comentarios