Ir al contenido

Despliegue

Ultralytics ofrece opciones de implementación completas para poner en producción sus YOLO . Pruebe los modelos con la API de inferencia, impleméntelos en puntos finales dedicados y supervise el rendimiento en tiempo real.

Visión general

La sección Implementación le ayuda a:

  • Prueba los modelos directamente en el navegador.
  • Implementación en terminales dedicados en 43 regiones de todo el mundo.
  • Supervisar las métricas y los registros de solicitudes.
  • Escalar automáticamente con el tráfico

Opciones de implementación

Ultralytics ofrece múltiples vías de implementación:

OpciónDescripciónIdeal para
Pestaña PruebaPruebas de inferencia basadas en navegadorDesarrollo, validación
API compartidaServicio de inferencia multitenantUso ligero, pruebas
Terminales dedicadosServicios de producción para un solo inquilinoProducción, baja latencia

Flujo de trabajo

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EscenarioDescripción
PruebaValidar el modelo con imágenes de muestra.
ConfigurarSeleccionar región y opciones de escalado
ImplementarCrear un punto final dedicado
MonitorRealizar un seguimiento de las solicitudes, la latencia y los errores.

Arquitectura

Inferencia compartida

El servicio de inferencia compartida se ejecuta en tres regiones clave:

RegiónUbicación
EE. UU.Centro de EE. UU. (Iowa)
UEUE Oeste (Bélgica)
APAsia-Pacífico (Hong Kong)

Las solicitudes se envían automáticamente a su región de datos.

Terminales dedicados

Implementación en 43 regiones de todo el mundo:

  • América: 15 regiones
  • Europa: 12 regiones
  • Asia-Pacífico: 16 regiones

Cada punto final es un servicio de un solo inquilino con:

  • Recursos informáticos dedicados
  • Autoescalado (0-N instancias)
  • URL personalizada
  • Supervisión independiente

Características clave

Cobertura global

Implante cerca de sus usuarios con 43 regiones que cubren:

  • América del Norte, América del Sur
  • Europa, Oriente Medio, África
  • Asia-Pacífico, Oceanía

Autoescalado

Los puntos finales se escalan automáticamente:

  • Escala a cero: sin coste cuando está inactivo.
  • Ampliación: gestionar los picos de tráfico
  • Límites configurables: Establecer instancias mínimas/máximas

Baja latencia

Los terminales dedicados proporcionan:

  • Arranque en frío: ~2-5 segundos
  • Inferencia cálida: 50-200 ms (dependiendo del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Preguntas frecuentes

¿Cuál es la diferencia entre inferencia compartida e inferencia dedicada?

CaracterísticaCompartidoDedicado
LatenciaVariableConsistente
CostePago por solicitudPagar por el tiempo de actividad
EscalaLimitadoConfigurable
Regiones343
URLGenéricoPersonalizado

¿Cuánto tiempo lleva la implementación?

La implementación de un punto final dedicado suele tardar entre 1 y 2 minutos:

  1. Descarga de imágenes (~30 s)
  2. Inicio del contenedor (~30 s)
  3. Comprobación de estado (~30 s)

¿Puedo implementar varios modelos?

Sí, cada modelo puede tener varios puntos finales en diferentes regiones. No hay límite en el número total de puntos finales (sujeto a tu plan).

¿Qué ocurre cuando un punto final está inactivo?

Con la función «Escala a cero» activada:

  • El punto final se reduce tras un periodo de inactividad.
  • La primera solicitud activa el arranque en frío.
  • Las solicitudes posteriores son rápidas.

Para evitar arranques en frío, establezca un número mínimo de instancias > 0.



📅 Creado hace 0 días ✏️ Actualizado hace 0 días
glenn-jocher

Comentarios