Meet YOLO26: next-gen vision AI.

Link to this sectionDespliegue#

Ultralytics Platform ofrece completas opciones de despliegue para poner tus modelos YOLO en producción. Prueba modelos mediante inferencia en el navegador, despliega en puntos de conexión dedicados en 43 regiones globales y supervisa el rendimiento en tiempo real.



Watch: Get Started with Ultralytics Platform - Deploy

Link to this sectionDescripción general#

La sección de Despliegue te ayuda a:

  • Probar modelos directamente en el navegador con la pestaña Predict
  • Desplegar en puntos de conexión dedicados en 43 regiones globales
  • Supervisar métricas de peticiones, registros y comprobaciones de estado
  • Escalar a cero cuando esté inactivo (los despliegues ejecutan actualmente una única instancia activa)

Mapa mundial de la página de despliegue de Ultralytics Platform con tarjetas de resumen

Link to this sectionOpciones de despliegue#

Ultralytics Platform ofrece múltiples rutas de despliegue:

OpciónDescripciónIdeal para
Pestaña PredictInferencia basada en navegador con imágenes, webcam y ejemplosDesarrollo, validación
Inferencia compartidaServicio multiinquilino en 3 regionesUso ligero, pruebas
Puntos de conexión dedicadosServicios de inquilino único en 43 regionesProducción, baja latencia

Link to this sectionFlujo de trabajo#

graph LR
    A[✅ Test] --> B[⚙️ Configure]
    B --> C[🌐 Deploy]
    C --> D[📊 Monitor]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EtapaDescripción
ProbarValida el modelo con la pestaña Predict
ConfigurarSelecciona la región y el nombre del despliegue (los despliegues usan recursos predeterminados fijos)
Deploy (Desplegar)Crea un punto de conexión dedicado desde la pestaña Deploy
MonitorizarRealiza el seguimiento de peticiones, latencia, errores y registros en Monitoring

Link to this sectionArquitectura#

Link to this sectionInferencia compartida#

El servicio de inferencia compartida se ejecuta en 3 regiones clave, dirigiendo automáticamente las peticiones según tu región de datos:

graph TB
    User[User Request] --> API[Platform API]
    API --> Router{Region Router}
    Router -->|US users| US["US Predict Service<br/>Iowa"]
    Router -->|EU users| EU["EU Predict Service<br/>Belgium"]
    Router -->|AP users| AP["AP Predict Service<br/>Taiwan"]

    style User fill:#f5f5f5,color:#333
    style API fill:#2196F3,color:#fff
    style Router fill:#FF9800,color:#fff
    style US fill:#4CAF50,color:#fff
    style EU fill:#4CAF50,color:#fff
    style AP fill:#4CAF50,color:#fff
RegiónUbicación
EE. UU.Iowa, EE. UU.
UEBélgica, Europa
APTaiwán, Asia-Pacífico

Link to this sectionPuntos de conexión dedicados#

Despliega en 43 regiones de todo el mundo en Ultralytics Cloud:

  • América: 14 regiones
  • Europa: 13 regiones
  • Asia-Pacífico: 12 regiones
  • Oriente Medio y África: 4 regiones

Cada punto de conexión es un servicio de inquilino único con:

  • Recursos predeterminados de 1 CPU, 2 GiB de memoria, minInstances=0, maxInstances=1
  • Escalado a cero cuando esté inactivo
  • URL de punto de conexión única
  • Supervisión, registros y comprobaciones de estado independientes

Link to this sectionPágina de despliegues#

Accede a la página de despliegues globales desde la barra lateral en Deploy. Esta página muestra:

  • Mapa mundial con chinchetas de regiones desplegadas (mapa interactivo)
  • Tarjetas de resumen: Peticiones totales (24 h), Despliegues activos, Tasa de errores (24 h), Latencia P95 (24 h)
  • Lista de despliegues con tres modos de visualización: tarjetas, compacto y tabla
  • Botón Nuevo despliegue para crear puntos de conexión desde cualquier modelo completado

Tarjetas de resumen y lista de despliegues de la página de despliegue de Ultralytics Platform

Sondeo automático

La página realiza sondeos cada 15 segundos normalmente. Cuando los despliegues están en un estado de transición (creating, deploying o stopping), el sondeo aumenta a cada 3 segundos para una respuesta más rápida.

Link to this sectionCaracterísticas clave#

Link to this sectionCobertura global#

Despliega cerca de tus usuarios con 43 regiones que cubren:

  • Norteamérica, Sudamérica
  • Europa, Oriente Medio, África
  • Asia Pacífico, Oceanía

Link to this sectionComportamiento de escalado#

Los puntos de conexión funcionan actualmente de la siguiente manera:

  • Escalado a cero: Sin coste cuando está inactivo (predeterminado)
  • Única instancia activa: maxInstances está limitado actualmente a 1 en todos los planes
Ahorro de costes

El escalado a cero está habilitado por defecto (instancias mínimas = 0). Solo pagas por el tiempo de inferencia activo.

Link to this sectionBaja latencia#

Los puntos de conexión dedicados ofrecen:

  • Arranque en frío: ~5-15 segundos (contenedor en caché), hasta ~45 segundos (primer despliegue)
  • Inferencia en caliente: 50-200 ms (depende del modelo)
  • Enrutamiento regional para un rendimiento óptimo

Link to this sectionComprobaciones de estado#

Cada despliegue en ejecución incluye una comprobación de estado automática con:

  • Indicador de estado en vivo (saludable/no saludable)
  • Visualización de la latencia de respuesta
  • Reintento automático cuando no es saludable (sondea cada 20 segundos)
  • Botón de actualización manual

Link to this sectionInicio rápido#

Despliega un modelo en menos de 2 minutos:

  1. Entrena o carga un modelo en un proyecto
  2. Ve a la pestaña Deploy del modelo
  3. Selecciona una región de la tabla de latencia
  4. Haz clic en Deploy: tu punto de conexión está activo
Despliegue rápido
Model → Deploy tab → Select region → Click Deploy → Endpoint URL ready

Una vez desplegado, utiliza la URL del punto de conexión con tu clave de API para enviar peticiones de inferencia desde cualquier aplicación.

Link to this sectionEnlaces rápidos#

Link to this sectionFAQ#

Link to this section¿Cuál es la diferencia entre la inferencia compartida y la dedicada?#

CaracterísticaCompartidaDedicada
LatenciaVariableConsistente
CosteGratuito (incluido)Gratuito (básico), basado en el uso (avanzado)
EscaladoLimitadoEscalado a cero, instancia única
Regiones343
URLGenéricaPersonalizado
Tasa20 pet./min20 pet./min a través de la Plataforma; ilimitado en la URL del endpoint directo

Link to this section¿Cuánto tarda el despliegue?#

El despliegue de un endpoint dedicado suele tardar entre 1 y 2 minutos:

  1. Extracción de la imagen (~30 s)
  2. Inicio del contenedor (~30 s)
  3. Comprobación de estado (~30 s)

Link to this section¿Puedo desplegar varios modelos?#

Yes, each model can have multiple endpoints in different regions. Deployment counts are limited by plan: Free 3, Pro 10, Enterprise unlimited.

Link to this section¿Qué ocurre cuando un endpoint está inactivo?#

Con el escalado a cero activado:

  • El endpoint se reduce tras un periodo de inactividad
  • La primera petición activa un arranque en frío
  • Las peticiones posteriores son rápidas

Las primeras peticiones tras un periodo de inactividad activan un arranque en frío.

Comentarios