Despliegue
Ultralytics Platform ofrece opciones de despliegue completas para poner sus modelos YOLO en producción. Pruebe modelos con la Inference API, despliegue en endpoints dedicados y supervise el rendimiento en tiempo real.
Visión general
La sección de Despliegue le ayuda a:
- Probar modelos directamente en el navegador
- Desplegar en endpoints dedicados en 43 regiones globales
- Monitorizar métricas de solicitud y registros
- Escalar automáticamente con el tráfico
Opciones de Despliegue
Ultralytics Platform ofrece múltiples rutas de despliegue:
| Opción | Descripción | Ideal para |
|---|---|---|
| Pestaña de Prueba | Pruebas de inferencia basadas en navegador | Desarrollo, validación |
| API compartida | Servicio de inferencia multi-inquilino | Uso ligero, pruebas |
| Endpoints Dedicados | Servicios de producción de inquilino único | Producción, baja latencia |
Flujo de Trabajo
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descripción |
|---|---|
| Prueba | Validar modelo con sample_images |
| Configurar | Seleccionar región y opciones de escalado |
| Despliegue | Crear punto final dedicado |
| Monitorizar | track solicitudes, latencia y errores |
Arquitectura
Inferencia Compartida
El servicio de inferencia compartido se ejecuta en 3 regiones clave:
| Región | Ubicación |
|---|---|
| EE. UU. | Iowa, EE. UU. |
| UE | Bélgica, Europa |
| AP | Taiwán, Asia-Pacífico |
Las solicitudes se enrutan automáticamente a su región de datos.
Endpoints Dedicados
Despliegue en 43 regiones a nivel mundial:
- América: 15 regiones
- Europa: 12 regiones
- Asia Pacífico: 16 regiones
Cada punto final es un servicio de inquilino único con:
- Recursos de cómputo dedicados
- Autoescalado (0-N instancias)
- URL personalizada
- Monitorización independiente
Características clave
Cobertura Global
Despliegue cerca de sus usuarios con 43 regiones que cubren:
- América del Norte, América del Sur
- Europa, Oriente Medio, África
- Asia Pacífico, Oceanía
Autoescalado
Los endpoints escalan automáticamente:
- Escalado a cero: Sin coste cuando está inactivo
- Escalado ascendente: Gestiona picos de tráfico
- Límites configurables: Define instancias mín./máx.
Baja Latencia
Los endpoints dedicados ofrecen:
- Arranque en frío: ~2-5 segundos
- Inferencia en caliente: 50-200ms (depende del modelo)
- Enrutamiento regional para un rendimiento óptimo
Enlaces rápidos
- Inferencia: Prueba modelos en el navegador
- Endpoints: Despliega endpoints dedicados
- Monitorización: track el rendimiento del despliegue
Preguntas frecuentes
¿Cuál es la diferencia entre la inferencia compartida y la dedicada?
| Característica | Compartido | Dedicado |
|---|---|---|
| Latencia | Variable | Consistente |
| Coste | Pago por solicitud | Pago por tiempo de actividad |
| Escala | Limitado | Configurable |
| Regiones | 3 | 43 |
| URL | Genérico | Personalizado |
¿Cuánto tiempo tarda el despliegue?
El despliegue de un endpoint dedicado suele tardar de 1 a 2 minutos:
- Extracción de imagen (~30s)
- Inicio de contenedor (~30s)
- Verificación de estado (~30s)
¿Puedo desplegar múltiples modelos?
Sí, cada modelo puede tener múltiples endpoints en diferentes regiones. No hay límite en el número total de endpoints (sujeto a su plan).
¿Qué sucede cuando un endpoint está inactivo?
Con el escalado a cero habilitado:
- El endpoint se escala a cero después de la inactividad
- La primera solicitud provoca un arranque en frío
- Las solicitudes posteriores son rápidas
Para evitar arranques en frío, configure el número mínimo de instancias > 0.