Despliegue
Ultralytics ofrece opciones de implementación completas para poner en producción sus YOLO . Pruebe los modelos con la API de inferencia, impleméntelos en puntos finales dedicados y supervise el rendimiento en tiempo real.
Visión general
La sección Implementación le ayuda a:
- Prueba los modelos directamente en el navegador.
- Implementación en terminales dedicados en 43 regiones de todo el mundo.
- Supervisar las métricas y los registros de solicitudes.
- Escalar automáticamente con el tráfico
Opciones de implementación
Ultralytics ofrece múltiples vías de implementación:
| Opción | Descripción | Ideal para |
|---|---|---|
| Pestaña Prueba | Pruebas de inferencia basadas en navegador | Desarrollo, validación |
| API compartida | Servicio de inferencia multitenant | Uso ligero, pruebas |
| Terminales dedicados | Servicios de producción para un solo inquilino | Producción, baja latencia |
Flujo de trabajo
graph LR
A[✅ Test] --> B[⚙️ Configure]
B --> C[🌐 Deploy]
C --> D[📊 Monitor]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Escenario | Descripción |
|---|---|
| Prueba | Validar el modelo con imágenes de muestra. |
| Configurar | Seleccionar región y opciones de escalado |
| Implementar | Crear un punto final dedicado |
| Monitor | Realizar un seguimiento de las solicitudes, la latencia y los errores. |
Arquitectura
Inferencia compartida
El servicio de inferencia compartida se ejecuta en tres regiones clave:
| Región | Ubicación |
|---|---|
| EE. UU. | Centro de EE. UU. (Iowa) |
| UE | UE Oeste (Bélgica) |
| AP | Asia-Pacífico (Hong Kong) |
Las solicitudes se envían automáticamente a su región de datos.
Terminales dedicados
Implementación en 43 regiones de todo el mundo:
- América: 15 regiones
- Europa: 12 regiones
- Asia-Pacífico: 16 regiones
Cada punto final es un servicio de un solo inquilino con:
- Recursos informáticos dedicados
- Autoescalado (0-N instancias)
- URL personalizada
- Supervisión independiente
Características clave
Cobertura global
Implante cerca de sus usuarios con 43 regiones que cubren:
- América del Norte, América del Sur
- Europa, Oriente Medio, África
- Asia-Pacífico, Oceanía
Autoescalado
Los puntos finales se escalan automáticamente:
- Escala a cero: sin coste cuando está inactivo.
- Ampliación: gestionar los picos de tráfico
- Límites configurables: Establecer instancias mínimas/máximas
Baja latencia
Los terminales dedicados proporcionan:
- Arranque en frío: ~2-5 segundos
- Inferencia cálida: 50-200 ms (dependiendo del modelo)
- Enrutamiento regional para un rendimiento óptimo
Enlaces rápidos
- Inferencia: Prueba los modelos en el navegador.
- Puntos finales: Implementar puntos finales dedicados
- Supervisión: Realizar un seguimiento del rendimiento de la implementación.
Preguntas frecuentes
¿Cuál es la diferencia entre inferencia compartida e inferencia dedicada?
| Característica | Compartido | Dedicado |
|---|---|---|
| Latencia | Variable | Consistente |
| Coste | Pago por solicitud | Pagar por el tiempo de actividad |
| Escala | Limitado | Configurable |
| Regiones | 3 | 43 |
| URL | Genérico | Personalizado |
¿Cuánto tiempo lleva la implementación?
La implementación de un punto final dedicado suele tardar entre 1 y 2 minutos:
- Descarga de imágenes (~30 s)
- Inicio del contenedor (~30 s)
- Comprobación de estado (~30 s)
¿Puedo implementar varios modelos?
Sí, cada modelo puede tener varios puntos finales en diferentes regiones. No hay límite en el número total de puntos finales (sujeto a tu plan).
¿Qué ocurre cuando un punto final está inactivo?
Con la función «Escala a cero» activada:
- El punto final se reduce tras un periodo de inactividad.
- La primera solicitud activa el arranque en frío.
- Las solicitudes posteriores son rápidas.
Para evitar arranques en frío, establezca un número mínimo de instancias > 0.