Link to this sectionAnálisis comparativo de las opciones de implementación de YOLO26#
YOLO26 es compatible con más de 20 opciones de despliegue, cada una ajustada para un entorno de ejecución, hardware objetivo o plataforma diferente: desde PyTorch y ONNX hasta TensorRT, OpenVINO, CoreML y formatos dedicados para NPU de borde. Elegir la opción adecuada equilibra la velocidad de inferencia, las limitaciones de hardware y la facilidad de integración. Esta guía compara cada opción para que elijas la que mejor se adapte a tu aplicación y, después, consultes las mejores prácticas de despliegue de modelos para desplegarlo de forma fiable.
Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀
El despliegue es la etapa en el flujo de trabajo de proyectos de visión artificial donde un modelo entrenado empieza a realizar trabajo real, por lo que el formato al que exportes tiene un impacto directo en la velocidad, el coste y la portabilidad.
Link to this sectionCómo seleccionar la opción de implementación adecuada para tu modelo YOLO26#
Cuando llegue el momento de desplegar tu modelo YOLO26, seleccionar un formato de exportación adecuado es muy importante. Como se detalla en la documentación de exportación de Ultralytics YOLO26, la función model.export() convierte tu modelo entrenado a una variedad de formatos adaptados a diversos entornos y requisitos de rendimiento.
El formato ideal depende del contexto operativo previsto y del hardware de tu modelo.
Para un despliegue gestionado sin exportación manual, la plataforma de Ultralytics proporciona endpoints de inferencia listos para usar con escalado automático en 43 regiones globales.
Link to this sectionOpciones de implementación de YOLO26#
Aquí tienes una breve descripción de cada formato y cuándo utilizarlo. Para ver el recorrido completo de la exportación, consulta la documentación de exportación; para ver los criterios comparativos, ve a la tabla comparativa.
- PyTorch (
.pt): El formato nativo de entrenamiento e inferencia, que ofrece la máxima flexibilidad y aceleración por GPU CUDA; es ideal para investigación y prototipado sin necesidad de realizar pasos de exportación. - TorchScript (
torchscript): Serializa el modelo para un entorno de ejecución C++ sin necesidad de Python, adecuado para sistemas de producción donde no hay Python disponible. - ONNX (
onnx): Un formato de intercambio agnóstico al framework con un amplio soporte multiplataforma y de hardware a través de ONNX Runtime. - OpenVINO (
openvino): El kit de herramientas de Intel para una inferencia optimizada en CPUs Intel, GPUs integradas y NPUs, común en IoT y computación de borde. - TensorRT (
engine): El entorno de ejecución de alto rendimiento de NVIDIA que ofrece una inferencia de GPU de primer nivel con optimización FP16 e INT8. - CoreML (
coreml): El formato de Apple para ejecutar modelos en dispositivos iOS, macOS, watchOS y tvOS, utilizando el Apple Neural Engine. - TF SavedModel (
saved_model): El formato estándar de TensorFlow para el servicio escalable en el lado del servidor con TensorFlow Serving. - TF GraphDef (
pb): Un formato TensorFlow de grafo estático congelado para entornos que requieren un grafo de computación fijo. - TF Lite (
tflite): Un entorno de ejecución ligero de TensorFlow para inferencia en dispositivos móviles y hardware embebido. - TF Edge TPU (
edgetpu): Compila modelos TF Lite para aceleradores Google Coral Edge TPU. - TF.js (
tfjs): Ejecuta modelos directamente en el navegador sin backend, acelerado a través de WebGL. - PaddlePaddle (
paddle): El framework de aprendizaje profundo de Baidu, popular en China y con un amplio soporte de hardware. - MNN (
mnn): Un motor de inferencia ligero de alto rendimiento optimizado para sistemas móviles y embebidos ARM y x86-64. - NCNN (
ncnn): Un framework de inferencia de alto rendimiento y ligero, ajustado para dispositivos móviles ARM. - Sony IMX500 (
imx): Exporta para el sensor de visión inteligente IMX500 de Sony con procesamiento en chip, como la Raspberry Pi AI Camera. - Rockchip RKNN (
rknn): Dirigido a NPUs Rockchip en placas embebidas con cuantización FP16 e INT8. - ExecuTorch (
executorch): El entorno de ejecución nativo de PyTorch en dispositivo para móviles (iOS y Android) y sistemas embebidos mediante XNNPACK. - Axelera AI (
axelera): Compila para el AIPU Metis de Axelera (hasta 856 TOPS) a través de PCIe o M.2 para una inferencia de borde de alto rendimiento. - DEEPX (
deepx): Dirigido al hardware NPU de DEEPX con cuantización INT8 para inferencia de borde embebida. - Qualcomm QNN (
qnn): Inferencia en el dispositivo sobre Snapdragon Hexagon NPU, Adreno GPU y CPU a través del stack de IA de Qualcomm.
Para un objetivo de borde adicional, la integración de Hailo compila modelos de detección YOLO a Hailo HEF. No es un destino directo de model.export(): los modelos de detección se exportan primero a ONNX y luego se compilan a HEF con el Hailo Dataflow Compiler externo para aceleradores Hailo-8, Hailo-8L y Hailo-15.
Link to this sectionComparación de opciones de despliegue#
La siguiente tabla resume las opciones de despliegue para modelos YOLO26 según los criterios que suelen determinar la elección. Para un análisis detallado de cada formato, consulta la documentación de formatos de exportación.
| Opción de despliegue | Benchmarks de rendimiento | Compatibilidad e integración | Soporte de la comunidad y ecosistema | Casos prácticos | Mantenimiento y actualizaciones | Consideraciones de seguridad | Aceleración de hardware |
|---|---|---|---|---|---|---|---|
| PyTorch | Buena flexibilidad; puede comprometer el rendimiento bruto | Excelente con bibliotecas de Python | Amplios recursos y comunidad | Investigación y prototipos | Desarrollo regular y activo | Dependiente del entorno de despliegue | Soporte CUDA para aceleración por GPU |
| TorchScript | Mejor para producción que PyTorch | Transición fluida de PyTorch a C++ | Especializado pero más reducido que PyTorch | Industria donde Python es un cuello de botella | Actualizaciones constantes con PyTorch | Seguridad mejorada sin Python completo | Hereda el soporte CUDA de PyTorch |
| ONNX | Variable según el tiempo de ejecución | Alto en diferentes marcos de trabajo | Ecosistema amplio, respaldado por muchas organizaciones | Flexibilidad entre marcos de ML | Actualizaciones regulares para nuevas operaciones | Garantiza prácticas de conversión y despliegue seguras | Varias optimizaciones de hardware |
| OpenVINO | Optimizado para hardware Intel | Mejor dentro del ecosistema Intel | Sólido en el campo de la visión artificial | IoT y edge con hardware Intel | Actualizaciones regulares para hardware Intel | Funciones robustas para aplicaciones sensibles | Adaptado para hardware Intel |
| TensorRT | De primer nivel en GPU NVIDIA | Mejor para hardware NVIDIA | Red sólida a través de NVIDIA | Inferencia de vídeo e imagen en tiempo real | Actualizaciones frecuentes para nuevas GPU | Énfasis en la seguridad | Diseñado para GPU NVIDIA |
| CoreML | Optimizado para hardware Apple en el dispositivo | Exclusivo para el ecosistema Apple | Fuerte apoyo de Apple y de la comunidad de desarrolladores | ML en el dispositivo en productos Apple | Actualizaciones regulares de Apple | Enfoque en la privacidad y la seguridad | Apple neural engine y GPU |
| TF SavedModel | Escalable en entornos de servidor | Amplia compatibilidad en el ecosistema TensorFlow | Gran soporte debido a la popularidad de TensorFlow | Servicio de modelos a escala | Actualizaciones regulares de Google y la comunidad | Funciones robustas para empresas | Varias aceleraciones de hardware |
| TF GraphDef | Estable para grafos de computación estáticos | Se integra bien con la infraestructura de TensorFlow | Recursos para optimizar grafos estáticos | Escenarios que requieren grafos estáticos | Actualizaciones junto al núcleo de TensorFlow | Prácticas de seguridad de TensorFlow establecidas | Opciones de aceleración de TensorFlow |
| TF Lite | Velocidad y eficiencia en dispositivos móviles/integrados | Amplia gama de compatibilidad con dispositivos | Comunidad sólida, respaldada por Google | Aplicaciones móviles con una huella mínima | Últimas funciones para móviles | Entorno seguro en dispositivos del usuario final | GPU y DSP, entre otros |
| TF Edge TPU | Optimizado para el hardware Edge TPU de Google | Exclusivo para dispositivos Edge TPU | En crecimiento con recursos de Google y terceros | Dispositivos IoT que requieren procesamiento en tiempo real | Mejoras para el nuevo hardware Edge TPU | Seguridad IoT robusta de Google | Diseñado a medida para Google Coral |
| TF.js | Rendimiento razonable en el navegador | Alto con tecnologías web | Soporte para desarrolladores web y Node.js | Aplicaciones web interactivas | Contribuciones del equipo y la comunidad de TensorFlow | Modelo de seguridad de la plataforma web | Mejorado con WebGL y otras API |
| PaddlePaddle | Competitivo, fácil de usar y escalable | Ecosistema Baidu, amplio soporte de aplicaciones | Crecimiento rápido, especialmente en China | Mercado chino y procesamiento de idiomas | Enfoque en aplicaciones de IA chinas | Enfatiza la privacidad y seguridad de los datos | Incluyendo los chips Kunlun de Baidu |
| MNN | Alto rendimiento para dispositivos móviles | Sistemas ARM móviles e integrados y CPU X86-64 | Comunidad de ML móvil/integrado | Eficiencia de sistemas móviles | Mantenimiento de alto rendimiento en dispositivos móviles | Ventajas de seguridad en el dispositivo | Optimizaciones para CPU y GPU ARM |
| NCNN | Optimizado para dispositivos móviles basados en ARM | Sistemas ARM móviles e integrados | Comunidad de ML móvil/integrado pequeña pero activa | Eficiencia en sistemas Android y ARM | Mantenimiento de alto rendimiento en ARM | Ventajas de seguridad en el dispositivo | Optimizaciones para CPU y GPU ARM |
| Sony IMX500 | Inferencia en el sensor con muy bajo consumo | Sensor Sony IMX500, Raspberry Pi AI Camera | Ecosistema Sony AITRIOS | IA de borde en cámara | Actualizaciones del SDK de Sony y la cadena de herramientas MCT | Los datos permanecen en el sensor | Acelerador en chip Sony IMX500 |
| Rockchip RKNN | Optimizado para NPUs de Rockchip | Placas SoC Rockchip (ej. RK3588) | Comunidad de desarrolladores de Rockchip | SBC embebidas y dispositivos de borde | Actualizaciones de Rockchip RKNN-Toolkit | Inferencia local en el dispositivo | NPU de Rockchip |
| ExecuTorch | Entorno de ejecución PyTorch eficiente en dispositivo | iOS, Android, embebido mediante XNNPACK | Respaldado por el proyecto PyTorch | Aplicaciones móviles y embebidas | Mantenido junto con PyTorch | La inferencia en el dispositivo mantiene los datos locales | Backends XNNPACK y CPU/GPU móviles |
| Axelera AI | Muy alto rendimiento (hasta 856 TOPS) | Metis AIPU a través de PCIe o M.2 | Axelera Voyager SDK | Inferencia de borde de alto rendimiento | Actualizaciones del SDK de Axelera | Inferencia de borde local | Axelera Metis AIPU |
| DEEPX | Inferencia de NPU optimizada para INT8 | Hardware NPU DEEPX | Herramientas de desarrollo DEEPX (dx_com, dx_engine) | Inferencia de borde embebida | Actualizaciones del SDK y entorno de ejecución de DEEPX | Inferencia local en el dispositivo | NPU DEEPX |
| Qualcomm QNN | Inferencia rápida en dispositivo Snapdragon | Snapdragon Hexagon NPU, Adreno GPU, CPU | Ecosistema Qualcomm AI Hub | Dispositivos móviles y de borde Snapdragon | Actualizaciones del stack de IA de Qualcomm (QAIRT) | La inferencia en el dispositivo mantiene los datos locales | Snapdragon Hexagon NPU |
Esta comparación te ofrece una visión general de alto nivel. Para el despliegue, sopesa los requisitos y limitaciones específicos de tu proyecto frente a cada opción y consulta la guía de integración enlazada para el formato que elijas.
Link to this sectionConclusión#
La amplia gama de formatos de exportación de YOLO26 te permite adaptar un modelo a casi cualquier entorno, desde un servidor GPU en la nube hasta una cámara de borde en el sensor. Una vez que hayas elegido un formato, sigue las mejores prácticas de despliegue de modelos para la optimización, la resolución de problemas y la seguridad, y apóyate en la comunidad de Ultralytics cuando te encuentres con algún problema.
Link to this sectionFAQ#
Link to this section¿Qué opciones de despliegue hay disponibles para YOLO26 en diferentes plataformas de hardware?#
Ultralytics YOLO26 admite varios formatos de despliegue, cada uno diseñado para entornos y plataformas de hardware específicos. Los formatos clave incluyen:
- PyTorch para investigación y creación de prototipos, con una excelente integración con Python.
- TorchScript para entornos de producción donde Python no está disponible.
- ONNX para compatibilidad multiplataforma y aceleración de hardware.
- OpenVINO para un rendimiento optimizado en hardware Intel.
- TensorRT para inferencia de alta velocidad en GPU NVIDIA.
Cada formato tiene ventajas únicas. Para un recorrido detallado, consulta nuestra documentación del proceso de exportación.
Link to this section¿Cómo puedo mejorar la velocidad de inferencia de mi modelo YOLO26 en una CPU Intel?#
Para mejorar la velocidad de inferencia en CPU Intel, puedes desplegar tu modelo YOLO26 usando el kit de herramientas OpenVINO de Intel. OpenVINO ofrece mejoras de rendimiento significativas al optimizar los modelos para aprovechar el hardware de Intel de manera eficiente.
- Convierte tu modelo YOLO26 al formato OpenVINO usando la función
model.export(). - Sigue la guía de configuración detallada en la documentación de exportación de Intel OpenVINO.
Para más información, echa un vistazo a nuestra entrada de blog.
Link to this section¿Puedo desplegar modelos YOLO26 en dispositivos móviles?#
Sí, los modelos YOLO26 pueden desplegarse en dispositivos móviles usando TensorFlow Lite (TF Lite) tanto para plataformas Android como iOS. TF Lite está diseñado para dispositivos móviles e integrados, proporcionando una inferencia eficiente en el dispositivo.
# Export command for TFLite format
model.export(format="tflite")Para más detalles sobre cómo desplegar modelos en móviles, consulta nuestra guía de integración de TF Lite.
Link to this section¿Qué factores debo considerar al elegir un formato de despliegue para mi modelo YOLO26?#
Al elegir un formato de despliegue para YOLO26, ten en cuenta los siguientes factores:
- Rendimiento: Algunos formatos como TensorRT ofrecen velocidades excepcionales en GPU NVIDIA, mientras que OpenVINO está optimizado para hardware Intel.
- Compatibilidad: ONNX ofrece una amplia compatibilidad en diferentes plataformas.
- Facilidad de integración: Formatos como CoreML o TF Lite están adaptados a ecosistemas específicos como iOS y Android, respectivamente.
- Apoyo de la comunidad: Formatos como PyTorch y TensorFlow cuentan con amplios recursos y apoyo de la comunidad.
Para un análisis comparativo, consulta nuestra documentación sobre formatos de exportación.
Link to this section¿Cómo puedo desplegar modelos YOLO26 en una aplicación web?#
Para desplegar modelos YOLO26 en una aplicación web, puedes usar TensorFlow.js (TF.js), que permite ejecutar modelos de aprendizaje automático directamente en el navegador. Este enfoque elimina la necesidad de una infraestructura backend y proporciona rendimiento en tiempo real.
- Exporta el modelo YOLO26 al formato TF.js.
- Integra el modelo exportado en tu aplicación web.
Para obtener instrucciones paso a paso, consulta nuestra guía sobre integración con TensorFlow.js.