Meet YOLO26: next-gen vision AI.

Link to this sectionAnálisis comparativo de las opciones de implementación de YOLO26#

YOLO26 es compatible con más de 20 opciones de despliegue, cada una ajustada para un entorno de ejecución, hardware objetivo o plataforma diferente: desde PyTorch y ONNX hasta TensorRT, OpenVINO, CoreML y formatos dedicados para NPU de borde. Elegir la opción adecuada equilibra la velocidad de inferencia, las limitaciones de hardware y la facilidad de integración. Esta guía compara cada opción para que elijas la que mejor se adapte a tu aplicación y, después, consultes las mejores prácticas de despliegue de modelos para desplegarlo de forma fiable.



Watch: How to Choose the Best Ultralytics YOLO26 Deployment Format for Your Project | TensorRT | OpenVINO 🚀

El despliegue es la etapa en el flujo de trabajo de proyectos de visión artificial donde un modelo entrenado empieza a realizar trabajo real, por lo que el formato al que exportes tiene un impacto directo en la velocidad, el coste y la portabilidad.

Link to this sectionCómo seleccionar la opción de implementación adecuada para tu modelo YOLO26#

Cuando llegue el momento de desplegar tu modelo YOLO26, seleccionar un formato de exportación adecuado es muy importante. Como se detalla en la documentación de exportación de Ultralytics YOLO26, la función model.export() convierte tu modelo entrenado a una variedad de formatos adaptados a diversos entornos y requisitos de rendimiento.

El formato ideal depende del contexto operativo previsto y del hardware de tu modelo.

Sáltate la exportación manual

Para un despliegue gestionado sin exportación manual, la plataforma de Ultralytics proporciona endpoints de inferencia listos para usar con escalado automático en 43 regiones globales.

Link to this sectionOpciones de implementación de YOLO26#

Aquí tienes una breve descripción de cada formato y cuándo utilizarlo. Para ver el recorrido completo de la exportación, consulta la documentación de exportación; para ver los criterios comparativos, ve a la tabla comparativa.

  • PyTorch (.pt): El formato nativo de entrenamiento e inferencia, que ofrece la máxima flexibilidad y aceleración por GPU CUDA; es ideal para investigación y prototipado sin necesidad de realizar pasos de exportación.
  • TorchScript (torchscript): Serializa el modelo para un entorno de ejecución C++ sin necesidad de Python, adecuado para sistemas de producción donde no hay Python disponible.
  • ONNX (onnx): Un formato de intercambio agnóstico al framework con un amplio soporte multiplataforma y de hardware a través de ONNX Runtime.
  • OpenVINO (openvino): El kit de herramientas de Intel para una inferencia optimizada en CPUs Intel, GPUs integradas y NPUs, común en IoT y computación de borde.
  • TensorRT (engine): El entorno de ejecución de alto rendimiento de NVIDIA que ofrece una inferencia de GPU de primer nivel con optimización FP16 e INT8.
  • CoreML (coreml): El formato de Apple para ejecutar modelos en dispositivos iOS, macOS, watchOS y tvOS, utilizando el Apple Neural Engine.
  • TF SavedModel (saved_model): El formato estándar de TensorFlow para el servicio escalable en el lado del servidor con TensorFlow Serving.
  • TF GraphDef (pb): Un formato TensorFlow de grafo estático congelado para entornos que requieren un grafo de computación fijo.
  • TF Lite (tflite): Un entorno de ejecución ligero de TensorFlow para inferencia en dispositivos móviles y hardware embebido.
  • TF Edge TPU (edgetpu): Compila modelos TF Lite para aceleradores Google Coral Edge TPU.
  • TF.js (tfjs): Ejecuta modelos directamente en el navegador sin backend, acelerado a través de WebGL.
  • PaddlePaddle (paddle): El framework de aprendizaje profundo de Baidu, popular en China y con un amplio soporte de hardware.
  • MNN (mnn): Un motor de inferencia ligero de alto rendimiento optimizado para sistemas móviles y embebidos ARM y x86-64.
  • NCNN (ncnn): Un framework de inferencia de alto rendimiento y ligero, ajustado para dispositivos móviles ARM.
  • Sony IMX500 (imx): Exporta para el sensor de visión inteligente IMX500 de Sony con procesamiento en chip, como la Raspberry Pi AI Camera.
  • Rockchip RKNN (rknn): Dirigido a NPUs Rockchip en placas embebidas con cuantización FP16 e INT8.
  • ExecuTorch (executorch): El entorno de ejecución nativo de PyTorch en dispositivo para móviles (iOS y Android) y sistemas embebidos mediante XNNPACK.
  • Axelera AI (axelera): Compila para el AIPU Metis de Axelera (hasta 856 TOPS) a través de PCIe o M.2 para una inferencia de borde de alto rendimiento.
  • DEEPX (deepx): Dirigido al hardware NPU de DEEPX con cuantización INT8 para inferencia de borde embebida.
  • Qualcomm QNN (qnn): Inferencia en el dispositivo sobre Snapdragon Hexagon NPU, Adreno GPU y CPU a través del stack de IA de Qualcomm.

Para un objetivo de borde adicional, la integración de Hailo compila modelos de detección YOLO a Hailo HEF. No es un destino directo de model.export(): los modelos de detección se exportan primero a ONNX y luego se compilan a HEF con el Hailo Dataflow Compiler externo para aceleradores Hailo-8, Hailo-8L y Hailo-15.

Link to this sectionComparación de opciones de despliegue#

La siguiente tabla resume las opciones de despliegue para modelos YOLO26 según los criterios que suelen determinar la elección. Para un análisis detallado de cada formato, consulta la documentación de formatos de exportación.

Opción de despliegueBenchmarks de rendimientoCompatibilidad e integraciónSoporte de la comunidad y ecosistemaCasos prácticosMantenimiento y actualizacionesConsideraciones de seguridadAceleración de hardware
PyTorchBuena flexibilidad; puede comprometer el rendimiento brutoExcelente con bibliotecas de PythonAmplios recursos y comunidadInvestigación y prototiposDesarrollo regular y activoDependiente del entorno de despliegueSoporte CUDA para aceleración por GPU
TorchScriptMejor para producción que PyTorchTransición fluida de PyTorch a C++Especializado pero más reducido que PyTorchIndustria donde Python es un cuello de botellaActualizaciones constantes con PyTorchSeguridad mejorada sin Python completoHereda el soporte CUDA de PyTorch
ONNXVariable según el tiempo de ejecuciónAlto en diferentes marcos de trabajoEcosistema amplio, respaldado por muchas organizacionesFlexibilidad entre marcos de MLActualizaciones regulares para nuevas operacionesGarantiza prácticas de conversión y despliegue segurasVarias optimizaciones de hardware
OpenVINOOptimizado para hardware IntelMejor dentro del ecosistema IntelSólido en el campo de la visión artificialIoT y edge con hardware IntelActualizaciones regulares para hardware IntelFunciones robustas para aplicaciones sensiblesAdaptado para hardware Intel
TensorRTDe primer nivel en GPU NVIDIAMejor para hardware NVIDIARed sólida a través de NVIDIAInferencia de vídeo e imagen en tiempo realActualizaciones frecuentes para nuevas GPUÉnfasis en la seguridadDiseñado para GPU NVIDIA
CoreMLOptimizado para hardware Apple en el dispositivoExclusivo para el ecosistema AppleFuerte apoyo de Apple y de la comunidad de desarrolladoresML en el dispositivo en productos AppleActualizaciones regulares de AppleEnfoque en la privacidad y la seguridadApple neural engine y GPU
TF SavedModelEscalable en entornos de servidorAmplia compatibilidad en el ecosistema TensorFlowGran soporte debido a la popularidad de TensorFlowServicio de modelos a escalaActualizaciones regulares de Google y la comunidadFunciones robustas para empresasVarias aceleraciones de hardware
TF GraphDefEstable para grafos de computación estáticosSe integra bien con la infraestructura de TensorFlowRecursos para optimizar grafos estáticosEscenarios que requieren grafos estáticosActualizaciones junto al núcleo de TensorFlowPrácticas de seguridad de TensorFlow establecidasOpciones de aceleración de TensorFlow
TF LiteVelocidad y eficiencia en dispositivos móviles/integradosAmplia gama de compatibilidad con dispositivosComunidad sólida, respaldada por GoogleAplicaciones móviles con una huella mínimaÚltimas funciones para móvilesEntorno seguro en dispositivos del usuario finalGPU y DSP, entre otros
TF Edge TPUOptimizado para el hardware Edge TPU de GoogleExclusivo para dispositivos Edge TPUEn crecimiento con recursos de Google y tercerosDispositivos IoT que requieren procesamiento en tiempo realMejoras para el nuevo hardware Edge TPUSeguridad IoT robusta de GoogleDiseñado a medida para Google Coral
TF.jsRendimiento razonable en el navegadorAlto con tecnologías webSoporte para desarrolladores web y Node.jsAplicaciones web interactivasContribuciones del equipo y la comunidad de TensorFlowModelo de seguridad de la plataforma webMejorado con WebGL y otras API
PaddlePaddleCompetitivo, fácil de usar y escalableEcosistema Baidu, amplio soporte de aplicacionesCrecimiento rápido, especialmente en ChinaMercado chino y procesamiento de idiomasEnfoque en aplicaciones de IA chinasEnfatiza la privacidad y seguridad de los datosIncluyendo los chips Kunlun de Baidu
MNNAlto rendimiento para dispositivos móvilesSistemas ARM móviles e integrados y CPU X86-64Comunidad de ML móvil/integradoEficiencia de sistemas móvilesMantenimiento de alto rendimiento en dispositivos móvilesVentajas de seguridad en el dispositivoOptimizaciones para CPU y GPU ARM
NCNNOptimizado para dispositivos móviles basados en ARMSistemas ARM móviles e integradosComunidad de ML móvil/integrado pequeña pero activaEficiencia en sistemas Android y ARMMantenimiento de alto rendimiento en ARMVentajas de seguridad en el dispositivoOptimizaciones para CPU y GPU ARM
Sony IMX500Inferencia en el sensor con muy bajo consumoSensor Sony IMX500, Raspberry Pi AI CameraEcosistema Sony AITRIOSIA de borde en cámaraActualizaciones del SDK de Sony y la cadena de herramientas MCTLos datos permanecen en el sensorAcelerador en chip Sony IMX500
Rockchip RKNNOptimizado para NPUs de RockchipPlacas SoC Rockchip (ej. RK3588)Comunidad de desarrolladores de RockchipSBC embebidas y dispositivos de bordeActualizaciones de Rockchip RKNN-ToolkitInferencia local en el dispositivoNPU de Rockchip
ExecuTorchEntorno de ejecución PyTorch eficiente en dispositivoiOS, Android, embebido mediante XNNPACKRespaldado por el proyecto PyTorchAplicaciones móviles y embebidasMantenido junto con PyTorchLa inferencia en el dispositivo mantiene los datos localesBackends XNNPACK y CPU/GPU móviles
Axelera AIMuy alto rendimiento (hasta 856 TOPS)Metis AIPU a través de PCIe o M.2Axelera Voyager SDKInferencia de borde de alto rendimientoActualizaciones del SDK de AxeleraInferencia de borde localAxelera Metis AIPU
DEEPXInferencia de NPU optimizada para INT8Hardware NPU DEEPXHerramientas de desarrollo DEEPX (dx_com, dx_engine)Inferencia de borde embebidaActualizaciones del SDK y entorno de ejecución de DEEPXInferencia local en el dispositivoNPU DEEPX
Qualcomm QNNInferencia rápida en dispositivo SnapdragonSnapdragon Hexagon NPU, Adreno GPU, CPUEcosistema Qualcomm AI HubDispositivos móviles y de borde SnapdragonActualizaciones del stack de IA de Qualcomm (QAIRT)La inferencia en el dispositivo mantiene los datos localesSnapdragon Hexagon NPU

Esta comparación te ofrece una visión general de alto nivel. Para el despliegue, sopesa los requisitos y limitaciones específicos de tu proyecto frente a cada opción y consulta la guía de integración enlazada para el formato que elijas.

Link to this sectionConclusión#

La amplia gama de formatos de exportación de YOLO26 te permite adaptar un modelo a casi cualquier entorno, desde un servidor GPU en la nube hasta una cámara de borde en el sensor. Una vez que hayas elegido un formato, sigue las mejores prácticas de despliegue de modelos para la optimización, la resolución de problemas y la seguridad, y apóyate en la comunidad de Ultralytics cuando te encuentres con algún problema.

Link to this sectionFAQ#

Link to this section¿Qué opciones de despliegue hay disponibles para YOLO26 en diferentes plataformas de hardware?#

Ultralytics YOLO26 admite varios formatos de despliegue, cada uno diseñado para entornos y plataformas de hardware específicos. Los formatos clave incluyen:

  • PyTorch para investigación y creación de prototipos, con una excelente integración con Python.
  • TorchScript para entornos de producción donde Python no está disponible.
  • ONNX para compatibilidad multiplataforma y aceleración de hardware.
  • OpenVINO para un rendimiento optimizado en hardware Intel.
  • TensorRT para inferencia de alta velocidad en GPU NVIDIA.

Cada formato tiene ventajas únicas. Para un recorrido detallado, consulta nuestra documentación del proceso de exportación.

Link to this section¿Cómo puedo mejorar la velocidad de inferencia de mi modelo YOLO26 en una CPU Intel?#

Para mejorar la velocidad de inferencia en CPU Intel, puedes desplegar tu modelo YOLO26 usando el kit de herramientas OpenVINO de Intel. OpenVINO ofrece mejoras de rendimiento significativas al optimizar los modelos para aprovechar el hardware de Intel de manera eficiente.

  1. Convierte tu modelo YOLO26 al formato OpenVINO usando la función model.export().
  2. Sigue la guía de configuración detallada en la documentación de exportación de Intel OpenVINO.

Para más información, echa un vistazo a nuestra entrada de blog.

Link to this section¿Puedo desplegar modelos YOLO26 en dispositivos móviles?#

Sí, los modelos YOLO26 pueden desplegarse en dispositivos móviles usando TensorFlow Lite (TF Lite) tanto para plataformas Android como iOS. TF Lite está diseñado para dispositivos móviles e integrados, proporcionando una inferencia eficiente en el dispositivo.

Ejemplo
# Export command for TFLite format
model.export(format="tflite")

Para más detalles sobre cómo desplegar modelos en móviles, consulta nuestra guía de integración de TF Lite.

Link to this section¿Qué factores debo considerar al elegir un formato de despliegue para mi modelo YOLO26?#

Al elegir un formato de despliegue para YOLO26, ten en cuenta los siguientes factores:

  • Rendimiento: Algunos formatos como TensorRT ofrecen velocidades excepcionales en GPU NVIDIA, mientras que OpenVINO está optimizado para hardware Intel.
  • Compatibilidad: ONNX ofrece una amplia compatibilidad en diferentes plataformas.
  • Facilidad de integración: Formatos como CoreML o TF Lite están adaptados a ecosistemas específicos como iOS y Android, respectivamente.
  • Apoyo de la comunidad: Formatos como PyTorch y TensorFlow cuentan con amplios recursos y apoyo de la comunidad.

Para un análisis comparativo, consulta nuestra documentación sobre formatos de exportación.

Link to this section¿Cómo puedo desplegar modelos YOLO26 en una aplicación web?#

Para desplegar modelos YOLO26 en una aplicación web, puedes usar TensorFlow.js (TF.js), que permite ejecutar modelos de aprendizaje automático directamente en el navegador. Este enfoque elimina la necesidad de una infraestructura backend y proporciona rendimiento en tiempo real.

  1. Exporta el modelo YOLO26 al formato TF.js.
  2. Integra el modelo exportado en tu aplicación web.

Para obtener instrucciones paso a paso, consulta nuestra guía sobre integración con TensorFlow.js.

Comentarios