Exportación de modelos con Ultralytics YOLO

Q: How do I enable INT8 quantization when exporting my YOLO26 model?

La cuantización INT8 es una excelente manera de comprimir el modelo y acelerar la inferencia, especialmente en dispositivos edge. Aquí te mostramos cómo puedes habilitar la cuantización INT8: La cuantización INT8 se puede aplicar a varios formatos, como TensorRT, OpenVINO y CoreML. Para obtener resultados óptimos de cuantización, proporciona un conjunto de datos representativo utilizando el parámetro data.

Ecosistema e integraciones de Ultralytics YOLO

Introducción

El objetivo final de entrenar un modelo es desplegarlo para aplicaciones del mundo real. El modo de exportación en Ultralytics YOLO26 ofrece una gama versátil de opciones para exportar su modelo entrenado a diferentes formatos, haciéndolo desplegable en diversas plataformas y dispositivos. Esta guía completa tiene como objetivo guiarle a través de los matices de la exportación de modelos, mostrando cómo lograr la máxima compatibilidad y rendimiento.

Ver: Cómo exportar Ultralytics en diferentes formatos para su implementación | ONNX, TensorRT, CoreML

¿Por qué elegir el modo de exportación de YOLO26?

Versatilidad: Exportación a múltiples formatos, incluyendo ONNX, TensorRT, CoreML y más.
Rendimiento: Obtenga hasta 5 veces más velocidad en la GPU con TensorRT y 3 veces más velocidad en la CPU con ONNX u OpenVINO.
Compatibilidad: Haz que tu modelo sea universalmente desplegable en numerosos entornos de hardware y software.
Facilidad de uso: API simple de CLI y python para una exportación de modelos rápida y sencilla.

Características principales del modo de exportación

Estas son algunas de las funcionalidades más destacadas:

Exportación con un clic: Comandos sencillos para exportar a diferentes formatos.
Exportación por lotes: Exporta modelos con capacidad de inferencia por lotes.
Inferencia optimizada: Los modelos exportados están optimizados para tiempos de inferencia más rápidos.
Vídeos tutoriales: Guías detalladas y tutoriales para una experiencia de exportación fluida.

Consejo

Exporta a ONNX u OpenVINO para obtener hasta 3 veces más velocidad en la CPU.
Exporta a TensorRT para obtener hasta 5 veces más velocidad en la GPU.

Ejemplos de uso

Exporte un modelo YOLO26n a un formato diferente como ONNX o TensorRT. Consulte la sección Argumentos a continuación para una lista completa de argumentos de exportación.

Ejemplo

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom-trained model

# Export the model
model.export(format="onnx")

yolo export model=yolo26n.pt format=onnx      # export official model
yolo export model=path/to/best.pt format=onnx # export custom-trained model

Argumentos

Esta tabla detalla las configuraciones y opciones disponibles para exportar modelos YOLO a diferentes formatos. Estos ajustes son fundamentales para optimizar el rendimiento, el tamaño y la compatibilidad del modelo exportado en diversas plataformas y entornos. Una configuración adecuada garantiza que el modelo esté listo para su implementación en la aplicación prevista con una eficiencia óptima.

Argumento	Tipo	Predeterminado	Descripción
`format`	`str`	`'torchscript'`	Formato de destino para el modelo exportado, como `'onnx'`, `'torchscript'`, `'engine'` (TensorRT) u otros. Cada formato permite la compatibilidad con diferentes entornos de implementación.
`imgsz`	`int` o `tuple`	`640`	Tamaño de imagen deseado para la entrada del modelo. Puede ser un entero para imágenes cuadradas (p. ej., `640` para 640×640) o una tupla `(height, width)` para dimensiones específicas.
`keras`	`bool`	`False`	Activa la exportación al formato Keras para TensorFlow SavedModel, proporcionando compatibilidad con el servicio y las API de TensorFlow.
`optimize`	`bool`	`False`	Aplica la optimización para dispositivos móviles al exportar a TorchScript, lo que podría reducir el tamaño del modelo y mejorar el rendimiento de la inferencia. No es compatible con el formato NCNN ni con los dispositivos CUDA.
`half`	`bool`	`False`	Activa la cuantificación FP16 (media precisión), lo que reduce el tamaño del modelo y potencialmente acelera la inferencia en hardware compatible. No es compatible con la cuantificación INT8 ni con las exportaciones solo a CPU. Solo disponible para ciertos formatos, por ejemplo, ONNX (ver más abajo).
`int8`	`bool`	`False`	Activa la cuantificación INT8, comprimiendo aún más el modelo y acelerando la inferencia con una mínima pérdida de precisión, principalmente para dispositivos de borde. Cuando se utiliza con TensorRT, realiza la cuantificación posterior al entrenamiento (PTQ).
`dynamic`	`bool`	`False`	Permite tamaños de entrada dinámicos para las exportaciones de ONNX, TensorRT y OpenVINO, lo que mejora la flexibilidad en el manejo de diferentes dimensiones de imagen. Se establece automáticamente en `True` al usar TensorRT con INT8.
`simplify`	`bool`	`True`	Simplifica el gráfico del modelo para las exportaciones ONNX con `onnxslim`, mejorando potencialmente el rendimiento y la compatibilidad con los motores de inferencia.
`opset`	`int`	`None`	Especifica la versión de ONNX opset para la compatibilidad con diferentes analizadores y tiempos de ejecución ONNX. Si no se establece, utiliza la última versión compatible.
`workspace`	`float` o `None`	`None`	Establece el tamaño máximo del espacio de trabajo en GiB para TensorRT optimizaciones, equilibrando el uso de la memoria y el rendimiento. Utilice `None` para la asignación automática por TensorRT hasta el máximo del dispositivo.
`nms`	`bool`	`False`	Añade la Supresión No Máxima (NMS) al modelo exportado cuando es compatible (véase Formatos de Exportación), mejorando la eficiencia del post-procesamiento de la detección. No disponible para modelos end2end.
`batch`	`int`	`1`	Especifica el tamaño del lote de inferencia del modelo de exportación o el número máximo de imágenes que el modelo exportado procesará simultáneamente en `predict` modo. Para las exportaciones de Edge TPU, esto se establece automáticamente en 1.
`device`	`str`	`None`	Especifica el dispositivo para la exportación: GPU (`device=0`), CPU (`device=cpu`), MPS para Apple silicon (`device=mps`) o DLA para NVIDIA Jetson (`device=dla:0` o `device=dla:1`). Las exportaciones de TensorRT utilizan automáticamente la GPU.
`data`	`str`	`'coco8.yaml'`	Ruta al conjunto de datos archivo de configuración, esencial para la calibración de cuantificación INT8. Si no se especifica con INT8 habilitado, `coco8.yaml` se utilizará como alternativa para la calibración.
`fraction`	`float`	`1.0`	Especifica la fracción del conjunto de datos que se utilizará para la calibración de la cuantificación INT8. Permite calibrar en un subconjunto del conjunto de datos completo, útil para experimentos o cuando los recursos son limitados. Si no se especifica con INT8 habilitado, se utilizará el conjunto de datos completo.
`end2end`	`bool`	`None`	Anula el modo de extremo a extremo en YOLO que admiten inferencia NMS(YOLO26, YOLOv10). Al establecerlo en `False` permite exportar estos modelos para que sean compatibles con el proceso de posprocesamiento tradicional NMS.

Ajustar estos parámetros permite personalizar el proceso de exportación para que se ajuste a requisitos específicos, como el entorno de implementación, las limitaciones de hardware y los objetivos de rendimiento. Seleccionar el formato y la configuración adecuados es esencial para lograr el mejor equilibrio entre el tamaño del modelo, la velocidad y la precisión.

Formatos de exportación

Los formatos de exportación de YOLO26 disponibles se encuentran en la tabla a continuación. Puede exportar a cualquier formato utilizando el format argumento, es decir, format='onnx' o format='engine'. Se puede predecir o validar directamente sobre modelos exportados, es decir, yolo predict model=yolo26n.onnxDespués de que finalice la exportación, se mostrarán ejemplos de uso para su modelo.

Formato	`format` Argumento	Modelo	Metadatos	Argumentos
PyTorch	-	`yolo26n.pt`	✅	-
TorchScript	`torchscript`	`yolo26n.torchscript`	✅	`imgsz`, `half`, `dynamic`, `optimize`, `nms`, `batch`, `device`
ONNX	`onnx`	`yolo26n.onnx`	✅	`imgsz`, `half`, `dynamic`, `simplify`, `opset`, `nms`, `batch`, `device`
OpenVINO	`openvino`	`yolo26n_openvino_model/`	✅	`imgsz`, `half`, `dynamic`, `int8`, `nms`, `batch`, `data`, `fraction`, `device`
TensorRT	`engine`	`yolo26n.engine`	✅	`imgsz`, `half`, `dynamic`, `simplify`, `workspace`, `int8`, `nms`, `batch`, `data`, `fraction`, `device`
CoreML	`coreml`	`yolo26n.mlpackage`	✅	`imgsz`, `dynamic`, `half`, `int8`, `nms`, `batch`, `device`
TF SavedModel	`saved_model`	`yolo26n_saved_model/`	✅	`imgsz`, `keras`, `int8`, `nms`, `batch`, `device`
TF GraphDef	`pb`	`yolo26n.pb`	❌	`imgsz`, `batch`, `device`
TF Lite	`tflite`	`yolo26n.tflite`	✅	`imgsz`, `half`, `int8`, `nms`, `batch`, `data`, `fraction`, `device`
TF Edge TPU	`edgetpu`	`yolo26n_edgetpu.tflite`	✅	`imgsz`, `device`
TF.js	`tfjs`	`yolo26n_web_model/`	✅	`imgsz`, `half`, `int8`, `nms`, `batch`, `device`
PaddlePaddle	`paddle`	`yolo26n_paddle_model/`	✅	`imgsz`, `batch`, `device`
MNN	`mnn`	`yolo26n.mnn`	✅	`imgsz`, `batch`, `int8`, `half`, `device`
NCNN	`ncnn`	`yolo26n_ncnn_model/`	✅	`imgsz`, `half`, `batch`, `device`
IMX500	`imx`	`yolo26n_imx_model/`	✅	`imgsz`, `int8`, `data`, `fraction`, `device`
RKNN	`rknn`	`yolo26n_rknn_model/`	✅	`imgsz`, `batch`, `name`, `device`
ExecuTorch	`executorch`	`yolo26n_executorch_model/`	✅	`imgsz`, `device`
Axelera	`axelera`	`yolo26n_axelera_model/`	✅	`imgsz`, `int8`, `data`, `fraction`, `device`

Preguntas frecuentes

¿Cómo exporto un modelo YOLO26 a formato ONNX?

Exportar un modelo YOLO26 a formato ONNX es sencillo con Ultralytics. Ofrece métodos tanto de Python como de CLI para exportar modelos.

Ejemplo

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom-trained model

# Export the model
model.export(format="onnx")

yolo export model=yolo26n.pt format=onnx      # export official model
yolo export model=path/to/best.pt format=onnx # export custom-trained model

Para obtener más detalles sobre el proceso, incluidas las opciones avanzadas como el manejo de diferentes tamaños de entrada, consulte la guía de integración de ONNX.

¿Cuáles son los beneficios de usar TensorRT para la exportación de modelos?

El uso de TensorRT para la exportación de modelos ofrece mejoras significativas en el rendimiento. Los modelos YOLO26 exportados a TensorRT pueden lograr una aceleración de hasta 5x en la GPU, lo que lo hace ideal para aplicaciones de inferencia en tiempo real.

Versatilidad: Optimiza los modelos para una configuración de hardware específica.
Velocidad: Logra una inferencia más rápida mediante optimizaciones avanzadas.
Compatibilidad: Intégrate sin problemas con el hardware de NVIDIA.

Para obtener más información sobre la integración de TensorRT, consulta la guía de integración de TensorRT.

¿Cómo habilito la cuantificación INT8 al exportar mi modelo YOLO26?

La cuantización INT8 es una forma excelente de comprimir el modelo y acelerar la inferencia, especialmente en dispositivos edge. Aquí te mostramos cómo puedes habilitar la cuantización INT8:

Ejemplo

PythonCLI

from ultralytics import YOLO

model = YOLO("yolo26n.pt")  # Load a model
model.export(format="engine", int8=True)

yolo export model=yolo26n.pt format=engine int8=True # export TensorRT model with INT8 quantization

La cuantización INT8 se puede aplicar a varios formatos, como TensorRT, OpenVINO, y CoreML. Para obtener resultados óptimos de cuantización, proporcione un conjunto de datos usando el data parámetro.

¿Por qué es importante el tamaño de entrada dinámico al exportar modelos?

El tamaño de entrada dinámico permite que el modelo exportado gestione dimensiones de imagen variables, proporcionando flexibilidad y optimizando la eficiencia del procesamiento para diferentes casos de uso. Al exportar a formatos como ONNX o TensorRT, habilitar el tamaño de entrada dinámico asegura que el modelo pueda adaptarse a diferentes formas de entrada sin problemas.

Para habilitar esta función, utiliza el flag dynamic=True durante la exportación:

Ejemplo

PythonCLI

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="onnx", dynamic=True)

yolo export model=yolo26n.pt format=onnx dynamic=True

El ajuste dinámico del tamaño de entrada es particularmente útil para aplicaciones donde las dimensiones de entrada pueden variar, como el procesamiento de video o al manejar imágenes de diferentes fuentes.

¿Cuáles son los argumentos clave de exportación a considerar para optimizar el rendimiento del modelo?

Comprender y configurar los argumentos de exportación es crucial para optimizar el rendimiento del modelo:

format: El formato de destino para el modelo exportado (p. ej., onnx, torchscript, tensorflow).
imgsz: Tamaño de imagen deseado para la entrada del modelo (p. ej., 640 o (height, width)).
half: Habilita la cuantización FP16, lo que reduce el tamaño del modelo y, potencialmente, acelera la inferencia.
optimize: Aplica optimizaciones específicas para entornos móviles o con restricciones.
int8: Habilita la cuantificación INT8, muy beneficiosa para IA en el borde implementaciones.

Para la implementación en plataformas de hardware específicas, considera la posibilidad de utilizar formatos de exportación especializados como TensorRT para las GPU de NVIDIA, CoreML para los dispositivos de Apple o Edge TPU para los dispositivos Google Coral.

¿Qué representan los tensores de salida en los modelos YOLO exportados?

Cuando se exporta un modelo YOLO a formatos como ONNX o TensorRT, la estructura del tensor de salida depende de la tarea del modelo. Comprender estas salidas es importante para implementaciones de inferencia personalizadas.

Para modelos de detección (p. ej., yolo26n.pt), la salida suele ser un único tensor con forma de (batch_size, 4 + num_classes, num_predictions) donde los canales representan las coordenadas de las cajas más las puntuaciones por clase, y num_predictions depende de la resolución de entrada de la exportación (y puede ser dinámico).

Para modelos de segmentación (p. ej., yolo26n-seg.pt), normalmente se obtienen dos salidas: el primer tensor con forma de (batch_size, 4 + num_classes + mask_dim, num_predictions) (cajas, puntuaciones de clase y coeficientes de máscara), y el segundo tensor con forma de (batch_size, mask_dim, proto_h, proto_w) que contiene prototipos de máscara utilizados con los coeficientes para generar máscaras de instancia. Los tamaños dependen de la resolución de entrada de la exportación (y pueden ser dinámicos).

Para modelos de pose (p. ej., yolo26n-pose.pt), el tensor de salida suele tener forma de (batch_size, 4 + num_classes + keypoint_dims, num_predictions), donde keypoint_dims depende de la especificación de la pose (p. ej., número de puntos clave y si se incluye la confianza), y num_predictions depende de la resolución de entrada de la exportación (y puede ser dinámico).

Los ejemplos en los ejemplos de inferencia ONNX demuestran cómo procesar estas salidas para cada tipo de modelo.

📅 Creado hace 2 años ✏️ Actualizado hace 9 días

Exportación de modelos con Ultralytics YOLO

Introducción

¿Por qué elegir el modo de exportación de YOLO26?

Características principales del modo de exportación

Ejemplos de uso

Argumentos

Formatos de exportación

Preguntas frecuentes

¿Cómo exporto un modelo YOLO26 a formato ONNX?

¿Cuáles son los beneficios de usar TensorRT para la exportación de modelos?

¿Cómo habilito la cuantificación INT8 al exportar mi modelo YOLO26?

¿Por qué es importante el tamaño de entrada dinámico al exportar modelos?

¿Cuáles son los argumentos clave de exportación a considerar para optimizar el rendimiento del modelo?

¿Qué representan los tensores de salida en los modelos YOLO exportados?

Comentarios