Exportación de modelos con Ultralytics YOLO

Q: How do I export a YOLO11 model to ONNX format?

Exportar un modelo YOLO11 al formato ONNX es sencillo con Ultralytics. Dispone de métodos Python y CLI para exportar modelos. Para obtener más información sobre el proceso, incluidas opciones avanzadas como la gestión de diferentes tamaños de entrada, consulte la guía de integración de ONNX .

Ultralytics YOLO ecosistema e integraciones

Introducción

El objetivo final del entrenamiento de un modelo es desplegarlo en aplicaciones del mundo real. El modo de exportación en Ultralytics YOLO11 ofrece una gama versátil de opciones para exportar su modelo entrenado a diferentes formatos, por lo que es desplegable a través de diversas plataformas y dispositivos. Esta completa guía pretende guiarle a través de los matices de la exportación de modelos, mostrando cómo lograr la máxima compatibilidad y rendimiento.

Observa: Cómo exportar el modelo entrenado personalizado Ultralytics YOLO y ejecutar la inferencia en directo en la cámara web.

¿Por qué elegir el modo de exportación de YOLO11?

Versatilidad: Exportación a múltiples formatos, incluidos ONNX, TensorRT, CoreMLy muchos más.
Rendimiento: Aumente hasta 5 veces la velocidad de GPU con TensorRT y 3 veces la velocidad de CPU con ONNX u OpenVINO.
Compatibilidad: Haga que su modelo sea universalmente desplegable en numerosos entornos de hardware y software.
Facilidad de uso: API sencilla CLI y Python para exportar modelos de forma rápida y directa.

Características principales del modo de exportación

Estas son algunas de las funcionalidades más destacadas:

Exportación con un solo clic: Comandos sencillos para exportar a distintos formatos.
Exportación por lotes: Exporta modelos capaces de realizar inferencias por lotes.
Inferencia optimizada: Los modelos exportados se optimizan para acelerar los tiempos de inferencia.
Vídeos tutoriales: Guías y tutoriales en profundidad para una experiencia de exportación sin problemas.

Consejo

Exportar a ONNX o OpenVINO para acelerar hasta 3 veces CPU .
Exporte a TensorRT para acelerar hasta 5 veces GPU .

Ejemplos de uso

Exporte un modelo YOLO11n a un formato diferente como ONNX o TensorRT. Consulte la sección Argumentos más abajo para obtener una lista completa de los argumentos de exportación.

Ejemplo

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom trained model

# Export the model
model.export(format="onnx")

yolo export model=yolo11n.pt format=onnx      # export official model
yolo export model=path/to/best.pt format=onnx # export custom trained model

Argumentos

En esta tabla se detallan las configuraciones y opciones disponibles para exportar modelos de YOLO a distintos formatos. Estos ajustes son fundamentales para optimizar el rendimiento, el tamaño y la compatibilidad del modelo exportado en distintas plataformas y entornos. Una configuración adecuada garantiza que el modelo esté listo para su despliegue en la aplicación prevista con una eficacia óptima.

Argumento	Tipo	Por defecto	Descripción
`format`	`str`	`'torchscript'`	Formato de destino del modelo exportado, por ejemplo `'onnx'`, `'torchscript'`, `'engine'` TensorRT), u otros. Cada formato permite la compatibilidad con diferentes entornos de despliegue.
`imgsz`	`int` o `tuple`	`640`	Tamaño de imagen deseado para la entrada del modelo. Puede ser un número entero para imágenes cuadradas (por ejemplo, `640` para 640×640) o una tupla `(height, width)` para dimensiones específicas.
`keras`	`bool`	`False`	Permite exportar a formato Keras para TensorFlow SavedModel proporcionando compatibilidad con el servicio y las API de TensorFlow .
`optimize`	`bool`	`False`	Aplica optimización para dispositivos móviles al exportar a TorchScript, reduciendo potencialmente el tamaño del modelo y mejorando el rendimiento de la inferencia. No es compatible con el formato NCNN ni con dispositivos CUDA .
`half`	`bool`	`False`	Permite la cuantización FP16 (media precisión), reduciendo el tamaño del modelo y acelerando potencialmente la inferencia en hardware compatible. No es compatible con la cuantización INT8 ni con las exportaciones CPU de ONNX.
`int8`	`bool`	`False`	Activa la cuantización INT8, comprimiendo aún más el modelo y acelerando la inferencia con una pérdida de precisión mínima, principalmente para dispositivos de borde. Cuando se utiliza con TensorRT, realiza una cuantización posterior al entrenamiento (PTQ).
`dynamic`	`bool`	`False`	Permite tamaños de entrada dinámicos para las exportaciones ONNX, TensorRT y OpenVINO , mejorando la flexibilidad en el manejo de dimensiones de imagen variables. Se ajusta automáticamente a `True` cuando se utiliza TensorRT con INT8.
`simplify`	`bool`	`True`	Simplifica el gráfico del modelo para las exportaciones de ONNX con `onnxslim`mejorando potencialmente el rendimiento y la compatibilidad con los motores de inferencia.
`opset`	`int`	`None`	Especifica la versión de ONNX opset para la compatibilidad con diferentes ONNX y tiempos de ejecución. Si no se establece, utiliza la última versión compatible.
`workspace`	`float` o `None`	`None`	Establece el tamaño máximo del espacio de trabajo en GiB para TensorRT optimizaciones, equilibrando el uso de memoria y el rendimiento. Utilice `None` para autoasignación por TensorRT hasta el máximo del dispositivo.
`nms`	`bool`	`False`	Añade supresión no máxima (NMS) al modelo exportado cuando es compatible (véase Formatos de exportación), lo que mejora la eficacia del postprocesamiento de detección. No disponible para modelos end2end.
`batch`	`int`	`1`	Especifica el tamaño de inferencia por lotes del modelo exportado o el número máximo de imágenes que el modelo exportado procesará simultáneamente en `predict` modo. Para las exportaciones de TPU Edge, se establece automáticamente en 1.
`device`	`str`	`None`	Especifica el dispositivo para exportar: GPU (`device=0`), CPU (`device=cpu`), MPS para el silicio de Apple (`device=mps`) o DLA para NVIDIA Jetson (`device=dla:0` o `device=dla:1`). Las exportaciones de TensorRT utilizan automáticamente GPU.
`data`	`str`	`'coco8.yaml'`	Camino a la conjunto de datos archivo de configuración (por defecto: `coco8.yaml`), esencial para la calibración de la cuantización INT8. Si no se especifica con INT8 activado, se asignará un conjunto de datos por defecto.
`fraction`	`float`	`1.0`	Especifica la fracción del conjunto de datos que se utilizará para la calibración de la cuantización INT8. Permite calibrar en un subconjunto del conjunto de datos completo, útil para experimentos o cuando los recursos son limitados. Si no se especifica con INT8 activado, se utilizará el conjunto de datos completo.

El ajuste de estos parámetros permite personalizar el proceso de exportación para adaptarlo a requisitos específicos, como el entorno de despliegue, las limitaciones de hardware y los objetivos de rendimiento. Seleccionar el formato y los ajustes adecuados es esencial para lograr el mejor equilibrio entre el tamaño del modelo, la velocidad y la precisión.

Formatos de exportación

Los formatos de exportación disponibles en YOLO11 figuran en la tabla siguiente. Puede exportar a cualquier formato utilizando el botón format es decir format='onnx' o format='engine'. Puede predecir o validar directamente los modelos exportados, es decir. yolo predict model=yolo11n.onnx. Se muestran ejemplos de uso de su modelo una vez finalizada la exportación.

Formato	`format` Argumento	Modelo	Metadatos	Argumentos
PyTorch	-	`yolo11n.pt`	✅	-
TorchScript	`torchscript`	`yolo11n.torchscript`	✅	`imgsz`, `optimize`, `nms`, `batch`, `device`
ONNX	`onnx`	`yolo11n.onnx`	✅	`imgsz`, `half`, `dynamic`, `simplify`, `opset`, `nms`, `batch`, `device`
OpenVINO	`openvino`	`yolo11n_openvino_model/`	✅	`imgsz`, `half`, `dynamic`, `int8`, `nms`, `batch`, `data`, `fraction`, `device`
TensorRT	`engine`	`yolo11n.engine`	✅	`imgsz`, `half`, `dynamic`, `simplify`, `workspace`, `int8`, `nms`, `batch`, `data`, `fraction`, `device`
CoreML	`coreml`	`yolo11n.mlpackage`	✅	`imgsz`, `half`, `int8`, `nms`, `batch`, `device`
TF SavedModel	`saved_model`	`yolo11n_saved_model/`	✅	`imgsz`, `keras`, `int8`, `nms`, `batch`, `device`
TF GraphDef	`pb`	`yolo11n.pb`	❌	`imgsz`, `batch`, `device`
TF Lite	`tflite`	`yolo11n.tflite`	✅	`imgsz`, `half`, `int8`, `nms`, `batch`, `data`, `fraction`, `device`
TF Borde TPU	`edgetpu`	`yolo11n_edgetpu.tflite`	✅	`imgsz`, `device`
TF.js	`tfjs`	`yolo11n_web_model/`	✅	`imgsz`, `half`, `int8`, `nms`, `batch`, `device`
PaddlePaddle	`paddle`	`yolo11n_paddle_model/`	✅	`imgsz`, `batch`, `device`
MNN	`mnn`	`yolo11n.mnn`	✅	`imgsz`, `batch`, `int8`, `half`, `device`
NCNN	`ncnn`	`yolo11n_ncnn_model/`	✅	`imgsz`, `half`, `batch`, `device`
IMX500	`imx`	`yolov8n_imx_model/`	✅	`imgsz`, `int8`, `data`, `fraction`, `device`
RKNN	`rknn`	`yolo11n_rknn_model/`	✅	`imgsz`, `batch`, `name`, `device`

PREGUNTAS FRECUENTES

¿Cómo se exporta un modelo de YOLO11 al formato ONNX ?

La exportación de un modelo YOLO11 al formato ONNX es sencilla con Ultralytics. Ofrece los métodos Python y CLI para exportar modelos.

Ejemplo

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load an official model
model = YOLO("path/to/best.pt")  # load a custom trained model

# Export the model
model.export(format="onnx")

yolo export model=yolo11n.pt format=onnx      # export official model
yolo export model=path/to/best.pt format=onnx # export custom trained model

Para más detalles sobre el proceso, incluidas opciones avanzadas como el manejo de diferentes tamaños de entrada, consulte la guía de integración deONNX .

¿Cuáles son las ventajas de utilizar TensorRT para exportar modelos?

El uso de TensorRT para la exportación de modelos ofrece importantes mejoras de rendimiento. Los modelos de YOLO11 exportados a TensorRT pueden alcanzar hasta 5 veces la velocidad de GPU , lo que los hace ideales para aplicaciones de inferencia en tiempo real.

Versatilidad: Optimice los modelos para una configuración de hardware específica.
Velocidad: Consiga una inferencia más rápida mediante optimizaciones avanzadas.
Compatibilidad: Se integra sin problemas con el hardware de NVIDIA .

Para obtener más información sobre la integración de TensorRT, consulte la guía de integración deTensorRT .

¿Cómo puedo activar la cuantización INT8 al exportar mi modelo YOLO11 ?

La cuantización INT8 es una forma excelente de comprimir el modelo y acelerar la inferencia, especialmente en dispositivos de borde. A continuación se explica cómo activar la cuantización INT8:

Ejemplo

PythonCLI

from ultralytics import YOLO

model = YOLO("yolo11n.pt")  # Load a model
model.export(format="engine", int8=True)

yolo export model=yolo11n.pt format=engine int8=True # export TensorRT model with INT8 quantization

La cuantización INT8 puede aplicarse a varios formatos, como TensorRT, OpenVINOy CoreML. Para obtener resultados óptimos de cuantificación, proporcione un representante conjunto de datos utilizando el data parámetro.

¿Por qué es importante el tamaño de la entrada dinámica al exportar modelos?

El tamaño de entrada dinámico permite que el modelo exportado maneje dimensiones de imagen variables, proporcionando flexibilidad y optimizando la eficiencia del procesamiento para diferentes casos de uso. Al exportar a formatos como ONNX o TensorRTla activación del tamaño de entrada dinámico garantiza que el modelo pueda adaptarse a diferentes formas de entrada sin problemas.

Para activar esta función, utilice la opción dynamic=True durante la exportación:

Ejemplo

PythonCLI

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
model.export(format="onnx", dynamic=True)

yolo export model=yolo11n.pt format=onnx dynamic=True

El dimensionado dinámico de la entrada es especialmente útil para aplicaciones en las que las dimensiones de la entrada pueden variar, como el procesamiento de vídeo o cuando se manejan imágenes de distintas fuentes.

¿Cuáles son los principales argumentos de exportación que hay que tener en cuenta para optimizar el rendimiento del modelo?

Comprender y configurar los argumentos de exportación es crucial para optimizar el rendimiento del modelo:

format: El formato de destino del modelo exportado (por ejemplo, onnx, torchscript, tensorflow).
imgsz: Tamaño de imagen deseado para la entrada del modelo (por ejemplo, 640 o (height, width)).
half: Permite la cuantización FP16, reduciendo el tamaño del modelo y acelerando potencialmente la inferencia.
optimize: Aplica optimizaciones específicas para entornos móviles o con restricciones.
int8: Permite la cuantización INT8, muy beneficiosa para IA de borde despliegues.

Para el despliegue en plataformas de hardware específicas, considere el uso de formatos de exportación especializados como TensorRT para GPUs NVIDIA , CoreML para dispositivos Apple, o Edge TPU para dispositivos Google Coral.

Creado hace 1 año ✏️ Actualizado hace 1 mes