Configuración
Los ajustes y los hiperparámetros de YOLO desempeñan un papel fundamental en el rendimiento, la velocidad y la precisión del modelo. Estos ajustes pueden afectar al comportamiento del modelo en varias etapas, incluidas el entrenamiento, la validación y la predicción.
Ver: Dominando Ultralytics YOLO: Configuración
Watch: Mastering Ultralytics YOLO: Configuration
Los comandos de Ultralytics utilizan la siguiente sintaxis:
yolo TASK MODE ARGSDonde:
TASK(opcional) es uno de (detect, segment, classify, pose, obb)MODE(requerido) es uno de (train, val, predict, export, track, benchmark)ARGS(opcional) son paresarg=valuecomoimgsz=640que sobrescriben los valores predeterminados.
Los valores ARG predeterminados se definen en esta página y provienen del archivo cfg/default.yaml default.yaml.
Tareas
Los modelos Ultralytics YOLO pueden realizar una variedad de tareas de visión artificial, que incluyen:
- Detect: Detección de objetos identifica y localiza objetos dentro de una imagen o vídeo.
- Segment: Segmentación de instancias divide una imagen o vídeo en regiones correspondientes a diferentes objetos o clases.
- Classify: Clasificación de imágenes predice la etiqueta de clase de una imagen de entrada.
- Pose: Estimación de postura identifica objetos y estima sus puntos clave en una imagen o vídeo.
- OBB: Oriented Bounding Boxes utiliza cuadros delimitadores rotados, adecuados para imágenes satelitales o médicas.
| Argumento | Predeterminado | Descripción |
|---|---|---|
task | 'detect' | Especifica la tarea de YOLO: detect para detección de objetos, segment para segmentación, classify para clasificación, pose para estimación de postura y obb para cuadros delimitadores orientados. Cada tarea está adaptada a resultados y problemas específicos en el análisis de imágenes y vídeos. |
Modos
Los modelos Ultralytics YOLO operan en diferentes modos, cada uno diseñado para una etapa específica del ciclo de vida del modelo:
- Train: Entrena un modelo YOLO en un conjunto de datos personalizado.
- Val: Valida un modelo YOLO entrenado.
- Predict: Utiliza un modelo YOLO entrenado para realizar predicciones en nuevas imágenes o vídeos.
- Export: Exporta un modelo YOLO para su despliegue.
- Track: Rastrea objetos en tiempo real usando un modelo YOLO.
- Benchmark: Evalúa la velocidad y la precisión de las exportaciones de YOLO (ONNX, TensorRT, etc.).
| Argumento | Predeterminado | Descripción |
|---|---|---|
mode | 'train' | Especifica el modo operativo del modelo YOLO: train para el entrenamiento del modelo, val para validación, predict para inferencia, export para convertir a formatos de despliegue, track para seguimiento de objetos y benchmark para evaluación de rendimiento. Cada modo admite diferentes etapas, desde el desarrollo hasta el despliegue. |
Ajustes de entrenamiento
Los ajustes de entrenamiento para los modelos YOLO incluyen hiperparámetros y configuraciones que afectan al rendimiento, la velocidad y la precisiónprecisión del modelo. Los ajustes clave incluyen , tamaño de lote, tasa de aprendizaje, momento y caída de peso. La elección del optimizador, la función de pérdida y la composición del conjunto de datos también influyen en el entrenamiento. El ajuste y la experimentación son cruciales para obtener un rendimiento óptimo. Para más detalles, consulta la función de punto de entrada de Ultralytics.
| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
model | str | None | Especifica el archivo del modelo para el entrenamiento. Acepta una ruta a un .pt modelo preentrenado o un .yaml archivo de configuración. Es esencial para definir la estructura del modelo o inicializar los pesos. |
data | str | None | Ruta al archivo de configuración del conjunto de datos (por ejemplo, coco8.yamlcoco8.yaml). Este archivo contiene parámetros específicos del conjunto de datos, incluidas las rutas a los datos de entrenamiento y validación |
epochs | int | 100 | , nombres de clases y número de clases.Número total de épocas de entrenamiento. Cada época |
time | float | None | Tiempo máximo de entrenamiento en horas. Si se establece, anula el argumento epochs permitiendo que el entrenamiento se detenga automáticamente tras la duración especificada. Útil para escenarios de entrenamiento con restricciones de tiempo. |
patience | int | 100 | Número de épocas a esperar sin mejoras en las métricas de validación antes de detener el entrenamiento de forma anticipada. Ayuda a prevenir el sobreajuste deteniendo el entrenamiento cuando el rendimiento se estanca. |
batch | int o float | 16 | Tamaño de lote, con tres modos: definido como un número entero (ej. batch=16), modo automático para el 60% de utilización de memoria GPU (batch=-1), o modo automático con fracción de utilización especificada (batch=0.70). |
imgsz | int | 640 | Tamaño de imagen objetivo para el entrenamiento. Las imágenes se redimensionan a cuadrados con lados iguales al valor especificado (si rect=False), manteniendo la relación de aspecto para modelos YOLO pero no para RT-DETR. Afecta al precisión del modelo y a la complejidad computacional. |
save | bool | True | Habilita el guardado de puntos de control (checkpoints) de entrenamiento y los pesos finales del modelo. Útil para reanudar el entrenamiento o para el despliegue del modelo. |
save_period | int | -1 | Frecuencia de guardado de puntos de control del modelo, especificada en épocas. Un valor de -1 deshabilita esta característica. Útil para guardar modelos intermedios durante sesiones de entrenamiento largas. |
cache | bool | False | Habilita el almacenamiento en caché de las imágenes del conjunto de datos en memoria (True/ram), en disco (disk), o lo deshabilita (False). Mejora la velocidad de entrenamiento al reducir las E/S de disco a costa de un mayor uso de memoria. |
device | int o str o list | None | Especifica el dispositivo o dispositivos computacionales para el entrenamiento: una sola GPU (device=0), múltiples GPUs (device=[0,1]), CPU (device=cpu), MPS para silicio de Apple (device=mps), NPU Huawei Ascend (device=npu o device=npu:0), o selección automática de la GPU más libre (device=-1) o múltiples GPUs libres (device=[-1,-1]) |
workers | int | 8 | Número de hilos de trabajo para la carga de datos (por RANK si el entrenamiento es Multi-GPU). Influye en la velocidad del preprocesamiento de datos y su alimentación al modelo, especialmente útil en configuraciones multi-GPU. |
project | str | None | Nombre del directorio del proyecto donde se guardan las salidas del entrenamiento. Permite un almacenamiento organizado de diferentes experimentos. |
name | str | None | Nombre de la ejecución de entrenamiento. Se utiliza para crear un subdirectorio dentro de la carpeta del proyecto, donde se almacenan los registros y resultados del entrenamiento. |
exist_ok | bool | False | Si es True, permite sobrescribir un directorio de proyecto/nombre existente. Útil para la experimentación iterativa sin necesidad de limpiar manualmente los resultados previos. |
pretrained | bool o str | True | Determina si se debe iniciar el entrenamiento desde pesos preentrenados. Puede ser un valor booleano o una ruta de cadena de texto hacia los pesos a cargar. pretrained=False entrena desde pesos inicializados aleatoriamente manteniendo la arquitectura del modelo. |
optimizer | str | 'auto' | Elección del optimizador para el entrenamiento. Las opciones incluyen SGD, MuSGD, Adam, Adamax, AdamW, NAdam, RAdam, RMSProp, o auto para la selección automática basada en la configuración del modelo. Afecta a la velocidad de convergencia y a la estabilidad. |
seed | int | 0 | Establece la semilla aleatoria para el entrenamiento, asegurando la reproducibilidad de los resultados entre ejecuciones con las mismas configuraciones. |
deterministic | bool | True | Fuerza el uso de algoritmos deterministas, asegurando la reproducibilidad pero pudiendo afectar al rendimiento y la velocidad debido a la restricción sobre algoritmos no deterministas. |
verbose | bool | True | Habilita la salida detallada durante el entrenamiento, mostrando barras de progreso, métricas por época e información adicional de entrenamiento en la consola. |
single_cls | bool | False | Trata todas las clases en conjuntos de datos multiclase como una sola clase durante el entrenamiento. Útil para tareas de clasificación binaria o cuando te centras en la presencia de objetos en lugar de en la clasificación. |
classes | list[int] | None | Especifica una lista de IDs de clase sobre los que entrenar. Útil para filtrar y centrarse únicamente en ciertas clases durante el entrenamiento. |
rect | bool | False | Habilita la estrategia de relleno mínimo: las imágenes en un lote se rellenan mínimamente para alcanzar un tamaño común, con el lado más largo igual a imgsz. Puede mejorar la eficiencia y la velocidad, pero podría afectar a la precisión del modelo. |
multi_scale | float | 0.0 | Varía aleatoriamente el imgsz de cada lote en +/- multi_scale (ej. 0.25 -> 0.75x a 1.25x), redondeando a los múltiplos del stride del modelo; 0.0 deshabilita el entrenamiento multiescala. |
cos_lr | bool | False | Utiliza un programador de coseno tamaño de lote, ajustando la tasa de aprendizaje siguiendo una curva de coseno a lo largo de las épocas. Ayuda a gestionar la tasa de aprendizaje para una mejor convergencia. |
close_mosaic | int | 10 | Deshabilita el mosaico de data augmentation en las últimas N épocas para estabilizar el entrenamiento antes de completarlo. Establecer en 0 deshabilita esta característica. |
resume | bool | False | Reanuda el entrenamiento desde el último punto de control guardado. Carga automáticamente los pesos del modelo, el estado del optimizador y el conteo de épocas, continuando el entrenamiento sin interrupciones. |
amp | bool | True | Habilita el entrenamiento con Mixed Precision (AMP) automático, reduciendo el uso de memoria y posiblemente acelerando el entrenamiento con un impacto mínimo en la precisión. |
fraction | float | 1.0 | Especifica la fracción del conjunto de datos a utilizar para el entrenamiento. Permite entrenar con un subconjunto del conjunto de datos completo, útil para experimentos o cuando los recursos son limitados. |
profile | bool | False | Habilita la elaboración de perfiles de las velocidades de ONNX y TensorRT durante el entrenamiento, útil para optimizar el despliegue del modelo. |
freeze | int o list | None | Congela las primeras N capas del modelo o las capas especificadas por índice, reduciendo el número de parámetros entrenables. Útil para el ajuste fino o transfer learning. |
lr0 | float | 0.01 | Tasa de aprendizaje inicial (i.e. SGD=1E-2, Adam=1E-3). Ajustar este valor es crucial para el proceso de optimización, influyendo en la rapidez con la que se actualizan los pesos del modelo. |
lrf | float | 0.01 | Tasa de aprendizaje final como una fracción de la tasa inicial = (lr0 * lrf), utilizada junto con los programadores para ajustar la tasa de aprendizaje a lo largo del tiempo. |
momentum | float | 0.937 | Factor de momento para SGD o beta1 para Adam optimizers, influyendo en la incorporación de gradientes pasados en la actualización actual. |
weight_decay | float | 0.0005 | Término de regularización L2, penalizando los pesos grandes para evitar el sobreajuste. |
warmup_epochs | float | 3.0 | Número de épocas para el calentamiento (warmup) de la tasa de aprendizaje, aumentando gradualmente la tasa de aprendizaje desde un valor bajo hasta la tasa inicial para estabilizar el entrenamiento desde el principio. |
warmup_momentum | float | 0.8 | Momento inicial para la fase de calentamiento, ajustándose gradualmente al momento establecido durante el periodo de calentamiento. |
warmup_bias_lr | float | 0.1 | Tasa de aprendizaje para los parámetros de sesgo (bias) durante la fase de calentamiento, ayudando a estabilizar el entrenamiento del modelo en las épocas iniciales. |
box | float | 7.5 | Peso del componente de pérdida de caja en la función de pérdida, influyendo en cuánto énfasis se pone en predecir con precisión las coordenadas de la bounding box. |
cls | float | 0.5 | Peso de la pérdida de clasificación en la función de pérdida total, afectando la importancia de una predicción de clase correcta en relación con otros componentes. |
cls_pw | float | 0.0 | Potencia para la ponderación de clases para manejar el desequilibrio de clases usando la frecuencia inversa de clase. 0.0 deshabilita la ponderación de clase, 1.0 aplica una ponderación de frecuencia inversa completa. Valores entre 0 y 1 proporcionan una ponderación parcial. |
dfl | float | 1.5 | Peso de la pérdida focal de distribución (DFL), utilizado en ciertas versiones de YOLO para la clasificación de grano fino. |
pose | float | 12.0 | Peso de la pérdida de pose en modelos entrenados para estimación de pose, influyendo en el énfasis en predecir con precisión los puntos clave de pose. |
kobj | float | 1.0 | Peso de la pérdida de presencia de objeto en puntos clave en modelos de estimación de pose, equilibrando la confianza de detección con la precisión de la pose. |
rle | float | 1.0 | Peso de la pérdida de estimación de verosimilitud residual logarítmica en modelos de estimación de pose, afectando la precisión de la localización de puntos clave. |
angle | float | 1.0 | Peso de la pérdida de ángulo en modelos OBB, afectando la precisión de las predicciones de ángulo de la caja delimitadora orientada. |
nbs | int | 64 | Tamaño de lote nominal para la normalización de la pérdida. |
overlap_mask | bool | True | Determina si las máscaras de objeto deben fusionarse en una sola máscara para el entrenamiento, o mantenerse separadas para cada objeto. En caso de solapamiento, la máscara más pequeña se superpone a la más grande durante la fusión. |
mask_ratio | int | 4 | Relación de submuestreo para máscaras de segmentación, afectando la resolución de las máscaras utilizadas durante el entrenamiento. |
dropout | float | 0.0 | Tasa de abandono (dropout) para la regularización en tareas de clasificación, evitando el sobreajuste al omitir unidades aleatoriamente durante el entrenamiento. |
val | bool | True | Habilita la validación durante el entrenamiento, permitiendo la evaluación periódica del rendimiento del modelo en un conjunto de datos separado. |
plots | bool | True | Genera y guarda gráficos de las métricas de entrenamiento y validación, así como ejemplos de predicción, proporcionando información visual sobre el rendimiento del modelo y el progreso del aprendizaje. |
compile | bool o str | False | Habilita la compilación de grafos de PyTorch 2.x torch.compile con backend='inductor'. Acepta True → "default", False → deshabilitado, o un modo de cadena de texto como "default", "reduce-overhead", "max-autotune-no-cudagraphs". Vuelve al modo eager con una advertencia si no es compatible. |
max_det | int | 300 | Especifica el número máximo de objetos que se conservan durante la fase de validación del entrenamiento. |
El argumento batch ofrece tres opciones de configuración:
- Tamaño de lote fijo: Especifica el número de imágenes por lote con un número entero (p. ej.,
batch=16). - Modo automático (60% de memoria GPU): Usa
batch=-1para el ajuste automático a aproximadamente el 60% de utilización de memoria CUDA. - Modo automático con fracción de utilización: Establece una fracción (p. ej.,
batch=0.70) para ajustar según un uso específico de memoria GPU.
Ajustes de predicción
Los ajustes de predicción para modelos YOLO incluyen hiperparámetros y configuraciones que influyen en el rendimiento, la velocidad y precisión durante la inferencia. Los ajustes clave incluyen el umbral de confianza, el umbral de Non-Maximum Suppression (NMS) y el número de clases. El tamaño de los datos de entrada, el formato y características suplementarias como las máscaras también afectan a las predicciones. Ajustar estos parámetros es esencial para obtener un rendimiento óptimo.
Argumentos de inferencia:
| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
source | str o int o None | None | Especifica la fuente de datos para la inferencia. Puede ser una ruta de imagen, un archivo de vídeo, un directorio, una URL o un ID de dispositivo para transmisiones en vivo. Si se omite, se registra una advertencia y el modelo recurre a los recursos de demostración integrados (ultralytics/assets, o una URL de demostración para OBB). Admite una amplia gama de formatos y fuentes, lo que permite una aplicación flexible en diferentes tipos de entrada. |
conf | float | 0.25 | Establece el umbral de confianza mínimo para las detecciones. Los objetos detectados con una confianza inferior a este umbral serán descartados. Ajustar este valor puede ayudar a reducir los falsos positivos. |
iou | float | 0.7 | Intersection Over Union (IoU) umbral para Non-Maximum Suppression (NMS). Los valores más bajos resultan en menos detecciones al eliminar cuadros superpuestos, lo cual es útil para reducir duplicados. |
imgsz | int o tuple | 640 | Objetivo de Letterbox. Un número entero proporciona un N×N cuadrado; una tupla proporciona (height, width). Con rect=True, el tensor real puede ser más pequeño que este objetivo debido al relleno de rectángulo mínimo. Usa rect=False para un tamaño fijo. Consulta Forma fija frente a rectángulo mínimo. |
rect | bool | True | Si True, usa relleno de rectángulo mínimo cuando sea posible (lote de igual forma y backend compatible). Si False, rellena siempre hasta el imgsz completo. Consulta Forma fija frente a rectángulo mínimo. |
half | bool | False | Activa la inferencia de precisión media (FP16), que puede acelerar la inferencia del modelo en GPUs compatibles con un impacto mínimo en la precisión. |
device | str | None | Especifica el dispositivo para la inferencia (p. ej., cpu, cuda:0, 0, npu o npu:0). Permite a los usuarios elegir entre CPU, una GPU específica, Huawei Ascend NPU u otros dispositivos de cómputo para la ejecución del modelo. |
batch | int | 1 | Especifica el tamaño del lote para la inferencia (solo funciona cuando la fuente es un directorio, un archivo de vídeo o un archivo .txt). Un tamaño de lote mayor puede proporcionar un mayor rendimiento, reduciendo el tiempo total necesario para la inferencia. |
max_det | int | 300 | Número máximo de detecciones permitidas por imagen. Limita el número total de objetos que el modelo puede detectar en una sola inferencia, evitando resultados excesivos en escenas densas. |
vid_stride | int | 1 | Frame stride para entradas de vídeo. Permite saltar fotogramas en vídeos para acelerar el procesamiento a costa de la resolución temporal. Un valor de 1 procesa cada fotograma, mientras que valores más altos saltan fotogramas. |
stream_buffer | bool | False | Determina si se deben poner en cola los fotogramas entrantes para transmisiones de vídeo. Si False, se descartan los fotogramas antiguos para dar cabida a los nuevos (optimizado para aplicaciones en tiempo real). Si True, pone en cola los nuevos fotogramas en un búfer, asegurando que no se salte ningún fotograma, pero causará latencia si los FPS de inferencia son inferiores a los FPS de la transmisión. |
visualize | bool | False | Activa la visualización de las características del modelo durante la inferencia, proporcionando información sobre lo que el modelo está "viendo". Útil para depuración e interpretación del modelo. |
augment | bool | False | Activa la aumentación durante la prueba (TTA) para las predicciones, lo que puede mejorar la robustez de la detección a costa de la velocidad de inferencia. |
agnostic_nms | bool | False | Activa Non-Maximum Suppression (NMS) agnóstica de clase, que fusiona cajas superpuestas de diferentes clases. Útil en escenarios de detección multiclase donde la superposición de clases es común. Para modelos de extremo a extremo (YOLO26, YOLOv10), esto solo evita que la misma detección aparezca con múltiples etiquetas de clase (duplicados de IoU=1.0) y no realiza supresión basada en umbral de IoU entre cajas distintas. |
classes | list[int] | None | Filtra las predicciones a un conjunto de IDs de clase. Solo se devolverán las detecciones que pertenezcan a las clases especificadas. Útil para centrarse en objetos relevantes en tareas de detección multiclase. |
retina_masks | bool | False | Devuelve máscaras de segmentación de alta resolución. Las máscaras devueltas (masks.data) coincidirán con el tamaño original de la imagen si están habilitadas. Si están desactivadas, tienen el tamaño de la imagen utilizado durante la inferencia. |
embed | list[int] | None | Especifica las capas de las cuales extraer vectores de características o embeddings. Útil para tareas posteriores como clustering o búsqueda de similitud. |
project | str | None | Nombre del directorio del proyecto donde se guardan los resultados de la predicción si save está habilitado. |
name | str | None | Nombre de la ejecución de predicción. Se utiliza para crear un subdirectorio dentro de la carpeta del proyecto, donde se almacenan los resultados de la predicción si save está habilitado. |
stream | bool | False | Habilita el procesamiento eficiente de memoria para vídeos largos o numerosas imágenes devolviendo un generador de objetos Results en lugar de cargar todos los fotogramas en memoria a la vez. |
verbose | bool | True | Controla si se muestran registros de inferencia detallados en la terminal, proporcionando comentarios en tiempo real sobre el proceso de predicción. |
compile | bool o str | False | Habilita la compilación de grafos de PyTorch 2.x torch.compile con backend='inductor'. Acepta True → "default", False → deshabilitado, o un modo de cadena de texto como "default", "reduce-overhead", "max-autotune-no-cudagraphs". Vuelve al modo eager con una advertencia si no es compatible. |
end2end | bool | None | Sobrescribe el modo de extremo a extremo en modelos YOLO que soportan inferencia sin NMS (YOLO26, YOLOv10). Al ajustarlo a False te permite ejecutar la predicción usando la tubería NMS tradicional, permitiéndote además hacer uso del argumento iou. Consulta la guía de Detección de extremo a extremo para más detalles. |
Argumentos de visualización:
| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
show | bool | False | Si True, muestra las imágenes o vídeos anotados en una ventana. Útil para recibir comentarios visuales inmediatos durante el desarrollo o las pruebas. |
save | bool | False or True | Habilita el guardado de las imágenes o vídeos anotados en archivos. Útil para documentación, análisis adicional o compartir resultados. Por defecto es True cuando se usa CLI y False cuando se usa en Python. |
save_frames | bool | False | Al procesar vídeos, guarda fotogramas individuales como imágenes. Útil para extraer fotogramas específicos o para un análisis detallado fotograma a fotograma. |
save_txt | bool | False | Guarda los resultados de detección en un archivo de texto, siguiendo el formato [class] [x_center] [y_center] [width] [height] [confidence]. Útil para la integración con otras herramientas de análisis. |
save_conf | bool | False | Incluye puntuaciones de confianza en los archivos de texto guardados. Mejora el detalle disponible para el post-procesamiento y análisis. |
save_crop | bool | False | Guarda imágenes recortadas de las detecciones. Útil para la aumentación de datasets, análisis o creación de datasets enfocados para objetos específicos. |
show_labels | bool | True | Muestra etiquetas para cada detección en el resultado visual. Proporciona una comprensión inmediata de los objetos detectados. |
show_conf | bool | True | Muestra la puntuación de confianza para cada detección junto a la etiqueta. Proporciona una visión sobre la certeza del modelo para cada detección. |
show_boxes | bool | True | Dibuja cuadros delimitadores alrededor de los objetos detectados. Esencial para la identificación visual y ubicación de objetos en imágenes o fotogramas de vídeo. |
line_width | int or None | None | Especifica el grosor de línea de los cuadros delimitadores. Si None, el grosor de línea se ajusta automáticamente según el tamaño de la imagen. Proporciona personalización visual para mayor claridad. |
Ajustes de validación
Los ajustes de validación para modelos YOLO implican hiperparámetros y configuraciones para evaluar el rendimiento en un dataset de validación. Estos ajustes influyen en el rendimiento, la velocidad y precisión. Los ajustes comunes incluyen el tamaño del lote, la frecuencia de validación y las métricas de rendimiento. El tamaño y la composición del dataset de validación, junto con la tarea específica, también afectan el proceso.
| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
data | str | None | Especifica la ruta al archivo de configuración del dataset (p. ej., coco8.yaml). Este archivo debe incluir la ruta al ). Este archivo contiene parámetros específicos del conjunto de datos, incluidas las rutas a los . |
imgsz | int | 640 | Define el tamaño de las imágenes de entrada. Todas las imágenes se redimensionan a esta dimensión antes del procesamiento. Los tamaños más grandes pueden mejorar la precisión para objetos pequeños pero aumentan el tiempo de cómputo. |
batch | int | 16 | Establece el número de imágenes por lote. Los valores más altos utilizan la memoria de la GPU de manera más eficiente pero requieren más VRAM. Ajusta según los recursos de hardware disponibles. |
save_json | bool | False | Si True, guarda los resultados en un archivo JSON para un análisis posterior, integración con otras herramientas o envío a servidores de evaluación como COCO. |
conf | float | 0.001 | Establece el umbral de confianza mínimo para las detecciones. Los valores más bajos aumentan la recuperación pero pueden introducir más falsos positivos. Se utiliza durante la validación para calcular las curvas de precisión-recuperación. |
iou | float | 0.7 | Establece el umbral de Intersection Over Union para Non-Maximum Suppression. Controla la eliminación de detecciones duplicadas. |
max_det | int | 300 | Limita el número máximo de detecciones por imagen. Útil en escenas densas para evitar detecciones excesivas y gestionar los recursos computacionales. |
half | bool | False | Activa la inferencia de precisión cálculo (FP16), reduciendo el uso de memoria y aumentando potencialmente la velocidad con un impacto mínimo en precisión. |
device | str | None | Especifica el dispositivo para la validación (cpu, cuda:0, npu, npu:0, etc.). Cuando None, selecciona automáticamente el mejor dispositivo disponible. Puedes especificar múltiples dispositivos CUDA separándolos con comas. |
dnn | bool | False | Si True, utiliza el OpenCV módulo DNN para inferencia de modelos ONNX, ofreciendo una alternativa a los métodos de inferencia de PyTorch. |
plots | bool | True | Cuando se establece en True, genera y guarda gráficos de predicciones frente a la verdad fundamental (ground truth), matrices de confusión y curvas PR para la evaluación visual del rendimiento del modelo. |
classes | list[int] | None | Especifica una lista de IDs de clase para evaluar. Útil para filtrar y centrarte solo en ciertas clases durante la evaluación. |
rect | bool | True | Si True, utiliza inferencia rectangular para el procesamiento por lotes (batching), reduciendo el relleno (padding) y aumentando potencialmente la velocidad y eficiencia al procesar imágenes en su relación de aspecto original. |
split | str | 'val' | Determina la división del conjunto de datos a usar para la validación (val, test, o train). Permite flexibilidad al elegir el segmento de datos para la evaluación de rendimiento. |
project | str | None | Nombre del directorio del proyecto donde se guardan las salidas de validación. Ayuda a organizar los resultados de diferentes experimentos o modelos. |
name | str | None | Nombre de la ejecución de validación. Se usa para crear un subdirectorio dentro de la carpeta del proyecto, donde se almacenan los registros y salidas de validación. |
verbose | bool | True | Si True, muestra información detallada durante el proceso de validación, incluyendo métricas por clase, progreso por lote e información adicional de depuración. |
save_txt | bool | False | Si True, guarda los resultados de detección en archivos de texto, uno por imagen, útil para análisis posterior, posprocesamiento personalizado o integración con otros sistemas. |
save_conf | bool | False | Si True, incluye valores de confianza en los archivos de texto guardados cuando save_txt está activado, proporcionando resultados más detallados para análisis y filtrado. |
workers | int | 8 | Número de hilos trabajadores para la carga de datos. Valores más altos pueden acelerar el preprocesamiento de datos pero pueden aumentar el uso de CPU. Establecerlo en 0 utiliza el hilo principal, lo que puede ser más estable en algunos entornos. |
augment | bool | False | Activa la aumentación durante el tiempo de prueba (TTA) durante la validación, mejorando potencialmente la precisión de la detección a costa de la velocidad de inferencia al ejecutar la inferencia en versiones transformadas de la entrada. |
agnostic_nms | bool | False | Activa Non-Maximum Suppression independiente de la clase, que fusiona cuadros superpuestos independientemente de su clase predicha. Útil para aplicaciones centradas en instancias. Para modelos de extremo a extremo (YOLO26, YOLOv10), esto solo evita que la misma detección aparezca con múltiples etiquetas de clase (duplicados IoU=1.0) y no realiza supresión basada en umbrales de IoU entre cuadros distintos. |
single_cls | bool | False | Trata todas las clases como una sola durante la validación. Útil para evaluar el rendimiento del modelo en tareas de detección binaria o cuando las distinciones de clase no son importantes. |
visualize | bool | False | Visualiza la verdad fundamental (ground truths), verdaderos positivos, falsos positivos y falsos negativos para cada imagen. Útil para depuración e interpretación del modelo. |
compile | bool o str | False | Habilita la compilación de grafos de PyTorch 2.x torch.compile con backend='inductor'. Acepta True → "default", False → deshabilitado, o un modo de cadena de texto como "default", "reduce-overhead", "max-autotune-no-cudagraphs". Vuelve al modo eager con una advertencia si no es compatible. |
end2end | bool | None | Sobrescribe el modo de extremo a extremo en modelos YOLO que soportan inferencia sin NMS (YOLO26, YOLOv10). Al ajustarlo a False te permite ejecutar la validación usando la canalización (pipeline) tradicional de NMS, permitiéndote además hacer uso del argumento iou. |
El ajuste cuidadoso y la experimentación son cruciales para asegurar un rendimiento óptimo y para detectar y prevenir sobreajuste.
Configuración de Exportación
La configuración de exportación para modelos YOLO incluye parámetros para guardar o exportar el modelo para su uso en diferentes entornos. Estos ajustes afectan al rendimiento, tamaño y compatibilidad. Las configuraciones clave incluyen el formato de archivo exportado (ej. ONNX, TensorFlow SavedModel), el dispositivo destino (ej. CPU, GPU) y características como máscaras. La tarea del modelo y las restricciones del entorno de destino también afectan al proceso de exportación.
| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
format | str | 'torchscript' | Formato destino para el modelo exportado, tal como 'onnx', 'torchscript', 'engine' (TensorRT), u otros. Cada formato permite la compatibilidad con diferentes entornos de despliegue. |
imgsz | int o tuple | 640 | Tamaño de imagen deseado para la entrada del modelo. Puede ser un entero para imágenes cuadradas (ej. 640 para 640×640) o una tupla (height, width) para dimensiones específicas. |
keras | bool | False | Activa la exportación al formato Keras para TensorFlow SavedModel, proporcionando compatibilidad con el servicio y las APIs de TensorFlow. |
optimize | bool | False | Aplica optimización para dispositivos móviles al exportar a TorchScript, reduciendo potencialmente el tamaño del modelo y mejorando el rendimiento de inferencia. No compatible con el formato NCNN o dispositivos CUDA. |
half | bool | False | Activa la cuantización FP16 (media precisión), reduciendo el tamaño del modelo y potencialmente acelerando la inferencia en hardware compatible. No compatible con cuantización INT8 o exportaciones solo de CPU. Solo disponible para ciertos formatos, ej. ONNX (ver abajo). |
int8 | bool | False | Activa la cuantización INT8, comprimiendo aún más el modelo y acelerando la inferencia con una pérdida mínima precisión, principalmente para dispositivos de borde (edge devices). Cuando se usa con TensorRT, realiza cuantización post-entrenamiento (PTQ). |
dynamic | bool | False | Permite tamaños de entrada dinámicos para exportaciones de TorchScript, ONNX, OpenVINO, TensorRT y CoreML, mejorando la flexibilidad en el manejo de dimensiones de imagen variables. Se establece automáticamente en True cuando se usa TensorRT con INT8. |
simplify | bool | True | Simplifica el grafo del modelo para exportaciones ONNX con onnxslim, mejorando potencialmente el rendimiento y la compatibilidad con motores de inferencia. |
opset | int | None | Especifica la versión opset de ONNX para compatibilidad con diferentes analizadores y motores de ejecución de ONNX. Si no se establece, usa la última versión compatible. |
workspace | float o None | None | Establece el tamaño máximo del espacio de trabajo en GiB para optimizaciones de TensorRT, equilibrando el uso de memoria y el rendimiento. Usa None para la asignación automática por TensorRT hasta el máximo del dispositivo. |
nms | bool | False | Añade la Supresión No Máxima (NMS) al modelo exportado cuando es compatible (ver Formatos de Exportación), mejorando la eficiencia del posprocesamiento de detección. No disponible para modelos end2end. |
batch | int | 1 | Especifica el tamaño de inferencia por lote del modelo de exportación o el número máximo de imágenes que el modelo exportado procesará simultáneamente en modo predict. Para exportaciones a Edge TPU, esto se establece automáticamente en 1. |
device | str | None | Especifica el dispositivo para exportar: GPU (device=0), CPU (device=cpu), MPS para silicio de Apple (device=mps), NPU Huawei Ascend (device=npu o device=npu:0), o DLA para NVIDIA Jetson (device=dla:0 o device=dla:1). Las exportaciones de TensorRT usan automáticamente la GPU. |
data | str | 'coco8.yaml' | Ruta al archivo de configuración del dataset, esencial para la calibración de cuantización INT8. Si no se especifica con INT8 activado, coco8.yaml se usará como respaldo para la calibración. |
fraction | float | 1.0 | Especifica la fracción del conjunto de datos a usar para la calibración de cuantización INT8. Permite calibrar en un subconjunto del conjunto de datos completo, útil para experimentos o cuando los recursos son limitados. Si no se especifica con INT8 activado, se usará el conjunto de datos completo. |
end2end | bool | None | Sobrescribe el modo de extremo a extremo en modelos YOLO que soportan inferencia sin NMS (YOLO26, YOLOv10). Al ajustarlo a False te permite exportar estos modelos para que sean compatibles con la canalización de posprocesamiento tradicional basada en NMS. Consulta la Detección de extremo a extremo para más detalles. |
Una configuración meditada asegura que el modelo exportado esté optimizado para su caso de uso y funcione eficazmente en el entorno destino.
Configuración de Soluciones
Los ajustes de configuración de las Soluciones de Ultralytics ofrecen flexibilidad para personalizar modelos para tareas como conteo de objetos, creación de mapas de calor, seguimiento de ejercicios, análisis de datos, seguimiento de zonas, gestión de colas y conteo basado en regiones. Estas opciones permiten ajustes sencillos para obtener resultados precisos y útiles adaptados a necesidades específicas.
| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
model | str | None | Ruta a un archivo de modelo YOLO de Ultralytics. |
region | list | '[(20, 400), (1260, 400)]' | Lista de puntos que definen la región de conteo. |
show_in | bool | True | Indicador para controlar si se deben mostrar los conteos de entrada en la transmisión de video. |
show_out | bool | True | Indicador para controlar si se deben mostrar los conteos de salida en la transmisión de video. |
analytics_type | str | 'line' | Tipo de gráfico, ej. line, bar, area, o pie. |
colormap | int | cv2.COLORMAP_DEEPGREEN | Mapa de colores (Colormap) a usar para el mapa de calor. |
json_file | str | None | Ruta al archivo JSON que contiene todos los datos de coordenadas de estacionamiento. |
up_angle | float | 145.0 | Umbral de ángulo para la pose 'arriba' (up). |
kpts | list[int] | '[6, 8, 10]' | Lista de tres índices de puntos clave (keypoints) usados para monitorear ejercicios. Estos puntos clave corresponden a articulaciones o partes del cuerpo, como hombros, codos y muñecas, para ejercicios como flexiones, dominadas, sentadillas y ejercicios abdominales. |
down_angle | int | 90 | Umbral de ángulo para la pose 'abajo' (down). |
blur_ratio | float | 0.5 | Ajusta el porcentaje de intensidad del desenfoque, con valores en el rango 0.1 - 1.0. |
crop_dir | str | 'cropped-detections' | Nombre del directorio para almacenar las detecciones recortadas. |
records | int | 5 | Conteo total de detecciones para activar un correo electrónico con el sistema de alarma de seguridad. |
vision_point | tuple[int, int] | (20, 20) | El punto donde la visión rastreará objetos y dibujará rutas usando la Solución VisionEye. |
source | str | None | Ruta a la fuente de entrada (video, RTSP, etc.). Solo utilizable con la interfaz de línea de comandos (CLI) de Soluciones. |
figsize | tuple[int, int] | (12.8, 7.2) | Tamaño de la figura para gráficos de análisis tales como mapas de calor o gráficos. |
fps | float | 30.0 | Fotogramas por segundo (FPS) usados para los cálculos de velocidad. |
max_hist | int | 5 | Puntos históricos máximos a rastrear por objeto para cálculos de velocidad/dirección. |
meter_per_pixel | float | 0.05 | Factor de escala usado para convertir la distancia en píxeles a unidades del mundo real. |
max_speed | int | 120 | Límite máximo de velocidad en superposiciones visuales (usado en alertas). |
data | str | 'images' | Ruta al directorio de imágenes usado para la búsqueda de similitud. |
Ajustes de aumento
Las técnicas de aumento de datos son esenciales para mejorar la robustez y el rendimiento del modelo YOLO al introducir variabilidad en los datos de entrenamiento, ayudando a que el modelo generalice mejor con datos no vistos. La siguiente tabla describe el propósito y efecto de cada argumento de aumento:
| Argumento | Tipo | Predeterminado | Tareas compatibles | Rango | Descripción |
|---|---|---|---|---|---|
hsv_h | float | 0.015 | detect, segment, pose, obb, classify | 0.0 - 1.0 | Ajusta el matiz de la imagen en una fracción de la rueda de color, introduciendo variabilidad cromática. Ayuda al modelo a generalizar bajo diferentes condiciones de iluminación. |
hsv_s | float | 0.7 | detect, segment, pose, obb, classify | 0.0 - 1.0 | Altera la saturación de la imagen en una fracción, afectando la intensidad de los colores. Útil para simular diferentes condiciones ambientales. |
hsv_v | float | 0.4 | detect, segment, pose, obb, classify | 0.0 - 1.0 | Modifica el valor (brillo) de la imagen en una fracción, ayudando al modelo a funcionar bien bajo diversas condiciones de iluminación. |
degrees | float | 0 | detect, segment, pose, obb | 0.0 - 180 | Rota la imagen aleatoriamente dentro del rango de grados especificado, mejorando la capacidad del modelo para reconocer objetos en varias orientaciones. |
translate | float | 0.1 | detect, segment, pose, obb | 0.0 - 1.0 | Traslada la imagen horizontal y verticalmente en una fracción del tamaño de la imagen, ayudando a aprender a detectar objetos parcialmente visibles. |
scale | float | 0.5 | detect, segment, pose, obb, classify | 0 - 1 | Escala la imagen mediante un factor de ganancia, simulando objetos a diferentes distancias de la cámara. |
shear | float | 0 | detect, segment, pose, obb | -180 - +180 | Inclina (shear) la imagen en un grado especificado, imitando el efecto de objetos vistos desde diferentes ángulos. |
perspective | float | 0 | detect, segment, pose, obb | 0.0 - 0.001 | Aplica una transformación de perspectiva aleatoria a la imagen, mejorando la capacidad del modelo para entender objetos en el espacio 3D. |
flipud | float | 0 | detect, segment, pose, obb, classify | 0.0 - 1.0 | Voltea la imagen boca abajo con la probabilidad especificada, aumentando la variabilidad de los datos sin afectar las características del objeto. |
fliplr | float | 0.5 | detect, segment, pose, obb, classify | 0.0 - 1.0 | Voltea la imagen de izquierda a derecha con la probabilidad especificada, útil para aprender objetos simétricos y aumentar la diversidad del conjunto de datos. |
bgr | float | 0 | detect, segment, pose, obb | 0.0 - 1.0 | Invierte los canales de la imagen de RGB a BGR con la probabilidad especificada, útil para aumentar la robustez ante un orden de canales incorrecto. |
mosaic | float | 1 | detect, segment, pose, obb | 0.0 - 1.0 | Combina cuatro imágenes de entrenamiento en una, simulando diferentes composiciones de escena e interacciones entre objetos. Muy efectivo para la comprensión de escenas complejas. |
mixup | float | 0 | detect, segment, pose, obb | 0.0 - 1.0 | Mezcla dos imágenes y sus etiquetas, creando una imagen compuesta. Mejora la capacidad del modelo para generalizar al introducir ruido de etiquetas y variabilidad visual. |
cutmix | float | 0 | detect, segment, pose, obb | 0.0 - 1.0 | Combina porciones de dos imágenes, creando una mezcla parcial mientras mantiene regiones distintas. Mejora la robustez del modelo al crear escenarios de oclusión. |
copy_paste | float | 0 | segment | 0.0 - 1.0 | Copia y pega objetos en imágenes para aumentar las instancias de objetos. |
copy_paste_mode | str | flip | segment | - | Especifica la copy-paste estrategia a utilizar. Las opciones incluyen 'flip' y 'mixup'. |
auto_augment | str | randaugment | classify | - | Aplica una política de aumento predefinida ('randaugment', 'autoaugment', o 'augmix') para mejorar el rendimiento del modelo mediante diversidad visual. |
erasing | float | 0.4 | classify | 0.0 - 1.0 | Borra aleatoriamente regiones de la imagen durante el entrenamiento para animar al modelo a enfocarse en características menos obvias. |
augmentations | list | `` | detect, segment, pose, obb | - | Transformaciones personalizadas de Albumentations para aumento de datos avanzado (solo Python API). Acepta una lista de objetos de transformación para necesidades de aumento especializadas. |
Ajusta estos parámetros para cumplir con los requisitos de tu conjunto de datos y tarea. Experimentar con diferentes valores puede ayudar a encontrar la estrategia de aumento óptima para el mejor rendimiento del modelo.
Ajustes de registro, puntos de control y trazado
El registro, los puntos de control, el trazado y la gestión de archivos son importantes al entrenar un modelo YOLO:
- Registro: Rastrea el progreso del modelo y diagnostica problemas usando bibliotecas como TensorBoard o escribiendo en un archivo.
- Puntos de control: Guarda el modelo a intervalos regulares para reanudar el entrenamiento o experimentar con diferentes configuraciones.
- Trazado (Plotting): Visualiza el rendimiento y el progreso del entrenamiento usando bibliotecas como Matplotlib o TensorBoard.
- Gestión de archivos: Organiza los archivos generados durante el entrenamiento, como puntos de control, archivos de registro y gráficos, para facilitar el acceso y el análisis.
Una gestión efectiva de estos aspectos ayuda a rastrear el progreso y facilita la depuración y la optimización.
| Argumento | Predeterminado | Descripción |
|---|---|---|
project | 'runs' | Especifica el directorio raíz para guardar las ejecuciones de entrenamiento. Cada ejecución se guarda en un subdirectorio separado. |
name | 'exp' | Define el nombre del experimento. Si no se especifica, YOLO incrementa este nombre para cada ejecución (p. ej., exp, exp-2) para evitar sobrescrituras. |
exist_ok | False | Determina si se debe sobrescribir un directorio de experimento existente. True permite sobrescribir; False lo evita. |
plots | True | Controla la generación y el guardado de gráficos de entrenamiento y validación. Establécelo en True para crear gráficos como curvas de pérdida, curvas de precisión-recall y predicciones de muestra para el seguimiento visual del rendimiento. |
save | True | Habilita el guardado de puntos de control de entrenamiento y pesos finales del modelo. Establécelo en True para guardar estados del modelo periódicamente, permitiendo reanudar el entrenamiento o desplegar el modelo. |
Archivo de configuración personalizada
Carga un YAML guardado para reutilizar un conjunto completo de argumentos sin pasarlos en línea. El argumento cfg sobrescribe los valores de default.yaml, mientras que los argumentos adicionales pasados junto a él siguen teniendo prioridad.
| Argumento | Predeterminado | Descripción |
|---|---|---|
cfg | None | Ruta a un archivo YAML cuyos valores reemplazan las entradas de default.yaml. Mira Sobrescribir archivo de configuración predeterminado para un ejemplo práctico de CLI. |
Preguntas frecuentes
¿Cómo mejoro el rendimiento de mi modelo YOLO durante el entrenamiento?
Mejora el rendimiento ajustando hiperparámetros como . Los ajustes clave incluyen , tamaño de lote, momentum y decadencia de peso (weight decay). Ajusta los ajustes de data augmentation, selecciona el optimizador correcto y utiliza técnicas como la parada temprana o precisión mixta. Para más detalles, consulta la Guía de entrenamiento.
¿Cuáles son los hiperparámetros clave para la precisión del modelo YOLO?
Los hiperparámetros clave que afectan la precisión incluyen:
- Tamaño de lote (
batch): Tamaños más grandes pueden estabilizar el entrenamiento pero requieren más memoria. - Tasa de aprendizaje (
lr0): Tasas más pequeñas ofrecen ajustes finos pero una convergencia más lenta. - Momentum (
momentum): Acelera los vectores de gradiente, amortiguando las oscilaciones. - Tamaño de imagen (
imgsz): Tamaños más grandes mejoran la precisión pero aumentan la carga computacional.
Ajusta estos valores según tu conjunto de datos y hardware. Aprende más en Ajustes de entrenamiento.
¿Cómo establezco la tasa de aprendizaje para entrenar un modelo YOLO?
La tasa de aprendizaje (lr0) es crucial; comienza con 0.01 para SGD o el 0.001 para optimizador Adam. Supervisa las métricas y ajusta según sea necesario. Usa programadores de tasa de aprendizaje de coseno (cos_lr) o calentamiento (warmup_epochs, warmup_momentum). Los detalles están en la Guía de entrenamiento.
¿Cuáles son los ajustes de inferencia predeterminados para los modelos YOLO?
Los ajustes predeterminados incluyen:
- Umbral de confianza (
conf=0.25): Confianza mínima para las detecciones. - Umbral de IoU (
iou=0.7): Para Non-Maximum Suppression (NMS). - Tamaño de imagen (
imgsz=640): Cambia el tamaño de las imágenes de entrada. - Dispositivo (
device=None): Selecciona CPU, GPU, Apple MPS o Huawei Ascend NPU (npu).
Para una visión general completa, consulta Ajustes de predicción y la Guía de predicción.
¿Por qué usar entrenamiento de precisión mixta con modelos YOLO?
Precisión mixta entrenamiento (amp=True) reduce el uso de memoria y acelera el entrenamiento usando FP16 y FP32. Es beneficioso para las GPUs modernas, permitiendo modelos más grandes y cálculos más rápidos sin una pérdida de precisión significativa. Aprende más en la Guía de entrenamiento.