YOLOv4: Detección de objetos de alta velocidad y precisión

Te damos la bienvenida a la página de documentación de Ultralytics para YOLOv4, un detector de objetos en tiempo real de vanguardia lanzado en 2020 por Alexey Bochkovskiy en https://github.com/AlexeyAB/darknet. YOLOv4 está diseñado para proporcionar el equilibrio óptimo entre velocidad y precisión, lo que lo convierte en una excelente opción para muchas aplicaciones.

Diagrama de arquitectura de YOLOv4 Diagrama de arquitectura de YOLOv4. Muestra el intrincado diseño de red de YOLOv4, incluidos los componentes de backbone, neck y head, así como sus capas interconectadas para una detección de objetos en tiempo real óptima.

Introducción

YOLOv4 significa You Only Look Once (solo miras una vez) versión 4. Es un modelo de detección de objetos en tiempo real desarrollado para abordar las limitaciones de versiones anteriores de YOLO como YOLOv3 y otros modelos de detección de objetos. A diferencia de otros detectores de objetos basados en redes neuronales convolucionales (CNN), YOLOv4 no solo es aplicable a sistemas de recomendación, sino también a la gestión de procesos independientes y a la reducción de la intervención humana. Su funcionamiento en unidades de procesamiento gráfico (GPU) convencionales permite un uso masivo a un precio asequible, y está diseñado para trabajar en tiempo real en una GPU convencional, requiriendo solo una para el entrenamiento.

Arquitectura

YOLOv4 utiliza varias características innovadoras que trabajan juntas para optimizar su rendimiento. Estas incluyen Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT), activación Mish, aumentación de datos Mosaic, regularización DropBlock y pérdida CIoU. Estas características se combinan para lograr resultados de vanguardia.

Un detector de objetos típico se compone de varias partes, incluyendo la entrada, el backbone, el neck y el head. El backbone de YOLOv4 está preentrenado en ImageNet y se utiliza para predecir clases y bounding boxes de objetos. El backbone puede provenir de varios modelos, incluidos VGG, ResNet, ResNeXt o DenseNet. La parte del neck del detector se utiliza para recopilar feature maps de diferentes etapas y generalmente incluye varios caminos ascendentes y descendentes. La parte del head es la que se utiliza para realizar las detecciones y clasificaciones finales de objetos.

Bag of Freebies

YOLOv4 también utiliza métodos conocidos como "bag of freebies", que son técnicas que mejoran la precisión del modelo durante el entrenamiento sin aumentar el coste de la inferencia. La aumentación de datos es una técnica común de "bag of freebies" utilizada en la detección de objetos, que aumenta la variabilidad de las imágenes de entrada para mejorar la robustez del modelo. Algunos ejemplos de aumentación de datos incluyen distorsiones fotométricas (ajustar el brillo, contraste, tono, saturación y ruido de una imagen) y distorsiones geométricas (añadir escala aleatoria, recortes, volteos y rotaciones). Estas técnicas ayudan al modelo a generalizar mejor ante diferentes tipos de imágenes.

Características y rendimiento

YOLOv4 está diseñado para obtener una velocidad y precisión óptimas en la detección de objetos. La arquitectura de YOLOv4 incluye CSPDarknet53 como backbone, PANet como neck y YOLOv3 como detection head. Este diseño permite que YOLOv4 realice la detección de objetos a una velocidad impresionante, lo que lo hace adecuado para aplicaciones en tiempo real. YOLOv4 también destaca en precisión, logrando resultados de vanguardia en benchmarks de detección de objetos como COCO.

Cuando se compara con otros modelos de la familia YOLO, como YOLOv5 y YOLOv7, YOLOv4 mantiene una posición sólida en el equilibrio entre velocidad y precisión. Si bien los modelos más nuevos pueden ofrecer ciertas ventajas, las innovaciones arquitectónicas de YOLOv4 siguen haciéndolo relevante para muchas aplicaciones que requieren rendimiento en tiempo real.

Ejemplos de uso

YOLOv4 es un modelo basado en Darknet y no cuenta con soporte nativo en el paquete de Python de Ultralytics: no hay pesos preentrenados yolov4.pt publicados en ultralytics/assets ni archivos YAML en ultralytics/cfg/models/v4/. Esta página se mantiene como referencia arquitectónica. Los usuarios interesados en ejecutar YOLOv4 deben consultar directamente el repositorio de GitHub de YOLOv4 para obtener instrucciones de instalación y uso.

Aquí tienes una breve descripción de los pasos típicos que podrías seguir para usar YOLOv4:

  1. Visita el repositorio de GitHub de YOLOv4: https://github.com/AlexeyAB/darknet.

  2. Sigue las instrucciones proporcionadas en el archivo README para la instalación. Esto generalmente implica clonar el repositorio, instalar las dependencias necesarias y configurar cualquier variable de entorno requerida.

  3. Una vez completada la instalación, puedes entrenar y utilizar el modelo según las instrucciones de uso proporcionadas en el repositorio. Esto generalmente implica preparar tu conjunto de datos, configurar los parámetros del modelo, entrenar el modelo y luego usar el modelo entrenado para realizar la detección de objetos.

Ten en cuenta que los pasos específicos pueden variar según tu caso de uso particular y el estado actual del repositorio de YOLOv4. Por lo tanto, se recomienda encarecidamente consultar directamente las instrucciones proporcionadas en el repositorio de GitHub de YOLOv4.

Para entrenamiento e inferencia dentro del framework de Ultralytics, consulta YOLO11 o YOLO26.

Conclusión

YOLOv4 es un modelo de detección de objetos potente y eficiente que logra un equilibrio entre velocidad y precisión. Su uso de características únicas y técnicas de "bag of freebies" durante el entrenamiento le permite desempeñarse de forma excelente en tareas de detección de objetos en tiempo real. Cualquiera con una GPU convencional puede entrenar y usar YOLOv4, lo que lo hace accesible y práctico para una amplia gama de aplicaciones, incluidos sistemas de vigilancia, vehículos autónomos y automatización industrial.

Para aquellos que buscan implementar la detección de objetos en sus proyectos, YOLOv4 sigue siendo un fuerte contendiente, especialmente cuando el rendimiento en tiempo real es una prioridad. Si bien Ultralytics se centra actualmente en ofrecer soporte para versiones más recientes de YOLO como YOLO11 y YOLO26, las innovaciones arquitectónicas introducidas en YOLOv4 han influido en el desarrollo de estos modelos posteriores.

Citas y reconocimientos

Queremos reconocer a los autores de YOLOv4 por sus importantes contribuciones en el campo de la detección de objetos en tiempo real:

Cita
@misc{bochkovskiy2020yolov4,
      title={YOLOv4: Optimal Speed and Accuracy of Object Detection},
      author={Alexey Bochkovskiy and Chien-Yao Wang and Hong-Yuan Mark Liao},
      year={2020},
      eprint={2004.10934},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

El artículo original de YOLOv4 se puede encontrar en arXiv. Los autores han hecho público su trabajo y el código fuente se puede acceder en GitHub. Apreciamos sus esfuerzos para avanzar en el campo y hacer que su trabajo sea accesible para la comunidad en general.

Preguntas frecuentes

¿Qué es YOLOv4 y por qué debería usarlo para la detección de objetos?

YOLOv4, que significa "You Only Look Once version 4", es un modelo de detección de objetos en tiempo real de vanguardia desarrollado por Alexey Bochkovskiy en 2020. Logra un equilibrio óptimo entre velocidad y precisión, lo que lo hace altamente adecuado para aplicaciones en tiempo real. La arquitectura de YOLOv4 incorpora varias características innovadoras como Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP) y Self-adversarial-training (SAT), entre otras, para lograr resultados de vanguardia. Si buscas un modelo de alto rendimiento que funcione de manera eficiente en GPU convencionales, YOLOv4 es una excelente opción.

¿Cómo mejora el rendimiento la arquitectura de YOLOv4?

La arquitectura de YOLOv4 incluye varios componentes clave: el backbone, el neck y el head. El backbone, que puede ser modelos como VGG, ResNet o CSPDarknet53, está preentrenado para predecir clases y bounding boxes. El neck, utilizando PANet, conecta feature maps de diferentes etapas para una extracción de datos integral. Finalmente, el head, que utiliza configuraciones de YOLOv3, realiza las detecciones finales de objetos. YOLOv4 también emplea técnicas de "bag of freebies" como la aumentación de datos Mosaic y la regularización DropBlock, optimizando aún más su velocidad y precisión.

¿Qué son los "bag of freebies" en el contexto de YOLOv4?

"Bag of freebies" se refiere a métodos que mejoran la precisión de entrenamiento de YOLOv4 sin aumentar el coste de la inferencia. Estas técnicas incluyen varias formas de aumentación de datos, como distorsiones fotométricas (ajustar brillo, contraste, etc.) y distorsiones geométricas (escalado, recorte, volteo, rotación). Al aumentar la variabilidad de las imágenes de entrada, estas aumentaciones ayudan a YOLOv4 a generalizar mejor a diferentes tipos de imágenes, mejorando así su robustez y precisión sin comprometer su rendimiento en tiempo real.

¿Por qué se considera a YOLOv4 adecuado para la detección de objetos en tiempo real en GPU convencionales?

YOLOv4 está diseñado para optimizar tanto la velocidad como la precisión, lo que lo hace ideal para tareas de detección de objetos en tiempo real que requieren un rendimiento rápido y fiable. Funciona de manera eficiente en GPU convencionales, necesitando solo una tanto para el entrenamiento como para la inferencia. Esto lo hace accesible y práctico para diversas aplicaciones, desde sistemas de recomendación hasta la gestión de procesos independientes, reduciendo así la necesidad de configuraciones de hardware extensas y convirtiéndolo en una solución rentable para la detección de objetos en tiempo real.

¿Cómo puedo empezar con YOLOv4 si Ultralytics no le da soporte actualmente?

Para empezar con YOLOv4, debes visitar el repositorio oficial de GitHub de YOLOv4. Sigue las instrucciones de instalación proporcionadas en el archivo README, que generalmente incluyen clonar el repositorio, instalar dependencias y configurar variables de entorno. Una vez instalado, puedes entrenar el modelo preparando tu conjunto de datos, configurando los parámetros del modelo y siguiendo las instrucciones de uso proporcionadas. Dado que Ultralytics no ofrece soporte para YOLOv4 actualmente, se recomienda consultar directamente el GitHub de YOLOv4 para obtener la orientación más actualizada y detallada.

Comentarios