Ir al contenido

YOLOv5 vs YOLOv7: Un análisis comparativo detallado

Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la necesidad de velocidad, precisión y facilidad de implementación. Esta página ofrece una comparación técnica entre Ultralytics YOLOv5 y YOLOv7, dos modelos influyentes en el panorama de la visión artificial. Si bien ambos han realizado contribuciones significativas, Ultralytics YOLOv5 destaca por su excepcional equilibrio de rendimiento, diseño fácil de usar y un ecosistema completo y bien mantenido, lo que lo convierte en una opción preferida para una amplia gama de aplicaciones del mundo real.

Ultralytics YOLOv5: El Estándar Industrial Establecido

Ultralytics YOLOv5, lanzado en 2020 por Glenn Jocher, se convirtió rápidamente en uno de los modelos de detección de objetos más populares debido a su notable combinación de velocidad, precisión y facilidad de uso. Desarrollado completamente en PyTorch, YOLOv5 está altamente optimizado, ofreciendo una experiencia simplificada desde el entrenamiento hasta la implementación.

Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentación: https://docs.ultralytics.com/models/yolov5/

Arquitectura y Características Clave de YOLOv5

YOLOv5 presenta una arquitectura flexible y eficiente construida sobre un backbone CSPDarknet53 y un cuello de botella PANet para una agregación de características eficaz. Utiliza un encabezado de detección basado en anclajes, que se ha perfeccionado a lo largo de numerosas versiones. Una de sus principales fortalezas es la variedad de tamaños de modelo (n, s, m, l, x), lo que permite a los desarrolladores seleccionar la compensación óptima entre rendimiento y recursos computacionales. Esta escalabilidad lo hace adecuado para todo, desde dispositivos perimetrales ligeros hasta potentes servidores en la nube.

Ventajas de YOLOv5

  • Facilidad de uso: YOLOv5 es famoso por sus sencillas interfaces de Python y CLI, su extensa documentación y sus sencillos pipelines de entrenamiento e inferencia.
  • Ecosistema bien mantenido: Está respaldado por el robusto ecosistema de Ultralytics, que incluye desarrollo activo, una gran comunidad, actualizaciones frecuentes y herramientas potentes como Ultralytics HUB para el entrenamiento y la implementación sin código.
  • Equilibrio entre rendimiento: YOLOv5 logra un excelente equilibrio entre la velocidad de inferencia y la precisión de detección, lo que lo hace muy práctico para diversos escenarios del mundo real.
  • Versatilidad y Eficiencia de Entrenamiento: Es compatible con múltiples tareas de visión, incluyendo la detección de objetos, la segmentación de instancias y la clasificación de imágenes. El proceso de entrenamiento es eficiente, con pesos pre-entrenados disponibles y menores requisitos de memoria en comparación con arquitecturas más complejas.

Debilidades de YOLOv5

  • Límites de precisión: Aunque es muy preciso, los modelos más nuevos han superado sus puntuaciones mAP en benchmarks estándar como COCO.
  • Diseño Basado en Anclas: Su dependencia de cuadros de anclaje predefinidos a veces puede requerir más ajuste para conjuntos de datos con objetos de forma inusual en comparación con los enfoques modernos sin anclaje.

Casos de uso para YOLOv5

  • Aplicaciones en tiempo real: Ideal para aplicaciones que requieren una inferencia rápida, como la robótica, la visión de drones en aplicaciones de visión artificial en operaciones de drones con IA y el análisis de video en tiempo real.
  • Implementación en el Edge: Adecuado para la implementación en dispositivos edge con recursos limitados debido a su diseño eficiente y tamaños de modelo más pequeños. Explore las guías de implementación de NVIDIA Jetson.
  • Prototipado Rápido: Una excelente opción para la creación rápida de prototipos y la implementación de soluciones de detección de objetos, gracias a su facilidad de uso y amplio soporte.

Más información sobre YOLOv5

YOLOv7: Enfoque en la Alta Precisión

YOLOv7, creado por Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao, se lanzó el 6 de julio de 2022. Introdujo varias optimizaciones arquitectónicas y estrategias de entrenamiento, conocidas como "trainable bag-of-freebies", con el objetivo de superar los límites de la precisión manteniendo la velocidad en tiempo real.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Características Clave de YOLOv7

  • E-ELAN: Utiliza la red Extended Efficient Layer Aggregation Network (E-ELAN) en la red troncal para mejorar la capacidad de aprendizaje.
  • Escalado de modelos: Implementa el escalado compuesto para la profundidad y el ancho del modelo con el fin de optimizar los diferentes presupuestos computacionales.
  • Entrenamiento con cabezales auxiliares: Utiliza cabezales auxiliares durante el entrenamiento (eliminados durante la inferencia) para mejorar el aprendizaje de características.
  • Bag-of-Freebies: Aprovecha técnicas de entrenamiento avanzadas para aumentar la precisión sin incrementar el coste de inferencia.

Ventajas de YOLOv7

  • Alta precisión: Alcanza altas puntuaciones mAP en benchmarks como COCO, particularmente con variantes de modelo más grandes.
  • Técnicas de entrenamiento eficientes: Incorpora estrategias de entrenamiento novedosas para maximizar el rendimiento.

Debilidades de YOLOv7

  • Complejidad: La arquitectura y el proceso de entrenamiento pueden ser más complejos en comparación con el enfoque optimizado de Ultralytics YOLOv5.
  • Ecosistema y soporte: Carece de la extensa documentación, los tutoriales y el ecosistema integrado que proporciona Ultralytics para YOLOv5.
  • Uso intensivo de recursos: Los modelos más grandes exigen importantes recursos computacionales, lo que podría limitar la implementación en dispositivos con limitaciones.

Casos de uso para YOLOv7

  • Detección de alto rendimiento: Adecuado para aplicaciones donde lograr la máxima precisión absoluta es fundamental y los recursos computacionales son menos limitados, como en vehículos autónomos.
  • Investigación: Se utiliza en la investigación académica para explorar técnicas de detección de objetos de última generación.

Más información sobre YOLOv7

Rendimiento y comparación técnica

Una comparación directa de YOLOv5 y YOLOv7 en el conjunto de datos COCO revela diferencias clave en sus perfiles de rendimiento. Los modelos YOLOv7 generalmente alcanzan puntuaciones mAP más altas, pero a menudo a costa de una mayor complejidad y requisitos de recursos. En contraste, Ultralytics YOLOv5 ofrece un perfil más equilibrado, destacando en la velocidad de inferencia de la CPU y manteniendo una precisión competitiva, lo cual es crucial para muchas implementaciones en el mundo real.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Conclusión: ¿Qué modelo debería elegir?

La elección entre YOLOv5 y YOLOv7 depende en gran medida de las prioridades del proyecto.

YOLOv7 es una opción sólida para investigadores y desarrolladores que necesitan la mayor precisión posible en benchmarks estándar y tienen acceso a importantes recursos computacionales. Sus innovadoras técnicas de entrenamiento demuestran cómo superar los límites del rendimiento.

Sin embargo, para la gran mayoría de las aplicaciones prácticas, Ultralytics YOLOv5 sigue siendo la opción superior. Sus principales ventajas—facilidad de uso, rápida implementación, excelente equilibrio entre velocidad y precisión y un ecosistema próspero—la convierten en una herramienta increíblemente eficiente y fiable. Permite a los desarrolladores crear soluciones de visión artificial robustas rápidamente, desde el prototipo inicial hasta la implementación en producción.

Además, el ecosistema de Ultralytics ha seguido evolucionando. Los modelos más nuevos como YOLOv8 y YOLO11 se basan en la base de YOLOv5, ofreciendo un rendimiento aún mejor y una mayor versatilidad en tareas como la segmentación, la estimación de la pose y el seguimiento. Para los desarrolladores que buscan un framework moderno, preparado para el futuro y fácil de usar, la familia Ultralytics YOLO proporciona la solución más convincente y completa.

Explorar Otros Modelos

Si está explorando modelos de detección de objetos, también puede estar interesado en estas otras comparaciones:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios