Ir al contenido

YOLOv5 vs YOLOv9: Una Comparación Detallada

Esta página proporciona una comparación técnica entre dos modelos de detección de objetos importantes: Ultralytics YOLOv5 y YOLOv9. Ambos modelos forman parte de la influyente serie YOLO (You Only Look Once), conocida por equilibrar velocidad y precisión en la detección de objetos en tiempo real. Esta comparación explora sus diferencias arquitectónicas, métricas de rendimiento y casos de uso ideales para ayudarle a seleccionar el modelo más adecuado para sus proyectos de visión artificial.

Ultralytics YOLOv5: El Estándar Industrial Establecido

Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentación: https://docs.ultralytics.com/models/yolov5/

Ultralytics YOLOv5 ganó popularidad rápidamente tras su lanzamiento debido a su notable equilibrio entre velocidad, precisión y facilidad de uso. Desarrollado íntegramente en PyTorch, YOLOv5 presenta una arquitectura que utiliza CSPDarknet53 como backbone y PANet para la agregación de características, junto con un eficiente encabezado de detección basado en anclajes. Ofrece varios tamaños de modelo (n, s, m, l, x), lo que permite a los usuarios elegir en función de sus recursos computacionales y necesidades de rendimiento.

Fortalezas

  • Velocidad y Eficiencia Excepcionales: YOLOv5 está altamente optimizado para una inferencia rápida, lo que lo hace ideal para aplicaciones en tiempo real en varios hardware, incluidos los dispositivos edge.
  • Facilidad de uso: Ultralytics YOLOv5 es famoso por su experiencia de usuario optimizada, sus interfaces sencillas de Python y CLI, y su extensa documentación.
  • Ecosistema bien mantenido: Se beneficia del ecosistema integrado de Ultralytics, que ofrece desarrollo activo, una comunidad grande y de apoyo, actualizaciones frecuentes y recursos integrales como Ultralytics HUB para el entrenamiento sin código.
  • Equilibrio de rendimiento: Logra una sólida compensación entre la velocidad de inferencia y la precisión de detección, adecuado para diversos escenarios de implementación en el mundo real.
  • Versatilidad: Admite múltiples tareas, incluyendo detección de objetos, segmentación de instancias y clasificación de imágenes.
  • Eficiencia en el entrenamiento: Ofrece procesos de entrenamiento eficientes, pesos pre-entrenados disponibles y, por lo general, menores requisitos de memoria en comparación con muchas otras arquitecturas, especialmente los modelos basados en transformers.

Debilidades

  • Precisión: Si bien fue muy preciso para su época, los modelos más nuevos como YOLOv9 pueden alcanzar puntuaciones mAP más altas en benchmarks como COCO.
  • Basado en anclajes: Se basa en cajas de anclaje predefinidas, lo que podría requerir más ajuste para conjuntos de datos específicos en comparación con los enfoques sin anclaje.

Casos de uso

Más información sobre YOLOv5

YOLOv9: Avance en precisión con técnicas novedosas

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentación: https://docs.ultralytics.com/models/yolov9/

YOLOv9 introduce innovaciones arquitectónicas significativas, a saber, la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). PGI tiene como objetivo mitigar la pérdida de información a medida que los datos fluyen a través de redes profundas al proporcionar información de entrada completa para el cálculo de la función de pérdida. GELAN es una arquitectura novedosa diseñada para una utilización de parámetros y una eficiencia computacional superiores. Estos avances permiten a YOLOv9 lograr una mayor precisión manteniendo la eficiencia.

Fortalezas

  • Precisión Mejorada: Establece nuevos resultados de última generación en el conjunto de datos COCO para detectores de objetos en tiempo real, superando a YOLOv5 y otros modelos en mAP.
  • Eficiencia mejorada: GELAN y PGI contribuyen a modelos que requieren menos parámetros y recursos computacionales (FLOPs) para un rendimiento comparable o mejor que los modelos anteriores.
  • Preservación de la Información: PGI aborda eficazmente el problema del cuello de botella de la información, que es crucial para entrenar redes más profundas y complejas con precisión.

Debilidades

  • Recursos de entrenamiento: El entrenamiento de los modelos YOLOv9 puede requerir más recursos y tiempo en comparación con Ultralytics YOLOv5, como se indica en la documentación de YOLOv9.
  • Arquitectura más reciente: Al ser un modelo más reciente de un grupo de investigación diferente, su ecosistema, el soporte de la comunidad y las integraciones de terceros son menos maduros que los de Ultralytics YOLOv5, que está bien establecido.
  • Versatilidad de tareas: Se centra principalmente en la detección de objetos, careciendo del soporte integrado para la segmentación, la clasificación y la estimación de poses que se encuentra en los modelos de Ultralytics como YOLOv5 y YOLOv8.

Casos de uso

  • Aplicaciones que exigen la mayor precisión posible en la detección de objetos.
  • Escenarios donde la eficiencia computacional es crítica junto con un alto rendimiento.
  • Analítica de vídeo avanzada e inspección industrial de alta precisión.
  • IA en la gestión del tráfico y aplicaciones de ciudades inteligentes que requieren una detección de primer nivel.

Más información sobre YOLOv9

Rendimiento y benchmarks: YOLOv5 vs. YOLOv9

Al comparar el rendimiento, los modelos YOLOv9 generalmente logran puntajes de mAP más altos que sus contrapartes YOLOv5, lo que demuestra la efectividad de sus innovaciones arquitectónicas. Sin embargo, Ultralytics YOLOv5 mantiene una posición sólida debido a su excepcional velocidad de inferencia e implementación altamente optimizada, lo que la convierte en una opción formidable para aplicaciones en tiempo real donde los fotogramas por segundo (FPS) son una métrica crítica.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Análisis Arquitectónico en Profundidad

Arquitectura de YOLOv5

La arquitectura de Ultralytics YOLOv5 es una implementación refinada de los principios de la familia YOLO. Consta de tres partes principales:

  • Backbone: Una red CSPDarknet53, que es una versión modificada de Darknet-53 que incorpora módulos Cross Stage Partial (CSP) para reducir la computación manteniendo la precisión.
  • Cuello (Neck): Se utiliza una Red de Agregación de Rutas (PANet) para agregar características de diferentes niveles del backbone, mejorando la detección de objetos en varias escalas.
  • Head: El head de detección se basa en anclajes, prediciendo cuadros delimitadores a partir de formas de cuadros de anclaje predefinidas, lo que contribuye a su alta velocidad.

Arquitectura de YOLOv9

YOLOv9 introduce conceptos novedosos para superar los límites de la precisión y la eficiencia:

  • Información de Gradiente Programable (PGI): Este mecanismo está diseñado para combatir el problema del cuello de botella de la información en las redes profundas. Asegura que la información de entrada completa esté disponible para calcular la función de pérdida, lo que lleva a actualizaciones de gradiente más fiables y a una mejor convergencia del modelo.
  • Red Generalizada de Agregación de Capas Eficiente (GELAN): Esta es una nueva arquitectura de red que se basa en los principios de CSPNet y ELAN. GELAN está diseñada para optimizar la utilización de parámetros y la eficiencia computacional, lo que permite que el modelo logre una mayor precisión con menos recursos.

Entrenamiento y ecosistema

La experiencia de entrenamiento y el soporte del ecosistema es donde Ultralytics YOLOv5 realmente brilla.

  • Facilidad de uso: YOLOv5 ofrece una experiencia increíblemente fácil de usar con sencillas APIs de línea de comandos y Python, extensos tutoriales y una completa documentación.
  • Ecosistema bien mantenido: Como modelo oficial de Ultralytics, YOLOv5 forma parte de un ecosistema robusto que incluye un desarrollo activo, una gran comunidad en GitHub y Discord, actualizaciones frecuentes y una integración perfecta con herramientas de MLOps como Ultralytics HUB.
  • Eficiencia en el entrenamiento: YOLOv5 es altamente eficiente para entrenar, con pesos pre-entrenados disponibles y menores requisitos de memoria en comparación con arquitecturas más complejas. Esto lo hace accesible a usuarios con una gama más amplia de hardware.

Si bien YOLOv9 es un modelo potente, su proceso de entrenamiento puede ser más exigente y su ecosistema no está tan maduro o integrado como el de los modelos de Ultralytics. Para los desarrolladores que buscan un camino fluido y bien respaldado desde el entrenamiento hasta la implementación, YOLOv5 ofrece una clara ventaja.

Conclusión: ¿Qué modelo debería elegir?

Tanto YOLOv5 como YOLOv9 son modelos excelentes, pero se adaptan a diferentes prioridades.

  • Ultralytics YOLOv5 es la opción ideal para los desarrolladores que priorizan la velocidad, la facilidad de uso y un ecosistema maduro y bien soportado. Su excepcional equilibrio de rendimiento lo hace perfecto para aplicaciones en tiempo real, la creación rápida de prototipos y el despliegue en dispositivos edge AI con recursos limitados. Su versatilidad en múltiples tareas de visión se suma a su valor como un framework de IA de visión de propósito general.

  • YOLOv9 es más adecuado para aplicaciones donde lograr la mayor precisión posible en la detección de objetos es el objetivo principal, y los recursos computacionales para el entrenamiento son menos preocupantes. Su innovadora arquitectura ofrece resultados de última generación en benchmarks desafiantes.

Para la mayoría de los usuarios, especialmente aquellos que buscan un modelo fiable, rápido y fácil de usar con un fuerte apoyo comunitario y comercial, Ultralytics YOLOv5 sigue siendo una de las principales recomendaciones. Para aquellos interesados en los últimos avances de Ultralytics, modelos como YOLOv8 y el más reciente YOLO11 ofrecen un rendimiento y una versatilidad aún mayores, manteniendo al mismo tiempo la experiencia fácil de usar que define el ecosistema de Ultralytics.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios