Ir al contenido

YOLOv7 vs. YOLOv9: Una comparación técnica detallada

Al seleccionar un modelo YOLO para la detección de objetos, es crucial comprender los matices entre las diferentes versiones. Esta página proporciona una comparación técnica detallada entre YOLOv7 y YOLOv9, dos modelos significativos de la serie YOLO desarrollados por investigadores del Instituto de Ciencias de la Información, Academia Sinica, Taiwán. Exploraremos sus innovaciones arquitectónicas, puntos de referencia de rendimiento y la idoneidad para diversas aplicaciones para ayudarle a tomar una decisión informada para su próximo proyecto de visión artificial.

YOLOv7: Detección de Objetos Eficiente y Rápida

Lanzado en julio de 2022, YOLOv7 fue un modelo histórico que pretendía optimizar significativamente tanto la velocidad como la precisión para la detección de objetos en tiempo real, estableciendo nuevos estándares de eficiencia en ese momento.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Características Clave

La filosofía de diseño de YOLOv7 se centra en maximizar la velocidad de inferencia sin comprometer la precisión. Introdujo varios elementos arquitectónicos clave y estrategias de entrenamiento para lograr este equilibrio:

  • Red de Agregación de Capas Eficiente Extendida (E-ELAN): Este componente central del *backbone* mejora la capacidad de aprendizaje de la red gestionando la agregación de características de manera más eficiente. Como se detalla en el artículo de investigación, permite que el modelo aprenda características más robustas sin un aumento sustancial en el costo computacional.
  • Escalado Compuesto del Modelo: YOLOv7 introdujo métodos de escalado compuesto para la profundidad y el ancho del modelo, lo que permite una optimización eficaz en una variedad de tamaños de modelo para adaptarse a diferentes presupuestos computacionales.
  • Bag-of-Freebies entrenable: Este concepto implica la incorporación de varias técnicas de optimización durante el proceso de entrenamiento, como la aumentación de datos avanzada y las estrategias de asignación de etiquetas. Estos métodos mejoran la precisión del modelo final sin añadir ninguna sobrecarga al coste de la inferencia.

Fortalezas y Debilidades

Fortalezas

  • Alta velocidad de inferencia: Optimizado para aplicaciones en tiempo real, YOLOv7 a menudo ofrece una inferencia más rápida que muchos modelos posteriores en ciertas configuraciones de hardware y tamaño de lote.
  • Rendimiento Sólido: Alcanza puntuaciones mAP competitivas, lo que lo convierte en una opción fiable y potente para muchas tareas de detección.
  • Modelo Establecido: Habiendo estado disponible durante algún tiempo, YOLOv7 se beneficia de una adopción más amplia, amplios recursos de la comunidad y numerosos ejemplos de implementación probados.

Debilidades

  • Menor Precisión Máxima: En comparación con el nuevo YOLOv9, YOLOv7 puede mostrar una precisión máxima ligeramente inferior, especialmente en escenarios complejos con muchos objetos pequeños o superpuestos.
  • Detección Basada en Anclas: Se basa en cuadros de anclaje predefinidos, que a veces pueden ser menos flexibles que los enfoques sin anclaje para detectar objetos con relaciones de aspecto inusuales o muy variadas.

Casos de uso

YOLOv7 es excepcionalmente adecuado para aplicaciones donde la velocidad de inferencia es el factor más crítico:

  • Análisis de vídeo y sistemas de vigilancia en tiempo real.
  • Implementaciones de Edge AI en dispositivos con recursos limitados, como los que se encuentran en robótica y drones.
  • Prototipado y desarrollo rápidos de sistemas de detección de objetos donde la rapidez de respuesta es esencial.

Más información sobre YOLOv7

YOLOv9: Información de gradiente programable para una precisión mejorada

Presentado en febrero de 2024, YOLOv9 representa una evolución arquitectónica significativa al abordar directamente el problema de la pérdida de información en las redes neuronales profundas, lo que lleva a ganancias sustanciales en la precisión.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentación: https://docs.ultralytics.com/models/yolov9/

Arquitectura y Características Clave

YOLOv9 introduce conceptos novedosos diseñados para mejorar el flujo de información a través de la red, lo que resulta en un aprendizaje más efectivo y una mayor precisión.

  • Información de Gradiente Programable (PGI): Esta es la innovación fundamental de YOLOv9. PGI aborda el problema del cuello de botella de la información inherente a las redes profundas generando gradientes fiables a través de ramas reversibles auxiliares. Esto asegura que la información crucial se preserve para las actualizaciones en las capas más profundas, evitando la pérdida de detalles clave necesarios para una detección precisa.
  • Red Generalizada de Agregación de Capas Eficiente (GELAN): Basándose en los éxitos de arquitecturas como CSPNet (utilizada en YOLOv5), GELAN es una nueva arquitectura de red altamente eficiente. Optimiza la utilización de parámetros y la eficiencia computacional, lo que permite que YOLOv9 logre un mejor rendimiento con menos recursos.

Fortalezas y Debilidades

Fortalezas

  • Precisión mejorada: La combinación de PGI y GELAN conduce a una extracción de características superior y puntuaciones mAP significativamente más altas en comparación con YOLOv7, lo que es particularmente evidente en las variantes de modelos más grandes.
  • Eficiencia mejorada: YOLOv9 logra una mejor precisión con menos parámetros y cálculos que los modelos anteriores. Para un nivel de precisión dado, YOLOv9 suele ser más eficiente que YOLOv7.
  • Innovaciones de última generación: Representa los últimos avances del linaje de investigación original de YOLO, superando los límites de lo que es posible en la detección de objetos en tiempo real.

Debilidades

  • Demanda computacional: Si bien es eficiente por su precisión, la arquitectura avanzada, especialmente en variantes más grandes como YOLOv9e, aún puede requerir importantes recursos computacionales para el entrenamiento y la implementación.
  • Modelo más reciente: Al ser una versión más reciente, el soporte de la comunidad y los tutoriales de implementación de terceros podrían ser menos extensos que los de un modelo bien establecido como YOLOv7. Sin embargo, su integración en el ecosistema de Ultralytics ayuda a mitigar esto al proporcionar una experiencia de usuario optimizada.

Casos de uso

YOLOv9 es la opción ideal para aplicaciones que exigen los más altos niveles de precisión y eficiencia:

  • Tareas de detección complejas en vehículos autónomos y sistemas avanzados de asistencia al conductor.
  • Sistemas de seguridad de alta precisión que requieren minimizar los falsos positivos y negativos.
  • Aplicaciones donde el tamaño del modelo y el coste computacional son limitaciones críticas, pero no se puede comprometer una alta precisión.

Más información sobre YOLOv9

Rendimiento y eficiencia comparados directamente

Al comparar directamente YOLOv7 y YOLOv9, surge una tendencia clara: YOLOv9 ofrece una mejor compensación entre precisión y coste computacional. Por ejemplo, el modelo YOLOv9m alcanza el mismo 51,4% de mAP que YOLOv7l, pero lo hace con casi la mitad de los parámetros (20,0M frente a 36,9M) y menos FLOPs. Del mismo modo, YOLOv9c ofrece un rendimiento comparable a YOLOv7x (53,0% frente a 53,1% mAP) al tiempo que es significativamente más eficiente, utilizando solo 25,3M de parámetros en comparación con los 71,3M de YOLOv7x. Esta ganancia de eficiencia es el resultado directo de las mejoras arquitectónicas en YOLOv9, particularmente PGI y GELAN, que permiten un aprendizaje más eficaz.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusión y recomendaciones

Tanto YOLOv7 como YOLOv9 son modelos de detección de objetos formidables, pero se adaptan a prioridades ligeramente diferentes.

  • YOLOv7 sigue siendo un competidor fuerte, especialmente para aplicaciones donde la velocidad de inferencia bruta es la principal preocupación y se prefiere una arquitectura establecida y ampliamente compatible. Es un caballo de batalla probado para muchos sistemas en tiempo real.

  • YOLOv9 es el claro sucesor y la opción recomendada para nuevos proyectos que requieren una precisión y eficiencia de última generación. Su innovadora arquitectura resuelve problemas clave en el aprendizaje profundo, lo que resulta en un modelo que es a la vez más preciso y más eficiente computacionalmente que su predecesor.

Si bien ambos modelos son excelentes, los desarrolladores que buscan una solución más integrada y versátil también deberían considerar los modelos del ecosistema Ultralytics, como Ultralytics YOLOv8 y el último YOLO11. Estos modelos ofrecen una experiencia de usuario optimizada, amplia documentación y soporte para una amplia gama de tareas más allá de la detección, incluida la segmentación de instancias, la estimación de poses y la clasificación, todo dentro de un único marco de trabajo bien mantenido.

Explorar Otros Modelos

Para obtener más comparaciones y explorar otros modelos de última generación, consulte estas otras páginas en la documentación de Ultralytics:

  • YOLOv5: Conocido por su equilibrio entre rendimiento y adopción generalizada.
  • YOLOv8: Un modelo versátil y potente que admite múltiples tareas de visión.
  • YOLOv10: Se centra en la detección de objetos de extremo a extremo en tiempo real eliminando la necesidad de NMS.
  • YOLO11: El último modelo de última generación de Ultralytics, que ofrece un rendimiento y una eficiencia de primer nivel.
  • RT-DETR: Un detector basado en transformer que ofrece un enfoque arquitectónico diferente.


📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios