Ir al contenido

YOLOv9 vs. YOLOv7: Una Comparación Técnica Detallada

Al seleccionar un modelo YOLO para la detección de objetos, es crucial comprender los matices entre las diferentes versiones. Esta página proporciona una comparación técnica detallada entre YOLOv7 y YOLOv9, dos modelos significativos de la serie YOLO desarrollados por investigadores del Instituto de Ciencias de la Información, Academia Sinica, Taiwán. Exploraremos sus innovaciones arquitectónicas, puntos de referencia de rendimiento y la idoneidad para diversas aplicaciones para ayudarle a tomar una decisión informada para sus proyectos de visión artificial.

YOLOv9: Información de Gradiente Programable para un Aprendizaje Mejorado

YOLOv9, presentado en febrero de 2024, representa un avance significativo al abordar la pérdida de información en redes neuronales profundas, un problema común que puede degradar el rendimiento del modelo.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentación: https://docs.ultralytics.com/models/yolov9/

Arquitectura y Características Clave

YOLOv9 introduce conceptos novedosos para mejorar el flujo de información y la eficiencia del aprendizaje, lo que lo distingue de sus predecesores.

  • Información de Gradiente Programable (PGI): Esta es la innovación central de YOLOv9. Aborda el problema del cuello de botella de la información en las redes profundas generando gradientes fiables a través de ramas reversibles auxiliares. Esto asegura que la información crucial se preserve a través de todas las capas, lo que lleva a un entrenamiento del modelo más eficaz y a una mejor precisión final.
  • Red Generalizada de Agregación de Capas Eficiente (GELAN): YOLOv9 presenta una nueva arquitectura de red que optimiza la utilización de parámetros y la eficiencia computacional. GELAN es una arquitectura ligera, basada en la planificación de la ruta de gradiente, que se basa en los éxitos de diseños como CSPNet, que fue fundamental en modelos como YOLOv5.

Fortalezas

  • Precisión mejorada: La combinación de PGI y GELAN permite una extracción de características superior y puntuaciones de precisión media promedio (mAP) más altas en comparación con YOLOv7, lo que es particularmente evidente en las variantes de modelos más grandes.
  • Eficiencia mejorada: YOLOv9 logra una mejor precisión con menos parámetros y cálculos (FLOPs) que YOLOv7. Por ejemplo, YOLOv9-C logra un mAP similar a YOLOv7x con un 66% menos de parámetros y un 46% menos de FLOPs.
  • De última generación: Representa las últimas innovaciones de los autores originales de YOLO, superando los límites de lo posible en la detección de objetos en tiempo real.

Debilidades

  • Demanda computacional: Si bien es eficiente por su precisión, la arquitectura avanzada, especialmente las variantes más grandes como YOLOv9-E, aún puede requerir importantes recursos computacionales para el entrenamiento y la implementación.
  • Modelo más reciente: Al ser una versión más reciente, el soporte de la comunidad y los tutoriales de implementación disponibles podrían ser menos extensos que los de YOLOv7, que está bien establecido. Sin embargo, la implementación de Ultralytics YOLOv9 mitiga esto al proporcionar un entorno optimizado, bien documentado y con soporte.

Casos de uso

YOLOv9 es ideal para aplicaciones que exigen la máxima precisión y eficiencia, donde la detección precisa de objetos es fundamental.

Más información sobre YOLOv9

YOLOv7: Optimizado para Velocidad y Eficiencia

YOLOv7, lanzado en julio de 2022, fue un modelo histórico que tenía como objetivo optimizar significativamente el equilibrio entre velocidad y precisión para la inferencia en tiempo real.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Características Clave

YOLOv7 se centró en optimizar la arquitectura y el proceso de entrenamiento para que los modelos fueran más rápidos y precisos sin aumentar el coste de la inferencia.

  • Red de Agregación de Capas Eficiente Extendida (E-ELAN): Este bloque arquitectónico mejora la capacidad de aprendizaje de la red al permitirle aprender características más diversas, mejorando el rendimiento sin interrumpir la ruta de gradiente original.
  • Escalado de modelos: YOLOv7 introdujo métodos de escalado compuesto para la profundidad y el ancho del modelo, lo que permite optimizarlo eficazmente para diferentes tamaños de modelo y presupuestos computacionales.
  • Bag-of-Freebies entrenable: Este concepto incorpora varias técnicas de optimización durante el entrenamiento, como la aumentación de datos avanzada y las estrategias de asignación de etiquetas. Estas técnicas mejoran la precisión sin añadir ninguna sobrecarga computacional durante la inferencia.

Fortalezas

  • Alta velocidad de inferencia: YOLOv7 está altamente optimizado para la velocidad y sigue siendo uno de los detectores de objetos más rápidos disponibles, lo que lo hace excelente para aplicaciones en tiempo real en varios hardwares.
  • Rendimiento Sólido: Alcanza puntuaciones mAP competitivas, lo que lo convierte en una opción fiable y potente para muchas tareas estándar de detección de objetos.
  • Modelo Establecido: Habiendo estado disponible durante más tiempo, YOLOv7 se beneficia de una adopción más amplia, amplios recursos de la comunidad y muchos ejemplos de implementación probados en diferentes industrias.

Debilidades

  • Menor Precisión Máxima: Aunque es rápido, puede mostrar una precisión máxima ligeramente inferior en comparación con el nuevo YOLOv9 en escenarios complejos con objetos desafiantes.
  • Basado en Anclas: Se basa en cuadros de anclaje predefinidos, que a veces pueden ser menos flexibles que los enfoques sin anclaje para detectar objetos con relaciones de aspecto inusuales.

Casos de uso

YOLOv7 es ideal para aplicaciones en las que la velocidad de inferencia es el factor más crítico.

  • Análisis de vídeo y vigilancia en tiempo real en dispositivos edge AI.
  • Sistemas de alto rendimiento como el control de calidad en una línea de producción de rápido movimiento.
  • Prototipado rápido de sistemas de detección de objetos donde la implementación rápida es esencial.

Más información sobre YOLOv7

Rendimiento y eficiencia: Un análisis comparativo directo

La principal diferencia entre YOLOv9 y YOLOv7 radica en la compensación entre precisión, tamaño del modelo y coste computacional. YOLOv9 impulsa la frontera de la eficiencia, ofreciendo una mayor precisión con menos parámetros y FLOPs. Por ejemplo, YOLOv9-M logra el mismo 51.4% de mAP que YOLOv7l pero con un 46% menos de parámetros y un 27% menos de FLOPs. Esta tendencia continúa en la escala, donde YOLOv9-E establece un nuevo estado del arte con un 55.6% de mAP, superando todas las variantes de YOLOv7.

Esta eficiencia mejorada significa que, para un objetivo de precisión dado, YOLOv9 ofrece un modelo más pequeño, más rápido y con mayor eficiencia energética.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Conclusión: ¿Qué modelo es el adecuado para ti?

Tanto YOLOv7 como YOLOv9 son modelos potentes, pero satisfacen diferentes necesidades.

  • Elija YOLOv9 si su aplicación requiere la máxima precisión y eficiencia posibles. Sus avances arquitectónicos lo hacen superior para escenas complejas e implementaciones con recursos limitados donde necesita el mejor rendimiento de un modelo más pequeño.

  • Elija YOLOv7 si necesita un modelo probado en batalla y extremadamente rápido para aplicaciones estándar en tiempo real y prefiere trabajar con una arquitectura más establecida con vastos recursos de la comunidad.

Para desarrolladores e investigadores que buscan la mejor experiencia general, recomendamos utilizar estos modelos dentro del ecosistema de Ultralytics. Los modelos más nuevos como Ultralytics YOLOv8 y YOLO11 no solo ofrecen un rendimiento competitivo, sino que también vienen con ventajas significativas:

  • Facilidad de uso: Una experiencia de usuario optimizada con una sencilla API de python y una extensa documentación.
  • Ecosistema bien mantenido: Desarrollo activo, sólido apoyo de la comunidad e integración con herramientas como Ultralytics HUB para el entrenamiento y la implementación sin código.
  • Versatilidad: Soporte para múltiples tareas más allá de la detección, incluyendo segmentación de instancias, estimación de pose y clasificación, todo dentro de un único framework.
  • Eficiencia en el entrenamiento: Procesos de entrenamiento eficientes con ponderaciones preentrenadas disponibles y menores requisitos de memoria en comparación con muchos otros tipos de modelos.

Explorar Otros Modelos

Para obtener más comparaciones, considere explorar otros modelos de última generación disponibles en la documentación de Ultralytics:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios