Ir al contenido

YOLO vs. YOLOv9: Comparación técnica detallada

Elegir el modelo óptimo de detección de objetos es fundamental para las tareas de visión por ordenador, ya que los distintos modelos ofrecen ventajas únicas en cuanto a precisión, velocidad y eficacia. Esta página ofrece una comparación técnica entre YOLO y YOLOv9, dos modelos avanzados en este campo. Analizamos sus arquitecturas, puntos de referencia de rendimiento y aplicaciones adecuadas para guiarle en la selección del modelo.

DAMO-YOLO

YOLO fue presentado por Alibaba Group e introducido en noviembre de 2022(arXiv). Hace hincapié en un equilibrio entre velocidad y precisión, incorporando backbones de búsqueda de arquitectura neuronal (NAS) y componentes de red eficientes.

Arquitectura y características

La arquitectura de YOLO se distingue por varias innovaciones clave:

  • Red troncal NAS: Emplea una red troncal optimizada mediante búsqueda de arquitectura neuronal para una extracción eficiente de características.
  • RepGFPN: Utiliza una eficaz red de pirámide de características de gradiente reparametrizado (GFPN) para la fusión de características.
  • ZeroHead: un cabezal de detección ligero diseñado para reducir la carga computacional.
  • AlignedOTA: Implementa la asignación de transporte óptima alineada (OTA) para mejorar la asignación de etiquetas durante el entrenamiento.
  • Mejora de la destilación: Incorpora técnicas de destilación de conocimientos para potenciar el rendimiento.

Métricas de rendimiento

YOLO ofrece varios tamaños de modelos (diminuto, pequeño, mediano y grande) para satisfacer las distintas necesidades de cálculo. Los principales indicadores de rendimiento son:

  • mAP: Alcanza una precisión media competitiva en conjuntos de datos como COCO.
  • Velocidad de inferencia: Diseñada para una inferencia rápida, adecuada para tareas de detección de objetos en tiempo real.
  • Tamaño del modelo: Disponible en diferentes tamaños, lo que permite flexibilidad de despliegue.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta precisión y velocidad: equilibra la precisión con una velocidad de inferencia eficiente.
  • Arquitectura innovadora: Incorpora componentes NAS y eficientes para optimizar el rendimiento.
  • Adaptabilidad: Ofrece diferentes tamaños de modelo para diversos requisitos de aplicación.

Debilidades:

  • Complejidad: La arquitectura avanzada puede ser más compleja de personalizar o modificar en comparación con los modelos más sencillos.
  • Documentación limitada: La documentación puede ser menos extensa en comparación con modelos más adoptados como la serie YOLO (GitHub README).

Casos prácticos

YOLO es idóneo para aplicaciones que requieren una combinación de precisión y velocidad, como:

  • Vigilancia en tiempo real: Sistemas de seguridad y vigilancia en los que la detección a tiempo es crucial.
  • Robótica: Aplicaciones en robótica que exigen una percepción eficiente y precisa.
  • Inspección industrial: Procesos automatizados de control de calidad en la fabricación.

Más información sobre YOLO

YOLOv9

YOLOv9 es el último de la serie YOLO , presentado en febrero de 2024(arXiv) por investigadores del Instituto de Ciencias de la Información de la Academia Sinica de Taiwán. YOLOv9 se centra en abordar la pérdida de información en redes profundas para mejorar tanto la precisión como la eficiencia.

Arquitectura y características

YOLOv9 introduce técnicas innovadoras para superar las limitaciones de los modelos de aprendizaje profundo:

  • Información de gradiente programable (PGI): Una innovación clave para preservar información crucial en toda la red, mitigando la pérdida de información.
  • Red de Agregación de Capas Generalizada Eficiente (GELAN): Emplea GELAN para un cálculo y una utilización de parámetros eficientes.
  • Mejoras en la columna vertebral y el cabezal: Refinamientos en la columna vertebral y el cabezal de detección para mejorar la extracción y detección de características.

Métricas de rendimiento

YOLOv9 demuestra un rendimiento puntero en la detección de objetos en tiempo real:

  • mAP: Alcanza altas puntuaciones mAP en conjuntos de datos de referencia como COCO, superando a modelos anteriores.
  • Velocidad de inferencia: mantiene velocidades de inferencia impresionantes adecuadas para aplicaciones en tiempo real.
  • Tamaño del modelo: Ofrece distintos tamaños de modelo (diminuto, pequeño, mediano, etc.) con distintos recuentos de parámetros y FLOPs.

Puntos fuertes y débiles

Puntos fuertes:

  • Precisión de vanguardia: Consigue una precisión superior a la de muchos detectores de objetos en tiempo real.
  • Diseño eficiente: PGI y GELAN contribuyen a aumentar la eficiencia y reducir la carga computacional.
  • Versatilidad: Adaptable a diversas tareas de detección de objetos y escenarios de despliegue.
  • Integración deUltralytics : Fácil de usar con elpaquetePython de Ultralytics y una completa documentación.

Debilidades:

  • Nuevo modelo: Al tratarse de un modelo más reciente, el apoyo de la comunidad y los recursos disponibles podrían estar aún creciendo en comparación con modelos más consolidados.
  • Demanda computacional: Los modelos YOLOv9 de mayor tamaño pueden requerir importantes recursos informáticos.

Casos prácticos

YOLOv9 es ideal para aplicaciones que exigen la máxima precisión y procesamiento en tiempo real:

  • Sistemas avanzados de asistencia al conductor (ADAS): Coches que se conducen solos y sistemas autónomos que requieren una detección precisa de objetos.
  • Análisis de imágenes de alta resolución: Aplicaciones que se benefician de una detección detallada y precisa en imágenes de alta resolución, como el análisis de imágenes por satélite.
  • Automatización industrial: Tareas de automatización complejas que requieren alta precisión y fiabilidad.

Más información sobre YOLOv9

Tabla comparativa de modelos

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Tanto YOLO como YOLOv9 representan avances significativos en la detección de objetos. YOLO ofrece un sólido equilibrio entre velocidad y precisión gracias a su eficaz arquitectura, mientras que YOLOv9 supera los límites de la precisión con sus innovadoras técnicas PGI y GELAN. Su elección dependerá de las necesidades específicas de su aplicación, tanto si da prioridad a una precisión de vanguardia como a un perfil de rendimiento completo.

Los usuarios también podrían estar interesados en comparar estos modelos con otras variantes de YOLO como YOLOv8YOLOv7YOLOv5y YOLO11así como modelos como YOLOX, RT-DETRy PP-YOLOE para seguir explorando los modelos de detección de objetos.

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios