Ir al contenido

YOLOv9 frente a YOLOv6-3.0: Comparación detallada

A la hora de elegir un modelo de visión por ordenador para la detección de objetos, es fundamental comprender los matices entre las distintas arquitecturas. Esta página ofrece una comparación técnica detallada entre YOLOv9 e YOLOv6-3.0, dos modelos de última generación de la familia YOLO . Profundizamos en sus diseños arquitectónicos, pruebas de rendimiento y aplicaciones adecuadas para ayudarle a tomar una decisión informada.

Panorama arquitectónico

YOLOv9, presentado a principios de 2024 por Wang y Liao, del Instituto de Ciencias de la Información de la Academia Sinica de Taiwán, representa un importante salto adelante en la detección de objetos al abordar el problema de la pérdida de información en las redes profundas. Introduce dos innovaciones clave:

  • Información de gradiente programable (PGI): Este mecanismo está diseñado para preservar información crucial en toda la red, mitigando la pérdida de información, lo que resulta especialmente beneficioso para arquitecturas más profundas y complejas.
  • Red de Agregación de Capas Eficiente Generalizada (GELAN): GELAN optimiza la arquitectura de red para mejorar la utilización de los parámetros y la eficiencia computacional, lo que permite una detección más rápida y precisa.

Estos avances permiten a YOLOv9 alcanzar una mayor precisión con un número potencialmente menor de parámetros en comparación con sus predecesores. La arquitectura se detalla en el artículo"YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information", disponible en arXiv. El código oficial también está disponible en GitHub.

YOLOv6-3.0, desarrollado por Meituan y detallado en su documento de 2023"YOLOv6 v3.0: A Full-Scale Reloading", se centra en lograr un equilibrio entre velocidad y precisión, lo que lo hace muy adecuado para aplicaciones industriales y sistemas en tiempo real. Entre sus características arquitectónicas destacan:

  • Módulo de concatenación bidireccional (BiC): Este módulo mejora las señales de localización dentro del cuello de la red, mejorando la precisión de la detección sin afectar significativamente a la velocidad.
  • Estrategia de formación asistida por anclaje (AAT): La AAT ayuda a una formación más eficaz, contribuyendo al rendimiento general del modelo.

YOLOv6-3.0 se ha diseñado para ser eficiente, dando prioridad a tiempos de inferencia más rápidos y modelos de menor tamaño. El código base está disponible públicamente en GitHub.

Métricas de rendimiento

La tabla siguiente compara el rendimiento de los modelos YOLOv9 y YOLOv6-3.0 en el conjunto de datos COCO.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3,0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Análisis:

  • Precisión (mAP): los modelos YOLOv9 suelen mostrar puntuaciones mAP más altas, lo que indica una mayor precisión en la detección de objetos, especialmente en los modelos de mayor tamaño (m, c, e). Por ejemplo, YOLOv9e alcanza un mAPval50-95 del 55,6%, superando a YOLOv6-3.0l con un 52,8%.
  • Velocidad de in ferencia: Los modelos YOLOv6-3.0 son notablemente más rápidos en inferencia, especialmente las variantes más pequeñas como YOLOv6-3.0n y YOLOv6-3.0s. YOLOv6-3.0n alcanza una velocidad TensorRT de 1,17 ms, significativamente más rápido que YOLOv9t con 2,3 ms.
  • Tamaño del modelo y FLOPs: los modelos YOLOv9 tienden a tener menos parámetros y menos FLOPs para una precisión comparable o mejor que YOLOv6-3.0 en algunas categorías de tamaño, lo que demuestra la eficiencia de su arquitectura. Por ejemplo, YOLOv9c tiene menos parámetros (25,3M) y FLOPs (102,1B) que YOLOv6-3.0l (59,6M y 150,7B) manteniendo una precisión comparable.

Casos prácticos

YOLOv9:

  • Exigencias de alta precisión: Ideal para aplicaciones en las que la precisión es primordial, como la conducción autónoma, los sistemas de vigilancia avanzados y el análisis detallado de imágenes médicas.
  • Escenarios complejos: Destaca en escenarios con fondos complejos o numerosos objetos pequeños, en los que es fundamental conservar la información de las características.
  • Investigación y desarrollo: Adecuado para ampliar los límites del rendimiento de la detección de objetos y explorar nuevas optimizaciones arquitectónicas.

Más información sobre YOLOv9

YOLOv6-3.0:

  • Aplicaciones en tiempo real: El más adecuado para aplicaciones que requieren velocidades de inferencia rápidas, como el análisis de vídeo en tiempo real, la robótica y los sistemas basados en drones.
  • Dispositivos con recursos limitados: Optimizado para su despliegue en dispositivos periféricos, plataformas móviles y sistemas con recursos computacionales limitados gracias a su diseño eficiente y al menor tamaño de los modelos.
  • Aplicaciones industriales: Muy adecuado para entornos industriales que necesitan una detección de objetos robusta y rápida para tareas como el control de calidad, la inspección automatizada y la supervisión de la seguridad.

Más información sobre YOLOv6

Formación y aplicación

Tanto YOLOv9 como YOLOv6-3.0 pueden entrenarse e implementarse utilizando marcos de aprendizaje profundo populares como PyTorch. Ultralytics proporciona documentación completa y soporte para ambos modelos, haciéndolos accesibles para investigadores y desarrolladores. Puede encontrar guías detalladas sobre entrenamiento, validación e implementación en los documentos oficiales de Ultralytics para YOLOv9 y YOLOv6.

Conclusión

La elección entre YOLOv9 y YOLOv6-3.0 depende en gran medida de los requisitos específicos de su proyecto. Si la precisión es la máxima prioridad y los recursos computacionales son menos limitantes, YOLOv9 ofrece un rendimiento de vanguardia. Por el contrario, si la velocidad y la eficacia para el despliegue en tiempo real o en los bordes son cruciales, YOLOv6-3.0 ofrece un excelente equilibrio entre velocidad y precisión razonable.

Para los usuarios interesados en explorar otros modelos, Ultralytics también ofrece una amplia gama de modelos YOLO , incluyendo YOLOv8, YOLOv5y YOLO11cada uno de ellos con ventajas únicas adaptadas a diferentes casos de uso. Considere la posibilidad de explorar estos modelos para encontrar el que mejor se adapte a sus necesidades de visión por ordenador.

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios