Ir al contenido

YOLOv9 vs. YOLOX: Una Comparación Técnica

Seleccionar el modelo de detección de objetos óptimo es crucial para lograr los resultados deseados en los proyectos de visión artificial. Los modelos difieren significativamente en arquitectura, rendimiento y requisitos de recursos. Esta página proporciona una comparación técnica detallada entre YOLOv9 y YOLOX, analizando sus características clave para ayudarle a elegir el que mejor se adapte a sus necesidades.

YOLOv9: Avance en la detección de objetos en tiempo real

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: arXiv:2402.13616
GitHub: github.com/WongKinYiu/yolov9
Documentación: docs.ultralytics.com/models/yolov9/

Ultralytics YOLOv9 representa un avance significativo en la detección de objetos, introduciendo técnicas innovadoras como la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). Desarrollado por Chien-Yao Wang y Hong-Yuan Mark Liao, YOLOv9 aborda la pérdida de información en redes neuronales profundas, mejorando tanto la precisión como la eficiencia. Integrado en el ecosistema de Ultralytics, YOLOv9 se beneficia de una experiencia de usuario optimizada, documentación completa y un sólido soporte de la comunidad.

Más información sobre YOLOv9

Arquitectura y Características Clave

La arquitectura de YOLOv9 está diseñada para preservar el flujo de información crucial a través de capas profundas utilizando PGI. Esto ayuda a mitigar el problema del cuello de botella de la información común en las redes profundas. GELAN optimiza la estructura de la red para una mejor utilización de los parámetros y eficiencia computacional, basándose en conceptos de CSPNet y ELAN. Esto resulta en un rendimiento de última generación con una eficiencia notable. La implementación de Ultralytics garantiza la facilidad de uso con una API de Python simple y procesos de entrenamiento eficientes, aprovechando los pesos pre-entrenados disponibles.

Fortalezas

  • Precisión de última generación: Alcanza puntuaciones mAP líderes en benchmarks como COCO, a menudo superando a otros modelos de tamaños similares.
  • Alta eficiencia: Ofrece una alta precisión con menos parámetros y FLOPs en comparación con muchas alternativas, lo que lo hace adecuado para la implementación en edge AI.
  • Preservación de la Información: PGI mitiga eficazmente la pérdida de información, mejorando la capacidad de aprendizaje del modelo y el rendimiento final.
  • Ecosistema Ultralytics: Se beneficia del desarrollo activo, los extensos recursos, la integración de Ultralytics HUB para MLOps y los menores requisitos de memoria durante el entrenamiento.
  • Versatilidad: Si bien el artículo original se centra en la detección, la arquitectura muestra potencial para tareas como segmentación de instancias y más, lo que se alinea con las capacidades multi-tarea de modelos como YOLOv8.

Debilidades

  • Como modelo más nuevo, la gama de ejemplos de implementación impulsados por la comunidad aún podría estar creciendo en comparación con los modelos establecidos desde hace mucho tiempo. Sin embargo, su integración dentro del marco de Ultralytics acelera significativamente la adopción y proporciona un sistema de soporte robusto.

YOLOX: Detector de alto rendimiento sin anclajes

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización: Megvii
Fecha: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Documentación: https://yolox.readthedocs.io/en/latest/

YOLOX, desarrollado por Megvii, es un modelo de detección de objetos sin anclajes que busca la simplicidad y el alto rendimiento. Al eliminar el mecanismo de cuadro de anclaje, YOLOX simplifica el proceso de entrenamiento y reduce el número de parámetros de diseño, lo que puede mejorar la generalización.

Más información sobre YOLOX

Arquitectura y Características Clave

YOLOX se distingue por varias opciones arquitectónicas clave. La más significativa es su diseño sin anclajes, que trata la detección de objetos como un problema de predicción por píxel. Otras características clave incluyen un cabezal desacoplado que separa las tareas de clasificación y localización, una estrategia avanzada de asignación de etiquetas llamada SimOTA y el uso de sólidas técnicas de aumento de datos como MixUp y Mosaic.

Fortalezas

  • Diseño sin anclajes: Simplifica la arquitectura del modelo y el proceso de entrenamiento al eliminar la necesidad de ajustar los cuadros delimitadores de anclaje.
  • Sólido Rendimiento: Logra un equilibrio competitivo entre la precisión media promedio (mAP) y la velocidad de inferencia para su época.
  • Escalabilidad: Ofrece una variedad de tamaños de modelos, desde YOLOX-Nano hasta YOLOX-X, lo que permite la implementación en diversos recursos computacionales.

Debilidades

  • Superado por modelos más recientes: Si bien es innovador, YOLOX ha sido superado tanto en precisión como en eficiencia por modelos más nuevos como YOLOv9.
  • Ecosistema fragmentado: Aunque es de código abierto, carece del ecosistema integrado y las herramientas optimizadas que proporciona Ultralytics, como la integración perfecta con Ultralytics HUB para MLOps.
  • Mayor coste computacional: Para un nivel de precisión dado, los modelos YOLOX más grandes tienden a tener más parámetros y FLOPs que los modelos YOLOv9 comparables.

Comparación de rendimiento: YOLOv9 vs. YOLOX

Al comparar el rendimiento en el conjunto de datos COCO, YOLOv9 demuestra una clara ventaja tanto en precisión como en eficiencia. La tabla a continuación muestra que los modelos YOLOv9 logran consistentemente puntuaciones mAP más altas con menos parámetros y FLOPs que sus contrapartes YOLOX. Por ejemplo, YOLOv9-C alcanza un mAP del 53.0% con 25.3M de parámetros, superando a YOLOX-L (mAP del 49.7% con 54.2M de parámetros) y YOLOX-X (mAP del 51.1% con 99.1M de parámetros) al tiempo que es significativamente más eficiente. El modelo más grande, YOLOv9-E, lleva el límite de precisión al 55.6% de mAP, un nivel que YOLOX no alcanza. Este rendimiento superior por cálculo hace de YOLOv9 una opción más potente y amigable con los recursos para las aplicaciones modernas.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Casos de Uso Ideales

YOLOv9

La precisión y eficiencia superiores de YOLOv9 la convierten en la opción ideal para aplicaciones exigentes donde el rendimiento es crítico. Destaca en escenarios como:

  • Sistemas Avanzados de Asistencia al Conductor (ADAS): Detección de vehículos, peatones y señales de tráfico con alta precisión para la conducción autónoma.
  • Seguridad de alta fidelidad: Monitoreo de escenas complejas en sistemas de seguridad con bajas tasas de falsos positivos.
  • Automatización industrial: Realización de un control de calidad detallado en la fabricación mediante la identificación de pequeños defectos.
  • Imágenes médicas: Asistencia en el análisis de escaneos médicos proporcionando una detección de objetos precisa de anomalías.

YOLOX

YOLOX es ideal para aplicaciones que requieren un equilibrio sólido entre precisión y velocidad, particularmente donde su diseño sin anclajes podría ofrecer beneficios para conjuntos de datos específicos. Los casos de uso ideales incluyen:

  • Seguimiento en tiempo real: Aplicaciones en robótica y sistemas de vigilancia donde se necesita el seguimiento de objetos en tiempo real.
  • Investigación académica: Su diseño modular y sin anclaje lo convierte en un modelo interesante para la investigación y la experimentación en arquitecturas de detección de objetos.
  • Implementaciones en el Edge: Las variantes más pequeñas, YOLOX-Nano e YOLOX-Tiny, se pueden implementar en dispositivos con recursos limitados, aunque los modelos más nuevos como YOLOv9 a menudo ofrecen un mejor rendimiento por el mismo costo de recursos.

Conclusión y recomendación

Tanto YOLOv9 como YOLOX han contribuido significativamente al campo de la detección de objetos. YOLOX superó los límites con su diseño sin anclajes y su encabezado desacoplado, ofreciendo una base sólida para la detección en tiempo real. Sin embargo, YOLOv9 ha establecido un nuevo estándar tanto para la precisión como para la eficiencia. Sus innovadoras arquitecturas PGI y GELAN le permiten lograr un rendimiento superior con menos recursos computacionales.

Para desarrolladores e investigadores que buscan el mejor rendimiento, eficiencia y facilidad de uso, YOLOv9 es la opción más clara. Su integración en el ecosistema de Ultralytics proporciona ventajas incomparables:

  • Facilidad de uso: Una API de Python optimizada, una extensa documentación y un uso directo de la CLI simplifican el desarrollo.
  • Ecosistema bien mantenido: Desarrollo activo, sólido apoyo de la comunidad, actualizaciones frecuentes e integración con Ultralytics HUB para un MLOps perfecto.
  • Equilibrio de rendimiento: Una excelente compensación entre velocidad y precisión, lo que lo hace adecuado para diversos escenarios del mundo real, desde el borde hasta la nube.
  • Eficiencia en el entrenamiento: Tiempos de entrenamiento más rápidos, ponderaciones preentrenadas disponibles y utilización eficiente de los recursos.

Explorar Otros Modelos

Si bien esta página se centra en YOLOv9 e YOLOX, el campo de la visión artificial es vasto. Le animamos a explorar otros modelos de última generación disponibles dentro del ecosistema de Ultralytics. Considere la posibilidad de consultar nuestras comparaciones de YOLOv9 vs. YOLOv8 para obtener información sobre los últimos modelos de Ultralytics, o YOLOv9 vs. YOLOv5 para ver cuánto ha progresado la tecnología desde un estándar industrial establecido. Para aquellos interesados en arquitecturas basadas en transformadores, nuestra comparación RT-DETR vs. YOLOv9 ofrece un análisis detallado.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios