Ir al contenido

Comparación técnica: YOLOX vs. YOLOv9 para la detección de objetos

Seleccionar el modelo de detección de objetos adecuado es fundamental para lograr resultados óptimos en las tareas de visión artificial. Esta página proporciona una comparación técnica detallada entre YOLOX y YOLOv9, dos modelos avanzados conocidos por su rendimiento y eficiencia en la detección de objetos. Exploraremos sus diferencias arquitectónicas, puntos de referencia de rendimiento e idoneidad para diversas aplicaciones para ayudarle a tomar una decisión informada.

YOLOX: Detector de alto rendimiento sin anclajes

YOLOX es un modelo de detección de objetos sin anclajes desarrollado por Megvii. Introducido en julio de 2021, YOLOX busca la simplicidad y el alto rendimiento eliminando el concepto de anchor box, lo que simplifica el modelo y potencialmente mejora la generalización.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización: Megvii
Fecha: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Documentación: https://yolox.readthedocs.io/en/latest/

Arquitectura y Características Clave

YOLOX se distingue por un mecanismo sin anclajes, que simplifica la arquitectura. Las características clave incluyen:

  • Decoupled Head: Separa los heads de clasificación y localización para mejorar el rendimiento.
  • Asignación de Etiquetas SimOTA: Una estrategia avanzada de asignación de etiquetas para un entrenamiento optimizado.
  • Aumento de Datos Robusto: Utiliza técnicas como MixUp y Mosaic para mejorar la solidez y la generalización, detallado más adelante en las guías sobre aumento de datos.

Fortalezas y Debilidades

Ventajas:

  • Diseño sin anclajes: Simplifica la arquitectura del modelo, reduciendo los parámetros de diseño y la complejidad.
  • Alta Precisión y Velocidad: Logra un fuerte equilibrio entre la precisión media promedio (mAP) y la velocidad de inferencia.
  • Escalabilidad: Ofrece una variedad de tamaños de modelos (Nano a X), lo que permite la implementación en diversos recursos computacionales.

Debilidades:

  • Ecosistema: Aunque es de código abierto, carece del ecosistema integrado y las herramientas proporcionadas por Ultralytics, como la integración perfecta con Ultralytics HUB para flujos de trabajo integrales.
  • Velocidad de inferencia: Los modelos YOLOX más grandes pueden ser más lentos que los modelos optimizados comparables como YOLOv9, especialmente en cierto hardware.

Casos de Uso Ideales

YOLOX es ideal para aplicaciones que necesitan un equilibrio entre alta precisión y velocidad, tales como:

  • Detección de objetos en tiempo real en sistemas de robótica y vigilancia.
  • Investigación y desarrollo debido a su diseño modular y a la implementación en PyTorch.
  • Implementaciones de Edge AI, particularmente las variantes Nano y Tiny más pequeñas en dispositivos como la NVIDIA Jetson.

Más información sobre YOLOX

YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable

Ultralytics YOLOv9 representa un avance significativo en la detección de objetos, abordando los desafíos de la pérdida de información en las redes neuronales profundas a través de diseños arquitectónicos innovadores.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentación: https://docs.ultralytics.com/models/yolov9/

Arquitectura y Características Clave

La arquitectura de YOLOv9 está diseñada para preservar el flujo de información crucial a través de capas profundas utilizando Información de Gradiente Programable (PGI). Esto asegura un flujo de gradiente confiable para actualizaciones efectivas del modelo. También introduce la Red de Agregación de Capas Eficiente Generalizada (GELAN), que optimiza la estructura de la red para una mejor utilización de los parámetros y eficiencia computacional. La integración de YOLOv9 en el ecosistema de Ultralytics garantiza una experiencia de usuario optimizada con una API simple y procesos de entrenamiento eficientes.

Fortalezas y Debilidades

Ventajas:

  • Precisión de última generación: Alcanza puntuaciones mAP líderes en benchmarks como COCO.
  • Alta eficiencia: Supera a los modelos anteriores al ofrecer una alta precisión con menos parámetros y FLOPs, lo que lo hace adecuado para la implementación en edge AI.
  • Preservación de la Información: PGI mitiga eficazmente la pérdida de información, mejorando el aprendizaje del modelo.
  • Ecosistema Ultralytics: Se beneficia del desarrollo activo, la extensa documentación, la integración de Ultralytics HUB para MLOps y los menores requisitos de memoria durante el entrenamiento en comparación con muchas alternativas.
  • Versatilidad: Si bien el artículo original se centra en la detección, la arquitectura muestra potencial para tareas como la segmentación de instancias y potencialmente más, lo que se alinea con las capacidades multi-tarea que se encuentran a menudo en los modelos de Ultralytics como YOLOv8.

Debilidades:

  • Novedad: Al ser un modelo más reciente, la variedad de ejemplos de implementación impulsados por la comunidad aún podría estar creciendo en comparación con los modelos establecidos desde hace mucho tiempo. Sin embargo, su integración dentro del marco de Ultralytics acelera significativamente la adopción y proporciona un soporte sólido.

Casos de Uso Ideales

YOLOv9 destaca en aplicaciones donde la alta precisión y la eficiencia son primordiales. Esto incluye tareas complejas como la conducción autónoma, los sistemas de seguridad avanzados y el reconocimiento detallado de objetos para el control de calidad en la fabricación.

Más información sobre YOLOv9

Análisis de rendimiento: YOLOX vs. YOLOv9

Al comparar YOLOX y YOLOv9, surge una tendencia clara: YOLOv9 ofrece sistemáticamente una mayor precisión para un presupuesto computacional similar o inferior. Las innovaciones arquitectónicas en YOLOv9, como PGI y GELAN, le permiten lograr una mejor compensación entre precisión, recuento de parámetros y FLOPs. Por ejemplo, YOLOv9-M alcanza un mAP más alto que YOLOX-l al tiempo que tiene menos de la mitad de los parámetros y FLOPs. Esta eficiencia convierte a YOLOv9 en una opción más potente para las aplicaciones modernas que requieren una inferencia en tiempo real de alto rendimiento. Si bien YOLOX sigue siendo un modelo competente y rápido, especialmente sus variantes más pequeñas para la computación en el borde, YOLOv9 establece un nuevo punto de referencia para el rendimiento.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusión y recomendaciones

Tanto YOLOX como YOLOv9 son modelos de detección de objetos potentes, pero satisfacen diferentes prioridades. YOLOX es un modelo sin anclajes altamente capaz que ofrece un gran equilibrio entre velocidad y precisión, lo que lo convierte en una opción confiable para muchas aplicaciones en tiempo real. Sin embargo, YOLOv9 representa la próxima generación de detectores de objetos, que ofrece una precisión y eficiencia superiores a través de su innovadora arquitectura PGI y GELAN. Para los proyectos que requieren el máximo rendimiento, YOLOv9 es el claro ganador.

Para desarrolladores e investigadores que buscan una plataforma integral y fácil de usar, los modelos YOLO de Ultralytics como YOLOv8 y el último YOLO11 ofrecen ventajas significativas sobre las implementaciones independientes:

  • Facilidad de uso: Una API de python optimizada, extensa documentación y numerosas guías simplifican el desarrollo y la implementación.
  • Ecosistema bien mantenido: Benefíciese del desarrollo activo, un sólido apoyo de la comunidad, actualizaciones frecuentes, pesos pre-entrenados disponibles y la integración con Ultralytics HUB para MLOps sin problemas.
  • Equilibrio de rendimiento: Los modelos de Ultralytics proporcionan un excelente equilibrio entre velocidad y precisión, lo que los hace adecuados para una amplia gama de escenarios del mundo real.
  • Eficiencia de memoria: Normalmente, requieren menos memoria durante el entrenamiento y la inferencia en comparación con otros tipos de modelos, lo cual es crucial para entornos con recursos limitados.
  • Versatilidad: Soporte para múltiples tareas más allá de la detección de objetos, incluyendo segmentación, estimación de pose, clasificación y seguimiento.
  • Eficiencia en el entrenamiento: Los tiempos de entrenamiento más rápidos y la utilización eficiente de los recursos son características distintivas del framework Ultralytics.

Para los usuarios que exploran alternativas, consideren comparar estos modelos con otros como YOLOv5 o consultar comparaciones como YOLOv8 vs. YOLOX y RT-DETR vs. YOLOv9 para obtener más información.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios