Ir al contenido

YOLOv7 vs. YOLOX: Una comparación técnica detallada

Elegir el modelo óptimo de detección de objetos es una decisión crítica para los proyectos de visión artificial. Comprender las fortalezas y debilidades específicas de las diferentes arquitecturas es clave para lograr el máximo rendimiento. Esta página proporciona una comparación técnica de dos modelos influyentes, YOLOv7 y YOLOX, detallando sus matices arquitectónicos, benchmarks de rendimiento y escenarios de implementación ideales.

YOLOv7: Detección eficiente y de alta precisión

YOLOv7, presentado en julio de 2022, rápidamente estableció nuevos estándares para los detectores de objetos en tiempo real al optimizar tanto la eficiencia del entrenamiento como la velocidad de inferencia. Representa un importante paso adelante en el equilibrio entre velocidad y precisión para aplicaciones exigentes.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Características Clave

YOLOv7 introdujo varias innovaciones arquitectónicas detalladas en su artículo. Un componente clave es la Red de Agregación de Capas Eficiente Extendida (E-ELAN), que mejora la capacidad de la red para aprender sin interrumpir la ruta del gradiente, mejorando la extracción de características. El modelo también emplea técnicas avanzadas de escalado adecuadas para modelos basados en concatenación y utiliza una "bolsa de trucos entrenable". Estas son mejoras de entrenamiento, como la convolución de re-parametrización planificada y la pérdida auxiliar de lo grueso a lo fino, que mejoran la precisión sin aumentar el costo de la inferencia. Estas características permiten a YOLOv7 lograr resultados de vanguardia en la detección de objetos con tamaños de modelo competitivos.

Rendimiento y casos de uso

YOLOv7 destaca en escenarios que exigen tanto una inferencia rápida como una alta precisión. Sus impresionantes métricas de mAP y velocidad lo convierten en una opción sólida para aplicaciones como el análisis de vídeo en tiempo real, los sistemas de conducción autónoma y el procesamiento de imágenes de alta resolución. En las implementaciones de ciudades inteligentes, YOLOv7 puede utilizarse para la gestión del tráfico o para mejorar los sistemas de seguridad para la detección inmediata de amenazas.

Fortalezas y Debilidades

  • Fortalezas: Proporciona un fuerte equilibrio entre la precisión de la detección y la velocidad de inferencia. Emplea técnicas de entrenamiento avanzadas ("bag-of-freebies") para un mejor rendimiento sin aumentar significativamente las demandas computacionales durante la inferencia. La arquitectura incorpora módulos de vanguardia como E-ELAN.
  • Debilidades: La arquitectura y el proceso de entrenamiento pueden ser más complejos en comparación con modelos más sencillos como YOLOv5. El entrenamiento de modelos YOLOv7 más grandes también exige importantes recursos computacionales, aunque la inferencia sigue siendo rápida.

Más información sobre YOLOv7

YOLOX: Excelencia sin anclajes

YOLOX, introducido por Megvii en 2021, se distingue por su diseño sin anclajes, que simplifica el proceso de entrenamiento y tiene como objetivo mejorar la generalización. Al alejarse de los cuadros de anclaje predefinidos, YOLOX predice directamente las ubicaciones de los objetos, ofreciendo un enfoque diferente para la detección de objetos.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización: Megvii
Fecha: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Documentación: https://yolox.readthedocs.io/en/latest/

Arquitectura y Características Clave

YOLOX adopta varias innovaciones arquitectónicas clave. Su enfoque sin anclajes elimina la necesidad de cuadros de anclaje, lo que reduce la complejidad del diseño y el coste computacional. Esto lo hace más adaptable a varios tamaños de objetos y relaciones de aspecto, lo que podría mejorar el rendimiento en diversos conjuntos de datos como COCO. También emplea un cabezal desacoplado para la clasificación y la localización, lo que contribuye a una convergencia más rápida y una mayor precisión. YOLOX utiliza sólidas técnicas de aumento de datos como MixUp y Mosaic y una estrategia avanzada de asignación de etiquetas llamada SimOTA (Simplified Optimal Transport Assignment) para mejorar aún más la eficiencia del entrenamiento.

Rendimiento y casos de uso

YOLOX logra un buen equilibrio entre velocidad y precisión. Su naturaleza sin anclajes lo hace particularmente adecuado para aplicaciones donde las escalas de los objetos varían significativamente. Es un fuerte competidor para tareas que requieren una detección eficiente y precisa, como en implementaciones de robótica e IA en el borde (edge AI). Por ejemplo, en la fabricación, YOLOX se puede utilizar para la inspección de calidad, aprovechando su robustez a diversas formas de objetos para la detección de defectos.

Fortalezas y Debilidades

  • Puntos fuertes: El diseño sin anclajes simplifica la implementación y los pipelines de entrenamiento. La potente ampliación de datos y el enfoque sin anclajes mejoran la generalización a nuevos conjuntos de datos. El head desacoplado y la naturaleza sin anclajes contribuyen a una inferencia eficiente.
  • Debilidades: Aunque es eficiente, puede que no sea el más rápido entre todos los modelos YOLO, especialmente en comparación con las versiones optimizadas de YOLOv7 o los modelos Ultralytics más recientes como YOLOv8. Además, no forma parte del ecosistema integrado de Ultralytics, por lo que podría carecer de una integración perfecta con herramientas como Ultralytics HUB.

Más información sobre YOLOX

Rendimiento y benchmarks: YOLOv7 vs. YOLOX

Al comparar los dos, YOLOv7 generalmente logra una mayor precisión (mAP) para sus modelos más grandes, superando el estado del arte para los detectores en tiempo real en el momento de su lanzamiento. YOLOX, por otro lado, proporciona una gama más amplia de modelos escalables, desde el muy pequeño YOLOX-Nano hasta el grande YOLOX-X. El diseño sin anclajes de YOLOX puede ofrecer ventajas en simplicidad y generalización, mientras que el enfoque de "bolsa de trucos gratis" de YOLOv7 maximiza la precisión sin agregar sobrecarga de inferencia.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Conclusión y recomendación

Tanto YOLOv7 como YOLOX son modelos de detección de objetos potentes que han realizado contribuciones significativas al campo. YOLOv7 es una excelente opción para aplicaciones donde lograr la mayor precisión posible a velocidades en tiempo real es el objetivo principal. YOLOX ofrece una alternativa convincente sin anclajes que sobresale en la generalización y proporciona una familia de modelos altamente escalable adecuada para diversos presupuestos computacionales.

Sin embargo, para los desarrolladores e investigadores que buscan el marco más moderno, versátil y fácil de usar, los modelos Ultralytics YOLO más nuevos como YOLOv8 y Ultralytics YOLO11 a menudo presentan una opción más atractiva. Estos modelos ofrecen varias ventajas clave:

  • Facilidad de uso: Una experiencia de usuario optimizada con una sencilla API de python, extensa documentación y sencillos comandos CLI.
  • Ecosistema bien mantenido: Desarrollo activo, una sólida comunidad de código abierto, actualizaciones frecuentes e integración perfecta con herramientas como Ultralytics HUB para MLOps de extremo a extremo.
  • Versatilidad: Soporte para múltiples tareas de visión más allá de la detección de objetos, incluyendo segmentación, clasificación, estimación de pose y detección de objetos orientados (OBB).
  • Equilibrio de rendimiento: Una excelente compensación entre velocidad y precisión, adecuado para diversos escenarios del mundo real, desde dispositivos periféricos hasta servidores en la nube.
  • Eficiencia en el entrenamiento: Procesos de entrenamiento eficientes, ponderaciones preentrenadas disponibles y tiempos de convergencia más rápidos.

Explorar Otros Modelos

Para una exploración más exhaustiva, considere estas comparaciones que involucran a YOLOv7, YOLOX y otros modelos relevantes:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios