Ir al contenido

YOLOv5 vs YOLOX: Una comparación técnica

Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la precisión, la velocidad y la complejidad de la implementación. Esta página proporciona una comparación técnica detallada entre dos modelos influyentes de la familia YOLO: Ultralytics YOLOv5 y YOLOX. Si bien ambos modelos ofrecen un rendimiento en tiempo real, se basan en filosofías de diseño fundamentalmente diferentes. YOLOv5 es un modelo basado en anclajes altamente optimizado, conocido por su excepcional facilidad de uso y eficiencia, mientras que YOLOX introduce un enfoque sin anclajes para superar los límites de la precisión. Profundizaremos en sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a determinar qué modelo se adapta mejor a las necesidades de su proyecto.

Ultralytics YOLOv5: El Estándar Industrial Establecido

Detalles técnicos:

Arquitectura y Características Clave

Ultralytics YOLOv5 se ha convertido en un punto de referencia de la industria debido a su notable combinación de velocidad, precisión y facilidad de uso. Construido completamente en PyTorch, YOLOv5 presenta una arquitectura robusta con un backbone CSPDarknet53, un cuello de botella PANet para la agregación de características y un eficiente encabezado de detección basado en anclajes. Una de sus principales fortalezas es su escalabilidad, que ofrece una gama de modelos desde el pequeño y rápido YOLOv5n hasta el grande y preciso YOLOv5x. Esta flexibilidad permite a los desarrolladores seleccionar el modelo perfecto para sus requisitos específicos de computación y rendimiento.

Fortalezas

  • Velocidad y eficiencia excepcionales: YOLOv5 está altamente optimizado para una inferencia rápida, lo que lo convierte en la mejor opción para sistemas en tiempo real en diversos hardware, desde CPUs hasta GPUs y dispositivos periféricos.
  • Facilidad de uso: Reconocido por su experiencia de usuario optimizada, YOLOv5 ofrece una API de Python y una CLI sencillas, complementadas con una documentación extensa y numerosos tutoriales.
  • Ecosistema bien mantenido: Como modelo de Ultralytics, YOLOv5 se beneficia de un ecosistema maduro y activo. Esto incluye un desarrollo continuo, una comunidad grande y de apoyo, actualizaciones frecuentes e integración perfecta con herramientas como Ultralytics HUB para el entrenamiento y la implementación sin código.
  • Eficiencia en el entrenamiento: El modelo ofrece un proceso de entrenamiento eficiente con pesos pre-entrenados disponibles en conjuntos de datos como COCO, lo que reduce significativamente el tiempo de entrenamiento y el coste computacional.
  • Versatilidad: YOLOv5 no se limita a la detección de objetos; también admite la segmentación de instancias y la clasificación de imágenes, lo que la convierte en una herramienta versátil para diversas tareas de visión artificial.
  • Menor Uso de Memoria: En comparación con arquitecturas más complejas, YOLOv5 generalmente requiere menos memoria tanto para el entrenamiento como para la inferencia, lo que lo hace más accesible para los usuarios con recursos de hardware limitados.

Debilidades

  • Detección Basada en Anclas: Su dependencia de cuadros de anclaje predefinidos a veces puede requerir un ajuste cuidadoso para lograr un rendimiento óptimo en conjuntos de datos con objetos de forma o escala inusuales, en comparación con los detectores sin anclaje.
  • Compromiso en la precisión: Si bien ofrece un equilibrio fantástico, los modelos YOLOv5 más pequeños priorizan la velocidad, lo que puede resultar en una precisión ligeramente inferior en comparación con arquitecturas más nuevas y complejas como YOLOX o YOLOv9.

Casos de uso

YOLOv5 destaca en aplicaciones donde la velocidad y la eficiencia son críticas:

Más información sobre YOLOv5

YOLOX: Una alternativa sin anclajes y de alto rendimiento

Detalles técnicos:

Arquitectura y Características Clave

YOLOX, introducido en 2021 por investigadores de Megvii, presenta un enfoque sin anclajes para la detección de objetos. Esta elección de diseño tiene como objetivo simplificar el proceso de detección y mejorar la generalización al eliminar la necesidad de cuadros de anclaje predefinidos. Las innovaciones arquitectónicas clave incluyen un encabezado desacoplado, que separa las tareas de clasificación y localización en diferentes ramas, y el uso de estrategias de entrenamiento avanzadas como SimOTA, una técnica de asignación de etiquetas dinámicas que ayuda al modelo a aprender mejores representaciones.

Fortalezas

  • Detección sin anclajes: Simplifica el proceso de detección al eliminar la complejidad y las suposiciones previas asociadas con los cuadros de anclaje, lo que podría conducir a un mejor rendimiento en objetos con diversas relaciones de aspecto.
  • Alta precisión: Alcanza una precisión competitiva, particularmente con sus modelos más grandes. El head desacoplado y la estrategia avanzada de asignación de etiquetas SimOTA son contribuyentes clave a sus sólidas puntuaciones de mAP.

Debilidades

  • Complejidad: Si bien el diseño sin anclajes simplifica un aspecto, la introducción de cabezales desacoplados y estrategias avanzadas como SimOTA puede aumentar la complejidad de la implementación y hacer que el proceso de entrenamiento sea menos intuitivo.
  • Ecosistema externo: YOLOX no forma parte del conjunto de herramientas de Ultralytics, lo que significa que carece de una integración perfecta con herramientas potentes como Ultralytics HUB. Esto puede resultar en una curva de aprendizaje más pronunciada y un mayor esfuerzo manual para el entrenamiento, la implementación y MLOps.
  • Velocidad de la CPU: La velocidad de inferencia en la CPU podría quedar por detrás de los modelos altamente optimizados como YOLOv5, especialmente para las variantes YOLOX más grandes, lo que la hace menos ideal para ciertas aplicaciones en tiempo real limitadas por la CPU.

Casos de uso

YOLOX es ideal para aplicaciones donde maximizar la precisión es la máxima prioridad:

  • Conducción Autónoma: Adecuado para tareas de percepción en vehículos autónomos donde la alta precisión es crucial para la seguridad.
  • Robótica Avanzada: Ideal para entornos complejos donde los robots requieren una detección de objetos precisa para la navegación e interacción.
  • Investigación: Sirve como una base sólida para explorar metodologías sin anclaje y técnicas de entrenamiento avanzadas en la investigación de detección de objetos.

Más información sobre YOLOX

Comparación de rendimiento y velocidad

Al comparar YOLOv5 y YOLOX, se hacen evidentes las compensaciones entre velocidad, precisión y tamaño del modelo. YOLOv5 está diseñado para una eficiencia excepcional, ofreciendo velocidades de inferencia muy rápidas, particularmente en CPU y cuando se exporta a formatos optimizados como TensorRT. Esto lo convierte en una opción formidable para aplicaciones que requieren un rendimiento en tiempo real en una amplia gama de hardware. YOLOX, por otro lado, busca una mayor precisión, con su modelo más grande, YOLOX-x, que alcanza un mAP ligeramente superior al de YOLOv5x. Sin embargo, esta ganancia de precisión a menudo conlleva un mayor coste computacional y tiempos de inferencia más lentos.

La siguiente tabla proporciona una comparación cuantitativa de varios tamaños de modelos para YOLOv5 y YOLOX, comparados en el conjunto de datos COCO val2017.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Conclusión y recomendación

Tanto YOLOv5 como YOLOX son modelos de detección de objetos potentes, pero se adaptan a diferentes prioridades.

Ultralytics YOLOv5 sigue siendo la opción superior para la gran mayoría de las aplicaciones del mundo real. Sus principales ventajas son una facilidad de uso inigualable, una velocidad de inferencia excepcional y un ecosistema robusto y bien mantenido. Para los desarrolladores y equipos que buscan pasar del concepto a la producción de forma rápida y eficiente, el flujo de trabajo optimizado de YOLOv5, su extensa documentación y su integración con herramientas como Ultralytics HUB son invaluables. Proporciona un excelente equilibrio entre velocidad y precisión, lo que lo hace ideal para su implementación en todo, desde servidores en la nube de alta gama hasta dispositivos periféricos con recursos limitados.

YOLOX es un modelo académico y de investigación sólido que demuestra el potencial de las arquitecturas sin anclajes. Es una opción adecuada para proyectos en los que el objetivo principal es alcanzar el mAP absoluto más alto, y el equipo de desarrollo está preparado para gestionar la mayor complejidad y la falta de un ecosistema integrado.

Para la mayoría de los desarrolladores, investigadores y empresas, recomendamos comenzar con un modelo de Ultralytics. Las ventajas de un marco de trabajo unificado y desarrollado activamente que admite múltiples tareas (detección, segmentación, pose, etc.) y ofrece una ruta de actualización clara a modelos más nuevos como YOLOv8 y YOLO11 proporcionan una ventaja significativa a largo plazo. El ecosistema de Ultralytics está diseñado para acelerar el desarrollo y garantizar que tenga el soporte y las herramientas necesarias para tener éxito.

Otras comparaciones de modelos

Si está interesado en comparar estos modelos con otros de la familia YOLO y más allá, consulte estas páginas:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios