Ir al contenido

YOLOv5 vs YOLOX: Cambios arquitectónicos y métricas de rendimiento

El panorama de la detección de objetos ha evolucionado rápidamente, con diversas arquitecturas compitiendo por el equilibrio óptimo entre velocidad de inferencia y precisión de detección. Dos hitos importantes en este camino son YOLOv5desarrollado por Ultralytics, y YOLOX, un modelo de Megvii centrado en la investigación. Aunque ambos modelos proceden del linaje de "Sólo se mira una vez", difieren significativamente en sus filosofías arquitectónicas, especialmente en lo que se refiere a los mecanismos de detección basados en anclas frente a los que no lo están.

Esta comparación explora las especificaciones técnicas, las diferencias arquitectónicas y las métricas de rendimiento de ambos modelos para ayudar a desarrolladores e investigadores a elegir la herramienta adecuada para sus proyectos de visión por ordenador.

Ultralytics YOLOv5: el estándar de ingeniería

Lanzado en 2020, YOLOv5 se convirtió rápidamente en el estándar del sector para la detección práctica de objetos. A diferencia de sus predecesores, que eran principalmente proyectos de investigación académica, YOLOv5 se diseñó centrándose en la usabilidad, la facilidad de implementación y el rendimiento en el mundo real. Introdujo un flujo de trabajo optimizado PyTorch que hizo que el entrenamiento y el despliegue de modelos personalizados fueran accesibles a un público más amplio.

YOLOv5 emplea una arquitectura basada en anclajes, utilizando cajas de anclaje predefinidas para predecir la ubicación de los objetos. Integra una función "AutoAnchor" que evoluciona las formas de anclaje para adaptarse a conjuntos de datos personalizados antes del entrenamiento, garantizando una convergencia óptima. El modelo cuenta con una red troncal CSPNet y un cuello PANet, optimizados para una rápida extracción y agregación de características. Su principal ventaja radica en su excepcional velocidad de inferencia y su bajo consumo de memoria, lo que lo hace ideal para aplicaciones móviles y de computación periférica.

Más información sobre YOLOv5

YOLOX: El contendiente sin anclas

YOLOX, lanzado en 2021 por Megvii, trató de ampliar los límites de la familia YOLO adoptando un diseño sin anclajes. Este enfoque elimina la necesidad de cajas de anclaje predefinidas y, en su lugar, predice directamente los centros y tamaños de los objetos. El objetivo de este cambio era simplificar el proceso de diseño y mejorar la generalización entre objetos de formas diversas.

YOLOX introduce una arquitectura de cabeza desacoplada, separando las tareas de clasificación y regresión en ramas diferentes. En teoría, esto permite al modelo aprender distintas representaciones de características para identificar qué es un objeto y dónde está. Además, emplea una estrategia avanzada de asignación de etiquetas conocida como SimOTA (Simplified Optimal Transport Assignment) para asignar dinámicamente muestras positivas durante el entrenamiento. Aunque estas innovaciones contribuyen a una gran precisión, a menudo conllevan una mayor complejidad computacional.

Más información sobre YOLOX

¿Busca la última tecnología?

Aunque YOLOv5 y YOLOX representan pasos significativos en la historia de la visión por ordenador, el campo avanza rápidamente. YOLO11el último modelo de Ultralytics, ofrece una precisión y velocidad superiores a ambos, con una arquitectura refinada que admite detección, segmentación, estimación de pose y mucho más.

Análisis de rendimiento: Velocidad vs. Precisión

Al comparar YOLOv5 y YOLOX, la disyuntiva suele centrarse en la latencia de la inferencia frente a la precisión absoluta. YOLOv5 está meticulosamente optimizado para la velocidad, especialmente en aceleradores de hardware que utilizan TensorRT y ONNX Runtime. Como se muestra en los datos siguientes, los modelos YOLOv5 demuestran una latencia significativamente menor (mayor velocidad) en modelos de tamaño equivalente.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Puntos clave

  • Velocidad de inferencia: YOLOv5 tiene una ventaja decisiva en velocidad. Por ejemplo, YOLOv5n alcanza una latencia TensorRT de tan solo 1,12 ms, lo que lo hace excepcionalmente adecuado para el procesamiento de vídeo a altas FPS en dispositivos de última generación como el NVIDIA Jetson. En cambio, los modelos más pequeños de YOLOX carecen de datos de referencia comparables para CPU, y su latencia GPU suele ser mayor para niveles de precisión similares.
  • Precisión (mAP): YOLOX tiende a alcanzar valores ligeramente superiores de mAP ligeramente superiores en el conjunto de datos COCO , en particular con sus variantes de mayor tamaño (YOLOX-x con 51,1 frente a YOLOv5x con 50,7). Esto se atribuye a su diseño sin anclajes y a su cabeza desacoplada, que puede manejar mejor las variaciones de los objetos. Sin embargo, esta ganancia marginal suele producirse a costa de una sobrecarga computacional (FLOPs) significativamente mayor.
  • Eficacia: Los modelos YOLOv5 suelen requerir menos FLOPs para una velocidad de inferencia dada. El diseño de la cabeza acoplada de YOLOv5 es más compatible con el hardware, lo que permite una ejecución más rápida tanto en CPU como en GPU.

Análisis Arquitectónico en Profundidad

La diferencia fundamental radica en cómo aborda cada modelo el problema de la detección.

YOLOv5 (basado en anclajes): YOLOv5 utiliza un conjunto predefinido de cajas de anclaje. Durante el entrenamiento, el modelo aprende a ajustar estos recuadros para adaptarse a los objetos. Este método se basa en la correlación entre el tamaño del objeto y el tamaño de las celdas de la cuadrícula.

  • Ventajas: Formación estable, metodología establecida, excelente rendimiento en conjuntos de datos estándar.
  • Contras: Requiere el ajuste de hiperparámetros para anclajes en conjuntos de datos exóticos (aunque AutoAnchor de YOLOv5 lo mitiga).

YOLOX (sin anclaje): YOLOX trata la detección de objetos como un problema de regresión de puntos. Predice la distancia desde el centro de la celda de la cuadrícula hasta los límites del objeto.

  • Ventajas: Reduce el número de parámetros de diseño (no hay anclajes que ajustar), potencial para una mejor generalización en relaciones de aspecto irregulares.
  • Contras: Puede ser más lento para converger durante el entrenamiento, y la cabeza desacoplada añade capas que aumentan la latencia de inferencia.

Experiencia de usuario y ecosistema

Una de las características más definitorias de Ultralytics YOLOv5 es su sólido ecosistema. Mientras que YOLOX proporciona una sólida base académica, YOLOv5 ofrece un marco listo para productos diseñado para desarrolladores.

Facilidad de uso

YOLOv5 es famoso por su sencillez "de principio a fin". Desde la anotación de datos hasta la formación y despliegue del modelo, el ecosistema Ultralytics agiliza cada paso. El modelo puede cargarse con unas pocas líneas de código y admite la exportación automática a formatos como TFLite, CoreMLy ONNX.

import torch

# Load a pretrained YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Versatilidad y mantenimiento

Los modelos de Ultralytics no se limitan a la detección. El marco soporta la clasificación de imágenes y la segmentación de instancias, ofreciendo una API unificada para múltiples tareas. Esta versatilidad suele faltar en repositorios específicos para la investigación como YOLOX, que se centran principalmente en la detección. Además, el mantenimiento activo de Ultralytics garantiza la compatibilidad con las últimas versiones de PyTorch y CUDA, reduciendo la "putrefacción del código" con el paso del tiempo.

Casos de Uso Ideales

  • Elija Ultralytics YOLOv5 si:

    • Necesita rendimiento en tiempo real en dispositivos periféricos (Raspberry Pi, teléfonos móviles).
    • Usted prioriza la facilidad de despliegue y necesita soporte integrado para exportar a TensorRT, CoreML o TFLite.
    • Prefiere un marco de trabajo estable, bien documentado y con el apoyo activo de la comunidad.
    • Su aplicación incluye la vigilancia de la seguridad o la navegación autónoma, donde la baja latencia es fundamental.
  • Elija YOLOX si:

    • Usted está llevando a cabo una investigación académica específica sobre arquitecturas sin anclaje.
    • Se requiere el máximo absoluto mAP para una competición o un benchmark, independientemente de la velocidad de inferencia.
    • Tiene un conjunto de datos especializado en el que los métodos basados en anclajes han fallado de forma demostrable (por ejemplo, relaciones de aspecto extremas), y AutoAnchor no resolvió el problema.

Conclusión

Tanto YOLOv5 como YOLOX se han ganado un lugar en la historia de la visión por ordenador. YOLOX demostró la viabilidad de los detectores sin anclaje de la familia YOLO , ofreciendo una sólida base para la investigación académica. Sin embargo, para la gran mayoría de aplicaciones prácticas, Ultralytics YOLOv5 sigue siendo la mejor opción por su inigualable velocidad, eficacia y ecosistema de fácil desarrollo.

Para los que empiezan nuevos proyectos hoy, recomendamos encarecidamente explorar YOLO11. Se basa en los puntos fuertes de YOLOv5 YOLOv5de uso y velocidad- al tiempo que integra modernos avances arquitectónicos que superan tanto a YOLOv5 como a YOLOX en precisión y versatilidad.

Otras comparaciones de modelos

Explore cómo se comparan los modelos Ultralytics con otras arquitecturas del sector:


Comentarios