Ir al contenido

YOLOX frente a YOLOv5: innovación sin anclajes y eficacia probada

En el panorama en rápida evolución de la detección de objetos, la selección de la arquitectura adecuada es fundamental para el éxito del proyecto. Esta comparativa analiza dos modelos influyentes: YOLOX, una potencia académica conocida por su diseño sin anclajes, y YOLOv5el estándar del sector por su velocidad y facilidad de despliegue. Ambos modelos han dado forma al campo de la visión por ordenador, pero responden a necesidades distintas dependiendo de si su prioridad es la precisión en la investigación o la eficiencia en la producción.

Análisis de rendimiento: Velocidad, precisión y eficiencia

Al evaluar YOLOX y YOLOv5, la distinción se reduce a menudo al equilibrio entre precisión bruta y eficiencia operativa. YOLOX introdujo cambios arquitectónicos significativos, como un cabezal desacoplado y un mecanismo sin anclajes, que le permitieron alcanzar puntuaciones mAP (precisión media) de vanguardia desde su lanzamiento. Destaca en situaciones en las que cada punto porcentual de precisión cuenta, especialmente en pruebas difíciles como COCO.

Por el contrario, Ultralytics YOLOv5 se ha diseñado centrándose en el rendimiento en el "mundo real". Da prioridad a la velocidad de inferencia y a la baja latencia, lo que lo hace excepcionalmente adecuado para aplicaciones móviles, sistemas integrados y dispositivos de inteligencia artificial. Aunque YOLOX puede tener una ligera ventaja en mAP para modelos específicos de gran tamaño, YOLOv5 lo supera sistemáticamente en rendimiento (fotogramas por segundo) y flexibilidad de despliegue, aprovechando el completo ecosistemaUltralytics .

La tabla siguiente ofrece una comparación detallada de los modelos en varios tamaños. Obsérvese cómo YOLOv5 mantiene una precisión competitiva a la vez que ofrece tiempos de inferencia significativamente más rápidos, especialmente cuando se optimiza con TensorRT.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOX: El contendiente sin anclas

YOLOX fue desarrollado por investigadores de Megvii para cubrir el vacío existente entre la serie YOLO y los avances académicos en detección sin anclas. Al eliminar la restricción de los cuadros de anclaje predefinidos, YOLOX simplifica el proceso de formación y reduce la necesidad de ajuste heurístico.

Arquitectura e Innovaciones

YOLOX incorpora un cabezal desacoplado, que separa las tareas de clasificación y regresión en ramas distintas. Este diseño contrasta con los cabezales acoplados de versiones anteriores de YOLO y, según se informa, mejora la velocidad de convergencia y la precisión. Además, utiliza SimOTA, una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas, mejorando la robustez del modelo en escenas densas.

Fortalezas y Debilidades

El principal punto fuerte de YOLOX es su elevado techo de precisión, sobre todo en sus variantes más grandes (YOLOX-x), y su diseño limpio y sin anclajes, que atrae a los investigadores. Sin embargo, estas ventajas tienen sus contrapartidas. La cabeza desacoplada añade complejidad computacional, lo que a menudo se traduce en una inferencia más lenta en comparación con YOLOv5. Además, al tratarse de un modelo centrado en la investigación, carece de las herramientas cohesivas y fáciles de usar que se encuentran en el ecosistema de Ultralytics , lo que podría complicar su integración en los procesos comerciales.

Casos de Uso Ideales

  • Investigación académica: Experimentación con nuevas arquitecturas de detección y estrategias de asignación de etiquetas.
  • Tareas de alta precisión: Escenarios en los que una ganancia del 1-2% en mAP compensa el coste de una inferencia más lenta, como el análisis de vídeo offline.
  • Detección de objetos densos: Entornos con objetos muy desordenados en los que SimOTA obtiene buenos resultados.

Más información sobre YOLOX

YOLOv5: El estándar de producción

Desde su lanzamiento en 2020, Ultralytics YOLOv5 se ha convertido en el modelo de referencia para desarrolladores de todo el mundo. Consigue un equilibrio excepcional entre rendimiento y practicidad, con el apoyo de una plataforma diseñada para agilizar todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps).

Arquitectura y ecosistema

YOLOv5 utiliza una red troncal CSPNet y un cuello de red de agregación de rutas (PANet), optimizados para la extracción eficiente de características. Aunque originalmente popularizó el enfoque basado en anclas en PyTorch, su mayor activo es el ecosistema que lo rodea. Los usuarios se benefician de la exportación automática a formatos como ONNX, CoreML y TFLite, así como de la perfecta integración con Ultralytics HUB para la formación y gestión de modelos.

¿Sabías que...?

YOLOv5 no se limita a los cuadros delimitadores. Admite múltiples tareas, como la segmentación de instancias y la clasificación de imágenes, lo que la convierte en una herramienta versátil para procesos de visión complejos.

Fortalezas y Debilidades

La facilidad de uso es el sello distintivo de YOLOv5. Con una sencilla API Python , los desarrolladores pueden cargar los pesos preentrenados y ejecutar la inferencia en unas pocas líneas de código. El modelo está muy optimizado en cuanto a velocidad, y ofrece sistemáticamente una latencia más baja tanto en CPU como en GPU en comparación con YOLOX. También requiere menos memoria durante el entrenamiento, por lo que es accesible en hardware estándar. Aunque su diseño basado en anclas requiere la evolución de anclas para conjuntos de datos personalizados (que YOLOv5 gestiona automáticamente), su fiabilidad y su ecosistema bien mantenido lo hacen superior para la producción.

Casos de Uso Ideales

  • Aplicaciones en tiempo real: Videovigilancia, conducción autónoma y robótica, donde la baja latencia es fundamental.
  • Despliegue Edge: Funcionamiento en Raspberry Pi, NVIDIA Jetson o dispositivos móviles gracias a su eficiente arquitectura.
  • Productos comerciales: Creación rápida de prototipos y despliegue cuando se requiere asistencia a largo plazo y facilidad de integración.
  • Visión multitarea: Proyectos que requieren detección, segmentación y clasificación en un único marco.

Más información sobre YOLOv5

Ejemplo de código: Ejecución de YOLOv5 con Ultralytics

El paquetePython Ultralytics hace que la utilización de los modelos YOLOv5 sea increíblemente sencilla. A continuación se muestra un ejemplo de cómo ejecutar la inferencia utilizando un modelo preentrenado.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (Nano version for speed)
model = YOLO("yolov5nu.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Conclusión: Elegir bien

Ambos modelos representan logros significativos en visión por ordenador, pero se dirigen a públicos diferentes. YOLOX es una opción formidable para los investigadores que amplían los límites de la detección sin anclajes y se sienten cómodos navegando por un conjunto de herramientas más fragmentado.

Sin embargo, para la gran mayoría de desarrolladores, ingenieros y empresas, Ultralytics YOLOv5 sigue siendo la mejor opción. Su combinación ganadora de velocidad inigualable, versatilidad y un ecosistema sólido y activo garantiza que pueda pasar del concepto a la implantación con una fricción mínima. Además, la adopción del marco de trabajo de Ultralytics proporciona una clara vía de actualización a modelos de próxima generación como YOLO11que combina lo mejor del diseño sin anclajes con la eficacia característica de Ultralytics.

Otras comparaciones de modelos

Explore cómo se comparan estos modelos con otras arquitecturas para encontrar el que mejor se adapte a sus necesidades específicas:


Comentarios