YOLOX vs. YOLOv5: Explorando la innovación sin anclajes y la eficiencia probada

En el panorama de la detección de objetos, que evoluciona rápidamente, seleccionar la arquitectura adecuada es fundamental para el éxito del proyecto. Esta comparación explora dos modelos influyentes: YOLOX, una potencia académica conocida por su diseño sin anclajes, y YOLOv5, el estándar de la industria por su velocidad y facilidad de implementación. Ambos modelos han dado forma al campo de la visión artificial, pero satisfacen distintas necesidades dependiendo de si su prioridad reside en la precisión de grado de investigación o en la eficiencia lista para la producción.

Análisis de rendimiento: Velocidad, precisión y eficiencia

Al evaluar YOLOX y YOLOv5, la distinción a menudo se reduce al equilibrio entre la precisión bruta y la eficiencia operativa. YOLOX introdujo cambios arquitectónicos significativos, como un encabezado desacoplado y un mecanismo sin anclaje, lo que le permitió lograr puntuaciones de mAP (precisión media promedio) de última generación tras su lanzamiento. Destaca en escenarios donde cada punto porcentual de precisión cuenta, particularmente en puntos de referencia difíciles como COCO.

Por el contrario, Ultralytics YOLOv5 fue diseñado con un enfoque en el rendimiento del "mundo real". Prioriza la velocidad de inferencia y la baja latencia, lo que lo hace excepcionalmente adecuado para aplicaciones móviles, sistemas integrados y dispositivos edge AI. Si bien YOLOX puede tener una ligera ventaja en mAP para modelos grandes específicos, YOLOv5 lo supera constantemente en rendimiento (fotogramas por segundo) y flexibilidad de implementación, aprovechando el completo ecosistema de Ultralytics.

La siguiente tabla proporciona una comparación detallada, lado a lado, de los modelos en varios tamaños. Observe cómo YOLOv5 mantiene una precisión competitiva al tiempo que ofrece tiempos de inferencia significativamente más rápidos, especialmente cuando se optimiza con TensorRT.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOX: El contendiente sin anclajes

YOLOX fue desarrollado por investigadores de Megvii para cerrar la brecha entre la serie YOLO y los avances académicos en la detection sin anclajes. Al eliminar la restricción de los cuadros de anclaje predefinidos, YOLOX simplifica el proceso de entrenamiento y reduce la necesidad de un ajuste heurístico.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización:Megvii
Fecha: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Documentación:https://yolox.readthedocs.io/en/latest/

Arquitectura e Innovaciones

YOLOX incorpora un Decoupled Head, que separa las tareas de clasificación y regresión en diferentes ramas. Este diseño contrasta con los heads acoplados de las versiones anteriores de YOLO y, según se informa, mejora la velocidad de convergencia y la precisión. Además, utiliza SimOTA, una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas, lo que mejora la solidez del modelo en escenas densas.

Fortalezas y Debilidades

La principal fortaleza de YOLOX radica en su alto techo de precisión, particularmente con sus variantes más grandes (YOLOX-x), y su diseño limpio y sin anclajes que atrae a los investigadores. Sin embargo, estos beneficios conllevan concesiones. El encabezado desacoplado agrega complejidad computacional, lo que a menudo resulta en una inferencia más lenta en comparación con YOLOv5. Además, como modelo centrado en la investigación, carece de las herramientas cohesivas y fáciles de usar que se encuentran en el ecosistema de Ultralytics, lo que podría complicar la integración en las canalizaciones comerciales.

Casos de Uso Ideales

Investigación académica: Experimentación con nuevas arquitecturas de detección y estrategias de asignación de etiquetas.
Tareas de alta precisión: Escenarios donde una ganancia del 1-2% en mAP supera el costo de una inferencia más lenta, como el análisis de video fuera de línea.
Detección de Objetos Densos: Entornos con objetos muy desordenados donde SimOTA funciona bien.

Más información sobre YOLOX

YOLOv5: El estándar de producción

Desde su lanzamiento en 2020, YOLOv5 de Ultralytics se ha convertido en el modelo de referencia para desarrolladores de todo el mundo. Logra un equilibrio excepcional entre rendimiento y practicidad, respaldado por una plataforma diseñada para optimizar todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps).

Autor: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Documentación:https://docs.ultralytics.com/models/yolov5/

Arquitectura y ecosistema

YOLOv5 utiliza un backbone CSPNet y un neck de red de agregación de rutas (PANet), optimizados para una extracción de características eficiente. Si bien originalmente popularizó el enfoque basado en anclajes en PyTorch, su mayor activo es el ecosistema circundante. Los usuarios se benefician de la exportación automática a formatos como ONNX, CoreML y TFLite, así como de la integración perfecta con Ultralytics HUB para el entrenamiento y la gestión de modelos.

¿Sabías que?

YOLOv5 no se limita a los cuadros delimitadores. Admite múltiples tareas, incluyendo la segmentación de instancias y la clasificación de imágenes, lo que la convierte en una herramienta versátil para canalizaciones de visión complejas.

Fortalezas y Debilidades

Facilidad de uso es el sello distintivo de YOLOv5. Con una API de python simple, los desarrolladores pueden cargar pesos pre-entrenados y ejecutar la inferencia en tan solo unas pocas líneas de código. El modelo está altamente optimizado para la velocidad, ofreciendo consistentemente una menor latencia tanto en CPUs como en GPUs en comparación con YOLOX. También cuenta con menores requisitos de memoria durante el entrenamiento, lo que lo hace accesible en hardware estándar. Si bien su diseño basado en anclajes requiere la evolución de anclajes para conjuntos de datos personalizados (manejado automáticamente por YOLOv5), su fiabilidad y su ecosistema bien mantenido lo hacen superior para la producción.

Casos de Uso Ideales

Aplicaciones en tiempo real: Videovigilancia, conducción autónoma y robótica donde la baja latencia es crítica.
Implementación en el borde: Ejecución en Raspberry Pi, NVIDIA Jetson o dispositivos móviles debido a su arquitectura eficiente.
Productos comerciales: Prototipado e implementación rápidos donde se requiere soporte a largo plazo y facilidad de integración.
Visión Multi-Tarea: Proyectos que requieren detección, segmentación y clasificación dentro de un único marco de trabajo.

Más información sobre YOLOv5

Ejemplo de código: Ejecución de YOLOv5 con Ultralytics

El paquete de Python de Ultralytics hace que la utilización de los modelos YOLOv5 sea increíblemente sencilla. A continuación, se muestra un ejemplo de cómo ejecutar la inferencia utilizando un modelo pre-entrenado.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (Nano version for speed)
model = YOLO("yolov5nu.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Conclusión: Tomar la decisión correcta

Ambos modelos representan logros significativos en la visión artificial, pero se dirigen a públicos diferentes. YOLOX es una opción formidable para los investigadores que superan los límites de la detección sin anclajes y que se sienten cómodos navegando por un conjunto de herramientas más fragmentado.

Sin embargo, para la gran mayoría de los desarrolladores, ingenieros y empresas, Ultralytics YOLOv5 sigue siendo la opción superior. Su combinación ganadora de velocidad inigualable, versatilidad y un ecosistema robusto y activo garantiza que pueda pasar del concepto a la implementación con la mínima fricción. Además, la adopción del marco de Ultralytics proporciona una ruta de actualización clara a los modelos de próxima generación como YOLO11, que combina lo mejor del diseño sin anclajes con la eficiencia característica de Ultralytics.

Otras comparaciones de modelos

Explore cómo se comparan estos modelos con otras arquitecturas para encontrar la que mejor se adapte a sus necesidades específicas:

YOLOX vs. YOLOv5: Explorando la innovación sin anclajes y la eficiencia probada

Análisis de rendimiento: Velocidad, precisión y eficiencia

YOLOX: El contendiente sin anclajes

Arquitectura e Innovaciones

Fortalezas y Debilidades

Casos de Uso Ideales

YOLOv5: El estándar de producción

Arquitectura y ecosistema

Fortalezas y Debilidades

Casos de Uso Ideales

Ejemplo de código: Ejecución de YOLOv5 con Ultralytics

Conclusión: Tomar la decisión correcta

Otras comparaciones de modelos

Comentarios