Ir al contenido

YOLOv5 YOLOX: comparación técnica de arquitecturas de detección de objetos

En el panorama en rápida evolución de la visión artificial, el debate entre los detectores basados en anclajes y los detectores sin anclajes ha sido un tema central. Esta comparación explora las diferencias técnicas entre YOLOv5, el estándar del sector en cuanto a usabilidad y velocidad, y YOLOX, un detector sin anclajes de alto rendimiento.

Orígenes y descripción general del modelo

YOLOv5
Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 26/06/2020
GitHub: yolov5

YOLOX
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 18/07/2021
GitHub: Megvii-BaseDetection/YOLOX

YOLOv5 revolucionó el campo no solo mediante cambios arquitectónicos, sino también creando una experiencia de usuario fluida. Priorizó la facilidad de entrenamiento, la exportabilidad y la velocidad de implementación, lo que lo convirtió en la opción preferida de empresas y desarrolladores. YOLOX, lanzado un año después, tenía como objetivo salvar la brecha entre la YOLO y la tendencia académica de la detección sin anclajes, introduciendo un cabezal desacoplado y una nueva estrategia de asignación de etiquetas.

Métricas de rendimiento

La siguiente tabla compara el rendimiento de ambos modelos. Mientras que YOLOX logró un rendimiento ligeramente superior mAP en el momento de su lanzamiento, YOLOv5 demostrar velocidades de inferencia superiores, especialmente en CPU, y una complejidad de implementación significativamente menor.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Diferencias Arquitectónicas

La divergencia técnica fundamental radica en cómo cada modelo maneja la predicción del cuadro delimitador.

YOLOv5: El estándar basado en anclajes

YOLOv5 un mecanismo basado en anclajes. Predice los desplazamientos a partir de cuadros de anclaje predefinidos, lo que ayuda a estabilizar el entrenamiento para objetos de escalas conocidas.

  • Backbone: Utiliza un CSPDarknet53 modificado, mejorando el flujo de gradiente y reduciendo los cuellos de botella computacionales.
  • Aumento de datos: fue pionero en el uso extensivo del aumento Mosaic y MixUp del proceso de entrenamiento, lo que mejoró significativamente la robustez del modelo frente a la oclusión.
  • Enfoque: La arquitectura está muy optimizada para su implementación en el mundo real, lo que garantiza que las capas se asignen de manera eficiente a aceleradores de hardware como Edge TPU.

YOLOX: El retador sin ancla

YOLOX cambia a un enfoque sin anclaje, prediciendo directamente el centro de un objeto.

  • Cabezal desacoplado: A diferencia de YOLO anteriores YOLO , YOLOX separa las tareas de clasificación y localización en diferentes «cabezales», lo que, según ellos, resuelve el conflicto entre estos dos objetivos durante la convergencia.
  • SimOTA: Una estrategia avanzada de asignación dinámica de etiquetas que considera el proceso de entrenamiento como un problema de transporte óptimo.
  • Referencia: Para obtener información técnica detallada, consulte el artículo de YOLOX en arXiv.

La compensación de los cabezales desacoplados

Aunque el cabezal desacoplado de YOLOX mejora la velocidad y la precisión de la convergencia, a menudo introduce una sobrecarga computacional adicional, lo que da lugar a una inferencia ligeramente más lenta en comparación con el diseño de cabezal acoplado que se encuentra en YOLOv5 YOLOv8.

Ecosistema y facilidad de uso

A la hora de evaluar modelos para la producción, el ecosistema circundante es tan importante como la propia arquitectura. Aquí es donde Ultralytics ofrecen una ventaja distintiva.

YOLOv5 está integrado en un ecosistema maduro y bien mantenido. Los usuarios se benefician de la Ultralytics (antes HUB), que agiliza la anotación, el entrenamiento y la implementación de conjuntos de datos. La plataforma se encarga de las complejidades de la infraestructura, lo que permite a los desarrolladores centrarse en los datos y los resultados.

Por el contrario, aunque YOLOX ofrece un gran rendimiento académico, a menudo requiere una configuración manual más compleja para su implementación. Ultralytics dan prioridad a la eficiencia del entrenamiento, ya que ofrecen pesos preentrenados fácilmente disponibles y un menor uso de memoria durante el entrenamiento. Esta eficiencia de memoria es especialmente notable si se compara con modelos más recientes basados en transformadores, como RT-DETR, que pueden consumir muchos recursos.

Más información sobre YOLOv5

La evolución: entra YOLO26

Aunque YOLOv5 YOLOX siguen siendo excelentes opciones, el campo ha avanzado. Para los desarrolladores que comiencen nuevos proyectos en 2026, YOLO26 representa la cúspide de esta evolución, ya que combina la facilidad de uso de YOLOv5 las innovaciones sin anclajes de YOLOX, y supera a ambos.

YOLO26 está diseñado para ofrecer el equilibrio definitivo entre rendimiento y computación periférica y análisis en tiempo real.

¿Por qué actualizar a YOLO26?

  • NMS de extremo a extremo: al igual que YOLOX, YOLO26 se aleja de los anclajes, pero va más allá al convertirse en nativo de extremo a extremo. Esto elimina la supresión no máxima (NMS), un paso de posprocesamiento que a menudo complica la implementación en dispositivos como FPGA o CoreML.
  • Optimizador MuSGD: inspirado en las técnicas de entrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) (concretamente, en Kimi K2 de Moonshot AI), este optimizador híbrido garantiza una dinámica de entrenamiento estable, lo que aporta de forma eficaz la estabilidad de los LLM a las tareas de visión.
  • Velocidad: YOLO26 ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, gracias a la eliminación de la pérdida focal de distribución (DFL) y la poda arquitectónica.
  • ProgLoss + STAL: Estas funciones de pérdida mejoradas se centran específicamente en el reconocimiento de objetos pequeños, abordando una debilidad común en los detectores anteriores.

Más información sobre YOLO26

Versatilidad en todas las tareas

A diferencia de YOLOX, que se centra principalmente en la detección, Ultralytics admite un conjunto completo de tareas listas para usar, entre las que se incluyen la estimación de poses, la segmentación de instancias y la detección de objetos orientados (OBB).

Aplicaciones en el mundo real

La elección entre estos modelos suele depender del escenario de implementación.

  • Inspección industrial (YOLOv5): Para líneas de fabricación que requieren un alto rendimiento, el diseño de cabezal acoplado y TensorRT de Ultralytics garantizan una latencia mínima.
  • Vigilancia aérea (YOLO26): Con las nuevas funciones ProgLoss + STAL, YOLO26 destaca en la detección de objetos pequeños, como vehículos o ganado, en imágenes tomadas con drones, una tarea en la que los modelos antiguos basados en anclajes a veces tenían dificultades.
  • Investigación académica (YOLOX): Los investigadores que estudian estrategias de asignación de etiquetas suelen utilizar YOLOX como referencia debido a su clara implementación de SimOTA.

Ejemplo de código

La transición entre modelos en el Ultralytics es fluida. El siguiente código muestra cómo cargar y ejecutar la inferencia, mostrando la API unificada que funciona para YOLOv5, YOLO11 y el recomendado YOLO26.

from ultralytics import YOLO

# Load a model (YOLOv5 or the recommended YOLO26)
# The API unifies usage, making it easy to swap models for comparison
model = YOLO("yolo26n.pt")  # Loading the latest Nano model

# Run inference on a local image
results = model("path/to/image.jpg")

# Process the results
for result in results:
    result.show()  # Display prediction
    result.save(filename="result.jpg")  # Save to disk

Conclusión

Tanto YOLOv5 YOLOX se han ganado un lugar en la historia de la visión artificial. YOLOv5 el estándar en cuanto a facilidad de uso e implementación, mientras que YOLOX ha ampliado los límites de la detección sin anclajes.

Sin embargo, para aplicaciones modernas que exigen la máxima eficiencia, Ultralytics es la mejor opción. Al integrar un diseño NMS, el revolucionario optimizador MuSGD y una arquitectura optimizada para el borde, ofrece una solución robusta y preparada para el futuro, respaldada por la amplia Ultralytics .


Comentarios