Link to this sectionYOLOX frente a YOLOv5#
Seleccionar el modelo de detección de objetos correcto es una decisión crítica que determina el éxito de cualquier proyecto de visión artificial. Esta guía ofrece una comparación técnica exhaustiva entre dos modelos fundamentales en el panorama de la IA: YOLOX de Megvii y Ultralytics YOLOv5. Al analizar sus arquitecturas, métricas de rendimiento y ecosistemas de entrenamiento, nuestro objetivo es ayudarte a ti, desarrollador o investigador, a tomar una decisión informada para tus entornos de despliegue específicos.
Link to this sectionIntroducción a los modelos#
Ambos modelos surgieron durante un período de rápido avance en la detección de objetos en tiempo real, aunque adoptaron diferentes filosofías arquitectónicas para lograr su rendimiento.
Link to this sectionYOLOX: Un enfoque sin anclas#
Lanzado por los investigadores Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun en Megvii el 18 de julio de 2021, YOLOX introdujo un cambio significativo al alejarse de las tradicionales cajas de anclaje. Documentado en su informe técnico de Arxiv, YOLOX integró un diseño sin anclas con una cabeza desacoplada y la estrategia de asignación de etiquetas SimOTA. Este diseño buscaba cerrar la brecha entre la investigación académica y la aplicación industrial, ofreciendo un rendimiento sólido en conjuntos de datos estándar.
Link to this sectionYOLOv5: El estándar para la IA de visión en producción#
Creado por Glenn Jocher y lanzado por Ultralytics el 26 de junio de 2020, YOLOv5 se convirtió rápidamente en el estándar de la industria para la visión artificial desplegada. Construido de forma nativa en el framework PyTorch, democratizó la IA de última generación al ofrecer una facilidad de uso inigualable, un entrenamiento excepcionalmente rápido y un repositorio altamente pulido. La arquitectura de YOLOv5 se centró en un equilibrio perfecto entre velocidad, precisión y facilidad de despliegue, convirtiéndose en un favorito para todo, desde dispositivos periféricos hasta despliegues masivos en la nube.
Link to this sectionDiferencias arquitectónicas#
Comprender las diferencias mecánicas fundamentales entre estas redes aclara por qué funcionan de manera distinta en diversas tareas.
Link to this sectionSin anclas frente a basado en anclas#
El contraste más definitorio es el mecanismo sin anclas de YOLOX. Los modelos tradicionales como YOLOv5 dependen de cajas de anclaje predefinidas para predecir cajas delimitadoras, lo cual requiere un análisis de agrupamiento en el conjunto de datos de entrenamiento para determinar los tamaños de ancla óptimos. YOLOX elimina esto, prediciendo las coordenadas de la caja delimitadora directamente en cada ubicación espacial. Aunque el enfoque sin anclas reduce el número de parámetros de diseño y el ajuste heurístico, el enfoque refinado basado en anclas de YOLOv5, ayudado por su funcionalidad de auto-anclaje, garantiza una convergencia de entrenamiento increíblemente estable y predecible desde el primer momento.
Link to this sectionCabeza desacoplada frente a cabeza acoplada#
YOLOX emplea una cabeza desacoplada, lo que significa que las tareas de clasificación y regresión se separan en ramas distintas de la red neuronal. Los autores argumentaron que esto resuelve conflictos entre el aprendizaje de características espaciales y semánticas. Por el contrario, YOLOv5 utilizó una cabeza acoplada altamente optimizada (en sus versiones anteriores) que maximizaba la eficiencia computacional y reducía la latencia de inferencia, lo cual es crucial para la computación en el borde en tiempo real.
Link to this sectionEstrategia de asignación de etiquetas#
YOLOX utiliza SimOTA para la asignación de etiquetas, lo que formula el emparejamiento de objetos de la verdad fundamental con las predicciones como un problema de transporte óptimo. Esta asignación dinámica mejora el manejo de escenas concurridas. YOLOv5 emplea una asignación robusta basada en reglas de forma, garantizando que muestras positivas de alta calidad se alimenten constantemente a la función de pérdida, lo que contribuye a su legendaria estabilidad de entrenamiento.
Link to this sectionRendimiento y benchmarks#
El compromiso entre velocidad y precisión es la prueba definitiva para estas arquitecturas. La tabla a continuación ilustra el rendimiento de varios tamaños de modelo en puntos de referencia estándar.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Aunque YOLOX logra puntuaciones mAP competitivas, especialmente en sus variantes más grandes, YOLOv5 mantiene una ventaja notable en la velocidad de inferencia de TensorRT en todos los ámbitos. El modelo YOLOv5s, por ejemplo, proporciona relaciones velocidad-precisión excepcionales, lo que lo hace altamente deseable para aplicaciones en tiempo real donde cada milisegundo cuenta.
Link to this sectionLa ventaja de Ultralytics: Entrenamiento y usabilidad#
Al realizar la transición de la investigación a la producción, el ecosistema que rodea a un modelo suele ser tan importante como el modelo mismo. Aquí, las ventajas del ecosistema de Ultralytics se vuelven claramente evidentes.
Link to this sectionExperiencia de usuario optimizada#
YOLOv5 es elogiado universalmente por su experiencia de desarrollador "de cero a héroe". La API de Python de Ultralytics y la CLI te permiten cargar, entrenar y desplegar modelos con líneas de código únicas. Por el contrario, ejecutar YOLOX desde el repositorio de GitHub de Megvii requiere más configuración manual de variables de entorno, configuraciones complejas de rutas de Python y una curva de aprendizaje más pronunciada, típica de las bases de código de investigación académica.
Link to this sectionEficiencia de entrenamiento y requisitos de memoria#
Los modelos de Ultralytics están meticulosamente diseñados para minimizar el uso de memoria durante el entrenamiento. YOLOv5 requiere significativamente menos memoria CUDA en comparación con modelos de Transformer altamente parametrizados como RT-DETR o modelos de investigación no optimizados. Esto permite a los desarrolladores entrenar tamaños de lote más grandes en hardware de grado consumidor, acelerando el ciclo de desarrollo iterativo.
Link to this sectionVersatilidad en todas las tareas#
Aunque YOLOX es estrictamente un framework de detección de objetos, el ecosistema de Ultralytics ha evolucionado YOLOv5 para soportar múltiples tareas de visión. De forma nativa, puedes realizar clasificación de imágenes, segmentación de instancias y detección de objetos utilizando exactamente la misma sintaxis de API.
Si requieres tareas aún más avanzadas como estimación de poses o detección de cajas delimitadoras orientadas (OBB), te recomendamos encarecidamente actualizarte a la última arquitectura de Ultralytics YOLO26, que admite todo esto de forma nativa con una precisión de vanguardia.
Link to this sectionComparación de código#
La diferencia en usabilidad se demuestra mejor mediante código.
Entrenamiento con YOLOv5:
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display results
results[0].show()Entrenamiento con YOLOX: (Requiere clonación manual del repositorio, instalación con setup.py y argumentos de CLI complejos)
# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -oEl enfoque de Ultralytics elimina la fricción, permitiéndote concentrarte en tu conjunto de datos y en la lógica de la aplicación en lugar de depurar archivos de configuración. Además, realizar un seguimiento de tus experimentos es fluido con integraciones integradas para Weights & Biases y Comet ML.
Link to this sectionCasos de uso ideales y aplicaciones en el mundo real#
Elegir entre estos modelos depende del entorno operativo de tu proyecto.
Link to this sectionDonde YOLOX destaca#
YOLOX sigue siendo un fuerte candidato en entornos académicos donde los investigadores estudian explícitamente paradigmas sin anclas o estrategias de asignación de etiquetas. También es útil en escenarios donde la detección en escenas concurridas es la métrica principal absoluta y las velocidades de despliegue en el borde son secundarias.
Link to this sectionDonde destaca YOLOv5#
YOLOv5 es el campeón indiscutible del despliegue práctico.
- Fabricación de alta velocidad: Para la detección de defectos en líneas de ensamblaje, la latencia de inferencia mínima de YOLOv5 en GPU de borde garantiza que los productos se inspeccionen sin ralentizar la cinta transportadora.
- Drones e imágenes aéreas: Su eficiente huella de memoria le permite ejecutarse en computadoras auxiliares ligeras en drones para tareas como el monitoreo agrícola y el seguimiento de vida silvestre.
- Comercio minorista inteligente: Desde el pago automatizado hasta la gestión de inventario, YOLOv5 se exporta fácilmente a TensorRT y ONNX para un despliegue masivo en miles de cámaras de tienda.
Link to this sectionMirando hacia el futuro: La ventaja de YOLO26#
Aunque YOLOv5 es un modelo legendario, el campo de la IA avanza rápidamente. Si estás comenzando un nuevo proyecto hoy, te aconsejamos encarecidamente que mires la última generación de modelos de Ultralytics.
Lanzado en 2026, Ultralytics YOLO26 representa un salto masivo hacia adelante. Presenta un diseño de extremo a extremo sin NMS, eliminando por completo la necesidad de posprocesamiento de supresión no máxima, lo que simplifica drásticamente la lógica de despliegue. Al eliminar la pérdida focal de distribución (DFL) y utilizar el optimizador de vanguardia MuSGD, YOLO26 logra una inferencia en CPU hasta un 43% más rápida que las generaciones anteriores, manteniendo una mayor precisión, especialmente en objetos pequeños, gracias a las nuevas funciones de pérdida ProgLoss + STAL.
Ya sea que elijas la fiabilidad probada en batalla de YOLOv5 o el rendimiento de vanguardia de YOLO26, la Plataforma de Ultralytics garantiza que tengas las mejores herramientas disponibles para llevar tus soluciones de visión artificial desde el concepto hasta la producción sin problemas. Asegúrate de explorar la completa documentación de Ultralytics para liberar todo el potencial de tu pipeline de IA.