YOLO26 frente a YOLOX: Evolución de la detección de objetos en tiempo real

El panorama de la visión artificial ha evolucionado rápidamente en los últimos cinco años, pasando de arquitecturas complejas basadas en anclajes a modelos optimizados y de alto rendimiento. Esta comparación examina dos modelos fundamentales en esta línea temporal: YOLOX, un innovador detector sin anclajes lanzado en 2021, y YOLO26, el modelo de visión de última generación lanzado por Ultralytics enero de 2026. Mientras que YOLOX allanó el camino para muchas decisiones arquitectónicas modernas, YOLO26 representa la culminación de estos avances, ya que ofrece una velocidad, precisión y facilidad de implementación superiores.

Descripción general del modelo

Ultralytics YOLO26

Lanzado en enero de 2026, YOLO26 está diseñado para la próxima generación de Edge AI. Introduce una arquitectura nativa de extremo a extremo (NMS), lo que elimina la necesidad de pasos de posprocesamiento que a menudo suponen un cuello de botella para la implementación. Al eliminar la pérdida focal de distribución (DFL) e introducir el optimizador MuSGD, inspirado en el entrenamiento de modelos de lenguaje grandes, YOLO26 alcanza velocidades CPU hasta un 43 % más rápidas en comparación con las generaciones anteriores, lo que lo convierte en la mejor opción para aplicaciones de IoT y robótica.

Glenn Jocher y Jing Qiu
Ultralytics
14 de enero de 2026
GitHub | Docs

Más información sobre YOLO26

YOLOX

YOLOX, lanzado por Megvii en 2021, fue uno de los primeros detectores «sin anclajes» de alto rendimiento en cambiar a un cabezal desacoplado y a la asignación de etiquetas SimOTA. Logró salvar la brecha entre la investigación académica y la aplicación industrial en ese momento, ofreciendo un diseño más limpio que sus predecesores (como YOLOv4 y YOLOv5) al eliminar los cuadros de anclaje y NMS para la estabilidad del entrenamiento, aunque seguía necesitando NMS la inferencia.

Zheng Ge, Songtao Liu, et al.
Megvii
18 de julio de 2021
ArXiv | GitHub

Comparación del rendimiento técnico

La siguiente tabla destaca las diferencias de rendimiento entre los dos modelos. YOLO26 muestra mejoras significativas tanto en precisión (mAP) como en eficiencia, especialmente en CPU , donde su arquitectura está optimizada para una ejecución de baja latencia.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Contexto de Rendimiento

Aunque YOLOXnano tiene parámetros y FLOP más bajos, funciona con una resolución (416 píxeles) y una precisión (25,8 mAP) significativamente inferiores en comparación con YOLO26n (40,9 mAP 640 píxeles). Cuando se normaliza para obtener una precisión efectiva, YOLO26 ofrece una latencia de inferencia muy superior.

Innovaciones Arquitectónicas

De Extremo a Extremo vs. Post-Procesamiento

La diferencia más importante radica en el proceso de implementación. YOLOX no utiliza anclajes, pero sigue dependiendo de la supresión no máxima (NMS) para filtrar los recuadros delimitadores duplicados. NMS computacionalmente costosa y difícil de optimizar en hardware periférico (como FPGA o NPU), ya que implica operaciones de clasificación y secuenciales.

YOLO26 adopta un diseño nativo de extremo a extremo, un concepto pionero en YOLOv10. Este diseño genera la detección final directamente desde la red sin NMS. Esto da como resultado:

Menor latencia: sin sobrecarga de posprocesamiento.
Latencia determinista: el tiempo de inferencia es constante independientemente de la densidad de objetos.
Implementación simplificada: exportación a ONNX o TensorRT es muy sencillo, ya que no se necesitan NMS personalizados.

Estabilidad del entrenamiento: MuSGD frente a SGD

YOLOX utiliza el método estándar de descenso estocástico por gradiente (SGD) con cabezales desacoplados, que se perfeccionó para 2021. Sin embargo, YOLO26 introduce el optimizador MuSGD, un híbrido entre SGD el optimizador Muon (inspirado en Kimi K2 de Moonshot AI). Esta innovación aporta las características de estabilidad del entrenamiento del modelo de lenguaje grande (LLM) a la visión por computadora, lo que permite una convergencia más rápida y una extracción de características más robusta durante el proceso de entrenamiento.

Funciones de Pérdida

YOLOX emplea IoU y una estrategia de cabeza desacoplada. YOLO26 mejora esto con ProgLoss + STAL (Soft Target Assignment Loss). Esta combinación aborda específicamente el reto de la detección de objetos pequeños, una debilidad tradicional de los detectores de una sola etapa. ProgLoss ajusta dinámicamente el peso de la pérdida durante el entrenamiento, lo que permite al modelo centrarse en ejemplos más difíciles (a menudo objetos pequeños u ocultos) a medida que avanza el entrenamiento.

Ecosistema y facilidad de uso

Una de las diferencias fundamentales entre ambos marcos es el ecosistema que los rodea.

La ventaja de Ultralytics

El uso de YOLO26 permite acceder a la Ultralytics , un completo conjunto de herramientas para la gestión de datos, la anotación y el entrenamiento de modelos.

API unificada: tanto si realiza detección de objetos, segmentación de instancias, estimación de poses o detección de cuadros delimitadores orientados (OBB), la API sigue siendo coherente.
De cero a héroe: puedes pasar de la instalación al entrenamiento con un conjunto de datos personalizado en menos de 5 líneas de python .
Flexibilidad de exportación: exporta modelos sin problemas a CoreML, OpenVINO, TFLite y muchos otros con un solo comando.

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

Complejidad YOLOX

YOLOX es principalmente un repositorio de investigación. Aunque es potente, requiere una mayor configuración manual para los conjuntos de datos y los procesos de entrenamiento. Carece de soporte nativo para tareas fuera de la detección estándar (como la pose o la segmentación) dentro del mismo repositorio, y la exportación a formatos de borde a menudo requiere scripts externos o herramientas de terceros (como onnx-simplifier).

Aplicaciones en el mundo real

Comercio Minorista Inteligente e Inventario

Para entornos minoristas que requieren gestión de inventario, YOLO26 es la mejor opción. La eliminación de DFL (pérdida focal de distribución) y la arquitectura de extremo a extremo le permiten funcionar de manera eficiente en CPU ARM de baja potencia que se encuentran en las cámaras de estantes inteligentes. La precisión mejorada de YOLO26s (48,6 mAP) con respecto a YOLOX-s (40,5 mAP) garantiza una mayor precisión del stock con menos falsos negativos.

Los drones requieren procesar imágenes de alta resolución con una latencia mínima. YOLO26 destaca en este aspecto gracias a ProgLoss, que mejora la detección de objetos pequeños, como vehículos lejanos o líneas eléctricas, desde vistas aéreas. La salida NMS garantiza que el bucle de control del dron reciba datos a una velocidad constante, lo cual es fundamental para los sistemas de prevención de colisiones. Por el contrario, la dependencia de YOLOX NMS provocar picos de latencia en entornos abarrotados (por ejemplo, al volar sobre un bosque o una multitud), lo que puede poner en peligro la estabilidad del vuelo.

Robótica industrial

En la fabricación, los brazos robóticos suelen utilizar la visión para tareas de recogida y colocación. El ecosistema YOLO26 es compatible con OBB (Oriented Bounding Boxes), que proporciona el ángulo de los objetos, algo crucial para agarrar elementos que no están alineados con el eje. YOLOX requiere una modificación significativa para ser compatible con OBB, mientras que YOLO26 lo es de forma inmediata.

Conclusión

Si bien YOLOX fue un hito importante que popularizó la detección sin anclajes, YOLO26 representa el futuro de la visión artificial eficiente. Con su diseño integral, su excelente relación entre precisión y latencia, y el sólido respaldo del Ultralytics , YOLO26 es la opción recomendada tanto para la investigación académica como para la implementación comercial en 2026.

Para los desarrolladores que necesitan diferentes compensaciones arquitectónicas, YOLO11 ofrece una alternativa probada, y los modelos basados en transformadores como RT-DETR proporcionan una alta precisión para entornos GPU.