YOLOX frente a YOLO26: La evolución desde la detección sin anclas hasta la detección de objetos de extremo a extremo
El campo de la visión artificial ha sido testigo de transformaciones increíbles durante la última década. Dos hitos significativos en este camino son el lanzamiento de YOLOX, que popularizó las arquitecturas sin anclas (anchor-free), y la reciente presentación de Ultralytics YOLO26, que redefine por completo el rendimiento en tiempo real con un diseño nativo de extremo a extremo (end-to-end) y sin NMS. Esta comparativa exhaustiva explora sus arquitecturas, métricas de rendimiento y escenarios de despliegue ideales para ayudarte a tomar decisiones informadas en tu próximo proyecto de IA.
Resumen de modelos
Entender los orígenes y los objetivos de diseño principales de cada modelo proporciona el contexto esencial para sus respectivos logros técnicos.
YOLOX
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 18-07-2021
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Documentación: YOLOX ReadTheDocs
Presentado a mediados de 2021, YOLOX supuso un cambio importante al adoptar un diseño sin anclas junto con una cabeza desacoplada y la avanzada estrategia de asignación de etiquetas conocida como SimOTA. Al alejarse de los mecanismos tradicionales de cajas de anclaje (anchor boxes) que dominaban las arquitecturas anteriores, YOLOX logró cerrar la brecha entre la investigación académica y la aplicación industrial, ofreciendo un marco elegante a la vez que altamente eficaz para la detección de objetos.
YOLO26
Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 14-01-2026
GitHub: ultralytics/ultralytics
Plataforma: Ultralytics Platform
Lanzado a principios de 2026, YOLO26 es la culminación de años de mejoras iterativas, centrándose especialmente en el despliegue en el borde (edge) y en pipelines de entrenamiento simplificados. Introduce un diseño de extremo a extremo sin NMS, eliminando por completo el paso de postprocesamiento tradicional de supresión de no máximos (Non-Maximum Suppression). Este avance simplifica drásticamente el despliegue del modelo en diversos tipos de hardware. Además, al eliminar el módulo de pérdida focal de distribución (DFL), YOLO26 logra una latencia significativamente menor, consolidando su estatus como la opción principal para las aplicaciones de visión artificial modernas.
Innovaciones arquitectónicas
Las arquitecturas de estos dos modelos ponen de manifiesto la rápida progresión de las metodologías de aprendizaje profundo, especialmente en lo que respecta a las funciones de pérdida y el postprocesamiento.
El enfoque de YOLOX
YOLOX desacopló las tareas de clasificación y regresión en su cabeza de predicción, lo que aceleró significativamente la convergencia durante el entrenamiento. Su naturaleza sin anclas redujo el número de parámetros de diseño, mitigando la necesidad de realizar ajustes complejos de anclaje antes del entrenamiento. Junto con el algoritmo de asignación de etiquetas SimOTA, YOLOX consiguió resultados de vanguardia en su momento, especialmente en benchmarks estándar como el conjunto de datos COCO.
La ventaja de YOLO26
YOLO26 lleva la eficiencia arquitectónica al siguiente nivel. La eliminación del NMS no solo reduce la latencia de inferencia, sino que también garantiza tiempos de ejecución constantes y deterministas, un factor crítico para vehículos autónomos y robótica.
Las innovaciones clave de YOLO26 incluyen:
- Optimizador MuSGD: Inspirado en las técnicas de entrenamiento de modelos de lenguaje grandes (LLM), este híbrido de SGD y Muon garantiza ejecuciones de entrenamiento excepcionalmente estables y una convergencia más rápida.
- Hasta un 43% más rápido en inferencia de CPU: Al eliminar la DFL y racionalizar la arquitectura de red, YOLO26 está fuertemente optimizado para dispositivos de borde con recursos limitados, desde simples sensores IoT hasta placas Raspberry Pi.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, lo cual es fundamental para analizar imágenes aéreas y realizar un control de calidad preciso en la automatización de la fabricación.
Si tu proyecto está dirigido a sistemas integrados o aplicaciones móviles sin GPUs dedicadas, el rendimiento optimizado en CPU de YOLO26 ofrece una ventaja enorme, ya que requiere mucha menos carga computacional que los modelos de generaciones anteriores.
Rendimiento y benchmarks
Al evaluar modelos para entornos de producción, es fundamental analizar el equilibrio entre precisión, velocidad y complejidad computacional. A continuación, se presenta una comparación detallada de modelos estándar evaluados a un tamaño de imagen de 640 píxeles (y 416 para las variantes nano/tiny).
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Como ilustra la tabla, la serie YOLO26 proporciona un equilibrio de rendimiento superior. Por ejemplo, YOLO26x alcanza un impresionante 57,5 mAP utilizando casi la mitad de los parámetros que el modelo YOLOXx, lo que se traduce directamente en tiempos de inferencia en GPU más rápidos (11,8 ms frente a 16,1 ms) y una flexibilidad de despliegue muy superior.
Experiencia de entrenamiento y ecosistema
Una de las diferencias más profundas entre estas arquitecturas reside en su facilidad de uso y el soporte del ecosistema.
Aunque YOLOX sigue siendo un repositorio fundamental para los investigadores que estudian el flujo de gradientes y la mecánica sin anclas, su configuración puede ser compleja, requiriendo a menudo una configuración manual de dependencias y operadores. Por el contrario, el ecosistema Ultralytics define el estándar de la industria en cuanto a facilidad de uso.
Utilizando la API de Python unificada, puedes inicializar, entrenar y desplegar modelos YOLO26 con una simplicidad inigualable. El sistema gestiona de forma inherente la descarga de conjuntos de datos, el ajuste de hiperparámetros y la exportación fluida a formatos como ONNX, TensorRT y OpenVINO.
from ultralytics import YOLO
# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the optimized model for edge deployment
model.export(format="onnx")Además, los modelos YOLO de Ultralytics requieren muchos menos requisitos de memoria durante el entrenamiento en comparación con las pesadas alternativas basadas en Transformer, lo que permite a los ingenieros entrenar con tamaños de lote (batch sizes) mayores incluso en hardware de nivel de consumidor.
Aplicaciones en el mundo real
La elección entre YOLOX y YOLO26 depende en última instancia de tus limitaciones de despliegue y tus requisitos multitarea.
Donde destaca YOLOX
YOLOX sigue siendo un candidato viable para determinados benchmarks académicos y sistemas heredados profundamente integrados con el framework MegEngine. Su importancia histórica lo convierte en una base popular para investigar detectores sin anclas y estrategias de asignación personalizadas.
Dónde destaca YOLO26
YOLO26 está diseñado fundamentalmente para aplicaciones industriales modernas. Debido a que soporta de forma nativa la segmentación de instancias, la estimación de poses y las cajas delimitadoras orientadas (OBB), es mucho más versátil que los motores de detección estándar.
- Comercio minorista inteligente e inventario: La utilización del diseño sin NMS garantiza que los sistemas de pago automatizado procesen los flujos de vídeo con una latencia ultrabaja, reconociendo productos sin el cuello de botella que suponen los bucles de postprocesamiento.
- Análisis de drones y aéreo: La pérdida de ángulo especializada para OBB y la integración de ProgLoss + STAL hacen que YOLO26 no tenga rival a la hora de detectar objetos rotados y pequeños artefactos en vastas imágenes de satélite.
- Sistemas de seguridad de borde: Con su inferencia en CPU un 43% más rápida, YOLO26 permite a las empresas desplegar análisis de seguridad robustos directamente en hardware local económico sin necesidad de costosos procesos de computación en la nube.
Casos de uso y recomendaciones
La elección entre YOLOX y YOLO26 depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias del ecosistema.
Cuándo elegir YOLOX
YOLOX es una opción sólida para:
- Investigación de detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevos cabezales de detección o funciones de pérdida.
- Dispositivos de borde ultraligeros: Implementación en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M parámetros) es fundamental.
- Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.
Cuándo elegir YOLO26
YOLO26 se recomienda para:
- Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.
Explorando otros modelos de Ultralytics
Si estás explorando la evolución de la visión artificial, hay otros modelos muy capaces dentro de la familia Ultralytics que merece la pena investigar:
- YOLO11: El predecesor inmediato de YOLO26, que ofrece un rendimiento robusto y un amplio soporte comunitario para entornos de producción estables.
- YOLOv8: Una arquitectura ampliamente probada que marcó el estándar de facilidad de uso y flexibilidad en miles de despliegues en el mundo real.
En conclusión, aunque YOLOX introdujo conceptos cruciales en el panorama de la detección de objetos, el nuevo YOLO26 ofrece un salto generacional en velocidad, precisión y simplicidad de despliegue, lo que lo convierte en la elección definitiva para desarrolladores y empresas con visión de futuro.