Ir al contenido

YOLOX vs YOLO26: La evolución de la detección de objetos sin anclajes a la de extremo a extremo

El campo de la visión artificial ha sido testigo de transformaciones increíbles durante la última década. Dos hitos significativos en este camino son el lanzamiento de YOLOX, que popularizó las arquitecturas sin anclajes, y la reciente introducción de Ultralytics YOLO26, que redefine completamente el rendimiento en tiempo real con un diseño nativamente de extremo a extremo y sin NMS. Esta comparación exhaustiva explora sus arquitecturas, métricas de rendimiento y escenarios de implementación ideales para ayudar a los desarrolladores a tomar decisiones informadas para su próximo proyecto de IA.

Descripciones generales del modelo

Comprender los orígenes y los objetivos de diseño principales de cada modelo proporciona un contexto esencial para sus respectivos logros técnicos.

YOLOX

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 18-07-2021
Arxiv: 2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Documentación: YOLOX ReadTheDocs

Introducido a mediados de 2021, YOLOX representó un cambio importante al adoptar un diseño sin anclas junto con un cabezal desacoplado y la estrategia avanzada de asignación de etiquetas conocida como SimOTA. Al alejarse de los mecanismos tradicionales de cajas de anclaje que dominaban las arquitecturas anteriores, YOLOX cerró con éxito la brecha entre la investigación académica y la aplicación industrial, ofreciendo un marco elegante pero altamente efectivo para la detección de objetos.

Más información sobre YOLOX

YOLO26

Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 14-01-2026
GitHub: ultralytics/ultralytics
Plataforma: Plataforma Ultralytics

Lanzado a principios de 2026, YOLO26 es la culminación de años de mejoras iterativas, centrándose en gran medida en el despliegue en el borde y en cadenas de entrenamiento simplificadas. Introduce un diseño NMS-free de extremo a extremo, eliminando por completo el paso tradicional de posprocesamiento de supresión no máxima. Este avance simplifica drásticamente el despliegue del modelo en diversos tipos de hardware. Además, al eliminar el módulo Distribution Focal Loss (DFL), YOLO26 logra una latencia significativamente menor, consolidando su estatus como la opción principal para las modernas aplicaciones de visión por computadora.

Más información sobre YOLO26

Innovaciones Arquitectónicas

Las arquitecturas de estos dos modelos ponen de manifiesto la rápida progresión de las metodologías de aprendizaje profundo, especialmente en lo que respecta a las funciones de pérdida y el postprocesamiento.

El Enfoque YOLOX

YOLOX desacopló las tareas de clasificación y regresión en su cabezal de predicción, lo que aceleró significativamente la convergencia durante el entrenamiento. Su naturaleza sin anclajes redujo el número de parámetros de diseño, mitigando la necesidad de un ajuste complejo de anclajes antes del entrenamiento. Junto con el algoritmo de asignación de etiquetas SimOTA, YOLOX logró resultados de vanguardia para su época, particularmente en benchmarks estándar como el conjunto de datos COCO.

La Ventaja de YOLO26

YOLO26 lleva la eficiencia arquitectónica al siguiente nivel. La eliminación de NMS no solo reduce la latencia de inferencia, sino que también garantiza tiempos de ejecución consistentes y deterministas, un factor crítico para vehículos autónomos y robótica.

Las innovaciones clave de YOLO26 incluyen:

  • Optimizador MuSGD: Inspirado en técnicas de entrenamiento de Modelos de Lenguaje Grandes (LLM), este híbrido de SGD y Muon asegura ejecuciones de entrenamiento excepcionalmente estables y una convergencia más rápida.
  • Hasta un 43% más rápido en la inferencia de CPU: Al eliminar DFL y optimizar la arquitectura de red, YOLO26 está altamente optimizado para dispositivos de borde con recursos limitados, desde simples sensores IoT hasta placas Raspberry Pi.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, lo cual es fundamental para el análisis de imágenes aéreas y la realización de un control de calidad preciso en la automatización de la fabricación.

Optimización para el borde

Si su proyecto se dirige a sistemas embebidos o aplicaciones móviles sin GPUs dedicadas, el rendimiento optimizado de la CPU de YOLO26 proporciona una ventaja masiva, requiriendo significativamente menos sobrecarga computacional que los modelos de generaciones anteriores.

Rendimiento y benchmarks

Al evaluar modelos para entornos de producción, analizar el equilibrio entre precisión, velocidad y complejidad computacional es primordial. A continuación se presenta una comparación detallada de los modelos estándar evaluados con un tamaño de imagen de 640 píxeles (y 416 para las variantes nano/tiny).

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Como ilustra la tabla, la serie YOLO26 ofrece un equilibrio de rendimiento superior. Por ejemplo, YOLO26x logra un impresionante mAP de 57.5 mientras utiliza casi la mitad de los parámetros de YOLOXx modelo, lo que se traduce directamente en tiempos de inferencia de GPU más rápidos (11.8 ms vs 16.1 ms) y una flexibilidad de despliegue muy superior.

Experiencia de Entrenamiento y Ecosistema

Una de las diferencias más profundas entre estas arquitecturas radica en su usabilidad y el soporte del ecosistema.

Aunque YOLOX sigue siendo un repositorio fundamental para investigadores que estudian el flujo de gradiente y la mecánica sin anclajes, su configuración puede ser compleja, a menudo requiriendo la configuración manual de dependencias y operadores. Por el contrario, el ecosistema de Ultralytics define el estándar de la industria en cuanto a facilidad de uso.

Al utilizar la API Python unificada, los desarrolladores pueden inicializar, entrenar y desplegar modelos YOLO26 con una simplicidad sin igual. El sistema maneja intrínsecamente la descarga de conjuntos de datos, el ajuste de hiperparámetros y la exportación sin problemas a formatos como ONNX, TensorRT y OpenVINO.

from ultralytics import YOLO

# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the optimized model for edge deployment
model.export(format="onnx")

Además, los modelos Ultralytics YOLO presentan requisitos de memoria significativamente menores durante el entrenamiento en comparación con alternativas pesadas basadas en transformadores, lo que permite a los ingenieros entrenar tamaños de lote más grandes incluso en hardware de consumo.

Aplicaciones en el mundo real

La elección entre YOLOX y YOLO26 depende en última instancia de sus restricciones de despliegue y requisitos multitarea.

Donde YOLOX sobresale

YOLOX sigue siendo un candidato viable para benchmarks académicos específicos y sistemas heredados profundamente integrados con el framework MegEngine. Su importancia histórica lo convierte en una línea base popular para investigar detectores sin anclajes y estrategias de asignación personalizadas.

Donde YOLO26 Sobresale

YOLO26 está diseñado fundamentalmente para aplicaciones industriales modernas. Dado que soporta de forma nativa segmentación de instancias, estimación de pose y Oriented Bounding Boxes (OBB), es mucho más versátil que los motores de detección estándar.

  • Comercio Minorista e Inventario Inteligentes: La utilización del diseño sin NMS garantiza que los sistemas de pago automatizados procesen las transmisiones de video con latencia ultrabaja, reconociendo productos sin el cuello de botella de los bucles de postprocesamiento.
  • Análisis de Drones y Aéreo: La pérdida de ángulo especializada para OBB y la integración de ProgLoss + STAL hacen que YOLO26 sea inigualable en la detección de objetos rotados y artefactos diminutos en vastas imágenes satelitales.
  • Sistemas de Seguridad en el Borde: Con su inferencia en CPU un 43% más rápida, YOLO26 permite a las empresas desplegar análisis de seguridad robustos directamente en hardware local económico sin requerir costosos recursos de computación en la nube.

Casos de Uso y Recomendaciones

La elección entre YOLOX y YOLO26 depende de los requisitos específicos de su proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Cuándo elegir YOLOX

YOLOX es una opción sólida para:

  • Investigación en detect Sin Anclajes: Investigación académica que utiliza la arquitectura limpia y sin anclajes de YOLOX como base para experimentar con nuevos cabezales de detect o funciones de pérdida.
  • Dispositivos Edge Ultraligeros: Despliegue en microcontroladores o hardware móvil heredado donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que estudian estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Cuándo Elegir YOLO26

YOLO26 se recomienda para:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Explorando Otros Modelos de Ultralytics

Si está explorando la evolución de la visión por computadora, existen otros modelos altamente capaces dentro de la familia Ultralytics que vale la pena investigar:

  • YOLO11: El predecesor inmediato de YOLO26, que ofrece un rendimiento robusto y un amplio soporte de la comunidad para entornos de producción estables.
  • YOLOv8: Una arquitectura ampliamente probada en batalla que estableció el estándar de facilidad de uso y flexibilidad en miles de implementaciones en el mundo real.

En conclusión, si bien YOLOX introdujo conceptos cruciales en el panorama de la detección de objetos, el nuevo YOLO26 proporciona un salto generacional en velocidad, precisión y simplicidad de despliegue, lo que lo convierte en la elección definitiva para desarrolladores y empresas con visión de futuro.


Comentarios