Ir al contenido

YOLOX frente a YOLO26: la evolución de la detección de objetos sin anclaje a la detección de objetos de extremo a extremo

El campo de la visión artificial ha experimentado una rápida transformación en los últimos cinco años, pasando de arquitecturas complejas basadas en anclajes a diseños optimizados sin anclajes, para llegar finalmente a sistemas nativos de extremo a extremo. Esta comparación profundiza en las diferencias técnicas entre YOLOX, un modelo sin anclajes fundamental lanzado en 2021, y YOLO26, el detector de extremo a extremo de última generación (SOTA) lanzado por Ultralytics 2026.

Si bien YOLOX estableció un alto nivel de exigencia en materia de investigación y rendimiento en su momento, YOLO26 introduce optimizaciones revolucionarias, como la inferenciaNMS y el optimizador MuSGD, lo que lo convierte en la opción ideal para los entornos de producción modernos que requieren baja latencia y alta precisión.

YOLOX: El pionero sin anclajes

Lanzado en julio de 2021 por investigadores de Megvii, YOLOX supuso un cambio significativo con respecto a la lógica basada en anclajes que dominaba YOLO anteriores YOLO (como YOLOv4 y YOLOv5). Al eliminar los cuadros de anclaje, los autores pretendían simplificar el proceso de diseño y reducir la carga de ajuste de hiperparámetros asociada a la agrupación de anclajes.

Características Técnicas Clave:

  • Mecanismo sin anclajes: elimina la necesidad de cuadros de anclaje predefinidos, tratando la detección de objetos como un problema de regresión puntual.
  • Cabezal desacoplado: separa las tareas de clasificación y localización en diferentes ramas del cabezal de la red, lo que ayudó a mejorar la velocidad y la precisión de la convergencia.
  • SimOTA: Una estrategia avanzada de asignación de etiquetas denominada «Asignación de transporte óptimo simplificado» que asigna dinámicamente muestras positivas a verdades fundamentales.

Aunque innovador, YOLOX se basa en la supresión no máxima (NMS) tradicional para el posprocesamiento. Este paso elimina los cuadros delimitadores duplicados, pero introduce variabilidad en la latencia y sobrecarga computacional, lo que puede suponer un cuello de botella en aplicaciones estrictamente en tiempo real.

Detalles del modelo:

  • Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
  • Organización: Megvii
  • Fecha: 2021-07-18
  • Enlaces:YOLOX Arxiv | YOLOX GitHub

Más información sobre YOLOX

YOLO26: El estándar de extremo a extremo

Lanzado en enero de 2026 por Ultralytics, YOLO26 representa la cúspide de la eficiencia en visión artificial. Abandona por completo el proceso tradicional NMS y adopta un diseño nativo integral NMS. Esta arquitectura permite al modelo generar directamente el conjunto final de objetos detectados, lo que reduce significativamente la latencia y simplifica la lógica de implementación.

Características Técnicas Clave:

  • ArquitecturaNMS: elimina el coste computacional de clasificar y filtrar miles de cajas candidatas, lo que da como resultado tiempos de inferencia estables y predecibles.
  • Optimizador MuSGD: un optimizador híbrido que combina SGD Muon (inspirado en innovaciones en el entrenamiento de modelos de lenguaje grandes, como Kimi K2 de Moonshot AI). Esto garantiza una dinámica de entrenamiento más estable y una convergencia más rápida.
  • Eliminación de DFL: La eliminación de la pérdida focal de distribución (DFL) simplifica el cabezal del modelo, lo que lo hace más compatible con los dispositivos periféricos y las herramientas de cuantificación.
  • ProgLoss + STAL: Funciones de pérdida avanzadas (pérdida programática y pérdida de alineación teórica de escala) que mejoran drásticamente el reconocimiento de objetos pequeños, una capacidad fundamental para las imágenes de drones y la inspección industrial.

Detalles del modelo:

Más información sobre YOLO26

Por qué el Enfoque de Extremo a Extremo es Importante

Los modelos heredados como YOLOX generan miles de cuadros redundantes que deben filtrarse mediante la supresión no máxima (NMS). Este proceso CPU y es difícil de optimizar en aceleradores de hardware como TPU o NPU. El diseño integral de YOLO26 elimina este paso, lo que permite que la red neuronal genere la respuesta final directamente. Esto permite una inferencia hasta un 43 % más rápida en las CPU en comparación con las generaciones anteriores.

Comparación de rendimiento

La siguiente tabla destaca la diferencia de rendimiento entre las dos arquitecturas. YOLO26 demuestra una precisión (mAP) y una eficiencia superiores, especialmente en las variantes Nano y Small utilizadas para aplicaciones de IA en el borde.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Nota: Las velocidades de YOLOX suelen ser más lentas en hardware moderno debido a la NMS , mientras que las métricas de YOLO26 incluyen todo el tiempo de posprocesamiento.

Análisis Arquitectónico en Profundidad

Columna vertebral y cabeza

YOLOX utiliza una red troncal CSPDarknet modificada que se centra en desacoplar el cabezal de detección. Aunque eficaz, este desacoplamiento aumenta significativamente el número de parámetros en comparación con los diseños de cabezal compartido de los modelos anteriores.

Por el contrario, YOLO26 emplea una estructura central altamente optimizada diseñada mediante conceptos de búsqueda de arquitectura neuronal (NAS). Su estructura principal se ha simplificado eliminando DFL, lo que no solo reduce el tamaño del modelo, sino que también se adapta perfectamente a los aceleradores de hardware que tienen dificultades con capas de salida complejas. Esto facilita la exportación a TensorRT u ONNX .

Funciones de Pérdida y Entrenamiento

YOLOX introdujo SimOTA para resolver el problema de la asignación de etiquetas de forma dinámica. Sin embargo, sigue dependiendo de funciones de pérdida estándar. YOLO26 mejora esto al incorporar ProgLoss (pérdida programática) y STAL (pérdida de alineación teórica de escala). Estas pérdidas ajustan dinámicamente la penalización por errores de cuadro delimitador en función del tamaño del objeto y la etapa de entrenamiento, lo que soluciona la debilidad histórica de YOLO a la hora de detectar objetos pequeños, como peatones lejanos o defectos de fabricación.

Además, el optimizador MuSGD de YOLO26 incorpora técnicas de estabilidad del mundo LLM a la visión. Al normalizar las actualizaciones entre capas de forma más eficaz que SGD estándar, YOLO26 logra una mayor precisión con menos épocas de entrenamiento.

Casos de Uso Ideales

Cuándo utilizar YOLOX

YOLOX sigue siendo un valioso punto de referencia en los círculos académicos.

  • Referencias de investigación: Su estructura clara y sin anclajes lo convierte en una excelente referencia para los investigadores que estudian estrategias de asignación de etiquetas.
  • Proyectos heredados: Los sistemas que ya están muy integrados con MegEngine o bifurcaciones específicas de YOLOX pueden encontrar costoso migrar de inmediato.

Cuándo usar YOLO26

YOLO26 es la opción recomendada para prácticamente todas las nuevas aplicaciones comerciales e industriales.

  • Edge Computing: con CPU hasta un 43 % más rápida, YOLO26 es ideal para Raspberry Pi, Jetson Nano y dispositivos móviles en los que no se dispone de GPU.
  • Robótica y sistemas autónomos: el diseñoNMS elimina los picos de latencia causados por escenas abarrotadas (por ejemplo, un robot que navega por un almacén lleno de gente), lo que garantiza tiempos de respuesta deterministas.
  • Inspección de alta precisión: la combinación de ProgLoss + STAL hace que YOLO26 sea superior para tareas de control de calidad que implican defectos minúsculos.
  • Aplicaciones multitarea: a diferencia de YOLOX, que es principalmente un detector, el Ultralytics es compatible con YOLO26 para la segmentación de instancias, la estimación de poses y los cuadros delimitadores orientados (OBB).

La ventaja de Ultralytics

Elegir YOLO26 también significa obtener acceso al completo Ultralytics . Mientras que YOLOX proporciona un repositorio independiente, Ultralytics un marco unificado que simplifica todo el ciclo de vida de la IA.

  1. Facilidad de uso: una Python coherente le permite cambiar entre tareas (detect, segment, posar) y modelos (YOLO26, YOLO11, RT-DETR) cambiando una sola línea de código.
  2. Eficiencia del entrenamiento: Ultralytics están optimizados para la eficiencia de la memoria durante el entrenamiento. Se pueden entrenar lotes más grandes en GPU de consumo en comparación con arquitecturas más antiguas o transformadores pesados.
  3. Ultralytics : La Ultralytics ofrece una interfaz basada en web para la gestión de conjuntos de datos, la anotación automática y el entrenamiento de modelos con un solo clic, lo que agiliza la colaboración entre equipos.
  4. Ecosistema bien mantenido: gracias a las frecuentes actualizaciones, la amplia documentación y el activo apoyo de la comunidad, los desarrolladores nunca se quedan solos a la hora de depurar.

Ejemplo de código

Ejecutar YOLO26 es muy sencillo utilizando el ultralytics paquete. El siguiente ejemplo muestra cómo cargar un modelo preentrenado y ejecutar la inferencia en una imagen.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

Conclusión

Tanto YOLOX como YOLO26 representan hitos importantes en la historia de la detección de objetos. YOLOX desafió con éxito el paradigma basado en anclajes en 2021, demostrando que los modelos sin anclajes podían alcanzar un rendimiento de primer nivel. Sin embargo, YOLO26 redefine el estándar para 2026 al resolver el problema de la «última milla» de la inferencia: el NMS .

Con su arquitectura integral, el optimizador MuSGD y funciones de pérdida especializadas, YOLO26 ofrece un equilibrio inigualable entre velocidad, precisión y facilidad de uso. Para los desarrolladores que buscan implementar soluciones robustas de visión artificial, ya sea en potentes servidores en la nube o en dispositivos periféricos con recursos limitados,YOLO26 es la opción definitiva.

Para aquellos interesados en explorar otras arquitecturas modernas, consideren revisar YOLO11 para la detección de uso general o RT-DETR para aplicaciones basadas en transformadores.


Comentarios