Ir al contenido

YOLOX frente a YOLOv10: la evolución de la detección sin anclajes a la detección integral

El panorama de la detección de objetos ha cambiado drásticamente entre 2021 y 2024. YOLOX, lanzado por Megvii, representó un cambio importante con respecto a los métodos basados en anclajes, al introducir un diseño simplificado sin anclajes que se convirtió en el favorito para las bases de referencia de la investigación. Tres años más tarde, investigadores de la Universidad de Tsinghua presentaron YOLOv10, lo que supuso un nuevo avance al eliminar por completo la necesidad de la supresión no máxima (NMS) mediante una arquitectura integral.

Esta comparación explora los avances técnicos desde los cabezales desacoplados de YOLOX hasta la estrategia de asignación dual YOLOv10, lo que ayuda a los desarrolladores a elegir la herramienta adecuada para su canal de visión artificial.

Comparación de un vistazo

Aunque ambos modelos buscan un rendimiento en tiempo real, resuelven el problema de la detección de forma diferente. YOLOX se centra en simplificar el proceso de entrenamiento con la asignación dinámica de etiquetas, mientras que YOLOv10 la latencia de la inferencia eliminando los cuellos de botella del posprocesamiento.

YOLOX: El pionero sin anclajes

YOLOX fue presentado en julio de 2021 por Zheng Ge y el equipo de Megvii. Cambió la YOLO a un mecanismo sin anclaje, lo que redujo el número de parámetros de diseño (como los tamaños de los cuadros de anclaje) que los ingenieros tenían que ajustar.

  • Innovación clave: Cabezal desacoplado y SimOTA (asignación de transporte óptima simplificada).
  • Arquitectura: Backbone CSPDarknet modificado con un enfoque en equilibrar velocidad y precisión.
  • Estado heredado: ampliamente utilizado como referencia fiable en artículos académicos como el informe YOLOX Arxiv.

Más información sobre YOLOX

YOLOv10: Detección de extremo a extremo en tiempo real

YOLOv10, lanzado en mayo de 2024 por investigadores de la Universidad de Tsinghua, aborda el coste de latencia del NMS. Mediante el empleo de una estrategia de asignación dual coherente durante el entrenamiento, aprende a predecir un cuadro por objeto, lo que permite una verdadera implementación de extremo a extremo.

  • Innovación clave: entrenamiento NMS mediante asignaciones de etiquetas duales (uno a muchos para la supervisión, uno a uno para la inferencia).
  • Eficiencia: introduce un diseño de modelo holístico basado en la eficiencia y la precisión, incluido el diseño de bloques guiado por rango.
  • Integración: Compatible con el Ultralytics para facilitar la formación y la implementación.

Más información sobre YOLOv10

Análisis de rendimiento

La diferencia de rendimiento entre estas generaciones es significativa, especialmente en términos de eficiencia (FLOP) y velocidad de inferencia en hardware moderno. YOLOv10 los bloques arquitectónicos más recientes para lograr una precisión media (mAP) más alta con menos parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Diferencias fundamentales

  1. Latencia: YOLOv10 el NMS . En los dispositivos periféricos, NMS representar una parte significativa del tiempo total de inferencia, lo que hace que YOLOv10 sea YOLOv10 más rápido en los procesos del mundo real.
  2. Precisión: YOLOv10x alcanza mAP del 54,4 %, notablemente superior al 51,1 % de YOLOX-x, a pesar de que YOLOX-x tiene casi el doble de parámetros (99,1 millones frente a 56,9 millones).
  3. Eficiencia computacional: el recuento de FLOP para YOLOv10 es generalmente menor para una precisión equivalente, lo que reduce la carga sobre GPU y el consumo de energía.

Análisis Arquitectónico en Profundidad

YOLOX: Cabezal desacoplado y SimOTA

YOLOX se diferenció de YOLO anteriores YOLO al utilizar una cabeza desacoplada. En los detectores tradicionales, las tareas de clasificación y localización compartían características convolucionales. YOLOX las separó en dos ramas, lo que mejoró la velocidad de convergencia y la precisión.

Además, YOLOX introdujo SimOTA, una estrategia dinámica de asignación de etiquetas. En lugar de reglas fijas para hacer coincidir los recuadros de referencia con los anclajes, SimOTA trata el proceso de coincidencia como un problema de transporte óptimo, asignando etiquetas basadas en un cálculo de coste global. Este enfoque hace que YOLOX sea robusto en diferentes conjuntos de datos sin necesidad de un ajuste excesivo de los hiperparámetros.

YOLOv10: Asignaciones duales consistentes

La principal contribución YOLOv10 es resolver la discrepancia entre el entrenamiento y la inferencia que se encuentra en los modelos NMS.

  • Entrenamiento uno a muchos: durante el entrenamiento, el modelo asigna múltiples muestras positivas a un único objeto para proporcionar señales de supervisión enriquecidas.
  • Inferencia uno a uno: mediante una métrica de coincidencia coherente, el modelo aprende a seleccionar la mejor casilla durante la inferencia, lo que elimina la necesidad de NMS.

Además, YOLOv10 módulos de convoluciones de kernel grande y autoatención parcial (PSA) para capturar el contexto global de manera eficaz sin el elevado coste computacional de los transformadores completos.

Por qué importa NMS-Free

La supresión no máxima (NMS) es un algoritmo de posprocesamiento que filtra los cuadros delimitadores superpuestos. Aunque es eficaz, es secuencial y difícil de acelerar en hardware como FPGA o NPU. Al eliminarlo, el proceso de implementación se vuelve estrictamente determinista y más rápido.

Casos de uso ideales

Cuándo elegir YOLOX

  • Puntos de referencia académicos: si está escribiendo un trabajo de investigación y necesita un detector limpio, estándar y sin anclajes con el que comparar.
  • Sistemas heredados: entornos ya validados en el código base de Megvii o en los marcos de OpenMMLab en los que no es posible actualizar todo el motor de inferencia.

Cuándo elegir YOLOv10

  • Aplicaciones de baja latencia: Escenarios como los sistemas de frenado autónomos o la clasificación industrial de alta velocidad, donde cada milisegundo de posprocesamiento cuenta.
  • Dispositivos periféricos con recursos limitados: los dispositivos con CPU limitada se benefician enormemente de la eliminación del paso NMS .

La ventaja de Ultralytics

Si bien YOLOX y YOLOv10 arquitecturas potentes, el Ultralytics proporciona el puente entre el código del modelo sin procesar y las aplicaciones listas para la producción.

Integración Perfecta

Ultralytics YOLOv10 , lo que le permite cambiar entre modelos con una sola línea de código. Esto elimina la necesidad de aprender diferentes API o formatos de datos (como convertir etiquetas a COCO para YOLOX).

from ultralytics import YOLO

# Load YOLOv10n or the newer YOLO26n
model = YOLO("yolov10n.pt")

# Train on your data with one command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Versatilidad y ecosistema

A diferencia del repositorio independiente YOLOX, Ultralytics una amplia gama de tareas más allá de la detección, incluyendo la segmentación de instancias, la estimación de poses y OBB. Todo ello se puede gestionar a través de la Ultralytics , que ofrece gestión de conjuntos de datos basada en web, formación con un solo clic e implementación en formatos como CoreML, ONNX y TensorRT.

Eficiencia del entrenamiento

Ultralytics están optimizados para la eficiencia de la memoria. Mientras que algunos modelos basados en transformadores (como RT-DETR) requieren CUDA considerable,YOLO Ultralytics están diseñados para entrenarse en GPU de consumo, lo que democratiza el acceso a la IA de última generación.

El futuro: YOLO26

Para los desarrolladores que buscan lo mejor en rendimiento y facilidad de uso, recomendamos ir más allá de YOLOv10 la nueva versión YOLO26.

Lanzado en enero de 2026, YOLO26 se basa en el avance NMS de YOLOv10 lo perfecciona para mejorar la estabilidad y la velocidad de producción.

  • Optimizador MuSGD: inspirado en las innovaciones en el entrenamiento de LLM de Moonshot AI, este optimizador garantiza una convergencia más rápida y ejecuciones de entrenamiento estables.
  • Eliminación de DFL: al eliminar la pérdida focal de distribución, YOLO26 simplifica el gráfico del modelo, lo que facilita la exportación a dispositivos periféricos y reduce la probabilidad de incompatibilidad con el operador.
  • Velocidad: optimizada específicamente para CPU , ofrece velocidades hasta un 43 % más rápidas en comparación con las generaciones anteriores, lo que la hace ideal para el hardware estándar del IoT.

Más información sobre YOLO26

Conclusión

YOLOX sigue siendo un hito importante en la historia de la detección de objetos, ya que demuestra que los métodos sin anclajes pueden alcanzar una precisión de primer nivel. YOLOv10 representa el siguiente paso lógico, eliminando el último cuello de botella del NMS permitir un verdadero procesamiento de extremo a extremo.

Sin embargo, para una solución sólida y a largo plazo, el Ultralytics , encabezado por YOLO26, ofrece el paquete más completo. Con una documentación superior, un soporte activo de la comunidad y una plataforma que se encarga de todo, desde la anotación de datos hasta la exportación de modelos, Ultralytics el éxito de sus proyectos de visión artificial, desde el prototipo hasta la producción.

Lecturas adicionales


Comentarios