Ir al contenido

RTDETRv2 frente a YOLOX: un análisis en profundidad de la evolución de la detección de objetos en tiempo real

El panorama de la detección de objetos ha evolucionado rápidamente en los últimos años, pasando de arquitecturas basadas en anclajes a diseños sin anclajes y, más recientemente, a modelos híbridos basados en transformadores. Dos hitos importantes en este viaje son RTDETRv2 y YOLOX. Mientras que YOLOX redefinió las capacidades de la YOLO en 2021 al eliminar los anclajes y NMS , RTDETRv2 (lanzado en 2024) amplió aún más los límites al integrar Vision Transformers (ViT) para obtener una precisión superior en escenas complejas.

Esta guía ofrece una comparación técnica exhaustiva de estos dos influyentes modelos, analizando sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a elegir la herramienta adecuada para sus proyectos de visión artificial.

RTDETRv2: El competidor basado en transformadores

RTDETRv2 (Real-Time Detection Transformer versión 2) representa un avance significativo en la aplicación de arquitecturas de transformadores a escenarios en tiempo real. Mientras que los transformadores tradicionales eran potentes pero lentos, RTDETRv2 optimiza esta compensación para ofrecer una precisión de vanguardia a velocidades competitivas.

Características arquitectónicas clave

RTDETRv2 se basa en el RT-DETR original y utiliza una estructura híbrida de codificador-decodificador. Emplea una red neuronal convolucional (CNN) como columna vertebral (normalmente ResNet o HGNetv2) para extraer características de manera eficiente, seguida de un codificador transformador para capturar dependencias de largo alcance en toda la imagen.

  • Integración de Vision Transformer: a diferencia de los modelos basados exclusivamente en CNN, RTDETRv2 utiliza mecanismos de autoatención para comprender la relación entre partes distantes de una imagen, lo que lo hace excepcionalmente bueno para manejar oclusiones y escenas concurridas.
  • Predicción de extremo a extremo: Su objetivo es optimizar el proceso de detección, aunque algunas implementaciones aún se benefician de la optimización.
  • Escalado dinámico: La arquitectura está diseñada para gestionar características multiescala de forma más eficaz que sus predecesoras.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización:Baidu
Fecha: 17 de abril de 2023 (v1), julio de 2024 (v2)
Enlaces:Arxiv | GitHub

Más información sobre RT-DETR

YOLOX: El pionero sin anclajes

Lanzado en 2021, YOLOX supuso un cambio revolucionario al apartarse de la YOLO tradicional YOLO (YOLOv3, v4, v5) mediante la adopción de un mecanismo sin anclaje y un cabezal desacoplado.

Características arquitectónicas clave

YOLOX simplificó el proceso de detección al eliminar la necesidad de cuadros de anclaje predefinidos, que a menudo requerían un ajuste heurístico para conjuntos de datos específicos.

  • Mecanismo sin anclaje: al predecir directamente los centros y tamaños de los objetos, YOLOX redujo la complejidad del diseño y mejoró la generalización en diversos conjuntos de datos.
  • Cabezal desacoplado: la separación de las tareas de clasificación y regresión en diferentes ramas del cabezal de la red permitió una mejor convergencia y precisión.
  • Asignación de etiquetas SimOTA: esta estrategia avanzada de asignación de etiquetas trató el proceso de entrenamiento como un problema de transporte óptimo, lo que condujo a una convergencia más rápida y a una mejor asignación dinámica de etiquetas.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización:Megvii
Fecha: 18 de julio de 2021
Enlaces:Arxiv | GitHub

Comparación del rendimiento técnico

A la hora de seleccionar un modelo para la producción, las métricas brutas son fundamentales. A continuación se muestra una comparación detallada del rendimiento en el COCO .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Análisis de las Métricas

Los datos revelan una clara brecha generacional. RTDETRv2 supera sistemáticamente a YOLOX en precisión (mAP) para tamaños de modelo similares. Por ejemplo, RTDETRv2-l alcanza un 53,4 % mAP, significativamente superior al 49,7 % de YOLOX-l, al tiempo que mantiene velocidades de inferencia comparables en GPU .

Sin embargo, YOLOX conserva una ventaja en la categoría de ultraligeros. Las variantes YOLOX-Nano y Tiny son extremadamente pequeñas (a partir de 0,91 M de parámetros), lo que las hace viables para el hardware de computación periférica heredado, donde cada kilobyte de memoria cuenta.

Uso de la memoria del transformador

Aunque RTDETRv2 ofrece una mayor precisión, los modelos basados en transformadores suelen consumir mucha más VRAM durante el entrenamiento y la inferencia en comparación con las arquitecturas CNN puras como YOLOX. Este elevado requisito de memoria puede suponer un obstáculo a la hora de entrenar en GPU de consumo con CUDA limitada.

La ventaja de Ultralytics

Aunque el análisis de modelos históricos como YOLOX y RTDETRv2 es valioso para la investigación, el desarrollo moderno exige herramientas que ofrezcan facilidad de uso, un ecosistema bien mantenido y una eficiencia superior.

Ultralytics , incluyendo YOLOv8 y el avanzado YOLO26, están diseñados para salvar la brecha entre el alto rendimiento y la experiencia del desarrollador.

  1. API optimizada: cambiar entre modelos solo requiere una línea de código.
  2. Versatilidad: a diferencia de YOLOX, que se centra exclusivamente en la detección, Ultralytics de forma nativa la segmentación, la estimación de poses y la detección de cuadros delimitadores orientados (OBB).
  3. Eficiencia de entrenamiento: Ultralytics están optimizados para entrenarse más rápido con una menor sobrecarga de memoria, lo que hace que la IA de alta gama sea accesible sin necesidad de hardware de grado industrial.

Rendimiento de última generación: YOLO26

Para los desarrolladores que buscan el mejor rendimiento absoluto en 2026, recomendamos YOLO26. Incorpora las mejores características de las CNN y los transformadores, al tiempo que elimina sus puntos débiles.

  • NMS de extremo a extremo: YOLO26 es nativamente de extremo a extremo, lo que elimina la necesidad de la supresión no máxima (NMS). Esto simplifica significativamente los procesos de implementación en comparación con YOLOX.
  • Optimizador MuSGD: Aprovechando las innovaciones del entrenamiento LLM (inspirado en Moonshot AI), YOLO26 utiliza el optimizador MuSGD para una convergencia estable y rápida.
  • Optimización de borde: con la eliminación de la pérdida focal de distribución (DFL), YOLO26 es hasta un 43 % más rápido en CPU , lo que lo hace muy superior a RTDETRv2 para dispositivos de borde que carecen de potentes GPU.

Más información sobre YOLO26

Casos de uso en el mundo real

La elección entre estas arquitecturas depende en gran medida de su entorno de implementación específico.

Ideal para RTDETRv2

  • Vigilancia en entornos concurridos: el mecanismo de atención del transformador destaca en situaciones de gestión de multitudes en las que los objetos (personas) se solapan en gran medida.
  • Comprensión de escenas complejas: Las aplicaciones que requieren conciencia del contexto, como la navegación de vehículos autónomos, se benefician del campo receptivo global del transformador.

Ideal para YOLOX

  • Dispositivos Edge heredados: para dispositivos con limitaciones extremas, como los antiguos Raspberry Pi o microcontroladores, el YOLOX-Nano es una opción ligera que se adapta a lugares donde los transformadores no pueden instalarse.
  • Referencias académicas: gracias a su diseño con cabeza desacoplada y sin anclajes, YOLOX sigue siendo una referencia popular para estudiar los mecanismos fundamentales de la detección de objetos en la investigación.

Ejemplo de código: Ultralytics

Uno de los argumentos más sólidos para utilizar el Ultralytics es su interfaz unificada. Tanto si utiliza un modelo basado en transformadores como RT-DETR uno basado en CNN como YOLO, el código sigue siendo el mismo.

A continuación se explica cómo cargar y ejecutar la inferencia utilizando elPython Ultralytics Python :

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display results
results_yolo[0].show()

Seguimiento de experimentos

Ultralytics perfectamente con herramientas como MLflow y Weights & Biases, lo que le permite track de diferentes modelos en paralelo sin cambiar sus scripts de entrenamiento.

Conclusión

Tanto RTDETRv2 como YOLOX han contribuido significativamente al campo de la visión artificial. YOLOX demostró que los diseños sin anclajes podían ser muy eficaces, mientras que RTDETRv2 demostró que los transformadores podían funcionar en tiempo real.

Sin embargo, para la mayoría de las aplicaciones prácticas en 2026, el modelo Ultralytics ofrece la solución más equilibrada. Su diseñoNMS, las funciones ProgLoss para objetos pequeños y CPU proporcionan lo mejor de ambos mundos: alta precisión sin el enorme coste computacional de los transformadores. Tanto si está desarrollando un proyecto de fabricación inteligente como de monitorización agrícola, el Ultralytics , perfectamente mantenido, garantiza que su proyecto siga estando preparado para el futuro.

Para profundizar más, quizá te interese comparar RT-DETR YOLO11 o analizar las ventajas específicas de YOLO26 frente a YOLOv10.


Comentarios