RTDETRv2 vs. YOLOX: Una comparación técnica para la detección de objetos en tiempo real

En el panorama de la visión artificial, que evoluciona rápidamente, la búsqueda del equilibrio óptimo entre velocidad y precisión sigue impulsando la innovación. Han surgido dos enfoques distintos como favoritos: RTDETRv2, basado en Transformer, y YOLOX, basado en CNN y sin anclajes. Esta comparación explora sus diferencias arquitectónicas, métricas de rendimiento y casos de uso ideales para ayudar a los desarrolladores a elegir la herramienta adecuada para sus necesidades específicas.

Descripciones generales del modelo

Antes de profundizar en los detalles técnicos, establezcamos los orígenes y las filosofías centrales de estos dos modelos influyentes.

RTDETRv2

RTDETRv2 (Real-Time DEtection TRansformer versión 2) representa un avance significativo en la incorporación de arquitecturas Transformer a aplicaciones en tiempo real. Desarrollado por investigadores de Baidu, se basa en el RT-DETR original introduciendo una "Bag-of-Freebies" que mejora la estabilidad y el rendimiento del entrenamiento sin aumentar la latencia de inferencia. Su objetivo es resolver el alto costo computacional típicamente asociado con los Vision Transformers (ViTs), al tiempo que supera a los detectores CNN tradicionales en precisión.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2023-04-17 (RT-DETR original), actualizaciones de la v2 posteriores.
Arxiv:RT-DETRv2: Línea base mejorada con Bag-of-Freebies
GitHub:Repositorio RT-DETRv2

Más información sobre RTDETRv2

YOLOX

YOLOX revitalizó la familia YOLO en 2021 al cambiar a un mecanismo sin anclajes e incorporar técnicas avanzadas como cabezales desacoplados y asignación de etiquetas SimOTA. Si bien conserva la característica backbone de estilo Darknet de la serie YOLO, sus cambios arquitectónicos abordaron muchas limitaciones de los detectores basados en anclajes, lo que resultó en un modelo altamente eficiente y flexible que funciona excepcionalmente bien en dispositivos periféricos.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización:Megvii
Fecha: 2021-07-18
Arxiv:YOLOX: Superando la serie YOLO en 2021
GitHub:Repositorio YOLOX

Más información sobre YOLOX

Análisis de rendimiento

Las compensaciones de rendimiento entre RTDETRv2 y YOLOX son distintas. RTDETRv2 prioriza la máxima precisión (mAP), aprovechando los mecanismos de atención global de los transformadores para comprender mejor las escenas complejas y los objetos ocluidos. Sin embargo, esto conlleva mayores demandas computacionales, particularmente con respecto al uso de la memoria de la GPU.

Por el contrario, YOLOX está optimizado para velocidad y eficiencia. Su diseño sin anclaje simplifica el encabezado de detección, reduciendo el número de parámetros de diseño y acelerando el post-procesamiento (NMS). Los modelos YOLOX, particularmente las variantes Nano y Tiny, a menudo se prefieren para implementaciones de edge AI donde los recursos de hardware son limitados.

La siguiente tabla destaca estas diferencias. Tenga en cuenta que, si bien RTDETRv2 alcanza puntajes mAP más altos, YOLOX-s proporciona velocidades de inferencia más rápidas en TensorRT, lo que ilustra su idoneidad para aplicaciones sensibles a la latencia.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Análisis en profundidad de la arquitectura

Comprender las diferencias estructurales ayuda a aclarar por qué estos modelos se comportan de manera diferente.

RTDETRv2: El codificador-decodificador híbrido

RTDETRv2 aborda los cuellos de botella computacionales de los modelos DETR estándar mediante la introducción de un codificador híbrido eficiente. Este componente procesa características multiescala, desacoplando la interacción intraescala (dentro de la misma capa de características) y la fusión inter escala (a través de las capas).

Selección de consultas basada en IoU: En lugar de seleccionar consultas de objetos estáticas, RTDETRv2 selecciona un número fijo de características de imagen para que sirvan como consultas de objetos iniciales en función de sus puntuaciones de clasificación, lo que mejora la inicialización.
Decodificador flexible: El decodificador admite el ajuste dinámico del número de consultas durante la inferencia, lo que permite a los usuarios intercambiar velocidad y precisión sin necesidad de volver a entrenar.

YOLOX: Sin anclajes y desacoplado

YOLOX se aleja del paradigma basado en anchor utilizado en YOLOv4 y YOLOv5.

Sin anclajes: Al predecir directamente los centros y tamaños de los objetos, YOLOX elimina la necesidad de un diseño manual de cuadros de anclaje, reduciendo la complejidad del ajuste de hiperparámetros.
Head Desacoplado: Separa las tareas de clasificación y regresión en diferentes ramas del head de la red. Esta separación a menudo conduce a una convergencia más rápida y una mejor precisión.
SimOTA: Una estrategia avanzada de asignación de etiquetas que considera el proceso de asignación como un problema de Transporte Óptimo, asignando dinámicamente muestras positivas a ground truths basándose en un coste de optimización global.

Basado en anclajes frente a sin anclajes

Los detectores tradicionales utilizan cajas predefinidas (anclas) para estimar las ubicaciones de los objetos. YOLOX elimina esta dependencia, simplificando la arquitectura y haciendo que el modelo sea más robusto a las variadas formas de los objetos. RTDETRv2, al ser un transformador, utiliza consultas de objetos en lugar de anclas por completo, aprendiendo a atender a las regiones de imagen relevantes de forma dinámica.

Fortalezas y Debilidades

RTDETRv2

Ventajas:
- Alta Precisión: alcanza un mAP de última generación en los benchmarks de COCO.
- Contexto global: Los mecanismos de atención transformer capturan dependencias de largo alcance de manera efectiva.
- Adaptabilidad: La selección de consultas ajustable permite flexibilidad en el tiempo de inferencia.
Debilidades:
- Uso intensivo de recursos: Requiere una cantidad significativa de memoria de GPU para el entrenamiento y la inferencia en comparación con las CNN.
- Entrenamiento más lento: Los transformadores generalmente tardan más en converger que las arquitecturas basadas en CNN.

YOLOX

Ventajas:
- Velocidad de inferencia: Extremadamente rápido, especialmente las variantes más pequeñas (Nano, Tiny, S).
- Fácil de Implementar: Más fácil de implementar en dispositivos de borde y CPU debido a un menor número de FLOP y conteo de parámetros.
- Simplicidad: El diseño sin anclajes reduce la complejidad de la ingeniería.
Debilidades:
- Menor precisión máxima: Tiene dificultades para igualar la precisión de primer nivel de los grandes modelos de transformadores como RTDETRv2-x.
- Evolución de características: Carece de algunas de las capacidades multimodales que se encuentran en frameworks más nuevos.

La ventaja de Ultralytics: ¿Por qué elegir YOLO11?

Si bien RTDETRv2 y YOLOX son modelos formidables, el ecosistema de Ultralytics YOLO, encabezado por YOLO11 de última generación, ofrece una solución integral que a menudo supera los beneficios de los modelos individuales.

Equilibrio de rendimiento: YOLO11 está diseñado para proporcionar un equilibrio óptimo entre velocidad y precisión. A menudo iguala o supera la precisión de los modelos basados en transformadores, manteniendo al mismo tiempo la velocidad de inferencia característica de la familia YOLO.
Facilidad de uso: Ultralytics prioriza la experiencia del desarrollador. Con una API de python y CLI unificadas, puede entrenar, validar e implementar modelos en tan solo unas pocas líneas de código.
Eficiencia de memoria: A diferencia de RTDETRv2, que puede ser pesado en la VRAM de la GPU, YOLO11 es altamente eficiente en cuanto a la memoria tanto durante el entrenamiento como en la inferencia. Esto lo hace accesible a investigadores y desarrolladores con hardware de consumo.
Ecosistema bien mantenido: Los modelos de Ultralytics están respaldados por actualizaciones frecuentes, una comunidad dinámica y una documentación extensa. Funciones como Ultralytics HUB facilitan la gestión de modelos y el entrenamiento en la nube sin problemas.
Versatilidad: Más allá de la simple detección de objetos, YOLO11 admite de forma nativa la segmentación de instancias, la estimación de pose, OBB y la clasificación, mientras que YOLOX y RTDETRv2 se centran principalmente en la detección.
Eficiencia en el entrenamiento: Con pesos preentrenados disponibles para varias tareas y capacidades sofisticadas de aprendizaje por transferencia, YOLO11 reduce drásticamente el tiempo y la energía necesarios para entrenar modelos de alto rendimiento.

Más información sobre YOLO11

Ejemplo de código

Ultralytics hace que sea increíblemente fácil usar estos modelos avanzados. A continuación, se muestra un ejemplo de cómo ejecutar la inferencia usando YOLO11 y, en particular, Ultralytics también es compatible con RT-DETR directamente, lo que simplifica su uso significativamente en comparación con el repositorio original.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLO11 model (Recommended)
model_yolo = YOLO("yolo11n.pt")

# Run inference on an image
results_yolo = model_yolo("path/to/image.jpg")

# Load an RT-DETR model via Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run inference with RT-DETR
results_rtdetr = model_rtdetr("path/to/image.jpg")

Conclusión

La elección entre RTDETRv2 y YOLOX depende, en última instancia, de sus limitaciones específicas.

Elija RTDETRv2 si su aplicación exige la máxima precisión absoluta, como en la investigación académica o la inspección industrial de alta precisión, y tiene acceso a potentes recursos de GPU.
Elija YOLOX si va a realizar la implementación en entornos con recursos limitados, como Raspberry Pi o dispositivos móviles, donde cada milisegundo de latencia cuenta.

Sin embargo, para la gran mayoría de las aplicaciones del mundo real, Ultralytics YOLO11 emerge como la opción superior en todos los sentidos. Combina las ventajas de precisión de las arquitecturas modernas con la velocidad y la eficiencia de las CNN, todo ello envuelto en un ecosistema fácil de usar y listo para la producción. Ya sea que esté construyendo para el borde o la nube, YOLO11 proporciona las herramientas y el rendimiento para tener éxito.

Explorar otras comparaciones

Para ayudarte aún más a tomar una decisión, considera explorar otras comparaciones de modelos:

RTDETRv2 vs. YOLOX: Una comparación técnica para la detección de objetos en tiempo real

Descripciones generales del modelo

RTDETRv2

YOLOX

Análisis de rendimiento

Análisis en profundidad de la arquitectura

RTDETRv2: El codificador-decodificador híbrido

YOLOX: Sin anclajes y desacoplado

Fortalezas y Debilidades

RTDETRv2

YOLOX

La ventaja de Ultralytics: ¿Por qué elegir YOLO11?

Ejemplo de código

Conclusión

Explorar otras comparaciones

Comentarios