Ir al contenido

YOLOX vs. RTDETRv2: Evaluando la evolución de los modelos de detección de objetos en tiempo real

La elección de la arquitectura óptima para aplicaciones de visión por computadora requiere un cuidadoso equilibrio entre precisión, velocidad de inferencia y viabilidad de despliegue. En este análisis técnico exhaustivo, exploramos las diferencias fundamentales entre YOLOX, una arquitectura CNN sin anclajes de gran éxito, y RTDETRv2, un transformador de detección en tiempo real de última generación.

Aunque ambos modelos han hecho contribuciones significativas al campo de la detección de objetos, los desarrolladores que construyen aplicaciones listas para producción a menudo encuentran que alternativas modernas como Ultralytics YOLO26 proporcionan una eficiencia de entrenamiento superior, menores requisitos de memoria y un ecosistema de despliegue más robusto.

YOLOX: Tendiendo un puente entre la investigación y la industria

YOLOX surgió como una adaptación sin anclajes muy popular de la serie YOLO, introduciendo un diseño simplificado que ofreció mejoras impresionantes en el rendimiento en el momento de su lanzamiento.

  • Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
  • Organización:Megvii
  • Fecha: 18 de julio de 2021
  • Enlaces:Arxiv, GitHub, Docs

Innovaciones Arquitectónicas

YOLOX transicionó la familia YOLO a un paradigma sin anclajes, integrando un cabezal desacoplado y la estrategia avanzada de asignación de etiquetas SimOTA. Al eliminar las cajas de anclaje, la arquitectura redujo significativamente el número de parámetros de diseño y mejoró la generalización en diversos conjuntos de datos de referencia. Sus versiones ligeras, YOLOX-Nano y YOLOX-Tiny, se convirtieron en opciones populares para desplegar aplicaciones de IA de visión en dispositivos de borde.

Consideraciones de Legado

Aunque YOLOX aportó avances notables, su dependencia de pipelines de aumento pesados y rutinas de post-procesamiento más antiguas (como el NMS tradicional) puede llevar a una mayor latencia en comparación con los modelos nativamente de extremo a extremo.

Más información sobre YOLOX

RTDETRv2: Avance de los transformadores de visión en tiempo real

Basándose en la base de su predecesor, RTDETRv2 aprovecha el poder de los Vision Transformers (ViTs) para lograr una precisión altamente competitiva sin sacrificar las velocidades de inferencia en tiempo real.

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
  • Organización:Baidu
  • Fecha: 2024-07-24
  • Enlaces:Arxiv, GitHub

Innovaciones Arquitectónicas

RTDETRv2 reinventa fundamentalmente el pipeline de detección utilizando una arquitectura basada en transformadores que omite de forma nativa la supresión no máxima (NMS). Esto se logra mediante un codificador híbrido y una selección de consultas consciente de IoU, lo que mejora la inicialización de las consultas de objetos. El modelo maneja eficazmente características multiescala, lo que le permite capturar detalles intrincados en entornos complejos, como la detección de vídeo de tráfico nocturno.

Sin embargo, los transformers son inherentemente intensivos en recursos. Entrenar RTDETRv2 típicamente exige significativamente más memoria GPU y ciclos de cómputo que las alternativas basadas en CNN, lo que puede ser un obstáculo para equipos que operan con estrictas restricciones presupuestarias o aquellos que requieren un ajuste frecuente de modelos.

Más información sobre RTDETR

Tabla de comparación de rendimiento

Para evaluar objetivamente estas arquitecturas, examinamos su rendimiento en el conjunto de datos COCO. La tabla siguiente ilustra las compensaciones entre precisión (mAP), recuento de parámetros y complejidad computacional.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Aunque RTDETRv2 logra una precisión impresionante, YOLOX mantiene una ventaja en perfiles de parámetros ligeros, particularmente con sus variantes Nano y Tiny.

Casos de Uso y Recomendaciones

La elección entre YOLOX y RT-DETR depende de los requisitos específicos de su proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Cuándo elegir YOLOX

YOLOX es una opción sólida para:

  • Investigación en detect Sin Anclajes: Investigación académica que utiliza la arquitectura limpia y sin anclajes de YOLOX como base para experimentar con nuevos cabezales de detect o funciones de pérdida.
  • Dispositivos Edge Ultraligeros: Despliegue en microcontroladores o hardware móvil heredado donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que estudian estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Cuándo elegir RT-DETR

RT-DETR se recomienda para:

  • Investigación en Detección Basada en Transformadores: Proyectos que exploran mecanismos de atención y arquitecturas de transformadores para la detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la máxima prioridad y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de Objetos Grandes: Escenas con objetos principalmente medianos a grandes, donde el mecanismo de atención global de los transformadores proporciona una ventaja natural.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

La ventaja de Ultralytics: YOLO26

Aunque tanto YOLOX como RTDETRv2 ofrecen fortalezas distintas, el recién lanzado Ultralytics YOLO26 redefine el estado del arte para la IA de visión, resolviendo las compensaciones históricas entre velocidad, precisión y facilidad de despliegue.

1. Arquitectura de extremo a extremo sin NMS

Inspirándose en los modelos transformadores y manteniendo la eficiencia de las CNN, YOLO26 presenta un diseño nativamente sin NMS de extremo a extremo. Al eliminar la supresión no máxima (Non-Maximum Suppression) como paso de postprocesamiento, YOLO26 simplifica drásticamente los pipelines de despliegue, asegurando una latencia de inferencia consistente en varios dispositivos edge sin la sobrecarga del ajuste complejo de umbrales.

2. Hasta un 43% más Rápida Inferencia en CPU

A diferencia de las arquitecturas transformer como RTDETRv2 que dependen en gran medida de GPUs de gama alta, YOLO26 está específicamente optimizado para entornos de edge computing. Mediante la eliminación de Distribution Focal Loss (DFL), YOLO26 optimiza la exportación de modelos y logra una inferencia en CPU hasta un 43% más rápida, lo que lo convierte en la opción ideal para la integración en hardware como la Raspberry Pi o dispositivos móviles estándar.

3. Eficiencia de Entrenamiento con MuSGD

El entrenamiento de modelos transformadores a menudo conduce a un consumo excesivo de memoria CUDA y tiempos de entrenamiento prolongados. YOLO26 introduce el novedoso Optimizador MuSGD—un híbrido del Descenso de Gradiente Estocástico y el optimizador Muon, inspirado en LLM. Esta innovación ofrece un entrenamiento excepcionalmente estable y una convergencia más rápida, reduciendo significativamente los requisitos de hardware en comparación con RTDETRv2.

4. Ecosistema y Versatilidad Inigualables

El ecosistema Ultralytics proporciona una experiencia de desarrollador intuitiva y optimizada. Con una documentación extensa, soporte activo de la comunidad y la Plataforma Ultralytics impulsada por la nube, gestionar el ciclo de vida completo de la IA nunca ha sido tan fácil. Además, YOLO26 es altamente versátil. Mientras que RTDETRv2 se enfoca en la detección de objetos, YOLO26 soporta sin problemas la segmentación de instancias, la estimación de pose, la clasificación de imágenes y tareas de Oriented Bounding Box (OBB) de forma nativa. Mejorado por las nuevas funciones de pérdida ProgLoss + STAL, YOLO26 también destaca en el reconocimiento de objetos pequeños, una característica crítica para la fotografía aérea y la detección de defectos industriales.

Otros modelos compatibles

El framework Ultralytics también es compatible con la generación anterior YOLO11 y YOLOv8, permitiendo a los usuarios comparar y migrar fácilmente pipelines heredados.

Integración Fluida con Ultralytics

Desplegar modelos no debería requerir lidiar con bases de código complejas y fragmentadas. La API de Python de Ultralytics le permite cargar, entrenar y exportar modelos de última generación en solo unas pocas líneas de código.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Al aprovechar Ultralytics, evita las complicadas configuraciones de entorno típicamente asociadas con los repositorios de investigación, acelerando su tiempo de comercialización.

Conclusión

YOLOX y RTDETRv2 representan hitos significativos en la progresión de la detect de objetos en tiempo real. YOLOX demostró la viabilidad de las CNNs sin anclajes altamente eficientes, mientras que RTDETRv2 adaptó con éxito los transformadores para las restricciones en tiempo real.

Sin embargo, para aplicaciones modernas que van desde análisis de comercio minorista inteligente hasta robótica integrada, Ultralytics YOLO26 proporciona la solución definitiva. Al fusionar la inferencia sin NMS con velocidades de CPU inigualables, huellas de memoria reducidas y el sólido soporte de la Ultralytics Platform, YOLO26 capacita a los desarrolladores para construir la próxima generación de sistemas de visión artificial fiables y de alto rendimiento.


Comentarios