YOLOX frente a RT-DETRv2: equilibrio entre arquitecturas heredadas e innovación en transformadores
Seleccionar la arquitectura óptima para la detección de objetos es una decisión crítica que afecta a la latencia, la precisión y la escalabilidad de sus proyectos de visión artificial. Este análisis técnico compara YOLOX, una sólida referencia CNN sin anclajes de 2021, con RT-DETRv2, un modelo de vanguardia basado en transformadores y optimizado para aplicaciones en tiempo real.
Aunque ambos modelos representaron avances significativos en el momento de su lanzamiento, los flujos de trabajo modernos exigen cada vez más soluciones que unifiquen el alto rendimiento con la facilidad de implementación. A lo largo de esta comparación, también exploraremos cómo el avanzado Ultralytics sintetiza las mejores características de estas arquitecturas, como la inferencia NMS, en un único marco eficiente.
Métricas de rendimiento
La siguiente tabla presenta una comparación directa de las métricas clave. Tenga en cuenta que, si bien RT-DETRv2 ofrece una precisión media (mAP) más alta, requiere muchos más recursos computacionales, como lo demuestra el recuento de FLOP.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: El pionero sin anclajes
YOLOX fue presentado en 2021 por investigadores de Megvii, lo que supuso un cambio con respecto a los mecanismos basados en anclajes que dominaban YOLO anteriores YOLO (como YOLOv4 y YOLOv5). Se simplificó el diseño eliminando los cuadros de anclaje e introduciendo un cabezal desacoplado, que separa las tareas de clasificación y localización para una mejor convergencia.
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
- Organización: Megvii
- Fecha: 18 de julio de 2021
- Arxiv:YOLOX: Superando la serie YOLO en 2021
- GitHub:Megvii-BaseDetection/YOLOX
Arquitectura y puntos fuertes
YOLOX emplea una estrategia de asignación de etiquetas SimOTA (Simplified Optimal Transport Assignment), que asigna dinámicamente muestras positivas a objetos de referencia. Esto permite al modelo gestionar las oclusiones y las diferentes escalas de los objetos de forma más eficaz que los umbrales rígidos IoU.
La simplicidad de su arquitectura la convierte en una referencia favorita en la investigación académica. Su diseño de «cabezal desacoplado», que procesa las características de clasificación y regresión en ramas separadas, mejora la estabilidad y la precisión del entrenamiento.
Compatibilidad con sistemas heredados
YOLOX sigue siendo una opción sólida para los sistemas heredados creados en torno a bases de código de la era 2021 o para los investigadores que necesitan una línea de base CNN limpia y sin anclajes para probar nuevos componentes teóricos.
Sin embargo, en comparación con las versiones modernas, YOLOX se basa en la supresión no máxima (NMS) para el posprocesamiento. Este paso introduce variabilidad en la latencia, lo que lo hace menos predecible para aplicaciones industriales estrictamente en tiempo real en comparación con los modelos integrales más recientes.
RT-DETRv2: Transformadores en tiempo real
RT-DETRv2 (Real-Time Detection Transformer v2) es la evolución del RT-DETR original, desarrollado por Baidu. Aborda el alto coste computacional que suele asociarse a los transformadores de visión (ViT) mediante el uso de un codificador híbrido eficiente que procesa rápidamente características multiescala.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organización: Baidu
- Fecha: 17 de abril de 2023 (v1), 24 de julio de 2024 (v2)
- Arxiv:RT-DETRv2: Línea base mejorada con Bag-of-Freebies
- GitHub:lyuwenyu/RT-DETR
Arquitectura e Innovaciones
La característica definitoria de RT-DETRv2 su inferenciaNMS. Al utilizar un decodificador transformador con consultas de objetos, el modelo predice directamente un conjunto fijo de cuadros delimitadores. Esto elimina la necesidad de NMS, lo que simplifica los procesos de implementación y garantiza tiempos de inferencia consistentes independientemente del número de objetos que haya en una escena.
RT-DETRv2 a su predecesor con un codificador híbrido flexible y una cuantificación de la incertidumbre optimizada, lo que le permite alcanzar una mayor precisión (hasta un 54,3 % mAP) en el COCO .
Intensidad de recursos
Aunque son precisos, los bloques transformadores RT-DETRv2 consumen mucha memoria. El entrenamiento suele requerir mucha más CUDA que los modelos basados en CNN, y las velocidades de inferencia enGPU (como las CPU estándar) pueden ser lentas debido a la complejidad de los mecanismos de atención.
La Ventaja Ultralytics: ¿Por qué elegir YOLO26?
Mientras que YOLOX sirve como base de referencia fiable para la investigación y RT-DETRv2 los límites de la precisión de los transformadores, el Ultralytics ofrece una solución que combina lo mejor de ambos mundos. Ultralytics está diseñado para desarrolladores que requieren un rendimiento de vanguardia sin la complejidad de los repositorios experimentales.
Nativamente de Extremo a Extremo y sin NMS
YOLO26 adopta la filosofía de diseño integral NMS (gestión de servicios de red) impulsada por YOLOv10 y RT-DETR la implementa dentro de una arquitectura CNN altamente eficiente. Esto significa que se obtiene la implementación simplificada de RT-DETRv2(sin lógica de posprocesamiento compleja) combinada con la velocidad bruta de una CNN.
Eficiencia sin igual para la computación periférica
A diferencia de los pesados bloques transformadores de RT-DETRv2, YOLO26 está optimizado para diversos tipos de hardware.
- Eliminación de DFL: al eliminar la pérdida focal de distribución, se simplifica la estructura del modelo, lo que mejora la compatibilidad con aceleradores de borde y dispositivos de bajo consumo.
- CPU : YOLO26 ofrece una inferencia hasta un 43 % más rápida en las CPU en comparación con las generaciones anteriores, lo que lo convierte en la opción ideal para implementaciones de IA en el borde donde no se dispone de GPU.
Dinámica de entrenamiento avanzado
YOLO26 integra el optimizador MuSGD, un híbrido entre SGD el optimizador Muon inspirado en el entrenamiento LLM. Esta innovación aporta la estabilidad del entrenamiento de modelos de lenguaje grandes a la visión por computadora, lo que da como resultado una convergencia más rápida y pesos más robustos. Además, las funciones de pérdida mejoradas, como ProgLoss y STAL, aumentan significativamente el rendimiento en objetos pequeños, una debilidad común en modelos más antiguos como YOLOX.
Flujo de trabajo sin interrupciones con Ultralytics
Quizás la mayor ventaja sea la Ultralytics . Mientras que YOLOX y RT-DETRv2 requerir navegar por bases de código GitHub fragmentadas, Ultralytics una interfaz unificada. Se puede cambiar entre tareas (detección, segmentación, estimación de poses, clasificación y OBB) con solo cambiar el nombre del modelo.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
Conclusión
Para la investigación académica que requiere una línea de base CNN pura, YOLOX sigue siendo una opción válida. Para escenarios con amplia GPU donde la máxima precisión es la única métrica, RT-DETRv2 es un fuerte competidor. Sin embargo, para los sistemas de producción del mundo real que exigen un equilibrio entre velocidad, precisión y facilidad de mantenimiento, Ultralytics se erige como la mejor opción, ya que ofrece capacidades integrales de última generación con la eficiencia necesaria para una implementación moderna.
Lecturas adicionales
Para explorar otros modelos de alto rendimiento de la Ultralytics , consulte:
- YOLO11: un modelo robusto de uso general que admite una amplia variedad de tareas de visión.
- YOLOv10: La primera YOLO que introduce la detección de objetos en tiempo real de extremo a extremo.
- RT-DETR: Nuestra implementación del transformador de detección en tiempo real para aquellos que prefieren arquitecturas basadas en transformadores.