RTDETRv2 vs. YOLOv5: Una comparación técnica
Seleccionar la arquitectura de detección de objetos adecuada es una decisión fundamental que afecta a todo, desde los costes de implementación hasta la experiencia del usuario. En esta comparación detallada, exploramos las ventajas e inconvenientes entre RTDETRv2, un transformador en tiempo real de última generación de Baidu, y Ultralytics YOLOv5, el legendario modelo basado en CNN que estableció el estándar de facilidad de uso y fiabilidad en la visión artificial.
Aunque RTDETRv2 introduce interesantes innovaciones basadas en transformadores, YOLOv5 sus sucesores (como el avanzado YOLO26) siguen siendo los referentes del sector en cuanto a versatilidad, velocidad de implementación y experiencia de los desarrolladores.
Resumen Ejecutivo
RTDETRv2 (Real-Time Detection Transformer v2) es una evolución de la arquitectura DETR, diseñada para eliminar la supresión no máxima (NMS) y lograr una alta precisión en GPU . Es ideal para entornos de investigación e implementaciones de servidores de gama alta donde hay abundante VRAM.
YOLOv5 (You Only Look Once v5) es una arquitectura CNN madura y lista para la producción. Conocida por su simplicidad «instalar y ejecutar», destaca por su computación periférica, su rápido entrenamiento y su amplia compatibilidad con el hardware. Para los desarrolladores que buscan lo último en velocidad y precisión, Ultralytics recomienda Ultralytics YOLO26, que combina las ventajas de los transformadores NMS con la velocidad de YOLO.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Arquitectura y Diseño
La diferencia fundamental radica en cómo estos modelos procesan la información visual: transformadores frente a redes neuronales convolucionales (CNN).
RTDETRv2: El enfoque Transformer
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización:Baidu
Fecha: 17 de abril de 2023 ( RT-DETR original), 2024 (v2)
Enlaces:ArXiv | GitHub
RTDETRv2 emplea una arquitectura híbrida de codificador-decodificador. Utiliza una red neuronal convolucional (CNN) como base (a menudo ResNet o HGNetv2) para extraer características, que luego son procesadas por un codificador transformador eficiente. La innovación clave es el codificador híbrido, que desacopla la interacción intraescala y la fusión entre escalas para reducir los costes computacionales.
La característica más destacable es su predicciónNMS. Al utilizar el emparejamiento bipartito durante el entrenamiento, el modelo aprende a generar exactamente un recuadro por objeto, lo que elimina la necesidad de pasos de posprocesamiento como la supresión no máxima (NMS). Sin embargo, esto tiene como contrapartida un mayor consumo de memoria y una convergencia de entrenamiento más lenta en comparación con las CNN puras.
YOLOv5: El estándar CNN
Autor: Glenn Jocher
Organización:Ultralytics
Fecha: 26/06/2020
Enlaces:Docs | GitHub
YOLOv5 una arquitectura CNN altamente optimizada basada en la columna vertebral CSPNet y un cuello PANet. Este diseño da prioridad al flujo de gradientes y a la reutilización de características, lo que da como resultado un modelo excepcionalmente ligero y rápido. A diferencia de los transformadores, que requieren conjuntos de datos masivos para aprender el contexto global, el sesgo inductivo YOLOv5 le permite aprender eficazmente a partir de conjuntos de datos más pequeños con una computación significativamente menor.
La evolución: YOLO26
Mientras que YOLOv5 en NMS, el nuevo Ultralytics adopta un diseño integral NMS similar al RTDETRv2, pero conserva la velocidad y la eficiencia de entrenamiento de la YOLO . También introduce el optimizador MuSGD, que acelera significativamente la convergencia.
Análisis de rendimiento
Velocidad de inferencia y latencia
Al implementar en producción, la latencia suele ser el cuello de botella. YOLOv5 en entornos CPU y dispositivos periféricos. La simplicidad arquitectónica de las CNN se adapta de manera eficiente a los procesadores estándar y las NPU móviles.
RTDETRv2 destaca en las GPU modernas (como NVIDIA o A100), donde sus operaciones de multiplicación de matrices se paralelizan de manera eficaz. Sin embargo, en dispositivos periféricos como Raspberry Pi, las operaciones del transformador pueden resultar excesivamente pesadas, lo que da lugar a un FPS inferior en comparación con YOLOv5n o YOLOv5s.
Precisión (mAP)
RTDETRv2 generalmente alcanza una precisión media (mAP) más alta en el COCO en comparación con YOLOv5, especialmente en el caso de objetos grandes y escenas complejas en las que el contexto global es crucial. Por ejemplo, RTDETRv2-L alcanza una mAP 53,4 %, superando a YOLOv5x (50,7 %) y utilizando menos parámetros.
Sin embargo, la precisión no es el único parámetro. En situaciones reales con objetos pequeños o transmisiones de vídeo con desenfoque por movimiento, la diferencia se reduce. Además, Ultralytics más recientes Ultralytics , como YOLO11 y YOLO26, han reducido esta diferencia, ofreciendo una precisión comparable o superior con una mayor eficiencia.
Eficiencia del entrenamiento y ecosistema
Aquí es donde el Ultralytics ofrece una ventaja distintiva.
Ultralytics YOLOv5 YOLO26:
- Convergencia rápida: las CNN suelen converger más rápido que los transformadores. Se puede entrenar un YOLOv5 utilizable en unas pocas horas con una sola GPU.
- Bajo consumo de memoria: El entrenamiento YOLO una cantidad significativamente menor de VRAM, lo que lo hace accesible a los investigadores que utilizan tarjetas de consumo (por ejemplo, RTX 3060).
- Aumento de datos: El Ultralytics incluye estrategias de aumento de datos de última generación (Mosaic, MixUp) habilitadas de forma predeterminada.
- Integración de plataformas: conéctese sin problemas con la Ultralytics para la gestión de conjuntos de datos, la formación en la nube y la implementación con un solo clic.
RTDETRv2:
- Consumo intensivo de recursos: los transformadores son conocidos por su gran consumo de datos y su intensidad computacional durante el entrenamiento. Estabilizar el mecanismo de atención a menudo requiere programas de entrenamiento más largos (a menudo más de 72 épocas para igualar lo que YOLO en menos).
- Configuración compleja: al tratarse de un repositorio centrado en la investigación, la configuración de RTDETRv2 para conjuntos de datos personalizados a menudo implica modificar los archivos de configuración y adaptar los cargadores de datos manualmente.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Casos de uso en el mundo real
Escenarios ideales para YOLOv5 YOLO26
Ultralytics es la «navaja suiza» de la visión artificial, adecuada para el 90 % de las aplicaciones comerciales.
- Edge AI e IoT: perfecto para NVIDIA o aplicaciones móviles en las que el consumo energético y los límites térmicos son restricciones estrictas.
- Fabricación: Se utiliza en el control de calidad de las cadenas de montaje, donde las inferencias deben realizarse en milisegundos para seguir el ritmo de la velocidad de producción.
- Tareas diversas: más allá de la detección, Ultralytics admiten de forma nativa la segmentación de instancias, la estimación de poses, OBB y la clasificación.
- Agricultura: Los modelos ligeros como YOLOv5n son ideales para la supervisión de cultivos mediante drones, ya que se ejecutan directamente en el hardware del dron.
Escenarios Ideales para RTDETRv2
- Vigilancia de alta gama: cámaras de seguridad fijas conectadas a potentes servidores en los que se prioriza la máxima precisión frente a la latencia periférica.
- Investigación académica: Exploración de los mecanismos de atención y los transformadores de visión.
- Escenas concurridas: el mecanismo de atención global a veces puede manejar mejor la oclusión pesada que las CNN puras, siempre que el hardware pueda soportar la carga computacional.
Conclusión
Tanto RTDETRv2 como YOLOv5 hitos importantes en la historia de la detección de objetos. RTDETRv2 demuestra que los transformadores pueden funcionar en tiempo real en GPU de gama alta, ofreciendo una gran precisión y una elegante arquitectura NMS.
Sin embargo, para la gran mayoría de desarrolladores y aplicaciones comerciales, Ultralytics siguen siendo la mejor opción. La combinación de la madurez de YOLOv5 y las innovaciones de vanguardia de YOLO26 garantizan que disponga de la herramienta adecuada para cualquier restricción.
¿Por qué actualizar a YOLO26? Si está comparando estos modelos para un nuevo proyecto en 2026, le recomendamos encarecidamente YOLO26. Incorpora lo mejor de ambos mundos:
- De extremo a extremo de forma nativa: al igual que RTDETRv2, elimina NMS facilitar la implementación.
- CPU hasta un 43 % más rápida: optimizada específicamente para el borde, a diferencia de los transformadores pesados.
- Versatilidad de tareas: admite detección, segmentación, pose y OBB en un único marco.
Para obtener más información sobre otras arquitecturas, consulte nuestras comparaciones entre RT-DETR YOLO11, y YOLOv8 EfficientDet.