YOLOv5 vs RTDETRv2: Evaluación de arquitecturas CNN frente a Transformer para la detección de objetos
El panorama de la visión artificial se ha expandido significativamente en los últimos años, ofreciendo a los desarrolladores una amplia gama de arquitecturas para abordar tareas visuales complejas. Entre los paradigmas más populares se encuentran las Redes Neuronales Convolucionales (CNNs) y los Transformers de Detección (DETRs).
Esta guía ofrece una comparación técnica detallada entre dos modelos fundamentales en estas categorías: Ultralytics YOLOv5, un modelo basado en CNN altamente eficiente y ampliamente adoptado, y RTDETRv2, un detector de objetos en tiempo real basado en tecnología transformer de última generación.
Ultralytics YOLOv5: El estándar de la industria para la eficiencia
Desde su lanzamiento, Ultralytics YOLOv5 se ha convertido en una piedra angular de la comunidad de IA, impulsando miles de aplicaciones comerciales y proyectos de investigación a nivel mundial. Construido íntegramente sobre el framework PyTorch, prioriza una experiencia de desarrollo intuitiva sin comprometer el rendimiento en tiempo real.
Características clave:
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- Enlaces: Repositorio de GitHub
Arquitectura y puntos fuertes
YOLOv5 utiliza una arquitectura CNN optimizada, diseñada para maximizar la eficiencia de la extracción de características mientras mantiene un consumo de memoria extremadamente bajo. Emplea un backbone CSPDarknet y un neck PANet, creando una combinación potente para la fusión de características multiescala.
Una de las principales ventajas de YOLOv5 es su equilibrio de rendimiento. Logra un equilibrio excepcional entre velocidad y precisión, convirtiéndolo en la opción ideal para el despliegue de modelos en hardware con recursos limitados, como dispositivos NVIDIA Jetson y smartphones.
Además, YOLOv5 cuenta con una versatilidad inigualable. A diferencia de los modelos limitados estrictamente a predicciones de cuadros delimitadores (bounding boxes), YOLOv5 soporta de forma nativa la clasificación de imágenes y la segmentación de instancias, proporcionando un framework unificado para tareas visuales variadas. Su eficiencia de entrenamiento también es notable, ya que requiere significativamente menos memoria CUDA durante el entrenamiento en comparación con las arquitecturas basadas en transformer.
Debilidades
Debido a que se basa en un framework CNN más antiguo, YOLOv5 depende intrínsecamente de la Supresión de No Máximos (NMS) durante el posprocesamiento para eliminar los cuadros delimitadores duplicados. Aunque está altamente optimizada dentro del framework Ultralytics, la NMS puede introducir ocasionalmente cuellos de botella de latencia en NPUs de borde especializadas.
RTDETRv2: Transformers en tiempo real de Baidu
RTDETRv2 (Real-Time Detection Transformer v2) representa un avance sustancial en la aplicación de arquitecturas transformer a la detección de objetos en tiempo real, abordando las ineficiencias computacionales que históricamente afectaban a los DETR estándar.
Características clave:
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
- Organización: Baidu
- Fecha: 24-07-2024
- Enlaces: Documento de Arxiv, Repositorio de GitHub
Arquitectura y puntos fuertes
RTDETRv2 mejora a su predecesor utilizando un encoder híbrido y un diseño de decoder flexible para procesar imágenes. El mecanismo de autoatención (self-attention) del transformer proporciona al modelo una comprensión global del contexto de la imagen, permitiéndole funcionar excepcionalmente bien en escenas complejas con una oclusión de objetos severa.
Una característica definitoria de RTDETRv2 es su diseño de extremo a extremo sin NMS. Al predecir consultas de objetos directamente sin requerir anchor boxes ni posprocesamiento NMS, se simplifica el pipeline de inferencia. Esta arquitectura logra un impresionante mAP (mean Average Precision) en datasets de referencia como COCO.
Debilidades
A pesar de sus capacidades en tiempo real, RTDETRv2 tiene requisitos de memoria notablemente más altos en comparación con los modelos YOLO. Los mecanismos de atención en los transformers escalan cuadráticamente con la longitud de la secuencia, lo que puede provocar errores de falta de memoria (OOM) durante el entrenamiento de alta resolución a menos que se utilicen clústeres masivos de GPU. Además, carece de la versatilidad inmediata del ecosistema de Ultralytics, centrándose principalmente solo en la detección de objetos 2D sin soporte nativo para segmentación o estimación de poses.
Tabla de comparación de rendimiento
Para evaluar objetivamente estas arquitecturas, hemos recopilado sus métricas de rendimiento. Los valores resaltados en negrita representan las métricas más eficientes o de mayor rendimiento en las escalas probadas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Aunque RTDETRv2-x alcanza el mAP absoluto más alto, requiere casi 30 veces más parámetros que YOLOv5n. Para aplicaciones de alta velocidad ejecutándose en hardware limitado, los modelos de Ultralytics ofrecen constantemente la mejor eficiencia computacional.
La ventaja del ecosistema de Ultralytics
Al mover un modelo de un notebook de investigación a un entorno de producción, el software que rodea al modelo es tan importante como la arquitectura de la red neuronal. El ecosistema bien mantenido proporcionado por Ultralytics acelera drásticamente el ciclo de vida del desarrollo.
Facilidad de uso inigualable
Los modelos de Ultralytics priorizan una experiencia de usuario increíblemente optimizada. Ya sea que quieras entrenar un modelo personalizado, realizar una validación o exportar a formatos específicos de hardware como TensorRT o ONNX, la API de Python de Ultralytics lo hace posible con solo unas pocas líneas de código.
Aquí tienes un ejemplo práctico de código que demuestra lo sencillo que es entrenar y ejecutar la inferencia con un modelo de Ultralytics:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()Esta API sencilla y unificada soporta de forma nativa integraciones de seguimiento de experimentos con herramientas como Weights & Biases y Comet, permitiendo a los desarrolladores registrar métricas sin problemas ni necesidad de escribir código repetitivo complejo.
Casos de uso y recomendaciones
Elegir entre YOLOv5 y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias del ecosistema.
Cuándo elegir YOLOv5
YOLOv5 es una opción sólida para:
- Sistemas de producción probados: Implementaciones existentes donde se valora la larga trayectoria de estabilidad de YOLOv5, su extensa documentación y el enorme soporte de la comunidad.
- Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde el eficiente pipeline de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
- Amplio soporte de formatos de exportación: Proyectos que requieren implementación en muchos formatos, incluyendo ONNX, TensorRT, CoreML y TFLite.
Cuándo elegir RT-DETR
RT-DETR se recomienda para:
- Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas Transformer para la detección de objetos de extremo a extremo sin NMS.
- Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la máxima prioridad y se puede aceptar una latencia de inferencia ligeramente superior.
- Detección de objetos grandes: Escenas con objetos principalmente medianos y grandes donde el mecanismo de atención global de los Transformers proporciona una ventaja natural.
Cuándo elegir Ultralytics (YOLO26)
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:
- Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.
Mirando hacia el futuro: YOLO11 y YOLO26
Si estás comenzando un nuevo proyecto de visión artificial hoy, te recomendamos encarecidamente explorar las últimas generaciones de modelos de Ultralytics.
Aunque YOLOv5 sigue siendo increíblemente fiable, YOLO11 ofrece una precisión mejorada y un conjunto ampliado de tareas que incluyen la detección de cuadros delimitadores orientados (OBB).
Aún más significativamente, el innovador YOLO26 combina lo mejor de ambos mundos. Implementa un diseño de extremo a extremo sin NMS (pionero en YOLOv10), eliminando la sobrecarga del posprocesamiento mientras mantiene la eficiencia de una CNN. YOLO26 también introduce el optimizador MuSGD, inspirado en las innovaciones del entrenamiento de LLM, para una convergencia más rápida. Con la eliminación de DFL (se eliminó Distribution Focal Loss para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia), YOLO26 ofrece una inferencia en CPU hasta un 43% más rápida, convirtiéndolo en la mejor opción absoluta para IA de borde. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, algo crítico para IoT, robótica e imágenes aéreas.
Conclusión
Elegir entre YOLOv5 y RTDETRv2 depende en gran medida de tus restricciones de despliegue. RTDETRv2 amplía los límites del mAP utilizando potentes mecanismos de atención de transformer, pero conlleva un alto coste en memoria y sobrecarga computacional.
Por el contrario, Ultralytics YOLOv5 ofrece una solución probada, altamente optimizada y versátil que funciona perfectamente en todas partes, desde servidores en la nube hasta microcontroladores. Para los equipos que buscan la mayor precisión posible junto con herramientas de despliegue fluidas, actualizar dentro del ecosistema Ultralytics a YOLO26 proporciona la solución definitiva de última generación para aplicaciones modernas de IA de visión.