Ir al contenido

RTDETRv2 vs YOLOv5: Una Comparación Técnica Detallada

Elegir el modelo óptimo de detección de objetos es una decisión crítica para cualquier proyecto de visión artificial. Las compensaciones entre precisión, velocidad y coste computacional definen la idoneidad de un modelo para una aplicación determinada. Esta página proporciona una comparación técnica detallada entre RTDETRv2, un modelo basado en transformadores de alta precisión, y Ultralytics YOLOv5, un estándar industrial altamente eficiente y ampliamente adoptado. Exploraremos sus diferencias arquitectónicas, benchmarks de rendimiento y casos de uso ideales para ayudarle a tomar una decisión informada.

RTDETRv2: Transformer de detección en tiempo real de alta precisión

RTDETRv2 (Real-Time Detection Transformer v2) es un detector de objetos de última generación de Baidu que aprovecha la potencia de los Vision Transformers para lograr una alta precisión, manteniendo al mismo tiempo un rendimiento en tiempo real. Representa un avance significativo al llevar arquitecturas transformer complejas a aplicaciones prácticas en tiempo real.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organización: Baidu
Fecha: 2023-04-17 (RT-DETR inicial), 2024-07-24 (mejoras de RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Documentación: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Arquitectura

RTDETRv2 emplea una arquitectura híbrida que combina las fortalezas de las Redes Neuronales Convolucionales (CNN) y los Transformers.

  • Backbone: Se utiliza una CNN (como ResNet o HGNetv2) para la extracción inicial de características, capturando eficientemente las características de imagen de bajo nivel.
  • Encoder-Decoder: El núcleo del modelo es un encoder-decoder basado en Transformer. Utiliza mecanismos de autoatención para procesar los mapas de características del backbone, lo que permite que el modelo capture el contexto global y las dependencias de largo alcance entre los objetos en la escena. Esto es particularmente efectivo para detectar objetos en entornos complejos o concurridos.

Fortalezas

  • Alta precisión: La arquitectura transformer permite que RTDETRv2 alcance excelentes puntuaciones mAP, a menudo superando a los modelos tradicionales basados en CNN en conjuntos de datos complejos como COCO.
  • Extracción Robusta de Características: Al considerar el contexto completo de la imagen, funciona bien en escenarios desafiantes con objetos ocluidos o pequeños, lo que la hace adecuada para aplicaciones como la conducción autónoma.
  • Capacidad en tiempo real: El modelo está optimizado para ofrecer velocidades de inferencia competitivas, especialmente cuando se acelera con herramientas como NVIDIA TensorRT.

Debilidades

  • Coste Computacional: Los modelos basados en transformadores generalmente tienen un mayor número de parámetros y FLOPs, lo que exige recursos computacionales más significativos como la memoria de la GPU y la potencia de procesamiento.
  • Complejidad del entrenamiento: Entrenar RTDETRv2 puede consumir muchos recursos y ser más lento que entrenar modelos basados en CNN. A menudo requiere mucha más memoria CUDA, lo que puede ser una barrera para los usuarios con hardware limitado.
  • Velocidad de inferencia en CPU: Si bien es rápido en las GPU de gama alta, su rendimiento puede ser significativamente más lento que los modelos optimizados como YOLOv5 en las CPU o en los dispositivos periféricos (edge devices) menos potentes.
  • Ecosistema: Carece del extenso ecosistema unificado, las herramientas y el amplio soporte comunitario que Ultralytics proporciona para sus modelos YOLO.

Más información sobre RTDETRv2

Ultralytics YOLOv5: El Estándar Industrial Establecido

Ultralytics YOLOv5, lanzado por primera vez en 2020, se convirtió rápidamente en un punto de referencia de la industria debido a su excepcional equilibrio entre velocidad, precisión y una facilidad de uso sin igual. Desarrollado en PyTorch por Glenn Jocher, YOLOv5 es un modelo maduro, fiable y altamente optimizado que se ha implementado en innumerables aplicaciones del mundo real.

Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentación: https://docs.ultralytics.com/models/yolov5/

Arquitectura

YOLOv5 presenta una arquitectura CNN clásica y altamente eficiente. Utiliza un backbone CSPDarknet53 para la extracción de características, un cuello de botella PANet para la agregación de características en diferentes escalas y un encabezado de detección basado en anclajes. Este diseño ha demostrado ser extremadamente eficaz para la detección de objetos en tiempo real.

Fortalezas

  • Velocidad y eficiencia excepcionales: YOLOv5 está altamente optimizado para una inferencia rápida en una amplia gama de hardware, desde GPUs de alta gama hasta dispositivos periféricos con recursos limitados como NVIDIA Jetson y Raspberry Pi.
  • Facilidad de uso: Ultralytics YOLOv5 es famoso por su experiencia de usuario optimizada. Gracias a una sencilla API de Python y a una extensa documentación, los desarrolladores pueden entrenar, validar e implementar modelos con el mínimo esfuerzo.
  • Ecosistema bien mantenido: YOLOv5 está respaldado por el robusto ecosistema de Ultralytics, que incluye un desarrollo activo, una comunidad grande y de apoyo, actualizaciones frecuentes y herramientas integradas como Ultralytics HUB para un entrenamiento e implementación sin código.
  • Equilibrio de rendimiento: La familia de modelos (n, s, m, l, x) ofrece una excelente relación entre velocidad y precisión, lo que permite a los usuarios seleccionar el modelo perfecto para sus necesidades específicas.
  • Eficiencia de memoria: En comparación con los modelos basados en transformadores como RTDETRv2, YOLOv5 requiere significativamente menos memoria CUDA para el entrenamiento, lo que lo hace accesible a una gama más amplia de desarrolladores e investigadores.
  • Versatilidad: YOLOv5 admite múltiples tareas, incluyendo la detección de objetos, la segmentación de instancias y la clasificación de imágenes, todo dentro de un marco unificado.
  • Eficiencia en el entrenamiento: El proceso de entrenamiento es rápido y eficiente, con pesos pre-entrenados disponibles que aceleran la convergencia en conjuntos de datos personalizados.

Debilidades

  • Precisión en escenas complejas: Aunque es muy preciso, YOLOv5 puede verse ligeramente superado por RTDETRv2 en mAP en conjuntos de datos con objetos muy densos o pequeños, donde el contexto global es crítico.
  • Basado en anclajes: Su dependencia de cajas de anclaje predefinidas a veces puede requerir un ajuste adicional para conjuntos de datos con relaciones de aspecto de objeto inusuales, un paso que no es necesario en los detectores sin anclajes.

Casos de Uso Ideales

YOLOv5 destaca en aplicaciones donde la velocidad, la eficiencia y el desarrollo rápido son prioritarios:

  • Videovigilancia en tiempo real: Impulsa los sistemas de alarma de seguridad y la monitorización de transmisiones de video en directo.
  • Edge Computing: Implementación en dispositivos de bajo consumo para aplicaciones en robótica y automatización industrial.
  • Aplicaciones móviles: Sus modelos ligeros son perfectos para la inferencia en el dispositivo en teléfonos inteligentes.
  • Prototipado Rápido: La facilidad de uso y los ciclos de entrenamiento rápidos lo hacen ideal para desarrollar y probar rápidamente nuevas ideas.

Más información sobre YOLOv5

Análisis de rendimiento: Velocidad vs. Precisión

La principal distinción entre RTDETRv2 y YOLOv5 radica en su filosofía de diseño. RTDETRv2 prioriza lograr la mayor precisión posible aprovechando una arquitectura de transformador computacionalmente intensiva. En contraste, YOLOv5 está diseñado para el equilibrio óptimo de velocidad y precisión, lo que lo convierte en una opción más práctica para una gama más amplia de escenarios de implementación, especialmente en hardware que no es GPU.

La siguiente tabla proporciona una comparación cuantitativa en el conjunto de datos COCO val2017. Si bien los modelos RTDETRv2 logran un mAP más alto, los modelos YOLOv5, particularmente las variantes más pequeñas, ofrecen velocidades de inferencia dramáticamente más rápidas, especialmente en la CPU.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Conclusión y recomendación

Tanto RTDETRv2 como YOLOv5 son modelos de detección de objetos potentes, pero satisfacen diferentes necesidades.

RTDETRv2 es una excelente opción para aplicaciones donde lograr la máxima precisión absoluta es la principal prioridad y se dispone de recursos computacionales sustanciales (especialmente GPUs de alta gama). Su capacidad para comprender el contexto global lo hace superior para benchmarks académicos y tareas industriales especializadas con escenas complejas.

Sin embargo, para la gran mayoría de las aplicaciones del mundo real, Ultralytics YOLOv5 sigue siendo la opción más práctica y versátil. Su excepcional equilibrio entre velocidad y precisión, combinado con sus bajos requisitos de recursos, la hace adecuada para la implementación en todas partes, desde la nube hasta el borde. Las principales ventajas de YOLOv5—facilidad de uso, un ecosistema bien mantenido, eficiencia de entrenamiento y versatilidad—la convierten en el modelo de referencia para los desarrolladores e investigadores que necesitan ofrecer soluciones robustas y de alto rendimiento de forma rápida y eficiente.

Para aquellos que buscan los últimos avances construidos sobre esta sólida base, recomendamos encarecidamente explorar los modelos más nuevos de Ultralytics como YOLOv8 y YOLO11, que ofrecen un rendimiento aún mejor y más características dentro del mismo marco fácil de usar.

Otras comparaciones de modelos

Si está interesado en cómo se comparan estos modelos con otros, consulte estas páginas de comparación:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios