Ir al contenido

RTDETRv2 vs. YOLOv5: Una comparación técnica

En el panorama de la detección de objetos, que evoluciona rápidamente, seleccionar el modelo adecuado a menudo implica sortear una disyuntiva entre la complejidad arquitectónica, la velocidad de inferencia y la usabilidad práctica. Esta guía proporciona una comparación técnica exhaustiva entre RTDETRv2, un detector en tiempo real basado en transformadores de Baidu, y YOLOv5, el legendario modelo basado en CNN de Ultralytics conocido por su versatilidad y adopción generalizada.

Análisis de rendimiento: Velocidad vs. Precisión

La diferencia fundamental entre estos dos modelos radica en su filosofía arquitectónica. RTDETRv2 emplea un enfoque de Vision Transformer (ViT) para capturar el contexto global, con el objetivo de obtener la máxima precisión en los puntos de referencia. En contraste, YOLOv5 utiliza un diseño de red neuronal convolucional (CNN) altamente optimizado, priorizando un equilibrio de velocidad, eficiencia y facilidad de implementación en diversos hardware.

La siguiente tabla ilustra esta distinción. Si bien RTDETRv2 alcanza altos puntajes mAP en el conjunto de datos COCO, exige significativamente más recursos computacionales. YOLOv5, particularmente en sus variantes más pequeñas (Nano y Small), ofrece velocidades de inferencia drásticamente más rápidas, especialmente en las CPU, y una huella de memoria mucho menor, lo que la convierte en la opción práctica para aplicaciones del mundo real.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Eficiencia de Memoria

YOLOv5 requiere significativamente menos memoria CUDA para el entrenamiento en comparación con los modelos basados en transformadores como RTDETRv2. Esta barrera de entrada más baja permite a los desarrolladores entrenar modelos personalizados en GPUs de consumo estándar o incluso en entornos basados en la nube como Google Colab sin incurrir en errores de falta de memoria (OOM).

RTDETRv2: El aspirante Transformer

RTDETRv2 (Real-Time Detection Transformer v2) representa un esfuerzo por trasladar las ventajas de precisión de los transformadores a escenarios en tiempo real. Mediante el uso de una arquitectura híbrida, intenta mitigar los altos costes computacionales que suelen asociarse a los Vision Transformers.

Arquitectura y puntos fuertes

RTDETRv2 combina una red troncal CNN para la extracción eficiente de características con un codificador-decodificador de transformador. Este diseño permite que el modelo utilice mecanismos de autoatención para comprender las relaciones globales entre los objetos, lo que puede ser beneficioso en escenas complejas con oclusión o aglomeración. Su principal punto fuerte es su alta precisión en los puntos de referencia académicos, donde a menudo supera a los modelos basados en CNN de escala similar en métricas puras de mAP.

Debilidades

A pesar de su precisión, RTDETRv2 se enfrenta a desafíos en cuanto a versatilidad y facilidad de uso. La arquitectura transformer es inherentemente más pesada, lo que conlleva tiempos de entrenamiento más lentos y un mayor consumo de memoria. Además, su ecosistema se centra principalmente en la investigación, careciendo de las amplias herramientas, el soporte de implementación y los recursos de la comunidad que se encuentran en marcos de trabajo más maduros. También se limita principalmente a la detección de objetos, mientras que los proyectos modernos a menudo requieren la segmentación o clasificación dentro del mismo pipeline.

Más información sobre RTDETRv2

Ultralytics YOLOv5: El estándar versátil

YOLOv5 es ampliamente considerado como uno de los modelos de visión artificial más prácticos y fáciles de usar disponibles. Construido por Ultralytics, prioriza una experiencia optimizada de "entrenar, implementar y listo", haciendo que la IA avanzada sea accesible para todos, desde aficionados hasta ingenieros empresariales.

¿Por qué YOLOv5 destaca?

YOLOv5 destaca debido a su enfoque holístico de las operaciones de aprendizaje automático (MLOps). No es solo una arquitectura de modelo, sino un ecosistema completo.

  • Facilidad de uso: Con una API de python simple y una interfaz de línea de comandos, los usuarios pueden comenzar a entrenar con datos personalizados en minutos.
  • Equilibrio de rendimiento: La familia de modelos (Nano a X-Large) ofrece un gradiente perfecto de velocidad y precisión, lo que permite a los usuarios adaptar su elección a hardware específico, como la NVIDIA Jetson o Raspberry Pi.
  • Versatilidad: A diferencia de RTDETRv2, YOLOv5 admite de forma nativa múltiples tareas, incluyendo la clasificación de imágenes y la segmentación de instancias, lo que reduce la necesidad de mantener bases de código separadas para diferentes tareas de visión.
  • Capacidad de exportación: Ultralytics proporciona soporte integrado para la exportación a ONNX, TensorRT, CoreML y TFLite, lo que garantiza que los modelos puedan implementarse en cualquier lugar, desde aplicaciones móviles hasta servidores en la nube.

Más información sobre YOLOv5

Ejemplo de uso

YOLOv5 está diseñado para la simplicidad. A continuación, se muestra un ejemplo de cómo cargar un modelo preentrenado y ejecutar la inferencia utilizando PyTorch Hub, lo que demuestra la API intuitiva por la que Ultralytics es conocido.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

Comparación del entrenamiento y el ecosistema

La experiencia del desarrollador es a menudo tan crítica como el rendimiento bruto del modelo. En este caso, las diferencias son notables.

Eficiencia del entrenamiento

YOLOv5 utiliza detectores basados en anclajes que son computacionalmente eficientes para entrenar. El framework de Ultralytics incluye "bag-of-freebies" como el aumento de mosaico y la evolución automática de anclajes, que ayudan a los modelos a converger más rápido y a generalizar mejor con menos datos. Por el contrario, el entrenamiento de RTDETRv2 requiere más recursos debido a la complejidad cuadrática de las capas de atención del transformador, lo que a menudo requiere GPUs de gama alta con una VRAM sustancial.

Soporte del ecosistema

El Ecosistema Ultralytics proporciona una ventaja clara. Los usuarios se benefician de:

  • Desarrollo Activo: Las actualizaciones frecuentes garantizan la compatibilidad con las últimas versiones de PyTorch y CUDA.
  • Soporte de la comunidad: Una enorme comunidad en GitHub y Discord ayuda a solucionar los problemas rápidamente.
  • Herramientas integradas: La perfecta integración con herramientas como Ultralytics HUB permite la formación de modelos sin código, la gestión de conjuntos de datos y la implantación con un solo clic.

RTDETRv2, aunque técnicamente impresionante, carece de este nivel de infraestructura circundante, lo que dificulta su integración en los pipelines de producción.

Casos de Uso Ideales

La elección del modelo correcto depende de sus limitaciones y objetivos específicos.

Cuándo elegir RTDETRv2

  • Investigación académica: Si su objetivo es impulsar los números de mAP de última generación en conjuntos de datos como COCO y tiene acceso a GPUs insignia (por ejemplo, A100).
  • Contexto complejo: En escenarios donde comprender la relación entre objetos distantes es más crítico que la velocidad de inferencia o el costo del hardware.

Cuándo elegir YOLOv5

  • Implementación en el borde: Para aplicaciones en dispositivos móviles, drones o sistemas integrados donde la velocidad de la CPU y la eficiencia energética son primordiales.
  • Producción en tiempo real: Alimentación de sistemas de alarma de seguridad o monitorización del tráfico donde la baja latencia es innegociable.
  • Desarrollo Rápido: Las startups y los equipos empresariales que necesitan iterar rápidamente, desde la recopilación de datos hasta un modelo implementado, encontrarán que el flujo de trabajo de YOLOv5 es significativamente más rápido.
  • Requisitos Multi-Tarea: Los proyectos que necesitan tanto detection como segmentación pueden usar un único framework, simplificando la pila tecnológica.

¿Buscas la última tecnología?

Si bien YOLOv5 sigue siendo una herramienta poderosa, los desarrolladores que buscan lo último en rendimiento y arquitectura deberían echar un vistazo a YOLO11. YOLO11 se basa en el legado de YOLOv5, ofreciendo una precisión aún mayor, velocidades más rápidas y capacidades ampliadas como la estimación de la pose y la detección de objetos orientados (OBB).

Conclusión

Tanto RTDETRv2 como YOLOv5 son herramientas formidables en el arsenal del ingeniero de visión artificial. RTDETRv2 muestra el potencial de los transformadores para la detección de alta precisión, lo que la convierte en un fuerte competidor para aplicaciones con mucha investigación y amplios recursos informáticos.

Sin embargo, para la gran mayoría de las implementaciones prácticas del mundo real, Ultralytics YOLOv5 sigue siendo la opción superior. Su inigualable facilidad de uso, la madurez del ecosistema y la versatilidad la convierten en la solución de referencia para los desarrolladores que necesitan resultados fiables y de alta velocidad. Ya sea que esté implementando en la nube o en el borde, la eficiencia y el soporte proporcionados por Ultralytics garantizan un camino más fácil desde el concepto hasta la producción.

Explore otras comparaciones de modelos

Para ayudarle a tomar la decisión más informada, explore cómo se comparan estos modelos con otras arquitecturas en el campo:


Comentarios