RTDETRv2 frente a YOLOv5: comparación técnica

En el panorama en rápida evolución de la detección de objetos, la selección del modelo adecuado suele implicar la búsqueda de un equilibrio entre complejidad arquitectónica, velocidad de inferencia y utilidad práctica. Esta guía ofrece una comparación técnica exhaustiva entre RTDETRv2, un detector en tiempo real basado en transformadores de Baidu, y YOLOv5el legendario modelo basado en CNN de Ultralytics , conocido por su versatilidad y amplia adopción.

Análisis de rendimiento: Velocidad vs. Precisión

La diferencia fundamental entre estos dos modelos radica en su filosofía arquitectónica. RTDETRv2 emplea un enfoque de Transformador de Visión (ViT) para captar el contexto global, con el objetivo de obtener la máxima precisión en las pruebas de referencia. Por el contrario, YOLOv5 utiliza un diseño de red neuronal convolucional (CNN) altamente optimizado, dando prioridad a un equilibrio entre velocidad, eficiencia y facilidad de despliegue en hardware diverso.

La tabla siguiente ilustra esta distinción. Aunque RTDETRv2 obtiene altas puntuaciones mAP en el conjunto de datosCOCO , exige muchos más recursos computacionales. YOLOv5, sobre todo en sus variantes más pequeñas (Nano y Small), ofrece velocidades de inferencia drásticamente más rápidas -especialmente en CPU- y una huella de memoria mucho menor, lo que lo convierte en la opción práctica para las aplicaciones del mundo real.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Eficiencia de la memoria

YOLOv5 requiere mucha menos memoria CUDA para el entrenamiento que los modelos basados en transformadores como RTDETRv2. Esta menor barrera de entrada permite a los desarrolladores entrenar modelos personalizados en GPU de consumo estándar o incluso en entornos basados en la nube como Google Colab sin encontrarse con errores de falta de memoria (OOM).

RTDETRv2: El Transformer Challenger

RTDETRv2 (Real-Time Detection Transformer v2) representa un esfuerzo por llevar las ventajas de precisión de los transformadores a escenarios en tiempo real. Mediante el uso de una arquitectura híbrida, intenta mitigar los elevados costes computacionales típicamente asociados a los transformadores de visión.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización: Baidu
Fecha: 2023-04-17
Arxiv:2304.08069
GitHub:RepositorioRT-DETR
Documentación:Documentación RTDETRv2

Arquitectura y puntos fuertes

RTDETRv2 combina una CNN troncal para la extracción eficaz de características con un codificador-decodificador transformador. Este diseño permite al modelo utilizar mecanismos de autoatención para comprender las relaciones globales entre objetos, lo que puede resultar beneficioso en escenas complejas con oclusión o aglomeración. Su principal ventaja es su alta precisión en pruebas académicas, en las que a menudo supera a modelos basados en CNN de escala similar en métricas mAP puras.

Debilidades

A pesar de su precisión, RTDETRv2 se enfrenta a retos de versatilidad y facilidad de uso. La arquitectura del transformador es intrínsecamente más pesada, lo que ralentiza los tiempos de entrenamiento y aumenta el consumo de memoria. Además, su ecosistema se centra principalmente en la investigación y carece de las herramientas, el soporte de despliegue y los recursos de la comunidad que se encuentran en marcos más maduros. También se limita principalmente a la detección de objetos, mientras que los proyectos modernos a menudo requieren segmentación o clasificación dentro del mismo proceso.

Más información sobre RTDETRv2

Ultralytics YOLOv5: el estándar versátil

YOLOv5 está ampliamente considerado como uno de los modelos de visión por ordenador más prácticos y fáciles de usar que existen. Construido por Ultralytics, da prioridad a una experiencia simplificada de "entrenar, desplegar y listo", lo que hace que la IA avanzada sea accesible para todos, desde aficionados hasta ingenieros de empresa.

Autores: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHub:RepositorioYOLOv5
Documentación:DocumentaciónYOLOv5

Por qué destaca YOLOv5

YOLOv5 destaca por su enfoque holístico de las operaciones de aprendizaje automático (MLOps). No es solo una arquitectura de modelos, sino un ecosistema completo.

Facilidad de uso: Con una sencilla API Python y una interfaz de línea de comandos, los usuarios pueden empezar a formarse con datos personalizados en cuestión de minutos.
Equilibrio de rendimiento: La familia de modelos (de Nano a X-Large) ofrece un gradiente perfecto de velocidad y precisión, lo que permite a los usuarios adaptar su elección a hardware específico, como NVIDIA Jetson o Raspberry Pi.
Versatilidad: A diferencia de RTDETRv2, YOLOv5 soporta de forma nativa múltiples tareas, incluyendo la clasificación de imágenes y la segmentación de instancias, reduciendo la necesidad de mantener bases de código separadas para diferentes tareas de visión.
Exportabilidad: Ultralytics proporciona soporte integrado para exportar a ONNXTensorRT, CoreML y TFLite, lo que garantiza que los modelos puedan desplegarse en cualquier lugar, desde aplicaciones móviles hasta servidores en la nube.

Más información sobre YOLOv5

Ejemplo de uso

YOLOv5 está diseñado para la simplicidad. A continuación se muestra un ejemplo de cómo cargar un modelo preentrenado y ejecutar la inferencia utilizando PyTorch Hub, demostrando la API intuitiva por la que Ultralytics es conocida.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

Comparación entre formación y ecosistema

La experiencia del desarrollador es a menudo tan crítica como el rendimiento bruto del modelo. En este caso, las diferencias son notables.

Eficacia de la formación

YOLOv5 utiliza detectores basados en anclas cuyo entrenamiento es eficiente desde el punto de vista computacional. El marco Ultralytics incluye "bag-of-freebies" como el aumento del mosaico y la evolución automática de los anclajes, que ayudan a los modelos a converger más rápidamente y a generalizar mejor con menos datos. Por el contrario, el entrenamiento de RTDETRv2 consume más recursos debido a la complejidad cuadrática de las capas de atención del transformador, por lo que suele requerir GPU de gama alta con una VRAM considerable.

Apoyo al ecosistema

El EcosistemaUltralytics proporciona una clara ventaja. Los usuarios se benefician de:

Desarrollo activo: Las actualizaciones frecuentes garantizan la compatibilidad con las últimas versiones de PyTorch y CUDA.
Apoyo de la comunidad: Una comunidad masiva en GitHub y Discord ayuda a solucionar problemas rápidamente.
Herramientas integradas: La perfecta integración con herramientas como Ultralytics HUB permite la formación de modelos sin código, la gestión de conjuntos de datos y la implantación con un solo clic.

RTDETRv2, aunque técnicamente impresionante, carece de este nivel de infraestructura circundante, lo que dificulta su integración en los conductos de producción.

Casos de Uso Ideales

Elegir el modelo adecuado depende de sus limitaciones y objetivos específicos.

Cuándo elegir RTDETRv2

Investigación académica: Si tu objetivo es obtener los mejores mAP en conjuntos de datos como COCO y tienes acceso a GPUs de última generación (por ejemplo, A100).
Contexto complejo: En escenarios en los que comprender la relación entre objetos distantes es más crítico que la velocidad de inferencia o el coste del hardware.

Cuándo elegir YOLOv5

Despliegue en el borde: Para aplicaciones en dispositivos móviles, drones o sistemas integrados donde la velocidad de CPU y la eficiencia energética son primordiales.
Producción en tiempo real: Alimentación de sistemas de alarma de seguridad o supervisión del tráfico en los que la baja latencia no es negociable.
Desarrollo rápido: Las startups y los equipos empresariales que necesitan iterar rápidamente, desde la recopilación de datos hasta un modelo desplegado, encontrarán el flujo de trabajo de YOLOv5 significativamente más rápido.
Requisitos multitarea: Los proyectos que necesitan tanto detección como segmentación pueden utilizar un único marco, lo que simplifica la pila tecnológica.

¿Busca lo último en tecnología?

Aunque YOLOv5 sigue siendo una potente herramienta, los desarrolladores que busquen lo último en rendimiento y arquitectura deberían echar un vistazo a YOLO11. YOLO11 se basa en el legado de YOLOv5, ofreciendo una precisión aún mayor, velocidades más rápidas y capacidades ampliadas como la estimación de la pose y la detección de objetos orientada (OBB).

Conclusión

Tanto RTDETRv2 como YOLOv5 son herramientas formidables en el arsenal del ingeniero de visión por ordenador. RTDETRv2 muestra el potencial de los transformadores para la detección de alta precisión, lo que lo convierte en un fuerte contendiente para aplicaciones de investigación intensiva con amplios recursos de computación.

Sin embargo, para la gran mayoría de implantaciones prácticas en el mundo real, Ultralytics YOLOv5 sigue siendo la mejor opción. Su inigualable facilidad de uso, madurez del ecosistema y versatilidad lo convierten en la solución a la que recurren los desarrolladores que necesitan resultados fiables y de alta velocidad. Ya se trate de un despliegue en la nube o en el perímetro, la eficiencia y el soporte que ofrece Ultralytics garantizan un camino más fluido desde el concepto hasta la producción.

Explore otras comparaciones de modelos

Para ayudarle a tomar la decisión más informada, explore cómo se comparan estos modelos con otras arquitecturas del sector: