Ir al contenido

YOLOv5 vs RTDETRv2: Comparación técnica detallada

La elección del modelo óptimo de detección de objetos es una decisión crítica para los proyectos de visión por ordenador. Ultralytics ofrece una amplia gama de modelos para responder a las distintas necesidades de los proyectos. Esta página ofrece una comparación técnica entre Ultralytics YOLOv5 y RTDETRv2 de Ultralytics, destacando sus diferencias arquitectónicas, sus puntos de referencia de rendimiento y su idoneidad para diferentes aplicaciones.

YOLOv5: velocidad y eficacia optimizadas

Ultralytics YOLOv5 es un detector de objetos de una etapa ampliamente adoptado y célebre por su rapidez de inferencia y su eficacia operativa. La arquitectura de YOLOv5 se compone de:

  • Red troncal: CSPDarknet53, responsable de la extracción de características.
  • Cuello: PANet, utilizado para la fusión de características.
  • Cabezal: Cabezal YOLOv5 , diseñado para tareas de detección.

YOLOv5 está disponible en varios tamaños (n, s, m, l, x), lo que ofrece a los usuarios opciones para equilibrar velocidad y precisión en función de sus necesidades específicas.

Puntos fuertes:

  • Velocidad de inferencia: YOLOv5 destaca por su velocidad, lo que lo convierte en una opción excelente para aplicaciones en tiempo real, como los sistemas de alarma de seguridad.
  • Eficiencia: Los modelos YOLOv5 son compactos y exigen menos recursos computacionales, por lo que son aptos para implementaciones de borde como Raspberry Pi y NVIDIA Jetson.
  • Versatilidad: Adaptable a diversos entornos de hardware, incluidos los dispositivos con recursos limitados.
  • Facilidad de uso: Bien documentado y fácil de implementar utilizando elpaquetePython Ultralytics y Ultralytics HUB.

Debilidades:

  • Contrapartida de la precisión: aunque consiguen una gran precisión, los modelos más grandes como RTDETRv2 pueden ofrecer una mAP superior, sobre todo en escenarios complejos.

Casos de uso ideales:

Más información sobre YOLOv5

RTDETRv2: Transformador de detección en tiempo real de alta precisión

RTDETRv2(Real-Time Detection Transformer v2) es un modelo de detección de objetos de última generación que prioriza la alta precisión y el rendimiento en tiempo real. Se presentó en un artículo titulado"RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer" el 2023-04-17 por los autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu de Baidu. Basado en la arquitectura Vision Transformer (ViT), RTDETRv2 destaca en aplicaciones que exigen una localización y clasificación precisas de los objetos.

Arquitectura y características principales:

RTDETRv2 utiliza una arquitectura basada en transformadores que le permite captar el contexto global de las imágenes mediante mecanismos de autoatención. Este enfoque permite al modelo sopesar la importancia de las distintas regiones de la imagen, lo que mejora la extracción de características y la precisión, especialmente en escenas complejas.

Puntos fuertes:

  • Precisión superior: La arquitectura de transformadores proporciona una mayor precisión en la detección de objetos, especialmente en entornos complejos, como se demuestra en escenarios como la visión-ai-en-manejo-de-turbas.
  • Capacidad de tiempo real: Alcanza velocidades de inferencia competitivas, especialmente cuando se utiliza aceleración por hardware como las GPU NVIDIA T4.
  • Extracción robusta de características: Los transformadores de visión capturan con eficacia el contexto global y los detalles más intrincados, lo que resulta beneficioso en aplicaciones como el uso de la visión por ordenador para analizar imágenes de satélite.

Debilidades:

  • Mayor tamaño del modelo: Los modelos RTDETRv2, especialmente las variantes más grandes, tienen un mayor número de parámetros y FLOPs que YOLOv5, lo que requiere más recursos computacionales.
  • Velocidad de inferencia: aunque es capaz de trabajar en tiempo real, la velocidad de inferencia puede ser inferior a la de los modelos YOLOv5 más rápidos, especialmente en dispositivos menos potentes.

Casos de uso ideales:

RTDETRv2 es ideal para aplicaciones en las que la precisión es primordial y los recursos informáticos son suficientes. Entre ellas se incluyen:

Más información sobre RTDETRv2

Tabla comparativa de modelos

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Conclusión

Tanto RTDETRv2 como YOLOv5 son modelos robustos de detección de objetos, cada uno diseñado para prioridades distintas. RTDETRv2 es preferible cuando la precisión es primordial y se dispone de recursos informáticos. Por el contrario, YOLOv5 sobresale en escenarios que requieren rendimiento y eficiencia en tiempo real, especialmente en plataformas con recursos limitados.

Para los usuarios que exploren otros modelos, Ultralytics ofrece un amplio zoo de modelos, entre los que se incluyen:

La selección entre RTDETRv2, YOLOv5 u otros modelos de Ultralytics debe basarse en las demandas específicas de su proyecto de visión por ordenador, considerando cuidadosamente el equilibrio entre precisión, velocidad y disponibilidad de recursos. Consulte la documentaciónUltralytics y el repositorio de GitHub para obtener información detallada y guías de implementación.

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios