Ir al contenido

YOLOv7 frente a RTDETRv2: Comparación detallada de modelos

Elegir el modelo de detección de objetos adecuado es crucial para los proyectos de visión por ordenador. Esta página ofrece una comparación técnica entre YOLOv7 y RTDETRv2, dos modelos de última generación, para ayudarle a tomar una decisión informada. Profundizamos en sus diferencias arquitectónicas, métricas de rendimiento y aplicaciones ideales.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

YOLOv7: El experto en eficiencia en tiempo real

YOLOv7, presentado en julio de 2022 por los autores Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao, del Instituto de Ciencias de la Información de la Academia Sinica de Taiwán, es famoso por su velocidad y eficacia en tareas de detección de objetos. Perfecciona la arquitectura de los modelos YOLO anteriores, dando prioridad a la inferencia rápida sin sacrificar significativamente la precisión.

Arquitectura y características principales

La arquitectura de YOLOv7 se basa en redes neuronales convolucionales (CNN) e incorpora varias características clave para optimizar el rendimiento:

  • E-ELAN (Red de Agregación de Capas Eficiente Ampliada): Mejora la eficacia de la extracción de características, lo que permite al modelo aprender de forma más eficaz.
  • Escalado de modelos: Emplea técnicas de escalado compuesto para ajustar la profundidad y anchura del modelo, lo que permite flexibilidad para diferentes recursos computacionales y necesidades de rendimiento.
  • Entrenamiento de cabezas auxiliares: Utiliza cabezas de pérdida auxiliares durante el entrenamiento para profundizar en el aprendizaje de la red y mejorar la precisión general.

Estas opciones arquitectónicas permiten a YOLOv7 lograr un gran equilibrio entre velocidad y precisión, lo que lo hace adecuado para aplicaciones en tiempo real. Para más información, consulte el artículo de YOLOv7 en Arxiv y el repositorio oficial de YOLOv7 en GitHub.

Métricas de rendimiento

YOLOv7 está diseñado para sobresalir en escenarios donde la baja latencia es crítica. Su rendimiento se caracteriza por:

  • mAPval50-95: Alcanza hasta un 53,1% de mAP en el conjunto de datos COCO.
  • Velocidad de inferencia (T4 TensorRT10): Tan rápida como 6,84 ms, lo que permite el procesamiento en tiempo real.
  • Tamaño del modelo (parámetros): Comienza en 36,9M parámetros, ofreciendo un tamaño de modelo compacto para un despliegue eficiente.

Casos prácticos y puntos fuertes

YOLOv7 es especialmente adecuado para aplicaciones que requieren la detección de objetos en tiempo real en dispositivos con recursos limitados, como:

  • Robótica: Percepción rápida para la navegación y la interacción robóticas.
  • Vigilancia: Monitorización y análisis en tiempo real de los sistemas de seguridad. Vea cómo YOLOv8 puede mejorar los sistemas de alarmas de seguridad.
  • Dispositivos periféricos: Implantación en dispositivos periféricos con potencia de cálculo limitada, como NVIDIA Jetson o Raspberry Pi.

Su principal punto fuerte es la velocidad y el tamaño relativamente pequeño del modelo, lo que lo hace altamente desplegable en varias plataformas de hardware. Obtenga más información sobre la arquitectura y las funciones de YOLOv7 en la documentación de YOLOv7.

Más información sobre YOLOv7

RTDETRv2: Precisión con eficiencia del transformador

RTDETRv2 (Real-Time Detection Transformer version 2), presentado en julio de 2024 por los autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu de Baidu, adopta un enfoque diferente al integrar transformadores de visión (ViT) para la detección de objetos. A diferencia de la base CNN de YOLO, RTDETRv2 aprovecha los transformadores para captar el contexto global de la imagen, lo que puede aumentar la precisión y mantener el rendimiento en tiempo real.

Arquitectura y características principales

La arquitectura de RTDETRv2 está definida por:

  • Red troncal de transformadores de visión (ViT): Emplea un codificador transformador para procesar toda la imagen, capturando dependencias de largo alcance cruciales para comprender escenas complejas.
  • Extracción de rasgos CNN híbrida: Combina CNNs para la extracción inicial de características con capas transformadoras para integrar el contexto global de forma efectiva.
  • Detección sin anclajes: Simplifica el proceso de detección eliminando la necesidad de cajas de anclaje predefinidas, mejorando la flexibilidad del modelo y reduciendo la complejidad.

Este diseño basado en transformadores permite a RTDETRv2 alcanzar potencialmente una precisión superior, especialmente en entornos intrincados y desordenados. Obtenga más información sobre los transformadores de visión en nuestra página del glosario sobre transformadores de visión (ViT ). El artículo sobre RTDETRv2 está disponible en Arxiv y el repositorio oficial de GitHub ofrece detalles sobre la implementación.

Métricas de rendimiento

RTDETRv2 prioriza la precisión a la vez que mantiene una velocidad competitiva, ofreciendo las siguientes métricas de rendimiento:

  • mAPval50-95: Alcanza hasta un 54,3% de mAPval50-95, lo que demuestra una gran precisión en la detección de objetos.
  • Velocidad de inferencia (T4 TensorRT10): Comienza a partir de 5,03 ms, lo que garantiza la capacidad en tiempo real en el hardware adecuado.
  • Tamaño del modelo (parámetros): Comienza en 20M parámetros, ofreciendo una gama de tamaños de modelo para diferentes necesidades de despliegue.

Casos prácticos y puntos fuertes

RTDETRv2 es ideal para aplicaciones en las que la precisión es primordial y se dispone de recursos informáticos:

  • Vehículos autónomos: Proporcionar una percepción fiable y precisa del entorno para una navegación segura. Explore la IA en los coches autónomos para aplicaciones relacionadas.
  • Imágenes médicas: Detección precisa de anomalías en imágenes médicas para facilitar el diagnóstico y la planificación del tratamiento. Más información sobre la IA en aplicaciones sanitarias.
  • Análisis de imágenes de alta resolución: Tareas que requieren un análisis detallado de imágenes de gran tamaño, como el análisis de imágenes por satélite o la inspección industrial.

La fuerza de RTDETRv2 reside en su arquitectura de transformadores, que facilita una extracción de características robusta y una mayor precisión, lo que la hace excelente para tareas de detección complejas. Encontrará más información en el LÉEME deRT-DETR en GitHub.

Más información sobre RTDETRv2

Conclusión

Tanto YOLOv7 como RTDETRv2 son potentes modelos de detección de objetos, cada uno con puntos fuertes únicos. YOLOv7 destaca en aplicaciones en tiempo real que requieren velocidad y eficacia, mientras que RTDETRv2 da prioridad a la precisión gracias a su arquitectura basada en transformadores. Su elección debe ajustarse a los requisitos específicos de su proyecto: velocidad para tareas urgentes o precisión para análisis detallados.

Para otras comparaciones y modelos, también podría interesarte:

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios