Ir al contenido

RTDETRv2 frente a YOLO: comparación técnica para la detección de objetos

Elegir el modelo óptimo de detección de objetos es fundamental para el éxito de las aplicaciones de visión por ordenador. Ultralytics ofrece una amplia gama de modelos, y esta página ofrece una comparación técnica detallada entre RTDETRv2 y YOLO, dos modelos avanzados en el panorama de la detección de objetos. Este análisis le ayudará a tomar una decisión bien fundamentada en función de los requisitos de su proyecto.

RTDETRv2: Detección de alta precisión basada en transformadores

RTDETRv2(Real-Time Detection Transformer v2) es un modelo de detección de objetos de última generación desarrollado por Baidu, conocido por su gran precisión y su eficaz rendimiento en tiempo real. Presentado el 2023-04-17 en el artículo"DETRs Beat YOLOs on Real-time Object Detection" por Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu, RTDETRv2 aprovecha la arquitectura Vision Transformer (ViT) para lograr una extracción de características robusta y una comprensión global del contexto.

Arquitectura y características

RTDETRv2 se distingue por su arquitectura basada en transformadores, que le permite captar el contexto global dentro de las imágenes con mayor eficacia que los detectores tradicionales basados en CNN. Esta arquitectura permite una precisión superior, especialmente en escenas complejas en las que es crucial comprender el contexto más amplio. El modelo está implementado en PyTorch y está disponible en GitHub.

Rendimiento

RTDETRv2 demuestra unas métricas de rendimiento impresionantes, alcanzando un mAPval50-95 de 54,3 para su variante mayor, RTDETRv2-x. Las velocidades de inferencia también son competitivas, por lo que resulta adecuado para aplicaciones en tiempo real cuando se utiliza hardware capaz.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta precisión: La arquitectura de transformador proporciona una excelente precisión en la detección de objetos.
  • Capacidad en tiempo real: Alcanza altas velocidades de inferencia, especialmente con la aceleración TensorRT .
  • Aprendizaje contextual eficaz: Los Transformadores de Visión destacan en la captura del contexto global en imágenes.

Debilidades:

  • Mayor tamaño del modelo: Los modelos RTDETRv2, en particular las variantes más grandes, tienen un número significativo de parámetros y FLOPs, lo que requiere más recursos computacionales.
  • Demanda computacional: Aunque está optimizado para la velocidad, puede no ser tan ligero como otros modelos para su despliegue en dispositivos con recursos muy limitados.

Casos prácticos

RTDETRv2 es ideal para aplicaciones que den prioridad a una gran precisión y tengan acceso a importantes recursos informáticos:

Más información sobre RTDETRv2

YOLO: detección de objetos rápida y eficaz

YOLO(DAMO serie YOLO), desarrollado por Alibaba Group y presentado el 2022-11-23 en el artículo"YOLO: Rethinking Scalable and Accurate Object Detection" de Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun, está diseñado para ofrecer velocidad y eficiencia al tiempo que mantiene una precisión competitiva. YOLO se centra en el rendimiento en tiempo real y está disponible en GitHub.

Arquitectura y características

YOLO incorpora varias técnicas innovadoras para mejorar la eficiencia, como las redes troncales de búsqueda de arquitectura neuronal (NAS), una RepGFPN eficiente y un ZeroHead. Estas opciones arquitectónicas contribuyen a su velocidad y a la reducción de las demandas computacionales, lo que la convierte en una opción excelente para aplicaciones en tiempo real y despliegues periféricos.

Rendimiento

YOLO destaca en velocidad de inferencia, ofreciendo un rendimiento muy rápido en diversas plataformas de hardware. Aunque su precisión es ligeramente inferior a la de RTDETRv2, ofrece un equilibrio convincente entre velocidad y precisión, sobre todo para aplicaciones que requieren un procesamiento rápido.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta velocidad: Optimizado para una inferencia extremadamente rápida, ideal para sistemas en tiempo real.
  • Eficacia: El menor tamaño de los modelos y los menores requisitos computacionales lo hacen adecuado para los dispositivos de borde.
  • Escalabilidad: Diseñado para ser escalable y adaptable a diversos escenarios de despliegue.

Debilidades:

  • Precisión: Aunque es preciso, puede que no alcance las mismas puntuaciones mAP de primer nivel que RTDETRv2, especialmente en escenarios que exigen la máxima precisión.
  • Comprensión contextual: Al estar centrado en la CNN, puede que no capte el contexto global tan eficazmente como los modelos basados en transformadores en escenas muy complejas.

Casos prácticos

YOLO es idóneo para aplicaciones en las que la velocidad y la eficacia son primordiales, y en las que es necesaria la implantación en hardware menos potente:

  • Videovigilancia en tiempo real: Ideal para aplicaciones como sistemas de alarma de seguridad que requieren detección inmediata.
  • Edge Computing: Perfecta para su implantación en dispositivos periféricos como Raspberry Pi y NVIDIA Jetson.
  • Aplicaciones de procesamiento rápido: Adecuado para robótica(ROS Quickstart) y otras aplicaciones que requieren una rápida toma de decisiones.
  • Despliegues móviles: Suficientemente eficiente para aplicaciones móviles y entornos con recursos limitados.

Más información sobre YOLO

Tabla comparativa de modelos

Modelo tamaño(píxeles) mAPval
50-95
CPU ONNX
(ms)
VelocidadT4TensorRT10
(ms)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Conclusión

Tanto RTDETRv2 como YOLO son potentes modelos de detección de objetos, cada uno con ventajas distintas. RTDETRv2 destaca cuando la prioridad es la máxima precisión y se dispone de recursos informáticos. YOLO es la opción preferida para aplicaciones que requieren procesamiento en tiempo real e implantación eficiente, especialmente en dispositivos periféricos.

Para los usuarios que consideren otras opciones, Ultralytics ofrece una amplia gama de modelos, entre los que se incluyen:

La selección entre RTDETRv2, YOLO u otros modelos de Ultralytics debe basarse en las necesidades específicas de su proyecto de visión por computador, considerando cuidadosamente el equilibrio entre precisión, velocidad y recursos disponibles. Para más detalles y guías de implementación, consulte la documentaciónUltralytics y el repositorio GitHubUltralytics .

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios