Ir al contenido

RTDETRv2 frente a YOLOv9: comparación técnica para la detección de objetos

La elección del modelo óptimo de detección de objetos es una decisión crítica para los proyectos de visión por ordenador. Ultralytics ofrece una amplia gama de modelos, entre los que se incluyen la serie YOLO , conocida por su velocidad y eficacia, y la serie RT-DETR , que destaca por su gran precisión. Esta página ofrece una comparación técnica detallada entre RTDETRv2 y YOLOv9, dos modelos de detección de objetos de última generación, para ayudarle a tomar una decisión informada.

RTDETRv2: Alta precisión alimentado por transformador

RTDETRv2(Real-Time Detection Transformer v2) es un modelo de detección de objetos de última generación desarrollado por Baidu, conocido por su excepcional precisión y rendimiento en tiempo real. Publicado en arXiv el 2023-04-17 y con código disponible en GitHub, RTDETRv2 es obra de Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu. Aprovecha la arquitectura Vision Transformer (ViT) para lograr una localización y clasificación precisas de los objetos, lo que la hace adecuada para aplicaciones exigentes.

Arquitectura y características principales

La arquitectura de RTDETRv2 se basa en transformadores de visión que le permiten captar el contexto global de las imágenes mediante mecanismos de autoatención. Esto difiere significativamente de las redes neuronales convolucionales (CNN) tradicionales y permite a RTDETRv2 sopesar la importancia de las distintas regiones de la imagen, lo que se traduce en una mejor extracción de características y una mayor precisión, especialmente en escenas complejas. El diseño basado en transformadores permite una detección sin anclajes, lo que simplifica el proceso de detección y mejora potencialmente la generalización.

Métricas de rendimiento

RTDETRv2 demuestra un gran rendimiento, sobre todo en mAP. Como se detalla en la tabla comparativa, la variante RTDETRv2-x alcanza un mAPval50-95 de 54,3. Las velocidades de inferencia también son competitivas, con RTDETRv2-s alcanzando 5,03 ms en TensorRT, lo que lo hace viable para aplicaciones en tiempo real cuando se utiliza hardware capaz como las GPUs NVIDIA T4. Para obtener más información sobre la evaluación del rendimiento, consulta nuestra guía de métricas de rendimientoYOLO .

Puntos fuertes y débiles

Puntos fuertes:

  • Alta precisión: La arquitectura de transformador proporciona una excelente precisión de detección de objetos, crucial para aplicaciones que requieren precisión.
  • Capaz de trabajar en tiempo real: Alcanza velocidades de inferencia competitivas, especialmente cuando se optimiza con TensorRT y se ejecuta en el hardware adecuado.
  • Comprensión del contexto global: Los transformadores de visión captan eficazmente el contexto global, lo que permite una detección robusta en entornos complejos.

Debilidades:

  • Mayor tamaño del modelo: Los modelos RTDETRv2, especialmente las variantes más grandes como RTDETRv2-x, tienen un recuento de parámetros y FLOPs considerable, lo que exige más recursos computacionales.
  • Limitaciones de la velocidad de inferencia: Aunque se puede alcanzar el tiempo real, la velocidad de inferencia podría ser más lenta que los modelos basados en CNN altamente optimizados como YOLOv9, especialmente en dispositivos con recursos limitados.

Casos de uso ideales

RTDETRv2 es ideal para aplicaciones en las que la precisión es primordial y se dispone fácilmente de recursos informáticos. Entre ellas se incluyen:

Más información sobre RTDETRv2

YOLOv9: información de gradiente programable para mayor eficacia y precisión

YOLOv9(You Only Look Once 9) es un modelo puntero de detección de objetos de la conocida familiaYOLO Ultralytics . Presentado en arXiv el 2024-02-21, YOLOv9 es obra de Chien-Yao Wang y Hong-Yuan Mark Liao, del Instituto de Ciencias de la Información de la Academia Sinica de Taiwán, y su código está disponible en GitHub. YOLOv9 introduce las técnicas Programmable Gradient Information (PGI) y GELAN, que mejoran tanto la precisión como la eficiencia del entrenamiento en comparación con las versiones anteriores de YOLO .

Arquitectura y características principales

YOLOv9 se basa en la eficacia de los modelos YOLO anteriores e incorpora nuevas mejoras arquitectónicas. Utiliza GELAN (Generalized Efficient Layer Aggregation Network) para optimizar la arquitectura de la red y PGI para mantener la integridad de la información del gradiente, abordando la pérdida de información durante la propagación de la red profunda. Estas innovaciones mejoran la precisión y aumentan la eficacia del entrenamiento. YOLOv9 mantiene un cabezal de detección sin anclajes y un diseño simplificado de una sola etapa, centrándose en el rendimiento en tiempo real.

Métricas de rendimiento

YOLOv9 logra un convincente equilibrio entre velocidad y precisión. El modelo YOLOv9-e alcanza un mAPval50-95 de 55,6, superando en precisión incluso a los modelos RTDETRv2 de mayor tamaño y manteniendo al mismo tiempo velocidades de inferencia competitivas. La variante YOLOv9-t, más pequeña, es excepcionalmente rápida, alcanzando una velocidad de inferencia de 2,3 ms en TensorRT, lo que la hace adecuada para aplicaciones extremadamente sensibles a la latencia.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta precisión y eficiencia: PGI y GELAN contribuyen tanto a una mayor precisión como a una utilización eficiente de los parámetros.
  • Rápida velocidad de inferencia: Optimizado para el rendimiento en tiempo real, especialmente las variantes más pequeñas adecuadas para el despliegue en el borde.
  • Formación eficaz: PGI contribuye a unos procesos de formación más estables y eficientes.

Debilidades:

  • Contexto global más bajo: La arquitectura basada en CNN podría ser menos eficaz para capturar dependencias de largo alcance en comparación con los modelos basados en transformadores en escenas muy complejas.
  • Compromiso entre precisión y velocidad: aunque la precisión es muy alta, para conseguir la mayor velocidad de inferencia puede ser necesario utilizar modelos más pequeños con una precisión ligeramente inferior a la de los modelos más grandes.

Casos de uso ideales

YOLOv9 es idóneo para aplicaciones que requieren un equilibrio entre alta precisión y rendimiento en tiempo real, especialmente en entornos con recursos limitados:

  • Vigilancia en tiempo real: Para una vigilancia eficaz y precisa en sistemas de seguridad. Explore la visión por ordenador para la prevención de robos.
  • Edge Computing: Implantación en dispositivos periféricos con recursos informáticos limitados. Más información sobre Edge AI.
  • Robótica: Para una percepción rápida y precisa en sistemas robóticos. Consulte el papel de la IA en la robótica.
  • Automatización industrial: Para aplicaciones de fabricación que requieren la detección de objetos en tiempo real para el control de calidad y la optimización de procesos. Descubra la IA en la fabricación.

Más información sobre YOLOv9

Tabla comparativa de modelos

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusión

Tanto RTDETRv2 como YOLOv9 son potentes modelos de detección de objetos, cada uno con puntos fuertes únicos. RTDETRv2 destaca en escenarios en los que se prioriza la máxima precisión y se aprovecha la arquitectura de transformadores para una extracción de características robusta, adecuada para aplicaciones con amplios recursos computacionales. YOLOv9, por su parte, es ideal cuando el rendimiento y la eficiencia en tiempo real son primordiales, ya que ofrece una atractiva combinación de precisión y velocidad, especialmente beneficiosa para la implantación en dispositivos periféricos y sistemas sensibles a la latencia.

Para los usuarios interesados en explorar otros modelos, Ultralytics ofrece una amplia gama de opciones, entre las que se incluyen:

  • YOLOv8: La generación anterior Ultralytics YOLOv8 que ofrece un equilibrio entre velocidad y precisión.
  • YOLO11: Para aumentar la eficacia y la velocidad, piense en YOLO11.
  • FastSAM y MobileSAM: para tareas de segmentación de instancias en tiempo real, explore FastSAM y MobileSAM.

La elección entre RTDETRv2, YOLOv9 y otros modelos de Ultralytics depende de las necesidades específicas de su proyecto, considerando cuidadosamente el equilibrio entre precisión, velocidad y recursos disponibles. Consulte la documentaciónUltralytics y el repositorio GitHubUltralytics para obtener información detallada y guías de implementación.

Comentarios

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios