RTDETRv2 frente a YOLO: comparación técnica para la detección de objetos
Elegir el modelo óptimo de detección de objetos es fundamental para el éxito de las aplicaciones de visión por ordenador. Ultralytics ofrece una amplia gama de modelos, y esta página ofrece una comparación técnica detallada entre RTDETRv2 y YOLO, dos modelos avanzados en el panorama de la detección de objetos. Este análisis le ayudará a tomar una decisión bien fundamentada en función de los requisitos de su proyecto.
RTDETRv2: Detección de alta precisión basada en transformadores
RTDETRv2(Real-Time Detection Transformer v2) es un modelo de detección de objetos de última generación desarrollado por Baidu, conocido por su gran precisión y su eficaz rendimiento en tiempo real. Presentado el 2023-04-17 en el artículo"DETRs Beat YOLOs on Real-time Object Detection" por Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu, RTDETRv2 aprovecha la arquitectura Vision Transformer (ViT) para lograr una extracción de características robusta y una comprensión global del contexto.
Arquitectura y características
RTDETRv2 se distingue por su arquitectura basada en transformadores, que le permite captar el contexto global dentro de las imágenes con mayor eficacia que los detectores tradicionales basados en CNN. Esta arquitectura permite una precisión superior, especialmente en escenas complejas en las que es crucial comprender el contexto más amplio. El modelo está implementado en PyTorch y está disponible en GitHub.
Rendimiento
RTDETRv2 demuestra unas métricas de rendimiento impresionantes, alcanzando un mAPval50-95 de 54,3 para su variante mayor, RTDETRv2-x. Las velocidades de inferencia también son competitivas, por lo que resulta adecuado para aplicaciones en tiempo real cuando se utiliza hardware capaz.
Puntos fuertes y débiles
Puntos fuertes:
- Alta precisión: La arquitectura de transformador proporciona una excelente precisión en la detección de objetos.
- Capacidad en tiempo real: Alcanza altas velocidades de inferencia, especialmente con la aceleración TensorRT .
- Aprendizaje contextual eficaz: Los Transformadores de Visión destacan en la captura del contexto global en imágenes.
Debilidades:
- Mayor tamaño del modelo: Los modelos RTDETRv2, en particular las variantes más grandes, tienen un número significativo de parámetros y FLOPs, lo que requiere más recursos computacionales.
- Demanda computacional: Aunque está optimizado para la velocidad, puede no ser tan ligero como otros modelos para su despliegue en dispositivos con recursos muy limitados.
Casos prácticos
RTDETRv2 es ideal para aplicaciones que den prioridad a una gran precisión y tengan acceso a importantes recursos informáticos:
- Vehículos autónomos: Para una percepción fiable y precisa del entorno, crucial para la IA en los coches autónomos.
- Robótica: Permite a los robots percibir con precisión objetos en entornos complejos e interactuar con ellos, lo que mejora las aplicaciones de Algoritmos a automatización: El papel de la IA en la robótica.
- Imágenes médicas: Para la detección precisa de anomalías en imágenes médicas, ayudando en el diagnóstico, como se explora en AI in Healthcare.
- Análisis detallado de imágenes: Adecuado para el análisis de imágenes de alta resolución, como el uso de la visión por ordenador para analizar imágenes de satélite o la inspección industrial.
Más información sobre RTDETRv2
YOLO: detección de objetos rápida y eficaz
YOLO(DAMO serie YOLO), desarrollado por Alibaba Group y presentado el 2022-11-23 en el artículo"YOLO: Rethinking Scalable and Accurate Object Detection" de Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun, está diseñado para ofrecer velocidad y eficiencia al tiempo que mantiene una precisión competitiva. YOLO se centra en el rendimiento en tiempo real y está disponible en GitHub.
Arquitectura y características
YOLO incorpora varias técnicas innovadoras para mejorar la eficiencia, como las redes troncales de búsqueda de arquitectura neuronal (NAS), una RepGFPN eficiente y un ZeroHead. Estas opciones arquitectónicas contribuyen a su velocidad y a la reducción de las demandas computacionales, lo que la convierte en una opción excelente para aplicaciones en tiempo real y despliegues periféricos.
Rendimiento
YOLO destaca en velocidad de inferencia, ofreciendo un rendimiento muy rápido en diversas plataformas de hardware. Aunque su precisión es ligeramente inferior a la de RTDETRv2, ofrece un equilibrio convincente entre velocidad y precisión, sobre todo para aplicaciones que requieren un procesamiento rápido.
Puntos fuertes y débiles
Puntos fuertes:
- Alta velocidad: Optimizado para una inferencia extremadamente rápida, ideal para sistemas en tiempo real.
- Eficacia: El menor tamaño de los modelos y los menores requisitos computacionales lo hacen adecuado para los dispositivos de borde.
- Escalabilidad: Diseñado para ser escalable y adaptable a diversos escenarios de despliegue.
Debilidades:
- Precisión: Aunque es preciso, puede que no alcance las mismas puntuaciones mAP de primer nivel que RTDETRv2, especialmente en escenarios que exigen la máxima precisión.
- Comprensión contextual: Al estar centrado en la CNN, puede que no capte el contexto global tan eficazmente como los modelos basados en transformadores en escenas muy complejas.
Casos prácticos
YOLO es idóneo para aplicaciones en las que la velocidad y la eficacia son primordiales, y en las que es necesaria la implantación en hardware menos potente:
- Videovigilancia en tiempo real: Ideal para aplicaciones como sistemas de alarma de seguridad que requieren detección inmediata.
- Edge Computing: Perfecta para su implantación en dispositivos periféricos como Raspberry Pi y NVIDIA Jetson.
- Aplicaciones de procesamiento rápido: Adecuado para robótica(ROS Quickstart) y otras aplicaciones que requieren una rápida toma de decisiones.
- Despliegues móviles: Suficientemente eficiente para aplicaciones móviles y entornos con recursos limitados.
Tabla comparativa de modelos
Modelo | tamaño(píxeles) | mAPval 50-95 |
CPU ONNX (ms) |
VelocidadT4TensorRT10 (ms) |
params(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Conclusión
Tanto RTDETRv2 como YOLO son potentes modelos de detección de objetos, cada uno con ventajas distintas. RTDETRv2 destaca cuando la prioridad es la máxima precisión y se dispone de recursos informáticos. YOLO es la opción preferida para aplicaciones que requieren procesamiento en tiempo real e implantación eficiente, especialmente en dispositivos periféricos.
Para los usuarios que consideren otras opciones, Ultralytics ofrece una amplia gama de modelos, entre los que se incluyen:
- YOLO11: Lo último de la serie YOLO , equilibrio entre velocidad y precisión. Más información YOLO11.
- YOLOv8 y YOLOv9: generaciones anteriores que ofrecían diversos equilibrios entre velocidad y precisión, detallados enUltralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations" y YOLOv9.
- YOLO: Modelos diseñados mediante búsqueda de arquitectura neuronal para un rendimiento óptimo. Consulte YOLO de Deci AI : un modelo de detección de objetos de última generación.
- FastSAM y MobileSAM: Para la segmentación de instancias en tiempo real, consulte FastSAM y MobileSAM.
La selección entre RTDETRv2, YOLO u otros modelos de Ultralytics debe basarse en las necesidades específicas de su proyecto de visión por computador, considerando cuidadosamente el equilibrio entre precisión, velocidad y recursos disponibles. Para más detalles y guías de implementación, consulte la documentaciónUltralytics y el repositorio GitHubUltralytics .