YOLOv5 vs RTDETRv2: Comparación técnica detallada
La elección del modelo óptimo de detección de objetos es una decisión crítica para los proyectos de visión por ordenador. Ultralytics ofrece una amplia gama de modelos para responder a las distintas necesidades de los proyectos. Esta página ofrece una comparación técnica entre Ultralytics YOLOv5 y RTDETRv2 de Ultralytics, destacando sus diferencias arquitectónicas, sus puntos de referencia de rendimiento y su idoneidad para diferentes aplicaciones.
YOLOv5: velocidad y eficacia optimizadas
Ultralytics YOLOv5 es un detector de objetos de una etapa ampliamente adoptado y célebre por su rapidez de inferencia y su eficacia operativa. La arquitectura de YOLOv5 se compone de:
- Red troncal: CSPDarknet53, responsable de la extracción de características.
- Cuello: PANet, utilizado para la fusión de características.
- Cabezal: Cabezal YOLOv5 , diseñado para tareas de detección.
YOLOv5 está disponible en varios tamaños (n, s, m, l, x), lo que ofrece a los usuarios opciones para equilibrar velocidad y precisión en función de sus necesidades específicas.
Puntos fuertes:
- Velocidad de inferencia: YOLOv5 destaca por su velocidad, lo que lo convierte en una opción excelente para aplicaciones en tiempo real, como los sistemas de alarma de seguridad.
- Eficiencia: Los modelos YOLOv5 son compactos y exigen menos recursos computacionales, por lo que son aptos para implementaciones de borde como Raspberry Pi y NVIDIA Jetson.
- Versatilidad: Adaptable a diversos entornos de hardware, incluidos los dispositivos con recursos limitados.
- Facilidad de uso: Bien documentado y fácil de implementar utilizando elpaquetePython Ultralytics y Ultralytics HUB.
Debilidades:
- Contrapartida de la precisión: aunque consiguen una gran precisión, los modelos más grandes como RTDETRv2 pueden ofrecer una mAP superior, sobre todo en escenarios complejos.
Casos de uso ideales:
- Escenarios de detección de objetos en tiempo real, incluida la videovigilancia y la IA en la gestión del tráfico.
- Edge computing y despliegues móviles.
- Aplicaciones que requieren un procesamiento rápido, como la robótica(ROS Quickstart) y los vehículos autónomos.
RTDETRv2: Transformador de detección en tiempo real de alta precisión
RTDETRv2(Real-Time Detection Transformer v2) es un modelo de detección de objetos de última generación que prioriza la alta precisión y el rendimiento en tiempo real. Se presentó en un artículo titulado"RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer" el 2023-04-17 por los autores Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu de Baidu. Basado en la arquitectura Vision Transformer (ViT), RTDETRv2 destaca en aplicaciones que exigen una localización y clasificación precisas de los objetos.
Arquitectura y características principales:
RTDETRv2 utiliza una arquitectura basada en transformadores que le permite captar el contexto global de las imágenes mediante mecanismos de autoatención. Este enfoque permite al modelo sopesar la importancia de las distintas regiones de la imagen, lo que mejora la extracción de características y la precisión, especialmente en escenas complejas.
Puntos fuertes:
- Precisión superior: La arquitectura de transformadores proporciona una mayor precisión en la detección de objetos, especialmente en entornos complejos, como se demuestra en escenarios como la visión-ai-en-manejo-de-turbas.
- Capacidad de tiempo real: Alcanza velocidades de inferencia competitivas, especialmente cuando se utiliza aceleración por hardware como las GPU NVIDIA T4.
- Extracción robusta de características: Los transformadores de visión capturan con eficacia el contexto global y los detalles más intrincados, lo que resulta beneficioso en aplicaciones como el uso de la visión por ordenador para analizar imágenes de satélite.
Debilidades:
- Mayor tamaño del modelo: Los modelos RTDETRv2, especialmente las variantes más grandes, tienen un mayor número de parámetros y FLOPs que YOLOv5, lo que requiere más recursos computacionales.
- Velocidad de inferencia: aunque es capaz de trabajar en tiempo real, la velocidad de inferencia puede ser inferior a la de los modelos YOLOv5 más rápidos, especialmente en dispositivos menos potentes.
Casos de uso ideales:
RTDETRv2 es ideal para aplicaciones en las que la precisión es primordial y los recursos informáticos son suficientes. Entre ellas se incluyen:
- Conducción autónoma: Para una percepción fiable y precisa del entorno en IA en coches de conducción autónoma.
- Robótica: Permitir a los robots interactuar con precisión con su entorno, esencial para las tareas que se tratan en"De los algoritmos a la automatización: El papel de la IA en la robótica".
- Imágenes médicas: Para la detección precisa de anomalías, ayudando en el diagnóstico como se destaca en AI in Healthcare y potencialmente útil en áreas como el uso de yolo11 para la detección de tumores en imágenes médicas.
- Análisis de imágenes de alta resolución: Aplicaciones que requieren un análisis detallado de imágenes de gran tamaño, como las imágenes por satélite o la inspección industrial, como se ve en improving-manufacturing-with-computer-vision.
Más información sobre RTDETRv2
Tabla comparativa de modelos
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Conclusión
Tanto RTDETRv2 como YOLOv5 son modelos robustos de detección de objetos, cada uno diseñado para prioridades distintas. RTDETRv2 es preferible cuando la precisión es primordial y se dispone de recursos informáticos. Por el contrario, YOLOv5 sobresale en escenarios que requieren rendimiento y eficiencia en tiempo real, especialmente en plataformas con recursos limitados.
Para los usuarios que exploren otros modelos, Ultralytics ofrece un amplio zoo de modelos, entre los que se incluyen:
- YOLOv8 y YOLO11: Sucesores de YOLOv5, que proporcionan nuevos avances en rendimiento y eficiencia, como se destaca enUltralytics YOLOv8 cumple un año: un año de avances e innovaciones" yUltralytics YOLO11 ha llegado: Redefinir las posibilidades de la IA".
- YOLO: Modelos diseñados con arquitectura neuronal de búsqueda para optimizar el rendimientoYOLO de Deci AI).
- FastSAM y MobileSAM: Para tareas de segmentación de instancias en tiempo real (FastSAM y MobileSAM).
La selección entre RTDETRv2, YOLOv5 u otros modelos de Ultralytics debe basarse en las demandas específicas de su proyecto de visión por ordenador, considerando cuidadosamente el equilibrio entre precisión, velocidad y disponibilidad de recursos. Consulte la documentaciónUltralytics y el repositorio de GitHub para obtener información detallada y guías de implementación.