YOLOv10 frente a RTDETRv2: Comparación técnica para la detección de objetos
La elección del modelo óptimo de detección de objetos es una decisión crítica para los proyectos de visión por ordenador. Ultralytics ofrece un conjunto de modelos adaptados a diversas necesidades, que van desde la eficiente serieYOLO Ultralytics hasta la serie RT-DETR de alta precisión. Esta página ofrece una comparación técnica detallada entre YOLOv10 y RTDETRv2, dos modelos de vanguardia para la detección de objetos, con el fin de ayudarle a tomar una decisión informada.
RTDETRv2: Detección en tiempo real de alta precisión
RTDETRv2(Real-Time Detection Transformer v2) es un modelo avanzado de detección de objetos que prioriza la alta precisión y el rendimiento en tiempo real. Desarrollado por Baidu y detallado en su artículo Arxiv publicado en julio de 2024, RTDETRv2 se basa en una arquitectura Vision Transformer (ViT) para lograr resultados de vanguardia en escenarios que exigen una localización y clasificación de objetos precisa.
Arquitectura y características principales
La arquitectura de RTDETRv2 aprovecha los puntos fuertes de los transformadores para captar el contexto global de las imágenes mediante mecanismos de autoatención. Este enfoque basado en transformadores permite al modelo sopesar la importancia de las distintas regiones de la imagen, lo que mejora la extracción de características y la precisión, especialmente en escenas complejas. A diferencia de las redes neuronales convolucionales (CNN) tradicionales, RTDETRv2 destaca en la comprensión del contexto más amplio de una imagen, lo que contribuye a sus sólidas capacidades de detección. El repositorio GitHub deRT-DETR ofrece más detalles sobre su implementación.
Métricas de rendimiento
RTDETRv2 muestra unas puntuaciones mAP impresionantes, especialmente con variantes de mayor tamaño como RTDETRv2-x, que alcanza un mAPval50-95 de 54,3. Las velocidades de inferencia también son competitivas, lo que lo hace adecuado para aplicaciones en tiempo real cuando se utiliza aceleración por hardware como las GPU NVIDIA T4. La siguiente tabla comparativa ofrece un desglose detallado de las métricas de rendimiento de las distintas variantes de RTDETRv2 y YOLO10.
Puntos fuertes y débiles
Puntos fuertes:
- Precisión superior: La arquitectura de transformador facilita una gran precisión en la detección de objetos.
- Capacidad en tiempo real: Alcanza velocidades de inferencia competitivas, especialmente con aceleración por hardware de motores de inferencia como TensorRT.
- Extracción eficaz de características: Los transformadores de visión captan con habilidad el contexto global y los detalles más intrincados de las imágenes.
Debilidades:
- Mayor tamaño del modelo: Los modelos como RTDETRv2-x tienen un mayor número de parámetros y FLOPs más altos en comparación con los modelos YOLO más pequeños, lo que requiere más recursos computacionales.
- Limitaciones de la velocidad de inferencia: Aunque es capaz de trabajar en tiempo real, la velocidad de inferencia puede ser inferior a la de los modelos YOLO más rápidos, especialmente en dispositivos con recursos limitados.
Casos de uso ideales
RTDETRv2 es ideal para aplicaciones en las que la precisión es primordial y se dispone de suficientes recursos informáticos. Entre ellas se incluyen:
- Vehículos autónomos: Para una percepción fiable y precisa del entorno, crucial para la seguridad y la navegación en IA en coches autónomos.
- Robótica: Permitir a los robots interactuar con precisión con objetos en entornos complejos, mejorando las capacidades en el papel de la IA en la robótica.
- Imágenes médicas: Para la detección precisa de anomalías en imágenes médicas, ayudando en el diagnóstico y mejorando la eficiencia de la IA en Sanidad.
- Análisis de imágenes de alta resolución: Aplicaciones que requieren un análisis detallado de imágenes de gran tamaño, como las imágenes de satélite o la inspección industrial, similar al uso de la visión por ordenador para analizar imágenes de satélite.
Más información sobre RTDETRv2
YOLOv10: detección de objetos eficaz y versátil
YOLOv10(You Only Look Once 10) es la última iteración de la serieYOLO Ultralytics , famosa por su velocidad y eficacia en la detección de objetos. Presentada en mayo de 2024 por autores de la Universidad de Tsinghua, como se detalla en su artículo de Arxiv, YOLOv10 se basa en las versiones anteriores de YOLO , mejorando tanto la precisión como el rendimiento a la vez que mantiene su ventaja en tiempo real. El repositorio oficial de GitHub proporciona la implementación oficial PyTorch .
Arquitectura y características principales
YOLOv10 continúa la tradición YOLO de detección de objetos en una sola fase, centrándose en la eficiencia y la velocidad racionalizadas. Incorpora innovaciones arquitectónicas y optimizaciones para reducir la redundancia computacional y mejorar la precisión. Una característica clave es su enfoque sin NMS, que permite un despliegue de extremo a extremo y una latencia de inferencia reducida. Esto hace que YOLOv10 sea especialmente ventajoso para las aplicaciones en tiempo real y la implantación en dispositivos con recursos limitados.
Métricas de rendimiento
YOLOv10 logra un equilibrio entre velocidad y precisión, ofreciendo varios tamaños de modelo, desde YOLOv10n hasta YOLOv10x. Aunque está ligeramente por detrás de RTDETRv2 en precisión, YOLOv10 destaca en velocidad de inferencia y eficacia. Por ejemplo, YOLOv10n alcanza una velocidad de inferencia rápida de 1,56 ms en TensorRT, lo que lo hace ideal para aplicaciones sensibles a la latencia. La guía de métricas de rendimientoYOLO proporciona más contexto sobre estas métricas.
Puntos fuertes y débiles
Puntos fuertes:
- Alta eficiencia y velocidad: Optimizado para una inferencia rápida, crucial para las aplicaciones en tiempo real y el despliegue en los bordes.
- Versatilidad: Disponible en varios tamaños (n, s, m, b, l, x) que ofrecen un rendimiento y un uso de recursos escalables.
- Formación sin NMS: Permite la implantación de extremo a extremo y reduce la latencia de inferencia.
- Modelo de menor tamaño: Menor número de parámetros y FLOPs en comparación con RTDETRv2, lo que lo hace adecuado para entornos con recursos limitados.
Debilidades:
- Menor precisión que RTDETRv2: Aunque es muy preciso, puede que no alcance la precisión de primer nivel de RTDETRv2 en escenarios complejos.
- Posible contrapartida: Alcanzar una velocidad extrema puede implicar una ligera contrapartida en la precisión en comparación con modelos más grandes y de mayor intensidad computacional.
Casos de uso ideales
La eficacia y velocidad de YOLOv10 lo convierten en una excelente opción para aplicaciones que requieren detección de objetos en tiempo real, especialmente en dispositivos con recursos limitados. Entre ellas se incluyen:
- Edge Computing: Implantación en dispositivos periféricos como NVIDIA Jetson y Raspberry Pi para el procesamiento en el dispositivo.
- Videovigilancia en tiempo real: Para una supervisión eficaz y una respuesta rápida en sistemas de alarma de seguridad.
- Robótica y drones: Aplicaciones en las que la baja latencia y el procesamiento rápido son fundamentales para la navegación y la interacción, como las aplicaciones de visión por ordenador en operaciones de drones con IA.
- Automatización industrial: Para la detección rápida de objetos en los procesos de fabricación, mejorando la eficacia de la IA en la fabricación.
Tabla comparativa de modelos
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Conclusión
Tanto RTDETRv2 como YOLOv10 son potentes modelos de detección de objetos, cada uno diseñado para prioridades diferentes. RTDETRv2 destaca cuando se requiere una precisión de primer nivel y se dispone de recursos informáticos, por lo que es adecuado para aplicaciones complejas y críticas. YOLOv10, por el contrario, es la opción preferida cuando el rendimiento en tiempo real, la eficiencia y la implantación en plataformas con recursos limitados son primordiales.
Para los usuarios que exploren otras opciones, Ultralytics ofrece un variado zoo de modelos, que incluye modelos con distintas compensaciones entre velocidad y precisión:
- YOLOv8 y YOLOv9: generaciones anteriores de modelos YOLO , que ofrecen un equilibrio entre velocidad y precisión, como se destaca en la documentación de Ultralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations y YOLOv9.
- YOLO: Modelos diseñados con búsqueda de arquitectura neuronal para un rendimiento óptimo, detallado en la documentación deYOLO by Deci AI .
- FastSAM y MobileSAM: Para tareas de segmentación de instancias en tiempo real, ofreciendo soluciones eficientes como se puede ver en la documentación deFastSAM y la documentaciónMobileSAM .
En última instancia, la elección entre RTDETRv2 y YOLOv10, u otros modelos de Ultralytics , depende de las necesidades específicas de su proyecto de visión por ordenador, equilibrando cuidadosamente la precisión, la velocidad y las limitaciones de recursos. Consulte la documentaciónUltralytics y el repositorio de GitHub para obtener información completa y guías de implementación.