RT-DETRv2 frente a YOLOv10: comparación técnica para la detección de objetos
Para seleccionar el modelo óptimo de detección de objetos es necesario navegar por un panorama de arquitecturas en evolución, en el que las compensaciones entre precisión, latencia y consumo de recursos dictan cuál es el más adecuado para una aplicación determinada. Esta comparación técnica analiza RT-DETRv2un modelo basado en transformadores diseñado para tareas de alta precisión, y YOLOv10la evolución centrada en la eficiencia de la conocida familia YOLO . Al examinar sus innovaciones arquitectónicas, métricas de rendimiento y características de despliegue, pretendemos orientar a los desarrolladores hacia la solución ideal para sus necesidades específicas.
RT-DETRv2: Transformadores de visión optimizados
RT-DETRv2 representa una iteración significativa de la serie Real-Time Detection Transformer, creada originalmente para desafiar el dominio de los detectores basados en CNN. Desarrollado por investigadores de Baidu, este modelo incorpora una "bolsa de cosas gratuitas" para mejorar la estabilidad y el rendimiento del entrenamiento sin incurrir en costes adicionales de inferencia.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
- Organización:Baidu
- Fecha: 2024-07-24
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Arquitectura y puntos fuertes
RT-DETRv2 utiliza un codificador híbrido y un transformador de visión (ViT ) escalable. A diferencia de las redes neuronales convolucionales (CNN) tradicionales, que procesan las imágenes utilizando campos receptivos locales, la arquitectura del transformador utiliza mecanismos de autoatención para captar el contexto global. Esto permite al modelo discernir con eficacia las relaciones entre objetos distantes y manejar oclusiones complejas. Las mejoras de la "v2" se centran en la optimización de la selección dinámica de consultas y la introducción de estrategias de entrenamiento flexibles que permiten a los usuarios ajustar con precisión el equilibrio entre velocidad y precisión.
Aunque eficaz, esta arquitectura exige de forma inherente importantes recursos computacionales. Las capas de autoatención, aunque potentes, contribuyen a un mayor consumo de memoria durante el entrenamiento y la inferencia en comparación con las alternativas basadas puramente en CNN.
YOLOv10: el estándar de la eficiencia en tiempo real
YOLOv10 supera los límites del paradigma You Only Look Once al introducir una estrategia de entrenamiento NMS y un diseño holístico orientado a la eficiencia y la precisión. Creado por investigadores de la Universidad de Tsinghua, está diseñado específicamente para minimizar la latencia y mantener un rendimiento de detección competitivo.
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización:Universidad de Tsinghua
- Fecha: 2024-05-23
- Arxiv:https://arxiv.org/abs/2405.14458
- GitHub:https://github.com/THU-MIG/yolov10
Arquitectura y puntos fuertes
La característica que define a YOLOv10 es la eliminación de la supresión no máxima (NMS ) mediante una estrategia de asignación dual coherente. Los detectores de objetos tradicionales suelen predecir varios recuadros delimitadores para un mismo objeto, lo que requiere un postprocesamiento NMS para filtrar los duplicados. Este paso crea un cuello de botella en la latencia de la inferencia. YOLOv10 elimina este requisito, lo que permite una verdadera implantación de extremo a extremo.
Además, la arquitectura cuenta con muestreo descendente desacoplado de canales espaciales y diseño de bloques guiado por rangos, lo que reduce significativamente el número de parámetros y FLOPs (Floating Point Operations). Esto hace que YOLOv10 sea excepcionalmente ligera y adecuada para entornos con recursos limitados, como los dispositivos de inteligencia artificial periférica.
Inferencia NMS
La eliminación NMS cambia las reglas del juego para las aplicaciones en tiempo real. Reduce la complejidad del proceso de despliegue y garantiza que el tiempo de inferencia siga siendo determinista, independientemente del número de objetos detectados en la escena.
Análisis de rendimiento
Al comparar directamente los dos modelos YOLOv10 demuestra una capacidad superior para equilibrar velocidad y precisión, sobre todo en el extremo superior del espectro de rendimiento. Aunque RT-DETRv2 ofrece buenos resultados, YOLOv10 consigue sistemáticamente una latencia más baja y requiere menos parámetros para una mAP (precisión media) comparable o mejor.
En la tabla siguiente se muestran las métricas de rendimiento del conjunto de datos COCO . En particular, YOLOv10x supera a RT-DETRv2 en precisión (54,4% frente a 54,3%), al tiempo que es significativamente más rápido (12,2 ms frente a 15,03 ms) y requiere muchos menos parámetros (56,9 millones frente a 76 millones).
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Velocidad y eficacia
La eficiencia arquitectónica de YOLOv10 es evidente en todas las escalas. Las variantes Nano (n) y Small (s) proporcionan velocidades de inferencia ultrarrápidas adecuadas para CPU móviles y dispositivos IoT. Por ejemplo, YOLOv10n se ejecuta en 1,56 ms en una GPU T4, lo que es significativamente más rápido que la variante RT-DETRv2 más pequeña.
Precisión frente a cálculo
RT-DETRv2 aprovecha su columna vertebral de transformadores para lograr una gran precisión, sobre todo en los modelos de tamaño pequeño y mediano. Sin embargo, esto se consigue a costa de FLOPs y recuentos de parámetros significativamente mayores. YOLOv10 cierra esta brecha de forma eficaz; los modelos YOLOv10 de mayor tamaño igualan o superan la precisión de sus homólogos de transformador a la vez que mantienen una huella computacional menor, lo que los hace más versátiles para hardware diverso.
Entrenamiento, usabilidad y ecosistema
Un factor diferenciador crítico para los desarrolladores es la facilidad de formación y despliegue. El ecosistema Ultralytics ofrece una interfaz unificada que simplifica enormemente el trabajo con modelos como YOLOv10.
Facilidad de uso
El entrenamiento de RT-DETRv2 suele implicar complejos archivos de configuración y configuraciones de entorno específicas adaptadas a las arquitecturas de los transformadores. En cambio, YOLOv10 se integra directamente en laAPIPython Ultralytics , lo que permite a los usuarios iniciar el entrenamiento, la validación o la inferencia con tan solo unas líneas de código.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Requisitos de memoria
Se sabe que los modelos basados en transformadores, como RT-DETRv2 , consumen mucha memoria. El mecanismo de autoatención se escala cuadráticamente con la longitud de la secuencia, lo que conlleva un elevado uso de VRAM durante el entrenamiento. YOLOv10, con su arquitectura de CNN optimizada, requiere mucha menos memoriaCUDA , lo que permite a los usuarios entrenar lotes de mayor tamaño o utilizar hardware más modesto.
Ecosistema bien mantenido
Optar por un modelo Ultralytics garantiza el acceso a un ecosistema robusto. Esto incluye actualizaciones continuas, amplia documentación e integración perfecta con herramientas MLOps como Ultralytics HUB y varios formatos de exportaciónONNX, TensorRT, CoreML). Esta estructura de apoyo es inestimable para trasladar los proyectos de la investigación a la producción de forma eficiente.
Casos de Uso Ideales
RT-DETRv2
- Investigación académica: Ideal para estudiar las capacidades de los transformadores en tareas de visión y compararlos con los métodos más avanzados.
- Implantación en servidores de gama alta: Adecuado para escenarios en los que los recursos de hardware son abundantes y las características específicas de los mapas de atención de los transformadores son beneficiosas, como en el análisis detallado de imágenes médicas.
YOLOv10
- Real-Time Edge AI: la baja latencia y el reducido tamaño del modelo lo hacen perfecto para su implantación en dispositivos periféricos como NVIDIA Jetson o Raspberry Pi para tareas como la gestión del tráfico.
- Robótica: El diseño NMS proporciona la latencia determinista necesaria para los bucles de control en robots autónomos.
- Aplicaciones comerciales: Desde el análisis de comercios hasta la supervisión de la seguridad, el equilibrio entre velocidad y precisión maximiza el retorno de la inversión al reducir los costes de hardware.
Conclusión
Mientras que RT-DETRv2 muestra el potencial de los transformadores en la detección de objetos con una precisión impresionante, YOLOv10 se perfila como la opción más práctica y versátil para la mayoría de las aplicaciones del mundo real. Su capacidad para ofrecer un rendimiento de vanguardia con una demanda computacional significativamente menor, combinada con la facilidad de uso que proporciona el ecosistema Ultralytics , lo convierten en una solución superior para los desarrolladores que buscan eficiencia y escalabilidad.
Para quienes busquen lo último en tecnología de visión por ordenador, también recomendamos explorar YOLO11que perfecciona aún más la arquitectura para aumentar la velocidad y la precisión en una amplia gama de tareas, como la segmentación y la estimación de la pose.
Explorar Otros Modelos
Amplíe sus conocimientos sobre el panorama de la detección de objetos con estas comparaciones adicionales: