RT-DETRv2 frente a YOLOv10: comparación técnica para la detección de objetos

Para seleccionar el modelo óptimo de detección de objetos es necesario navegar por un panorama de arquitecturas en evolución, en el que las compensaciones entre precisión, latencia y consumo de recursos dictan cuál es el más adecuado para una aplicación determinada. Esta comparación técnica analiza RT-DETRv2un modelo basado en transformadores diseñado para tareas de alta precisión, y YOLOv10la evolución centrada en la eficiencia de la conocida familia YOLO . Al examinar sus innovaciones arquitectónicas, métricas de rendimiento y características de despliegue, pretendemos orientar a los desarrolladores hacia la solución ideal para sus necesidades específicas.

RT-DETRv2: Transformadores de visión optimizados

RT-DETRv2 representa una iteración significativa de la serie Real-Time Detection Transformer, creada originalmente para desafiar el dominio de los detectores basados en CNN. Desarrollado por investigadores de Baidu, este modelo incorpora una "bolsa de cosas gratuitas" para mejorar la estabilidad y el rendimiento del entrenamiento sin incurrir en costes adicionales de inferencia.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

Más información sobre RT-DETR

Arquitectura y puntos fuertes

RT-DETRv2 utiliza un codificador híbrido y un transformador de visión (ViT ) escalable. A diferencia de las redes neuronales convolucionales (CNN) tradicionales, que procesan las imágenes utilizando campos receptivos locales, la arquitectura del transformador utiliza mecanismos de autoatención para captar el contexto global. Esto permite al modelo discernir con eficacia las relaciones entre objetos distantes y manejar oclusiones complejas. Las mejoras de la "v2" se centran en la optimización de la selección dinámica de consultas y la introducción de estrategias de entrenamiento flexibles que permiten a los usuarios ajustar con precisión el equilibrio entre velocidad y precisión.

Aunque eficaz, esta arquitectura exige de forma inherente importantes recursos computacionales. Las capas de autoatención, aunque potentes, contribuyen a un mayor consumo de memoria durante el entrenamiento y la inferencia en comparación con las alternativas basadas puramente en CNN.

YOLOv10: el estándar de la eficiencia en tiempo real

YOLOv10 supera los límites del paradigma You Only Look Once al introducir una estrategia de entrenamiento NMS y un diseño holístico orientado a la eficiencia y la precisión. Creado por investigadores de la Universidad de Tsinghua, está diseñado específicamente para minimizar la latencia y mantener un rendimiento de detección competitivo.

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización:Universidad de Tsinghua
Fecha: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10

Más información sobre YOLOv10

Arquitectura y puntos fuertes

La característica que define a YOLOv10 es la eliminación de la supresión no máxima (NMS ) mediante una estrategia de asignación dual coherente. Los detectores de objetos tradicionales suelen predecir varios recuadros delimitadores para un mismo objeto, lo que requiere un postprocesamiento NMS para filtrar los duplicados. Este paso crea un cuello de botella en la latencia de la inferencia. YOLOv10 elimina este requisito, lo que permite una verdadera implantación de extremo a extremo.

Además, la arquitectura cuenta con muestreo descendente desacoplado de canales espaciales y diseño de bloques guiado por rangos, lo que reduce significativamente el número de parámetros y FLOPs (Floating Point Operations). Esto hace que YOLOv10 sea excepcionalmente ligera y adecuada para entornos con recursos limitados, como los dispositivos de inteligencia artificial periférica.

Inferencia NMS

La eliminación NMS cambia las reglas del juego para las aplicaciones en tiempo real. Reduce la complejidad del proceso de despliegue y garantiza que el tiempo de inferencia siga siendo determinista, independientemente del número de objetos detectados en la escena.

Análisis de rendimiento

Al comparar directamente los dos modelos YOLOv10 demuestra una capacidad superior para equilibrar velocidad y precisión, sobre todo en el extremo superior del espectro de rendimiento. Aunque RT-DETRv2 ofrece buenos resultados, YOLOv10 consigue sistemáticamente una latencia más baja y requiere menos parámetros para una mAP (precisión media) comparable o mejor.

En la tabla siguiente se muestran las métricas de rendimiento del conjunto de datos COCO . En particular, YOLOv10x supera a RT-DETRv2 en precisión (54,4% frente a 54,3%), al tiempo que es significativamente más rápido (12,2 ms frente a 15,03 ms) y requiere muchos menos parámetros (56,9 millones frente a 76 millones).

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Velocidad y eficacia

La eficiencia arquitectónica de YOLOv10 es evidente en todas las escalas. Las variantes Nano (n) y Small (s) proporcionan velocidades de inferencia ultrarrápidas adecuadas para CPU móviles y dispositivos IoT. Por ejemplo, YOLOv10n se ejecuta en 1,56 ms en una GPU T4, lo que es significativamente más rápido que la variante RT-DETRv2 más pequeña.

Precisión frente a cálculo

RT-DETRv2 aprovecha su columna vertebral de transformadores para lograr una gran precisión, sobre todo en los modelos de tamaño pequeño y mediano. Sin embargo, esto se consigue a costa de FLOPs y recuentos de parámetros significativamente mayores. YOLOv10 cierra esta brecha de forma eficaz; los modelos YOLOv10 de mayor tamaño igualan o superan la precisión de sus homólogos de transformador a la vez que mantienen una huella computacional menor, lo que los hace más versátiles para hardware diverso.

Entrenamiento, usabilidad y ecosistema

Un factor diferenciador crítico para los desarrolladores es la facilidad de formación y despliegue. El ecosistema Ultralytics ofrece una interfaz unificada que simplifica enormemente el trabajo con modelos como YOLOv10.

Facilidad de uso

El entrenamiento de RT-DETRv2 suele implicar complejos archivos de configuración y configuraciones de entorno específicas adaptadas a las arquitecturas de los transformadores. En cambio, YOLOv10 se integra directamente en laAPIPython Ultralytics , lo que permite a los usuarios iniciar el entrenamiento, la validación o la inferencia con tan solo unas líneas de código.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Requisitos de memoria

Se sabe que los modelos basados en transformadores, como RT-DETRv2 , consumen mucha memoria. El mecanismo de autoatención se escala cuadráticamente con la longitud de la secuencia, lo que conlleva un elevado uso de VRAM durante el entrenamiento. YOLOv10, con su arquitectura de CNN optimizada, requiere mucha menos memoriaCUDA , lo que permite a los usuarios entrenar lotes de mayor tamaño o utilizar hardware más modesto.

Ecosistema bien mantenido

Optar por un modelo Ultralytics garantiza el acceso a un ecosistema robusto. Esto incluye actualizaciones continuas, amplia documentación e integración perfecta con herramientas MLOps como Ultralytics HUB y varios formatos de exportaciónONNX, TensorRT, CoreML). Esta estructura de apoyo es inestimable para trasladar los proyectos de la investigación a la producción de forma eficiente.

Casos de Uso Ideales

RT-DETRv2

Investigación académica: Ideal para estudiar las capacidades de los transformadores en tareas de visión y compararlos con los métodos más avanzados.
Implantación en servidores de gama alta: Adecuado para escenarios en los que los recursos de hardware son abundantes y las características específicas de los mapas de atención de los transformadores son beneficiosas, como en el análisis detallado de imágenes médicas.

YOLOv10

Real-Time Edge AI: la baja latencia y el reducido tamaño del modelo lo hacen perfecto para su implantación en dispositivos periféricos como NVIDIA Jetson o Raspberry Pi para tareas como la gestión del tráfico.
Robótica: El diseño NMS proporciona la latencia determinista necesaria para los bucles de control en robots autónomos.
Aplicaciones comerciales: Desde el análisis de comercios hasta la supervisión de la seguridad, el equilibrio entre velocidad y precisión maximiza el retorno de la inversión al reducir los costes de hardware.

Conclusión

Mientras que RT-DETRv2 muestra el potencial de los transformadores en la detección de objetos con una precisión impresionante, YOLOv10 se perfila como la opción más práctica y versátil para la mayoría de las aplicaciones del mundo real. Su capacidad para ofrecer un rendimiento de vanguardia con una demanda computacional significativamente menor, combinada con la facilidad de uso que proporciona el ecosistema Ultralytics , lo convierten en una solución superior para los desarrolladores que buscan eficiencia y escalabilidad.

Para quienes busquen lo último en tecnología de visión por ordenador, también recomendamos explorar YOLO11que perfecciona aún más la arquitectura para aumentar la velocidad y la precisión en una amplia gama de tareas, como la segmentación y la estimación de la pose.

Explorar Otros Modelos

Amplíe sus conocimientos sobre el panorama de la detección de objetos con estas comparaciones adicionales:

RT-DETRv2 frente a YOLOv10: comparación técnica para la detección de objetos

RT-DETRv2: Transformadores de visión optimizados

Arquitectura y puntos fuertes

YOLOv10: el estándar de la eficiencia en tiempo real

Arquitectura y puntos fuertes

Análisis de rendimiento

Velocidad y eficacia

Precisión frente a cálculo

Entrenamiento, usabilidad y ecosistema

Facilidad de uso

Requisitos de memoria

Ecosistema bien mantenido

Casos de Uso Ideales

RT-DETRv2

YOLOv10

Conclusión

Explorar Otros Modelos

Comentarios