RTDETRv2 vs YOLOv7: Comparación técnica detallada

El panorama de la detección de objetos en tiempo real ha sido testigo de una feroz competición entre las redes neuronales convolucionales (CNN) y los emergentes transformadores de visión (ViT). Dos hitos significativos en esta evolución son RTDETRv2 (Real-Time Detection Transformer v2) y YOLOv7 (Sólo se mira una vez versión 7). Mientras que YOLOv7 representa el pináculo de la optimización eficiente de la arquitectura CNN, RTDETRv2 introduce el poder de los transformadores para eliminar la necesidad de pasos de postprocesamiento como la Supresión No MáximaNMSMS).

Esta comparación explora las especificaciones técnicas, las diferencias arquitectónicas y las métricas de rendimiento de ambos modelos para ayudar a los desarrolladores a elegir la herramienta adecuada para sus aplicaciones de visión por ordenador.

Métricas de rendimiento: Precisión frente a velocidad

La tabla siguiente presenta una comparación directa de las principales métricas de rendimiento. RTDETRv2-x demuestra una precisión superior con un mAP más alto, en gran parte debido a su comprensión global del contexto basada en transformadores. Sin embargo, YOLOv7 sigue siendo competitivo, especialmente en escenarios en los que se requiere un peso más ligero y velocidades de inferencia equilibradas en hardware variable.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2: El enfoque del transformador

RTDETRv2 se basa en el éxito del RT-DETR original, el primer detector basado en transformadores que rivaliza realmente con los modelos YOLO en velocidad en tiempo real. Desarrollado por investigadores de Baidu, aborda los cuellos de botella computacionales asociados a la interacción multiescala en arquitecturas DETR estándar.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

Principales características arquitectónicas

RTDETRv2 utiliza un codificador híbrido que procesa eficazmente características multiescala desacoplando la interacción intraescala y la fusión entre escalas. Este diseño reduce significativamente los costes computacionales en comparación con los transformadores estándar. Una característica destacada es su selección de consultasIoU, que mejora la inicialización de las consultas de objetos, lo que permite una convergencia más rápida y una mayor precisión. A diferencia de los modelos basados en CNN, RTDETRv2 NMS, es decir, no requiere postprocesamiento de supresión no máxima, lo que simplifica el proceso de despliegue y reduce las fluctuaciones de latencia.

Ventaja del transformador

La principal ventaja de la arquitectura RTDETRv2 es su capacidad para captar el contexto global. Mientras que las CNN se fijan en campos receptivos localizados, el mecanismo de autoatención de los transformadores permite al modelo tener en cuenta todo el contexto de la imagen a la hora de detectar objetos, lo que resulta beneficioso para resolver ambigüedades en escenas complejas con oclusión.

Más información sobre RT-DETR

YOLOv7: El pico de la CNN

YOLOv7 amplía las posibilidades de las redes neuronales convolucionales. Se centra en optimizar el proceso de entrenamiento y la arquitectura del modelo para conseguir una "bolsa de cosas gratuitas", es decir, métodos que aumentan la precisión sin incrementar el coste de la inferencia.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7

Principales características arquitectónicas

YOLOv7 introduce E-ELAN (Extended Efficient Layer Aggregation Network), que mejora la capacidad de aprendizaje de la red controlando la longitud de la ruta del gradiente. También emplea la re-parametrización del modelo, una técnica en la que la estructura del modelo es compleja durante el entrenamiento para mejorar el aprendizaje, pero se simplifica durante la inferencia para aumentar la velocidad. Esto permite a YOLOv7 mantener un alto rendimiento en dispositivosGPU al tiempo que mantiene los parámetros relativamente bajos en comparación con los modelos de transformador.

Más información sobre YOLOv7

Análisis comparativo

Arquitectura y versatilidad

La diferencia fundamental radica en el diseño de la columna vertebral y el cabezal. YOLOv7 se basa en estructuras CNN profundas altamente optimizadas para CUDA pero pueden tener problemas con las dependencias de largo alcance en una imagen. RTDETRv2 aprovecha los mecanismos de atención para comprender las relaciones entre píxeles distantes, lo que lo hace robusto en entornos desordenados. Sin embargo, esto tiene el coste de un mayor consumo de memoria durante el entrenamiento.

Modelos Ultralytics como YOLO11 cubren este vacío ofreciendo una arquitectura basada en CNN que integra módulos modernos similares a los de atención, proporcionando la velocidad de las CNN con la precisión reservada normalmente a los transformadores. Además, mientras que RTDETRv2 es principalmente un detector de objetos, los nuevos modelos de Ultralytics admiten de forma nativa la segmentación de instancias, la estimación de poses y la clasificación.

Formación y facilidad de uso

El entrenamiento de modelos de transformadores como RTDETRv2 suele requerir una cantidad considerable de memoria GPU y períodos de entrenamiento más largos para converger en comparación con CNN como YOLOv7.

Para desarrolladores que buscan Eficacia de la formación y Facilidad de usoel ecosistema de Ultralytics ofrece una clara ventaja. Con la ultralytics Python , los usuarios pueden entrenar, validar y desplegar modelos con unas pocas líneas de código, accediendo a un conjunto de pesos preentrenados para diversas tareas.

from ultralytics import RTDETR, YOLO

# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt")  # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)

# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")

Despliegue y ecosistema

YOLOv7 cuenta con un amplio apoyo debido a su antigüedad, pero su integración en los procesos MLOps modernos puede ser manual. RTDETRv2 es más reciente y cuenta con un apoyo cada vez mayor. Por el contrario, Ultralytics se benefician de un ecosistema bien mantenido, que incluye la exportación sin problemas a ONNXTensorRT y CoreML, y la integración con herramientas como Ultralytics HUB para la formación en la nube y la gestión de conjuntos de datos.

Casos de Uso Ideales

Elija RTDETRv2 si: Dispone de amplia memoria GPU y requiere alta precisión en escenas con mucha oclusión o aglomeración, donde tradicionalmente falla NMS . Es excelente para la investigación y los sistemas de vigilancia de gama alta.
Elija YOLOv7 si: Necesita una arquitectura CNN heredada y probada que se ejecute de forma eficiente en hardware de GPU estándar para tareas de detección de propósito general.
Elija Ultralytics YOLO11 si: Necesita el mejor Rendimiento Equilibrio de velocidad y precisión, menores requisitos de Memoria y un modelo versátil capaz de detección, segmentación y estimación de pose. Es la opción ideal para los desarrolladores que valoran un flujo de trabajo racionalizado y una amplia documentación.

¿Por qué actualizar a YOLO11?

Mientras que YOLOv7 y RTDETRv2 son potentes, YOLO11 representa la última evolución en IA de visión. Requiere menos memoria CUDA que los transformadores, se entrena más rápido y ofrece una precisión de vanguardia en una gama más amplia de hardware, desde dispositivos periféricos hasta servidores en la nube.

Conclusión

Tanto RTDETRv2 como YOLOv7 han marcado el rumbo de la visión por ordenador. RTDETRv2 desafió con éxito la idea de que los transformadores son demasiado lentos para las aplicaciones en tiempo real, mientras que YOLOv7 demostró la eficacia duradera de las CNN. Sin embargo, para la mayoría de las aplicaciones del mundo real de hoy en día, la Ultralytics YOLO11 ofrece una experiencia de desarrollo superior, combinando los mejores atributos de estos predecesores con un ecosistema moderno y de apoyo.

Explorar otras comparaciones

Para comprender mejor el panorama de los modelos, explore estas comparaciones:

RTDETRv2 vs YOLOv7: Comparación técnica detallada

Métricas de rendimiento: Precisión frente a velocidad

RTDETRv2: El enfoque del transformador

Principales características arquitectónicas

YOLOv7: El pico de la CNN

Principales características arquitectónicas

Análisis comparativo

Arquitectura y versatilidad

Formación y facilidad de uso

Despliegue y ecosistema

Casos de Uso Ideales

Conclusión

Explorar otras comparaciones

Comentarios