RTDETRv2 frente a YOLO: una inmersión en la detección de objetos en tiempo real

El panorama de la visión por ordenador evoluciona rápidamente y los investigadores no dejan de ampliar los límites entre la velocidad de inferencia y la precisión de detección. Dos destacados contendientes en este terreno son RTDETRv2, un modelo basado en transformadores de Baidu, y YOLO, una red convolucional altamente optimizada de Alibaba. Esta comparación técnica explora las distintas filosofías arquitectónicas de estos modelos, sus métricas de rendimiento y sus escenarios de aplicación ideales.

Benchmarks de rendimiento: Velocidad frente a precisión

A la hora de seleccionar un modelo de detección de objetos, la principal disyuntiva suele estar entre la precisión mediamAP) y la latencia. Los siguientes datos ponen de manifiesto las diferencias de rendimiento entre RTDETRv2 y YOLO en el conjunto de datos de validación COCO .

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Los datos revelan una clara distinción en la filosofía de diseño. YOLO da prioridad a la velocidad bruta y la eficiencia, y la variante "Tiny" logra una latencia excepcionalmente baja, adecuada para entornos informáticos limitados. Por el contrario, RTDETRv2 busca la máxima precisión, y su variante más grande alcanza un notable 54,3 mAP, lo que la hace superior para tareas en las que la precisión es primordial.

RTDETRv2: El motor transformador

RTDETRv2 se basa en el éxito de la arquitectura del Transformador de Detección (DETR), abordando el alto coste computacional típicamente asociado a los transformadores de visión y manteniendo al mismo tiempo su capacidad para capturar el contexto global.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2023-04-17 (Inicial), 2024-07-24 (Actualización v2)
Arxiv:RT-DETRv2: Línea de base mejorada con Bag-of-Freebies
GitHub:RepositorioRT-DETRv2

Arquitectura y capacidades

RTDETRv2 emplea un codificador híbrido que procesa eficazmente características multiescala. A diferencia de los modelos YOLO tradicionales basados en CNN, RTDETR elimina la necesidad del postprocesamiento de supresión no máxima (NMS). Este enfoque integral simplifica el proceso de despliegue y reduce la variabilidad de la latencia en escenas con mucha gente.

El modelo utiliza un eficaz codificador híbrido que desacopla la interacción intraescala y la fusión entre escalas, lo que reduce significativamente la sobrecarga computacional en comparación con los modelos DETR estándar. Este diseño le permite destacar en la identificación de objetos en entornos complejos en los que la oclusión podría confundir a los detectores convolucionales estándar.

Uso de la memoria del transformador

Aunque RTDETRv2 ofrece una gran precisión, es importante señalar que las arquitecturas Transformer suelen consumir bastante más memoria CUDA durante el entrenamiento que las CNN. Los usuarios con una VRAM de GPU limitada pueden encontrar difícil entrenar estos modelos en comparación con alternativas eficientes como YOLO11.

Más información sobre RTDETR

YOLO: optimizado para la eficiencia

YOLO representa un enfoque riguroso de la optimización de arquitecturas, aprovechando la búsqueda de arquitecturas neuronales (NAS) para encontrar las estructuras más eficientes para la extracción y fusión de características.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
Organización:Grupo Alibaba
Fecha: 2022-11-23
Arxiv:YOLO: Informe sobre el diseño de detección de objetos en tiempo real
GitHub:Repositorio YOLO

Innovaciones arquitectónicas clave

YOLO integra varias tecnologías avanzadas para maximizar la relación entre velocidad y precisión:

Red troncal MAE-NAS: Emplea una columna vertebral descubierta a través de la Búsqueda de Arquitectura Neural Eficiente Consciente del Método, asegurando que cada parámetro contribuya eficazmente a la extracción de características.
RepGFPN: Un diseño de cuello especializado que fusiona características a través de escalas con un coste computacional mínimo, mejorando la detección de objetos pequeños sin paralizar las velocidades de inferencia.
ZeroHead: un cabezal de detección simplificado que reduce la complejidad de las capas finales de predicción.

Este modelo es especialmente eficaz en situaciones que requieren un alto rendimiento, como las cadenas de montaje industriales o el control del tráfico a alta velocidad, donde los milisegundos cuentan.

Más información sobre DAMO-YOLO

Escenarios de aplicación en el mundo real

La elección entre estos dos modelos suele depender de las limitaciones específicas del entorno de implantación.

Cuándo elegir RTDETRv2

RTDETRv2 es la opción preferida para aplicaciones en las que la precisión no es negociable y los recursos de hardware son abundantes.

Imágenes médicas: En el análisis de imágenes médicas, omitir una detección (falso negativo) puede tener graves consecuencias. El elevado mAP de RTDETRv2 lo hace adecuado para detectar anomalías en radiografías o resonancias magnéticas.
Vigilancia detallada: Para los sistemas de seguridad que requieren el reconocimiento facial o la identificación de pequeños detalles a distancia, las capacidades de contexto global de la arquitectura transformadora proporcionan una clara ventaja.

Cuándo elegir YOLO

YOLO brilla en entornos con recursos limitados o aplicaciones que requieren una latencia ultrabaja.

Robótica: Para los robots móviles autónomos que procesan datos visuales en dispositivos integrados alimentados por batería, la eficacia de YOLO garantiza la capacidad de respuesta en tiempo real.
Fabricación a alta velocidad: En la automatización de la fabricación, la detección de defectos en cintas transportadoras de movimiento rápido requiere las rápidas velocidades de inferencia que proporcionan las variantes YOLO y small.

La ventaja Ultralytics : Por qué YOLO11 es la elección óptima

Mientras que RTDETRv2 y YOLO ofrecen características convincentes, Ultralytics YOLO11 proporciona una solución integral que equilibra el rendimiento, la facilidad de uso y la compatibilidad con el ecosistema, lo que la convierte en la mejor opción para la mayoría de los desarrolladores e investigadores.

Ecosistema y usabilidad inigualables

Una de las barreras más importantes para la adopción de modelos de investigación es la complejidad de su código base. Ultralytics elimina esta fricción con una API Python unificada y fácil de usar. Tanto si realiza segmentación de instancias, estimación de poses o clasificación, el flujo de trabajo sigue siendo coherente e intuitivo.

from ultralytics import YOLO

# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")

# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Versatilidad en las tareas

A diferencia de YOLO, que se centra principalmente en la detección, YOLO11 es una plataforma versátil. Es compatible con una amplia gama de tareas de visión por ordenador, incluida la detección de cajas delimitadoras orientadas (OBB ), que es crucial para el análisis de imágenes aéreas y documentos. Esta versatilidad permite a los equipos estandarizar en un único marco los requisitos de múltiples proyectos.

Eficacia de la formación y gestión de la memoria

YOLO11 está diseñado para ser eficiente. Normalmente requiere menos memoria de GPU (VRAM) para el entrenamiento en comparación con modelos basados en transformadores como RTDETRv2. Esta eficiencia reduce la barrera del hardware, lo que permite a los desarrolladores entrenar modelos de última generación en GPU de consumo o utilizar eficazmente los recursos de la nube a través del ecosistemaUltralytics . Además, la amplia biblioteca de pesos preentrenados garantiza que el aprendizaje por transferencia sea rápido y eficaz, lo que reduce significativamente el tiempo de comercialización de las soluciones de IA.

Para quienes buscan una solución sólida, bien mantenida y de alto rendimiento que evolucione con el sector, Ultralytics YOLO11 sigue siendo el estándar recomendado.

Explorar otras comparaciones

Para comprender mejor cómo encajan estos modelos en el panorama más amplio de la visión por ordenador, explore estas comparaciones relacionadas: