Ir al contenido

YOLOv5 vs RTDETRv2: Evaluación de arquitecturas CNN vs. Transformer para la detección de objetos

El panorama de la visión por computadora se ha expandido significativamente en los últimos años, ofreciendo a los desarrolladores una amplia gama de arquitecturas para abordar tareas visuales complejas. Entre los paradigmas más populares se encuentran las Redes Neuronales Convolucionales (CNNs) y los Detection Transformers (DETRs).

Esta guía ofrece una comparación técnica en profundidad entre dos modelos fundamentales en estas categorías: Ultralytics YOLOv5, un modelo basado en CNN altamente eficiente y ampliamente adoptado, y RTDETRv2, un detector de objetos en tiempo real basado en transformadores de última generación.

Ultralytics YOLOv5: El Estándar de la Industria para la Eficiencia

Desde su lanzamiento, Ultralytics YOLOv5 se ha convertido en un pilar fundamental de la comunidad de IA, impulsando miles de aplicaciones comerciales y proyectos de investigación a nivel mundial. Construido íntegramente sobre el framework PyTorch, priorizó una experiencia de desarrollador intuitiva sin comprometer el rendimiento en tiempo real.

Características Clave:

Arquitectura y puntos fuertes

YOLOv5 utiliza una arquitectura CNN optimizada diseñada para maximizar la eficiencia de la extracción de características mientras mantiene una huella de memoria extremadamente baja. Emplea un backbone CSPDarknet y un cuello PANet, creando una potente combinación para la fusión de características multiescala.

Una de las ventajas principales de YOLOv5 es su Equilibrio de Rendimiento. Logra un equilibrio excepcional entre velocidad y precisión, lo que lo convierte en una opción ideal para el despliegue de modelos en hardware con recursos limitados como los dispositivos NVIDIA Jetson y los smartphones.

Además, YOLOv5 presume de una versatilidad inigualable. A diferencia de los modelos estrictamente confinados a las predicciones de cuadros delimitadores, YOLOv5 soporta de forma nativa la clasificación de imágenes y la segmentación de instancias, proporcionando un marco unificado para diversas tareas visuales. Su eficiencia de entrenamiento también es notable, requiriendo significativamente menos memoria CUDA durante el entrenamiento en comparación con las arquitecturas basadas en transformadores.

Debilidades

Debido a que se basa en un framework CNN más antiguo, YOLOv5 depende inherentemente de la Supresión No Máxima (NMS) durante el post-procesamiento para eliminar cuadros delimitadores duplicados. Aunque altamente optimizado dentro del framework Ultralytics, NMS puede introducir ocasionalmente cuellos de botella de latencia en NPUs de borde especializados.

Más información sobre YOLOv5

RTDETRv2: Transformadores en tiempo real de Baidu

RTDETRv2 (Real-Time Detection Transformer v2) representa un avance sustancial en la aplicación de arquitecturas transformer a la detección de objetos en tiempo real, abordando las ineficiencias computacionales que históricamente afectaron a los DETR estándar.

Características Clave:

Arquitectura y puntos fuertes

RTDETRv2 se basa en su predecesor utilizando un codificador híbrido y un diseño de decodificador flexible para procesar imágenes. El mecanismo de autoatención del transformador proporciona al modelo una comprensión global del contexto de la imagen, lo que le permite un rendimiento excepcional en escenas complejas con oclusión severa de objetos.

Una característica definitoria de RTDETRv2 es su diseño de extremo a extremo y sin NMS. Al predecir consultas de objetos directamente sin requerir cajas de anclaje o post-procesamiento NMS, simplifica el pipeline de inferencia. Esta arquitectura logra un impresionante mAP (precisión media promedio) en conjuntos de datos de referencia como COCO.

Debilidades

A pesar de sus capacidades en tiempo real, RTDETRv2 tiene requisitos de memoria notablemente más altos en comparación con los modelos YOLO. Los mecanismos de atención en los transformadores escalan cuadráticamente con la longitud de la secuencia, lo que puede provocar errores de falta de memoria durante el entrenamiento de alta resolución a menos que se utilicen clústeres de GPU masivos. Además, carece de la versatilidad lista para usar del ecosistema Ultralytics, centrándose principalmente solo en la detección de objetos 2D sin soporte nativo para segmentación o estimación de pose.

Más información sobre RTDETR

Tabla de comparación de rendimiento

Para evaluar objetivamente estas arquitecturas, hemos compilado sus métricas de rendimiento. Los valores resaltados en negrita representan las métricas más eficientes o de mayor rendimiento en todas las escalas probadas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Contexto de Rendimiento

Aunque RTDETRv2-x logra el mAP absoluto más alto, requiere casi 30 veces los parámetros de YOLOv5n. Para aplicaciones de alta velocidad que se ejecutan en hardware limitado, los modelos de Ultralytics ofrecen consistentemente la mejor eficiencia computacional.

La ventaja del ecosistema de Ultralytics

Al trasladar un modelo de un cuaderno de investigación a un entorno de producción, el software que rodea al modelo es tan importante como la arquitectura de la red neuronal. El ecosistema bien mantenido proporcionado por Ultralytics acelera drásticamente el ciclo de vida del desarrollo.

Facilidad de uso inigualable

Los modelos Ultralytics priorizan una experiencia de usuario increíblemente optimizada. Ya sea que desee entrenar un modelo personalizado, ejecutar validación o exportar a formatos específicos de hardware como TensorRT o ONNX, la API de Python de Ultralytics lo hace posible en solo unas pocas líneas de código.

Aquí hay un ejemplo de código práctico que demuestra lo sencillo que es entrenar y ejecutar inferencias con un modelo de Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Esta API sencilla y unificada soporta de forma nativa integraciones de seguimiento de experimentos con herramientas como Weights & Biases y Comet, permitiendo a los desarrolladores registrar métricas sin problemas y sin escribir código repetitivo complejo.

Casos de Uso y Recomendaciones

Elegir entre YOLOv5 y RT-DETR depende de los requisitos específicos de su proyecto, las limitaciones de implementación y las preferencias del ecosistema.

Cuándo elegir YOLOv5

YOLOv5 es una opción sólida para:

  • Sistemas de Producción Probados: Implementaciones existentes donde se valora el largo track record de estabilidad de YOLOv5, su extensa documentación y el masivo soporte de la comunidad.
  • Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde el eficiente pipeline de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
  • Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en múltiples formatos, incluyendo ONNX, TensorRT, CoreML y TFLite.

Cuándo elegir RT-DETR

RT-DETR se recomienda para:

  • Investigación en Detección Basada en Transformadores: Proyectos que exploran mecanismos de atención y arquitecturas de transformadores para la detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la máxima prioridad y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de Objetos Grandes: Escenas con objetos principalmente medianos a grandes, donde el mecanismo de atención global de los transformadores proporciona una ventaja natural.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Perspectivas: YOLO11 y YOLO26

Si está iniciando un nuevo proyecto de visión hoy, es altamente recomendable explorar las últimas generaciones de modelos Ultralytics.

Aunque YOLOv5 sigue siendo increíblemente fiable, YOLO11 ofrece una precisión mejorada y un conjunto ampliado de tareas que incluyen la detección de cajas delimitadoras orientadas (OBB).

Aún más significativamente, el vanguardista YOLO26 fusiona lo mejor de ambos mundos. Implementa un diseño NMS-Free de extremo a extremo (pionero en YOLOv10), eliminando la sobrecarga de post-procesamiento mientras mantiene la eficiencia de una CNN. YOLO26 también introduce el Optimizador MuSGD, inspirado en las innovaciones de entrenamiento de LLM, para una convergencia más rápida. Con la eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia), YOLO26 ofrece hasta un 43% más de velocidad en la inferencia de CPU, lo que lo convierte en la mejor opción para la IA de borde. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, crítico para IoT, robótica e imágenes aéreas.

Conclusión

La elección entre YOLOv5 y RTDETRv2 depende en gran medida de sus limitaciones de implementación. RTDETRv2 amplía los límites del mAP utilizando potentes mecanismos de atención de transformadores, pero conlleva un alto costo en memoria y sobrecarga computacional.

Por el contrario, Ultralytics YOLOv5 ofrece una solución probada, altamente optimizada y versátil que funciona sin problemas en todas partes, desde servidores en la nube hasta microcontroladores. Para equipos que buscan la mayor precisión posible junto con herramientas de despliegue sin fisuras, actualizar dentro del ecosistema Ultralytics a YOLO26 proporciona la solución definitiva de vanguardia para aplicaciones modernas de visión con IA.


Comentarios