Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 frente a RTDETRv2: Evaluando arquitecturas CNN frente a Transformer para la detección de objetos#

El panorama de la visión artificial ha crecido significativamente en los últimos años, ofreciendo a los desarrolladores una amplia gama de arquitecturas para abordar tareas visuales complejas. Entre los paradigmas más populares se encuentran las Redes Neuronales Convolucionales (CNN) y los Detection Transformers (DETR).

Esta guía proporciona una comparación técnica detallada entre dos modelos fundamentales de estas categorías: Ultralytics YOLOv5, un modelo basado en CNN altamente eficiente y ampliamente adoptado, y RTDETRv2, un detector de objetos en tiempo real basado en Transformer de última generación.

Link to this sectionUltralytics YOLOv5: El estándar de la industria para la eficiencia#

Desde su lanzamiento, Ultralytics YOLOv5 se ha convertido en una piedra angular de la comunidad de IA, impulsando miles de aplicaciones comerciales y proyectos de investigación en todo el mundo. Construido íntegramente sobre el marco PyTorch, prioriza una experiencia de desarrollo intuitiva sin comprometer el rendimiento en tiempo real.

Características principales:

Link to this sectionArquitectura y puntos fuertes#

YOLOv5 utiliza una arquitectura CNN optimizada, diseñada para maximizar la eficiencia en la extracción de características mientras mantiene una huella de memoria extremadamente baja. Emplea un backbone CSPDarknet y un cuello PANet, creando una combinación potente para la fusión de características multiescala.

Una de las principales ventajas de YOLOv5 es su equilibrio de rendimiento. Logra un compromiso excepcional entre velocidad y precisión, lo que lo convierte en una opción ideal para el despliegue de modelos en hardware con recursos limitados como dispositivos NVIDIA Jetson y smartphones.

Además, YOLOv5 cuenta con una versatilidad inigualable. A diferencia de los modelos estrictamente limitados a predicciones de cajas delimitadoras, YOLOv5 admite de forma nativa la clasificación de imágenes y la segmentación de instancias, proporcionando un marco unificado para tareas visuales variadas. Su eficiencia de entrenamiento también es notable, requiriendo significativamente menos memoria CUDA durante el entrenamiento en comparación con las arquitecturas basadas en Transformer.

Link to this sectionDebilidades#

Debido a que se basa en un marco CNN antiguo, YOLOv5 depende intrínsecamente de la Supresión de No Máximos (NMS) durante el post-procesamiento para eliminar cajas delimitadoras duplicadas. Aunque está altamente optimizado dentro del ecosistema de Ultralytics, el NMS puede introducir ocasionalmente cuellos de botella de latencia en NPU de borde especializadas.

Más información sobre YOLOv5

Link to this sectionRTDETRv2: Transformers en tiempo real de Baidu#

RTDETRv2 (Real-Time Detection Transformer v2) representa un salto sustancial en la aplicación de arquitecturas Transformer a la detección de objetos en tiempo real, abordando las ineficiencias computacionales que históricamente afectaban a los DETR estándar.

Características principales:

Link to this sectionArquitectura y puntos fuertes#

RTDETRv2 se basa en su predecesor utilizando un codificador híbrido y un diseño de decodificador flexible para procesar imágenes. El mecanismo de auto-atención del Transformer proporciona al modelo una comprensión global del contexto de la imagen, permitiéndole funcionar excepcionalmente bien en escenas complejas con una oclusión de objetos severa.

Una característica definitoria de RTDETRv2 es su diseño de extremo a extremo sin NMS. Al predecir consultas de objetos directamente sin necesidad de cajas de anclaje o post-procesamiento NMS, simplifica la canalización de inferencia. Esta arquitectura logra un impresionante mAP (precisión media media) en conjuntos de datos de referencia como COCO.

Link to this sectionDebilidades#

A pesar de sus capacidades en tiempo real, RTDETRv2 tiene requisitos de memoria notablemente más altos en comparación con los modelos YOLO. Los mecanismos de atención en los Transformers escalan cuadráticamente con la longitud de la secuencia, lo que puede provocar errores de memoria insuficiente durante el entrenamiento de alta resolución, a menos que utilices clústeres de GPU masivos. Además, carece de la versatilidad inmediata del ecosistema de Ultralytics, centrándose principalmente solo en la detección de objetos 2D sin soporte nativo para segmentación o estimación de poses.

Más información sobre RTDETR

Link to this sectionTabla de comparación de rendimiento#

Para evaluar objetivamente estas arquitecturas, hemos recopilado sus métricas de rendimiento. Los valores resaltados en negrita representan las métricas más eficientes o de mayor rendimiento en las escalas probadas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Contexto de rendimiento

Si bien RTDETRv2-x logra el mAP absoluto más alto, requiere casi 30 veces los parámetros de YOLOv5n. Para aplicaciones de alta velocidad que se ejecutan en hardware limitado, los modelos de Ultralytics ofrecen constantemente la mejor eficiencia computacional.

Link to this sectionLa ventaja del ecosistema Ultralytics#

Al mover un modelo desde un cuaderno de investigación a un entorno de producción, el software que rodea al modelo es tan importante como la arquitectura de la red neuronal. El ecosistema bien mantenido que proporciona Ultralytics acelera drásticamente el ciclo de vida del desarrollo.

Link to this sectionFacilidad de uso inigualable#

Los modelos de Ultralytics priorizan una experiencia de usuario increíblemente optimizada. Tanto si quieres entrenar un modelo personalizado, ejecutar la validación o exportar a formatos específicos de hardware como TensorRT o ONNX, la API de Python de Ultralytics lo hace posible en solo unas pocas líneas de código.

Aquí tienes un ejemplo de código práctico que demuestra lo sencillo que es entrenar y ejecutar inferencias con un modelo de Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

Esta API sencilla y unificada admite de forma nativa integraciones de seguimiento de experimentos con herramientas como Weights & Biases y Comet, lo que permite a los desarrolladores registrar métricas sin problemas y sin escribir código repetitivo complejo.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv5 y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y tus preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv5#

YOLOv5 es una opción sólida para:

  • Sistemas de producción probados: Despliegues existentes donde se valora la larga trayectoria de estabilidad, la extensa documentación y el enorme soporte de la comunidad de YOLOv5.
  • Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde la eficiente canalización de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
  • Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en muchos formatos, incluidos ONNX, TensorRT, CoreML y TFLite.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR se recomienda para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionMirando hacia el futuro: YOLO11 y YOLO26#

Si comienzas un nuevo proyecto de visión hoy, es altamente recomendable explorar las últimas generaciones de modelos de Ultralytics.

Si bien YOLOv5 sigue siendo increíblemente fiable, YOLO11 ofrece una precisión mejorada y un conjunto ampliado de tareas, incluida la detección de Cajas Delimitadoras Orientadas (OBB).

Aún más significativo, el vanguardista YOLO26 combina lo mejor de ambos mundos. Implementa un diseño de extremo a extremo sin NMS (pionero en YOLOv10), eliminando la sobrecarga de post-procesamiento mientras mantiene la eficiencia de una CNN. YOLO26 también introduce el optimizador MuSGD, inspirado en las innovaciones de entrenamiento de LLM, para una convergencia más rápida. Con la eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia), YOLO26 ofrece una inferencia de CPU hasta un 43% más rápida, lo que lo convierte en la mejor opción absoluta para la IA de borde. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, algo crítico para el IoT, la robótica y la imaginería aérea.

Link to this sectionConclusión#

Elegir entre YOLOv5 y RTDETRv2 depende en gran medida de tus restricciones de despliegue. RTDETRv2 supera los límites del mAP utilizando potentes mecanismos de atención de Transformer, pero conlleva un alto coste en memoria y sobrecarga computacional.

Por el contrario, Ultralytics YOLOv5 ofrece una solución probada, altamente optimizada y versátil que funciona sin problemas en todas partes, desde servidores en la nube hasta microcontroladores. Para los equipos que buscan la mayor precisión posible junto con herramientas de despliegue fluidas, actualizar dentro del ecosistema de Ultralytics a YOLO26 proporciona la solución definitiva de última generación para aplicaciones modernas de IA de visión.

Comentarios