Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a YOLOv5#

La evolución de la visión artificial se ha definido en gran medida por la búsqueda incesante de un equilibrio entre la precisión y la velocidad de inferencia en tiempo real. Al comparar RTDETRv2 y Ultralytics YOLOv5, los desarrolladores están básicamente sopesando las sofisticadas capacidades de contexto global de las arquitecturas Transformer frente a la eficiencia altamente optimizada y probada en batalla de las redes neuronales convolucionales (CNN).

Esta guía proporciona un análisis técnico detallado de estas dos arquitecturas destacadas, describiendo sus métricas de rendimiento, metodologías de entrenamiento, requisitos de memoria y escenarios de despliegue ideales para ayudarte a elegir el mejor modelo de detección de objetos para tu caso de uso específico.

Link to this sectionRTDETRv2: El enfoque de Transformer para la detección en tiempo real#

Partiendo del Real-Time Detection Transformer (RT-DETR) original, RTDETRv2 introduce una serie de "bag-of-freebies" para mejorar la arquitectura base sin sacrificar su latencia de inferencia.

Link to this sectionArquitectura y capacidades#

RTDETRv2 aprovecha una arquitectura híbrida CNN-Transformer. La CNN actúa como una columna vertebral para extraer características visuales detalladas, mientras que las capas de encoder-decoder del Transformer procesan todo el mapa de características para comprender el contexto global. Un sello distintivo importante de RTDETRv2 es su naturaleza de extremo a extremo, eliminando por completo la necesidad de post-procesamiento mediante Non-Maximum Suppression (NMS).

Aunque RTDETRv2 logra una precisión impresionante, especialmente en escenas complejas y densas donde los objetos se solapan, conlleva importantes compromisos. El mecanismo de atención inherente a los Transformers exige una memoria CUDA significativamente mayor durante el entrenamiento en comparación con las CNN estándar. Además, aunque funciona bien en GPUs de gama alta como la NVIDIA A100 o T4, su arquitectura es notablemente más lenta en CPUs estándar y dispositivos edge con restricciones severas.

Aprende más sobre RTDETRv2

Link to this sectionUltralytics YOLOv5: El estándar de la industria para la eficiencia#

Ultralytics YOLOv5 cambió fundamentalmente el panorama del aprendizaje automático aplicado cuando se lanzó, haciendo que la visión artificial de alto rendimiento fuera accesible a desarrolladores de todo el mundo a través de un framework excepcionalmente intuitivo.

Link to this sectionEcosistema y equilibrio de rendimiento#

YOLOv5 está construido íntegramente sobre el framework PyTorch y se basa en una arquitectura CNN inmensamente eficiente. Se diseñó desde cero para la facilidad de uso, presentando una API optimizada y una de las documentaciones más extensas de la industria de la IA.

La mayor ventaja de YOLOv5 radica en su versatilidad inigualable y sus bajos requisitos de memoria. Entrenar un modelo YOLOv5 requiere mucha menos VRAM que los modelos basados en Transformer, lo que lo hace accesible a investigadores e ingenieros con presupuestos de hardware limitados. Además, mientras que RTDETRv2 se centra exclusivamente en la detección de cajas delimitadoras, YOLOv5 ha evolucionado hasta convertirse en una potente herramienta versátil que admite segmentación de instancias y clasificación de imágenes.

Gestión de modelos empresariales

Para experimentar el flujo de trabajo más optimizado, puedes entrenar, validar y desplegar YOLOv5 directamente usando la Plataforma Ultralytics. La plataforma proporciona capacidades de entrenamiento en la nube y pipelines de despliegue sin código.

Más información sobre YOLOv5

Link to this sectionComparación de rendimiento y métricas#

Al analizar el rendimiento bruto en el conjunto de datos COCO estándar, podemos ver distinciones claras en cómo estos modelos priorizan los recursos.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Link to this sectionAnálisis de las compensaciones#

Los datos revelan que RTDETRv2-x alcanza una precisión media (mAP) máxima del 54,3 %, superando ligeramente el 50,7 % de YOLOv5x. Sin embargo, esta pequeña ganancia de precisión conlleva un costo computacional masivo. YOLOv5x opera con una latencia menor (11,89 ms frente a 15,03 ms en TensorRT) y requiere una fracción de la memoria. Para despliegues edge de ultra bajo consumo, YOLOv5n (Nano) sigue siendo imbatible, completando inferencias en solo 1,12 ms con un footprint minúsculo de 2,6 M de parámetros; un nivel en el que RTDETRv2 ni siquiera intenta competir.

Link to this sectionEficiencia de entrenamiento y simplicidad de código#

Uno de los puntos fuertes del ecosistema Ultralytics es su API unificada. Incluso si decides utilizar la arquitectura Transformer de RT-DETR para una tarea específica de gran carga computacional, puedes hacerlo completamente dentro del paquete Python de Ultralytics, cambiando de modelo sin problemas con solo una línea de código.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Al aprovechar la librería Ultralytics, los desarrolladores obtienen acceso automático a un ecosistema bien mantenido que cuenta con integraciones de seguimiento de experimentos (como Weights & Biases y Comet ML) y exportaciones con un solo clic a formatos de despliegue como ONNX y OpenVINO.

Link to this sectionAplicaciones del mundo real y casos de uso ideales#

Link to this sectionDónde destaca RTDETRv2#

RTDETRv2 es más adecuado para entornos donde no existen limitaciones de hardware y el objetivo único es la máxima precisión posible.

  • Imágenes médicas del lado del servidor: Detección de anomalías microscópicas en radiografías de alta resolución.
  • Imágenes por satélite: Seguimiento de objetos densos y superpuestos en tareas de vigilancia aérea en potentes clústeres en la nube.

Link to this sectionDónde domina YOLOv5#

YOLOv5 es el campeón indiscutible para despliegues prácticos en el mundo real a través de diversos hardware.

  • Dispositivos Edge AI: Despliegue de sistemas de alarma de seguridad en dispositivos Raspberry Pi o NVIDIA Jetson donde la memoria es estrictamente limitada.
  • Aplicaciones móviles: Ejecución de inferencia rápida y en tiempo real de cajas delimitadoras y segmentación directamente en smartphones mediante CoreML o TFLite.
  • Fabricación industrial de alta velocidad: Inspección de piezas en líneas de producción rápidas donde la latencia de milisegundos es crítica para el éxito operativo.
Explorando otros modelos de Ultralytics

Aunque YOLOv5 es un modelo legendario, el ecosistema Ultralytics amplía continuamente los límites de la IA. Si estás comparando modelos para un nuevo proyecto en 2026, deberías considerar explorar el estado del arte Ultralytics YOLO26. YOLO26 incorpora un diseño nativo End-to-End NMS-Free (similar a los Transformers pero con la velocidad de una CNN), cuenta con el revolucionario optimizador MuSGD para un entrenamiento increíblemente estable, y ofrece hasta un 43 % más de velocidad en la inferencia por CPU. Alternativamente, YOLO11 sigue siendo una opción fantástica y altamente respaldada para despliegues versátiles que requieren estimación de pose y detección OBB.

En última instancia, aunque RTDETRv2 eleva el techo de precisión utilizando capas Transformer, el framework Ultralytics YOLO proporciona un equilibrio inigualable de velocidad, requisitos de memoria ligeros y una experiencia de desarrollo brillantemente diseñada que reduce drásticamente el tiempo desde el prototipo hasta la producción.

Comentarios