YOLO11 vs RTDETRv2: Comparando la evolución de las CNN y los Vision Transformers
El panorama de la visión artificial se ha expandido rápidamente, ofreciendo a los desarrolladores una miríada de opciones para construir aplicaciones robustas basadas en visión. En el ámbito de la detección de objetos en tiempo real, el debate entre las Redes Neuronales Convolucionales (CNN) y los Vision Transformers (ViT) es más prominente que nunca. Esta comparativa técnica analiza dos arquitecturas líderes: YOLO11, que representa la cúspide de los marcos de trabajo CNN altamente optimizados, y RTDETRv2, una potente iteración de la familia Detection Transformer.
Al analizar sus arquitecturas, métricas de rendimiento y escenarios de despliegue ideales, esta guía pretende ayudar a los ingenieros de machine learning a tomar decisiones informadas. Si bien ambos modelos superan los límites de la precisión, los modelos de Ultralytics YOLO ofrecen normalmente un equilibrio superior entre velocidad, soporte del ecosistema y facilidad de uso para la producción en el mundo real.
YOLO11: El punto de referencia para la versatilidad en el mundo real
Presentado por Ultralytics, YOLO11 se basa en años de investigación fundamental para ofrecer un modelo rápido, preciso e increíblemente versátil. Está diseñado para manejar de forma nativa detección de objetos, segmentación de instancias, clasificación de imágenes, estimación de poses y extracción de cajas delimitadoras orientadas (OBB).
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: Repositorio de Ultralytics
- Documentación: Documentación de YOLO11
Arquitectura y puntos fuertes
YOLO11 cuenta con una backbone de CNN refinada y pirámides de características espaciales avanzadas, lo que lo hace excepcionalmente eficiente en cuanto a recursos. Prospera en entornos con restricciones de hardware estrictas, ofreciendo una huella de memoria mínima tanto durante el entrenamiento como en la inferencia. La Plataforma Ultralytics proporciona soporte nativo para YOLO11, permitiendo un monitoreo del modelo, anotación de datos y entrenamiento en la nube simplificados sin necesidad de combinar distintas herramientas de MLOps.
Para desarrolladores que apuntan a la computación en el borde (edge computing), YOLO11 presume de una latencia ultrabaja. Su naturaleza ligera le permite ejecutarse eficientemente en dispositivos que van desde Raspberry Pis hasta teléfonos móviles de grado consumidor, convirtiéndolo en un estándar para el comercio minorista inteligente, el control de calidad en la fabricación y la gestión automatizada del tráfico.
RTDETRv2: Transformers en tiempo real de Baidu
RTDETRv2 (Real-Time Detection Transformer versión 2) representa el esfuerzo de Baidu por hacer que las arquitecturas basadas en transformers sean viables para tareas en tiempo real. Se basa en el RT-DETR original incorporando un enfoque de "bolsa de obsequios" (bag-of-freebies) para mejorar la precisión base sin aumentar la latencia de inferencia.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
- Organización: Baidu
- Fecha: 24-07-2024
- Arxiv: 2407.17140
- GitHub: Repositorio RT-DETRv2
- Documentación: README de RTDETRv2
Arquitectura y puntos fuertes
A diferencia de las CNN tradicionales, RTDETRv2 emplea una arquitectura de codificador-decodificador con mecanismos de autoatención, lo que le permite capturar el contexto global a través de una imagen. Esto es particularmente ventajoso en escenas abarrotadas donde las oclusiones son frecuentes. RTDETRv2 elimina la necesidad de la Supresión de No Máximos (NMS) en el post-procesamiento, confiando en cambio en la coincidencia húngara durante el entrenamiento para la coincidencia bipartita uno a uno.
Sin embargo, los modelos transformer son notoriamente hambrientos de VRAM y memoria CUDA. Entrenar RTDETRv2 desde cero o realizar un ajuste fino (fine-tuning) en conjuntos de datos personalizados requiere a menudo clústeres de GPU de alta gama sustanciales, lo que puede ser una barrera para equipos ágiles más pequeños en comparación con la huella de entrenamiento ligera de los modelos de Ultralytics.
Análisis de rendimiento y métricas
Al evaluar estos modelos en el conjunto de datos COCO estándar, observamos claras contrapartidas entre parámetros, FLOPs y precisión bruta.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Desglosando los resultados
Como se ve en la tabla, YOLO11 proporciona una relación rendimiento-tamaño increíble. El YOLO11x logra un mAPval más alto (54.7) comparado con RTDETRv2-x (54.3), mientras usa significativamente menos parámetros (56.9M vs 76M) y muchos menos FLOPs computacionales (194.9B vs 259B).
Además, las velocidades de inferencia de YOLO11 en TensorRT con T4 son excepcionalmente rápidas. YOLO11s completa la inferencia en solo 2.5ms, mientras que el RTDETRv2-s más pequeño toma 5.03ms. Esto hace que YOLO11 sea la elección definitiva para flujos de análisis de video en tiempo real de alta velocidad, donde el tiempo de procesamiento de fotogramas es el cuello de botella principal.
Si bien RTDETRv2 logra una excelente precisión a través de sus capas de atención, estos mecanismos escalan de forma cuadrática con la resolución de la imagen, lo que lleva a un mayor consumo de VRAM tanto durante el entrenamiento como en la inferencia. YOLO11 elude esto con sus bloques convolucionales hiper-eficientes.
Ecosistema de entrenamiento y usabilidad
La ventaja principal de adoptar un modelo Ultralytics reside en el ecosistema que lo rodea. Entrenar RTDETRv2 implica a menudo navegar por repositorios de nivel de investigación complejos, ajustar pesos de pérdida de coincidencia bipartita intrincados y gestionar una sobrecarga de memoria significativa.
Por el contrario, Ultralytics se centra intensamente en la experiencia del desarrollador. La API de Python unificada abstrae el código repetitivo, integrándose sin problemas con herramientas como Weights & Biases para el seguimiento de experimentos, y manejando las aumentaciones de datos automáticamente.
Aquí tienes lo sencillo que es entrenar y exportar un modelo usando el paquete ultralytics:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")Una vez entrenado, exportar un modelo YOLO11 a formatos como ONNX, OpenVINO o CoreML requiere solo un comando, asegurando que tu tubería (pipeline) de visión pueda escalar sin esfuerzo a través de diversos backends de hardware.
Recuerda que, aunque RTDETRv2 se centra exclusivamente en la detección de cajas delimitadoras, la arquitectura de YOLO11 soporta de forma nativa la estimación de poses y la segmentación de instancias, permitiéndote consolidar múltiples tareas de visión en una sola familia de modelos.
Casos de uso y recomendaciones
Elegir entre YOLO11 y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.
Cuándo elegir YOLO11
YOLO11 es una gran opción para:
- Implementación en el borde (Edge) para producción: Aplicaciones comerciales en dispositivos como Raspberry Pi o NVIDIA Jetson donde la fiabilidad y el mantenimiento activo son primordiales.
- Aplicaciones de visión multitarea: Proyectos que requieren detección, segmentación, estimación de poses y OBB dentro de un único framework unificado.
- Prototipado rápido e implementación: Equipos que necesitan pasar rápidamente de la recopilación de datos a la producción utilizando la optimizada API de Python de Ultralytics.
Cuándo elegir RT-DETR
RT-DETR se recomienda para:
- Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas Transformer para la detección de objetos de extremo a extremo sin NMS.
- Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la máxima prioridad y se puede aceptar una latencia de inferencia ligeramente superior.
- Detección de objetos grandes: Escenas con objetos principalmente medianos y grandes donde el mecanismo de atención global de los Transformers proporciona una ventaja natural.
Cuándo elegir Ultralytics (YOLO26)
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:
- Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.
Mirando hacia el futuro: El poder de YOLO26
Aunque YOLO11 se erige como una excelente opción de producción, los equipos que buscan lo último en tecnología deberían considerar seriamente YOLO26. Lanzado en enero de 2026, YOLO26 cierra la brecha arquitectónica al incorporar un Diseño de Extremo a Extremo sin NMS (iniciado por primera vez en YOLOv10) directamente en su núcleo, eliminando por completo la latencia de post-procesamiento y la complejidad de la lógica de despliegue.
YOLO26 también introduce varias características revolucionarias:
- Optimizador MuSGD: Inspirado por las técnicas de entrenamiento de LLM de Kimi K2 de Moonshot AI, este híbrido de SGD y Muon garantiza un entrenamiento increíblemente estable y una convergencia dramáticamente más rápida.
- Eliminación de DFL: Se ha eliminado la Distribution Focal Loss para un proceso de exportación más limpio y simplificado, mejorando drásticamente la compatibilidad con dispositivos de borde de bajo consumo.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, un requisito crítico para la vigilancia con drones, la monitorización agrícola y los sensores IoT de borde.
- Hasta un 43% más rápido en inferencia de CPU: Para despliegues que carecen de GPUs dedicadas, YOLO26 está específicamente optimizado para la ejecución en CPU, superando ampliamente a las generaciones anteriores.
Para aquellos interesados en explorar una gama más amplia de arquitecturas, la documentación de Ultralytics también proporciona información sobre YOLOv8, el ampliamente adoptado YOLOv5 y modelos especializados como YOLO-World para aplicaciones de detección de vocabulario abierto. En última instancia, ya sea priorizando la estabilidad probada de YOLO11 o las innovaciones rompedoras de YOLO26, el ecosistema de Ultralytics ofrece herramientas inigualables para dar vida a tus soluciones de visión artificial.