Link to this sectionYOLO11 frente a RTDETRv2#
El panorama de la visión artificial se ha expandido rápidamente, ofreciendo a los desarrolladores una miríada de opciones para crear aplicaciones robustas basadas en visión. En el ámbito de la detección de objetos en tiempo real, el debate entre las redes neuronales convolucionales (CNN) y los Vision Transformers (ViTs) está más presente que nunca. Esta comparativa técnica profundiza en dos arquitecturas líderes: YOLO11, que representa la cima de los marcos de trabajo CNN altamente optimizados, y RTDETRv2, una potente iteración de la familia Detection Transformer.
Al analizar sus arquitecturas, métricas de rendimiento y escenarios de despliegue ideales, esta guía pretende ayudar a los ingenieros de aprendizaje automático a tomar decisiones informadas. Si bien ambos modelos superan los límites de la precisión, los modelos de Ultralytics YOLO ofrecen habitualmente un equilibrio superior entre velocidad, soporte del ecosistema y facilidad de uso para la producción en el mundo real.
Link to this sectionYOLO11: El punto de referencia para la versatilidad en el mundo real#
Presentado por Ultralytics, YOLO11 se basa en años de investigación fundamental para ofrecer un modelo que es rápido, preciso e increíblemente versátil. Está diseñado para gestionar de forma nativa la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la extracción de cajas delimitadoras orientadas (OBB).
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: Ultralytics Repository
- Documentación: Documentación de YOLO11
Link to this sectionArquitectura y puntos fuertes#
YOLO11 cuenta con una estructura base CNN refinada y pirámides de características espaciales avanzadas, lo que lo hace excepcionalmente eficiente en el uso de recursos. Prospera en entornos con estrictas limitaciones de hardware, ofreciendo una huella de memoria mínima tanto durante el entrenamiento como en la inferencia. La plataforma Ultralytics proporciona soporte nativo para YOLO11, permitiendo una monitorización optimizada del modelo, anotación de datos y entrenamiento en la nube sin necesidad de unir distintas herramientas de MLOps.
Para los desarrolladores que se enfocan en la computación perimetral (edge computing), YOLO11 cuenta con una latencia ultrabaja. Su naturaleza ligera le permite ejecutarse de forma eficiente en dispositivos que van desde Raspberry Pis hasta teléfonos móviles de consumo, convirtiéndolo en un estándar para el comercio minorista inteligente, el control de calidad en fabricación y la gestión automatizada del tráfico.
Link to this sectionRTDETRv2: Transformers en tiempo real de Baidu#
RTDETRv2 (Real-Time Detection Transformer versión 2) representa el esfuerzo de Baidu por hacer que las arquitecturas basadas en Transformers sean viables para tareas en tiempo real. Se construye sobre el RT-DETR original incorporando un enfoque de "bolsa de obsequios" (bag-of-freebies) para mejorar la precisión base sin aumentar la latencia de inferencia.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
- Organización: Baidu
- Fecha: 24-07-2024
- Arxiv: 2407.17140
- GitHub: Repositorio RT-DETRv2
- Documentación: README de RTDETRv2
Link to this sectionArquitectura y puntos fuertes#
A diferencia de las CNN tradicionales, RTDETRv2 emplea una arquitectura de codificador-decodificador con mecanismos de autoatención, lo que le permite capturar el contexto global a través de una imagen. Esto es particularmente ventajoso en escenas concurridas donde las oclusiones son frecuentes. RTDETRv2 elimina la necesidad de la Supresión no máxima (NMS) en el postprocesamiento, confiando en su lugar en la correspondencia húngara durante el entrenamiento para la correspondencia bipartita uno a uno.
Sin embargo, los modelos Transformer son notoriamente exigentes con la VRAM y la memoria CUDA. Entrenar RTDETRv2 desde cero o realizar ajustes en conjuntos de datos personalizados a menudo requiere sustanciales clústeres de GPU de alta gama, lo que puede ser una barrera para equipos ágiles más pequeños en comparación con la huella de entrenamiento ligera de los modelos de Ultralytics.
Link to this sectionAnálisis de rendimiento y métricas#
Al evaluar estos modelos en el conjunto de datos COCO estándar, observamos claros compromisos entre parámetros, FLOPs y precisión bruta.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionDesglosando los resultados#
Como se ve en la tabla, YOLO11 proporciona una increíble relación rendimiento-tamaño. El YOLO11x logra un mAPval más alto (54.7) en comparación con RTDETRv2-x (54.3), mientras utiliza significativamente menos parámetros (56.9M frente a 76M) y muchos menos FLOPs computacionales (194.9B frente a 259B).
Además, las velocidades de inferencia de YOLO11 en TensorRT T4 son excepcionalmente rápidas. YOLO11s completa la inferencia en solo 2.5ms, mientras que el RTDETRv2-s más pequeño tarda 5.03ms. Esto convierte a YOLO11 en la elección definitiva para flujos de análisis de vídeo de alta velocidad en tiempo real donde el tiempo de procesamiento de fotogramas es el cuello de botella principal.
Aunque RTDETRv2 logra una excelente precisión a través de sus capas de atención, estos mecanismos escalan de forma cuadrática con la resolución de la imagen, lo que conduce a un mayor consumo de VRAM durante el entrenamiento y la inferencia. YOLO11 evita esto con sus bloques convolucionales de alta eficiencia.
Link to this sectionEcosistema de entrenamiento y usabilidad#
La ventaja principal de adoptar un modelo de Ultralytics reside en el ecosistema circundante. Entrenar RTDETRv2 a menudo implica navegar por complejos repositorios de nivel de investigación, ajustar intrincados pesos de pérdida de correspondencia bipartita y gestionar una sobrecarga de memoria significativa.
Por el contrario, Ultralytics se centra intensamente en la experiencia del desarrollador. La API unificada de Python abstrae el código repetitivo, integrándose a la perfección con herramientas como Weights & Biases para el seguimiento de experimentos, y manejando las aumentaciones de datos de forma automática.
Así de sencillo es entrenar y exportar un modelo utilizando el paquete ultralytics:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")Una vez entrenado, exportar un modelo YOLO11 a formatos como ONNX, OpenVINO o CoreML requiere solo un comando, asegurando que tu tubería de visión pueda escalar sin esfuerzo a través de diversos backends de hardware.
Recuerda que mientras RTDETRv2 se enfoca exclusivamente en la detección de cajas delimitadoras, la arquitectura YOLO11 admite de forma nativa la estimación de poses y la segmentación de instancias, permitiéndote consolidar múltiples tareas de visión en una única familia de modelos.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLO11 y RT-DETR depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias del ecosistema.
Link to this sectionCuándo elegir YOLO11#
YOLO11 es una gran opción para:
- Implementación en producción en el borde: Aplicaciones comerciales en dispositivos como Raspberry Pi o NVIDIA Jetson donde la fiabilidad y el mantenimiento activo son primordiales.
- Aplicaciones de visión multitarea: Proyectos que requieren detección, segmentación, estimación de pose y OBB dentro de un único marco unificado.
- Creación rápida de prototipos e implementación: Equipos que necesitan pasar rápidamente de la recopilación de datos a la producción utilizando la API de Python de Ultralytics optimizada.
Link to this sectionCuándo elegir RT-DETR#
RT-DETR se recomienda para:
- Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
- Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
- Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionMirando hacia el futuro: La potencia de YOLO26#
Si bien YOLO11 destaca como una excelente opción de producción, los equipos que buscan lo último en tecnología deberían considerar seriamente YOLO26. Lanzado en enero de 2026, YOLO26 cierra la brecha arquitectónica incorporando un diseño integral sin NMS (End-to-End NMS-Free Design) (pionero en YOLOv10) directamente en su núcleo, eliminando por completo la latencia de postprocesamiento y la complejidad de la lógica de despliegue.
YOLO26 también introduce varias características revolucionarias:
- Optimizador MuSGD: Inspirado en las técnicas de entrenamiento LLM de Kimi K2 de Moonshot AI, este híbrido de SGD y Muon garantiza un entrenamiento increíblemente estable y una convergencia drásticamente más rápida.
- Eliminación de DFL: La función de pérdida focal de distribución (Distribution Focal Loss) ha sido eliminada para un proceso de exportación más limpio y simplificado, mejorando drásticamente la compatibilidad con dispositivos de borde (edge) de baja potencia.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, un requisito crítico para la vigilancia con drones, el seguimiento agrícola y sensores de borde (edge) IoT.
- Hasta un 43% más rápido en inferencia de CPU: Para despliegues que carecen de GPUs dedicadas, YOLO26 está específicamente optimizado para la ejecución en CPU, superando ampliamente a las generaciones anteriores.
Para aquellos interesados en explorar una gama más amplia de arquitecturas, la documentación de Ultralytics también proporciona información sobre YOLOv8, el ampliamente adoptado YOLOv5 y modelos especializados como YOLO-World para aplicaciones de detección de vocabulario abierto. En última instancia, ya sea priorizando la estabilidad probada de YOLO11 o las innovaciones revolucionarias de YOLO26, el ecosistema de Ultralytics ofrece herramientas inigualables para dar vida a tus soluciones de visión artificial.