Ir al contenido

RTDETRv2 frente a YOLO11: comparación entre las arquitecturas Transformer y CNN

El panorama de la detección de objetos en tiempo real ha evolucionado rápidamente, con dos filosofías arquitectónicas distintas a la cabeza: el enfoque Vision Transformer (ViT), defendido por modelos como RTDETRv2, y el linaje de las redes neuronales convolucionales (CNN), perfeccionado por Ultralytics YOLO11.

Mientras que RTDETRv2 (Real-Time Detection Transformer versión 2) amplía los límites de lo que las arquitecturas basadas en transformadores pueden lograr en términos de precisión y comprensión del contexto global, YOLO11 representa la cúspide de la eficiencia, la versatilidad y la facilidad de implementación. Esta comparación explora sus especificaciones técnicas, diferencias arquitectónicas y aplicaciones prácticas para ayudar a los desarrolladores a elegir la herramienta adecuada para sus proyectos de visión artificial.

Tabla comparativa: métricas y especificaciones

La siguiente tabla destaca las métricas de rendimiento de ambos modelos. Observe cómo YOLO11 ofrece una gama más amplia de tamaños de modelos, lo que lo hace adaptable a todo, desde microcontroladores hasta servidores de alta gama, mientras que RTDETRv2 se centra principalmente en modelos de alta capacidad.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Más información sobre YOLO11

Análisis Arquitectónico

La diferencia fundamental entre estos dos modelos de última generación radica en cómo procesan la información visual.

RTDETRv2: El enfoque Transformer

RTDETRv2, desarrollado por investigadores de Baidu, se basa en el éxito del RT-DETR original. Aprovecha la potencia de los transformadores para capturar dependencias de largo alcance en imágenes, una característica que a menudo supone un reto para las CNN tradicionales.

  • Codificador híbrido: RTDETRv2 emplea un codificador híbrido que procesa características multiescala, lo que permite al modelo «atender» a diferentes partes de una imagen simultáneamente.
  • PredicciónNMS: Una de sus características definitorias es la eliminación de la supresión no máxima (NMS). Al predecir objetos directamente mediante un conjunto de consultas, simplifica el proceso de posprocesamiento, aunque esto a menudo conlleva una mayor complejidad en el entrenamiento.
  • Bag-of-Freebies: La actualización «v2» introduce estrategias de entrenamiento optimizadas y ajustes arquitectónicos para mejorar la velocidad y la precisión de convergencia con respecto a la línea de base original.

Metadatos:

YOLO11: El estándar CNN refinado

Ultralytics YOLO11 representa la evolución de la arquitectura CNN, centrándose en maximizar la eficiencia de la extracción de características y minimizar la sobrecarga computacional.

  • Bloques C3k2 y C2PSA: YOLO11 bloques de construcción avanzados en su columna vertebral y cuello. El bloque C3k2 utiliza tamaños de kernel variables para una representación más rica de las características, mientras que el bloque C2PSA integra mecanismos de atención de manera eficiente sin el elevado coste de los transformadores completos.
  • Soporte unificado de tareas: a diferencia de RTDETRv2, que es principalmente un detector de objetos, YOLO11 diseñado como una base de visión universal. Admite de forma nativa la segmentación de instancias, la estimación de poses, OBB y la clasificación dentro del mismo marco.
  • Optimización del borde: La arquitectura está específicamente ajustada para ofrecer velocidad en diversos tipos de hardware, desde CPU hasta aceleradores de IA de borde como NVIDIA .

Metadatos:

¿Sabías que?

Mientras que RTDETRv2 elimina NMS diseño, Ultralytics YOLO26 también cuenta con un diseño nativo End-to-End NMS, que combina la velocidad de las CNN con la implementación optimizada de los transformadores.

Ecosistema y facilidad de uso

Para los desarrolladores y los ingenieros de aprendizaje automático, el ecosistema de software que rodea a un modelo suele ser tan importante como las métricas brutas del modelo.

VentajasUltralytics : YOLO11 de la Ultralytics , líder en el sector, que ofrece una experiencia cohesionada desde la gestión de datos hasta la implementación.

  • Eficiencia de entrenamiento: YOLO11 son famosos por su rapidez de entrenamiento. El código base incluye el ajuste automatizado de hiperparámetros y comprobaciones inteligentes de conjuntos de datos.
  • Flexibilidad de implementación: los usuarios pueden exportar modelos a formatos como ONNX, TensorRT, CoreML y TFLite una sola línea de código.
  • Soporte de la comunidad: Con millones de descargas, la Ultralytics ofrece amplios recursos, desde tutoriales en YouTube hasta debates activos sobre problemas en GitHub.

Consideraciones sobre RTDETRv2: RTDETRv2 es principalmente un repositorio de investigación. Aunque es potente, a menudo carece de la experiencia «baterías incluidas». La configuración de canalizaciones de formación, la gestión de conjuntos de datos y la exportación para dispositivos periféricos suelen requerir más configuración manual y Python .

Requisitos de rendimiento y recursos

A la hora de implementar en el mundo real, es fundamental encontrar el equilibrio entre la precisión y el consumo de recursos.

GPU y entrenamiento GPU

Los transformadores son conocidos por consumir mucha memoria. RTDETRv2 suele requerir una cantidad significativa GPU VRAM de la GPU para estabilizar sus mecanismos de atención durante el entrenamiento. Esto puede dificultar el entrenamiento en hardware de consumo o requerir lotes de menor tamaño, lo que puede afectar a las estadísticas de normalización de lotes.

YOLO11 es significativamente más eficiente en cuanto a memoria. Su arquitectura basada en CNN permite tamaños de lote más grandes en GPU estándar, lo que acelera el entrenamiento y reduce el coste de desarrollo. Esta eficiencia se extiende a la inferencia, donde los modelos YOLO11n pueden ejecutarse en tiempo real en CPU, una hazaña que los modelos basados en transformadores tienen dificultades para igualar debido a su complejidad computacional cuadrática con respecto a los tokens de imagen.

Compromiso entre precisión y velocidad

Como se muestra en la tabla comparativa, YOLO11x alcanza un mayor mAP (54,7) que RTDETRv2-x (54,3), al tiempo que mantiene velocidades de inferencia competitivas. Para aplicaciones que requieren una velocidad extrema, las YOLO11 más pequeñas YOLO11 (n/s) ofrecen un nivel de rendimiento que RTDETRv2 no alcanza, lo que convierte a YOLO11 en YOLO11 claro ganador para la implementación móvil y de IoT.

Ejemplo de código: Uso de YOLO11 RT-DETR

Ultralytics un soporte técnico de primera clase tanto para sus YOLO nativos como para las versiones compatibles de RT-DETR, lo que le permite cambiar de arquitectura sin problemas.

from ultralytics import RTDETR, YOLO

# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the YOLO11 results
for result in results_yolo:
    result.show()

Aplicaciones en el mundo real

Dónde destaca YOLO11

Debido a su ligereza y alta velocidad, YOLO11 la opción preferida para:

Dónde se Posiciona RTDETRv2

RTDETRv2 es muy adecuado para:

  • Servidores de alta potencia de cálculo: escenarios en los que se dispone de potencia y GPU ilimitadas.
  • Oclusiones complejas: entornos en los que el campo receptivo global de los transformadores ayuda a resolver el solapamiento intenso entre objetos.
  • Investigación: Exploración académica sobre los transformadores de visión (ViT).

Conclusión

Ambas arquitecturas demuestran el increíble progreso del campo de la visión artificial. RTDETRv2 muestra el potencial de los transformadores para desafiar el dominio de las CNN en tareas de detección. Sin embargo, para la gran mayoría de aplicaciones prácticas, Ultralytics YOLO11 sigue siendo la mejor opción.

Con su marco unificado, menores requisitos de recursos, una gama más amplia de tareas compatibles y un ecosistema de implementación maduro, YOLO11 los desarrolladores pasar del prototipo a la producción más rápidamente. Para aquellos que buscan lo último en eficiencia y diseño NMS, también recomendamos explorar el innovador YOLO26, que combina las mejores características de ambos mundos en una potente herramienta unificada y completa.

Explora YOLO11


Comentarios