Ir al contenido

YOLOv10 RTDETRv2: arquitecturas y rendimiento en la detección en tiempo real

Seleccionar la arquitectura adecuada para la detección de objetos es una decisión fundamental para los desarrolladores que crean aplicaciones de visión artificial. Esta guía ofrece una visión detallada de dos enfoques distintos para la detección en tiempo real: YOLOv10, una evolución de la YOLO basada en CNN que introduce capacidades de extremo a extremo, y RTDETRv2, un modelo basado en transformadores diseñado para desafiar el dominio de CNN. Analizamos sus arquitecturas, puntos de referencia y adecuación para diversos escenarios de implementación.

Visión General y Orígenes del Modelo

Comprender el linaje de estos modelos ayuda a aclarar sus filosofías de diseño y los casos de uso previstos.

YOLOv10: La CNN NMS

Lanzado en mayo de 2024 por investigadores de la Universidad de Tsinghua, YOLOv10 un cambio significativo en la YOLO . Aborda un cuello de botella que existía desde hacía tiempo en los detectores en tiempo real: la supresión no máxima (NMS). Al emplear asignaciones duales consistentes para un entrenamiento NMS, YOLOv10 una menor latencia y simplifica los procesos de implementación en comparación con generaciones anteriores como YOLOv9 YOLOv8.

Más información sobre YOLOv10

RTDETRv2: El aspirante Transformer

RT-DETR Real-Time Detection Transformer) fue el primer modelo basado en transformadores que realmente compitió con YOLO . RTDETRv2, desarrollado por Baidu, perfecciona esta arquitectura con un enfoque «Bag of Freebies», optimizando la estrategia de entrenamiento y la arquitectura para una mejor convergencia y flexibilidad. Aprovecha la potencia de los transformadores de visión (ViT) para capturar el contexto global, superando a menudo a las CNN en escenas complejas con oclusión, aunque con un mayor coste computacional.

Comparación de Arquitectura Técnica

La diferencia fundamental radica en cómo estos modelos procesan las características y generan predicciones.

Arquitectura de YOLOv10

YOLOv10 una red neuronal convolucional (CNN) como base, pero revoluciona el proceso de entrenamiento y la cabeza.

  1. Asignaciones duales consistentes: utiliza una asignación uno a muchos para una supervisión rica durante el entrenamiento y una asignación uno a uno para la inferencia. Esto permite al modelo predecir un único cuadro óptimo por objeto, eliminando la necesidad de NMS.
  2. Diseño de eficiencia holística: la arquitectura cuenta con cabezales de clasificación ligeros y submuestreo desacoplado del canal espacial para reducir la redundancia computacional.
  3. Convoluciones de kernel grande: similar a los avances recientes, utiliza campos receptivos grandes para mejorar la precisión sin el elevado coste de los mecanismos de autoatención.

Arquitectura RTDETRv2

RTDETRv2 se basa en la estructura del codificador-decodificador transformador.

  1. Codificador híbrido: utiliza una red neuronal convolucional (CNN) como base (normalmente ResNet o HGNetv2) para extraer características, que luego son procesadas por un codificador transformador. Esto le permite modelar dependencias de largo alcance en toda la imagen.
  2. Selección de consultas con incertidumbre mínima: este mecanismo selecciona consultas iniciales de alta calidad para el decodificador, lo que mejora la inicialización y la velocidad de convergencia.
  3. Desconexión flexible: RTDETRv2 admite el muestreo discreto, lo que permite a los usuarios compensar entre velocidad y precisión de forma más dinámica que las estructuras CNN rígidas.

Por qué es importante el ecosistema

Aunque los modelos académicos como RTDETRv2 ofrecen arquitecturas novedosas, a menudo carecen de las herramientas robustas necesarias para la producción. Ultralytics como YOLO26 y YOLO11 están integrados en un ecosistema completo. Esto incluye la Ultralytics para una fácil gestión de conjuntos de datos, formación con un solo clic y una implementación perfecta en dispositivos periféricos.

Métricas de rendimiento

La siguiente tabla compara el rendimiento de ambos modelos en el COCO .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Análisis de los Benchmarks

  • Dominio de la latencia: YOLOv10 una latencia significativamente menor en todos los tamaños de modelo. Por ejemplo, YOLOv10s es aproximadamente dos veces más rápido que RTDETRv2-s en GPU T4, al tiempo que mantiene una precisión competitiva (46,7 % frente a 48,1 % mAP).
  • Eficiencia de parámetros: YOLOv10 muy eficiente en términos de parámetros y FLOP. YOLOv10m alcanza una precisión similar a la de RTDETRv2-m, pero requiere menos de la mitad de parámetros (15,4 millones frente a 36 millones), lo que lo hace muy superior para aplicaciones de IA móviles y periféricas.
  • Precisión máxima: RTDETRv2 destaca en las categorías «Pequeña» y «Mediana» en cuanto a precisión bruta (mAP), aprovechando la capacidad del transformador para ver el contexto global. Sin embargo, en las escalas más grandes (Extragrande), YOLOv10 e incluso supera a RTDETRv2, además de seguir siendo más rápido.

Consideraciones sobre la formación y el despliegue

Al pasar de la investigación a la producción, factores como la eficiencia de la formación y el uso de la memoria cobran una importancia fundamental.

Requisitos de Memoria

Los modelos basados en transformadores, como RTDETRv2, suelen consumir mucha más CUDA durante el entrenamiento debido a la complejidad cuadrática de los mecanismos de autoatención. Esto requiere el uso de costosas GPU de gama alta para el entrenamiento. Por el contrario, YOLO Ultralytics son conocidos por su eficiencia en cuanto a memoria. Modelos como YOLOv10 el más reciente YOLO26 a menudo se pueden ajustar en hardware de consumo o instancias estándar en la nube, lo que reduce la barrera de entrada.

Facilidad de uso y ecosistema

Una de las ventajas más significativas de utilizar YOLOv10 la Ultralytics es la experiencia de usuario optimizada.

  • Ultralytics : puede cargar, entrenar e implementar YOLOv10 unas pocas líneas de Python , idénticas al flujo de trabajo de YOLOv8 o YOLO11.
  • Opciones de exportación: Ultralytics la exportación instantánea a formatos como ONNX, TensorRT, CoreML y OpenVINO. Aunque RTDETRv2 ha mejorado su compatibilidad con la implementación, a menudo requiere una configuración más compleja para manejar formas dinámicas asociadas con transformadores.
  • Documentación: Una documentación exhaustiva garantiza que los desarrolladores tengan acceso a tutoriales, guías de hiperparámetros y recursos para la resolución de problemas.
from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

Casos de Uso Ideales

Cuándo elegir YOLOv10

YOLOv10 la opción preferida para situaciones en las que la velocidad y las limitaciones de recursos son fundamentales.

  • Aplicaciones móviles:iOS que requieren inferencia en tiempo real sin agotar la batería.
  • Sistemas integrados: Funcionan en dispositivos como Raspberry Pi o NVIDIA , donde la memoria (RAM) es limitada.
  • Procesamiento de vídeo con alta velocidad de fotogramas: aplicaciones como la supervisión del tráfico o el análisis deportivo, en las que es esencial mantener una alta velocidad de fotogramas para evitar el desenfoque por movimiento o la pérdida de eventos.

Cuándo elegir RTDETRv2

RTDETRv2 es adecuado cuando la precisión es la prioridad y los recursos de hardware son abundantes.

  • Escenas complejas: entornos con gran oclusión o desorden en los que el mecanismo de atención global ayuda a distinguir objetos superpuestos.
  • Inferencia del lado del servidor: Escenarios en los que los modelos se ejecutan en potentes GPU en la nube, lo que hace que la mayor latencia y el coste de memoria sean aceptables a cambio de un ligero aumento en mAP.

El futuro: Ultralytics

Si bien YOLOv10 el concepto NMS, el campo avanza rápidamente. Lanzado en enero de 2026, Ultralytics representa la cúspide de esta evolución.

YOLO26 adopta el diseño integral NMS pionero de YOLOv10 lo mejora con el optimizador MuSGD (inspirado en el entrenamiento LLM) y funciones de pérdida mejoradas como ProgLoss. El resultado son modelos que no solo son más fáciles de entrenar, sino que también son hasta un 43 % más rápidos en CPU en comparación con las generaciones anteriores. Además, YOLO26 es compatible de forma nativa con una amplia gama de tareas, como la segmentación, la estimación de poses y OBB, lo que le confiere una versatilidad que los modelos centrados en la detección, como RTDETRv2, no pueden igualar.

Para los desarrolladores que buscan el mejor equilibrio entre velocidad, precisión y facilidad de implementación, se recomienda encarecidamente la transición a YOLO26.

Más información sobre YOLO26

Resumen

Tanto YOLOv10 RTDETRv2 amplían los límites de la detección de objetos en tiempo real. YOLOv10 elimina YOLOv10 el NMS , ofreciendo una arquitectura CNN pura que es increíblemente rápida y eficiente. RTDETRv2 demuestra que los transformadores pueden ser competidores en tiempo real, destacando en la extracción de características complejas. Sin embargo, para la gran mayoría de aplicaciones del mundo real que requieren una combinación de velocidad, eficiencia y herramientas fáciles de usar para los desarrolladores, el Ultralytics , que admite YOLOv10, YOLO11 y el innovador YOLO26, sigue siendo el estándar del sector.

Para obtener más comparaciones, explore nuestro análisis de YOLOv8 YOLOv10 o aprenda a optimizar sus modelos con nuestra guía de exportación.


Comentarios