Ir al contenido

RTDETRv2 frente aYOLO: la batalla por la precisión en tiempo real

La búsqueda de la arquitectura óptima para la detección de objetos suele implicar un equilibrio entre el modelado del contexto global de los transformadores y la velocidad de las redes neuronales convolucionales (CNN). Dos de los principales competidores en este ámbito son RTDETRv2 y YOLO. RTDETRv2, la segunda iteración del transformador de detección en tiempo real de Baidu, aprovecha los mecanismos de atención para eliminar la necesidad de la supresión no máxima (NMS). Por el contrario,YOLO Alibaba Group, se centra en la búsqueda de arquitectura neuronal (NAS) y en la reparametrización eficiente para sacar el máximo rendimiento de las estructuras CNN tradicionales.

Esta guía ofrece una visión detallada de sus arquitecturas, puntos de referencia y escenarios de implementación ideales, proporcionando a los desarrolladores la información necesaria para seleccionar la herramienta adecuada para sus proyectos de visión artificial.

Resumen Ejecutivo

RTDETRv2 es una excelente opción para aplicaciones que requieren alta precisión en entornos complejos donde los objetos pueden superponerse significativamente. Su diseño basado en transformadores maneja de forma natural el contexto global, lo que lo hace robusto frente a las oclusiones. Sin embargo, esto tiene un coste en términos de mayores requisitos computacionales, especialmente en dispositivos periféricos.

YOLO destaca en entornos industriales que priorizan la baja latencia en hardware estándar. Su uso de NAS y su eficiente diseño de backbone lo hacen muy eficaz para tareas de fabricación e inspección en tiempo real. Aunque es rápido, se basa en metodologías tradicionales basadas en anclajes que pueden ser sensibles al ajuste de hiperparámetros en comparación con la naturaleza integral de los transformadores.

Para aquellos que buscan lo mejor de ambos mundos —velocidad de vanguardia, inferencia integral NMS y facilidad de uso—, el modelo Ultralytics ofrece una alternativa superior, que combina las últimas optimizaciones en funciones de pérdida y CPU mejorado CPU .

RTDETRv2: Refinando el Transformador en Tiempo Real

RTDETRv2 (Transformador de detección en tiempo real v2) se basa en el éxito del original RT-DETRoriginal, perfeccionando aún más el codificador híbrido y la selección de consultas que tiene en cuenta la incertidumbre. Su objetivo es resolver el cuello de botella de latencia típico de los modelos transformadores, al tiempo que se mantiene su precisión superior.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización:Baidu
Fecha: 17 de abril de 2023
Arxiv:RTDETRv2 Artículo
GitHub:RT-DETR

Más información sobre RT-DETR

Innovaciones arquitectónicas clave

  • Codificador híbrido: procesa de manera eficiente características multiescala mediante la desacoplamiento de la interacción intraescala y la fusión entre escalas, lo que reduce significativamente el coste computacional en comparación con los codificadores DETR deformables estándar.
  • Selección de consultas con incertidumbre mínima: mejora la inicialización de las consultas de objetos seleccionando las características con las puntuaciones de clasificación más altas, lo que conduce a una convergencia más rápida y a mejores detecciones iniciales.
  • InferenciaNMS: como modelo basado en transformadores, RTDETRv2 predice directamente un conjunto fijo de objetos, lo que elimina la necesidad de la supresión no máxima (NMS). Esto simplifica los procesos de implementación y elimina la variabilidad de la latencia asociada al posprocesamiento de predicciones densas.
  • Compatibilidad con backbones flexibles: la arquitectura es compatible con varios backbones, incluidos ResNet y HGNetv2, lo que permite a los usuarios escalar el modelo en función de los recursos informáticos disponibles.

Ventaja del transformador

A diferencia de las CNN, que procesan vecindades locales de píxeles, el mecanismo de autoatención de RTDETRv2 permite que cada parte de la imagen preste atención a todas las demás partes. Este «campo receptivo global» resulta especialmente útil para detectar objetos grandes o comprender las relaciones entre partes distantes de una escena.

YOLO: Eficiencia de grado industrial

YOLO en maximizar la eficiencia del paradigma «You Only Look Once» (solo miras una vez) mediante una rigurosa búsqueda de arquitectura neuronal (NAS) y novedosas técnicas de fusión de características. Está diseñado para ser un detector robusto y de uso general que equilibra la velocidad y la precisión para aplicaciones industriales.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 23 de noviembre de 2022
Arxiv:YOLO
GitHub:YOLO

Características arquitectónicas clave

  • MAE-NAS Backbone: utiliza el método de valores propios auxiliares para la búsqueda de arquitecturas neuronales con el fin de descubrir estructuras troncales que estén específicamente optimizadas para tareas de detección, en lugar de proxies de clasificación.
  • RepGFPN eficiente: una red piramidal de características generalizada (GFPN) optimizada con técnicas de reparametrización (Rep). Esto permite una fusión compleja de características durante el entrenamiento que se reduce a una estructura simple y rápida durante la inferencia.
  • ZeroHead: un cabezal de detección ligero que reduce significativamente el número de parámetros y las operaciones FLOP sin sacrificar la precisión media (mAP).
  • AlignedOTA: una estrategia mejorada de asignación de etiquetas que resuelve la desalineación entre las tareas de clasificación y regresión, garantizando que se seleccionen anclajes de alta calidad durante el entrenamiento.

Comparación del rendimiento técnico

Al comparar estas arquitecturas, es fundamental tener en cuenta las ventajas e inconvenientes entre la velocidad de inferencia pura y la precisión de detección (mAP). La tabla siguiente destaca que, aunque RTDETRv2 suele alcanzar una mayor precisión, especialmente en el difícil COCO ,YOLO un rendimiento competitivo con una latencia potencialmente menor en configuraciones de hardware específicas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Implementación y casos de uso

Escenarios Ideales para RTDETRv2

  • Escenas urbanas complejas: el mecanismo de atención global destaca en el manejo de la oclusión en calles concurridas, lo que lo hace ideal para la conducción autónoma o la supervisión del tráfico.
  • Imágenes médicas: cuando la precisión es fundamental y los falsos negativos son costosos, como en la detección de tumores, la alta precisión de RTDETRv2 resulta beneficiosa.
  • Recuento de multitudes: la capacidad de distinguir individuos superpuestos sin NMS lo hace ideal para aplicaciones de gestión de multitudes.

Escenarios Ideales para DAMO-YOLO

  • Fabricación de alta velocidad: en líneas de montaje que requieren una latencia de milisegundos para la detección de defectos, la baja latenciaYOLO garantiza que el rendimiento no se vea afectado por cuellos de botella.
  • IoT integrado: para dispositivos con capacidad de cálculo limitada en los que las operaciones de transformación son demasiado pesadas, la eficiencia basada en CNN deYOLO ventajosa.
  • Análisis minorista: para el seguimiento de artículos en estanterías o la gestión de inventario, donde se acepta una precisión moderada a cambio de un procesamiento significativamente más rápido.

La ventaja de Ultralytics: YOLO26

Aunque tanto RTDETRv2 comoYOLO potentes funciones, el modelo Ultralytics representa la cúspide de la eficiencia y la facilidad de uso. Lanzado en enero de 2026, YOLO26 salva la brecha entre estas dos filosofías al integrar el diseño NMS de los transformadores en una arquitectura altamente optimizada y compatible con el borde.

Más información sobre YOLO26

Por qué los desarrolladores eligen Ultralytics

  1. Plataforma unificada: a diferencia de los repositorios de investigación, que a menudo carecen de mantenimiento, Ultralytics una plataforma integral para entrenar, implementar y gestionar modelos. Tanto si necesita estimación de poses, segmentación u OBB, todo está disponible en una sola biblioteca.
  2. Facilidad de uso: El entrenamiento de un modelo de última generación requiere un código mínimo. Esta accesibilidad permite a los investigadores centrarse en los datos en lugar de depurar complejos bucles de entrenamiento.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model (NMS-free by design)
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset with MuSGD optimizer
    results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
    
  3. Eficiencia integral: YOLO26 introduce un diseño integral NMS, pionero en YOLOv10 perfeccionado para la producción. Esto elimina la sobrecarga de posprocesamiento que se encuentra enYOLO evita el elevado coste computacional de las capas de atención completa de RTDETRv2.

  4. Optimización de borde: con la eliminación de la pérdida focal de distribución (DFL) y optimizaciones específicas para CPU , YOLO26 es hasta un 43 % más rápido en dispositivos de borde que las generaciones anteriores, lo que lo convierte en una opción superior para la implementación móvil.
  5. Formación avanzada: Funciones como MuSGD Optimizer (inspirada en la formación LLM) y ProgLoss garantizan una formación estable y una convergencia más rápida, lo que reduce el tiempo y los costes asociados al desarrollo de modelos.

Conclusión

Para la investigación pura o escenarios que exigen la máxima precisión teórica en GPU de gama alta, RTDETRv2 es un fuerte competidor. Para sistemas heredados estrictamente limitados que requieren el menor espacio posible para CNN, YOLO sigue siendo relevante. Sin embargo, para la gran mayoría de aplicaciones del mundo real que requieren un equilibrio entre velocidad, precisión, versatilidad y facilidad de implementación, Ultralytics es la solución recomendada.

Explora otras comparaciones para ver cómo se comparan Ultralytics con YOLOv8 y EfficientDet.


Comentarios