Ir al contenido

RTDETRv2 frente a YOLOv6. YOLOv6: la precisión del transformador se une a la velocidad industrial

Para desenvolverse en el panorama actual de la detección de objetos, es necesario encontrar el equilibrio entre la velocidad bruta y la comprensión compleja de las escenas. Esta comparación técnica analiza dos arquitecturas influyentes: RTDETRv2, una sofisticada evolución del transformador de detección en tiempo real, y YOLOv6.YOLOv6, una potente herramienta basada en CNN optimizada para el rendimiento industrial.

Resumen Ejecutivo

Mientras que RTDETRv2 aprovecha las capacidades de contexto global de los transformadores de visión para destacar en entornos complejos y abarrotados sin supresión no máxima (NMS), YOLOv6.YOLOv6 se centra en maximizar los fotogramas por segundo (FPS) en GPU dedicado mediante una cuantificación agresiva y un ajuste arquitectónico.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

RTDETRv2: La evolución del Transformer

RTDETRv2 (Real-Time Detection Transformer versión 2) representa un avance significativo en la viabilidad de la detección basada en transformadores para aplicaciones en tiempo real. Basándose en el éxito del original RT-DETRoriginal, esta iteración introduce un enfoque flexible basado en cuadrículas para gestionar entradas dinámicas y mejora significativamente la velocidad de convergencia.

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
  • Organización:Baidu
  • Fecha: 17 de abril de 2023 (v1), julio de 2024 (actualización v2)
  • Enlaces:Arxiv | GitHub

Más información sobre RT-DETR

Arquitectura e innovación

La principal fortaleza de RTDETRv2 reside en su codificador híbrido y en la selección de consultas con incertidumbre mínima. A diferencia de las CNN tradicionales, que tienen dificultades con las dependencias de largo alcance, la estructura básica del transformador permite al modelo «atender» simultáneamente a partes distantes de una imagen.

  1. Mecanismo de anclaje Grid-Box: A diferencia de las consultas de objetos aprendidos de los DETR estándar, RTDETRv2 inicializa las consultas utilizando cuadrículas, lo que hace que el panorama de optimización sea más fluido y la convergencia más rápida.
  2. Bag-of-Freebies: La actualización v2 incorpora múltiples mejoras en el entrenamiento, incluyendo estrategias mejoradas de aumento de datos y funciones de pérdida optimizadas, lo que aumenta la precisión del modelo Small a 48,1 mAP.
  3. InferenciaNMS: Por diseño, los transformadores predicen directamente un conjunto de objetos únicos. Esto elimina la necesidad de la supresión no máxima (NMS), un paso de posprocesamiento que a menudo introduce variaciones de latencia y problemas de ajuste de hiperparámetros en los modelos basados en CNN.

La ventaja del transformador

Los modelos transformadores como RTDETRv2 destacan en escenas con mucha gente en las que los objetos se superponen significativamente. Dado que procesan todo el contexto de la imagen de forma global en lugar de local, son menos propensos a los problemas de oclusión que a menudo confunden a los detectores basados en convolución.

YOLOv6.0: El especialista industrial

YOLOv6.YOLOv6, a menudo denominadoYOLOv6 .YOLOv6 : A Full-Scale Reloading», está diseñado específicamente para aplicaciones industriales en las que el hardware está estandarizado y el rendimiento es fundamental. Desarrollado por el equipo de visión de Meituan, da prioridad al rendimiento en las GPU NVIDIA T4 utilizando TensorRT.

  • Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, et al.
  • Organización:Meituan
  • Fecha: 13 de enero de 2023
  • Enlaces:Arxiv | GitHub

Más información sobre YOLOv6

Arquitectura técnica

YOLOv6.0 emplea una arquitectura basada exclusivamente en CNN que perfecciona el concepto de backbone «EfficientRep».

  1. RepBi-PAN: una red de agregación de rutas bidireccional (Bi-PAN) mejorada con bloques de estilo RepVGG. Esta estructura permite que el modelo tenga ramificaciones complejas durante el entrenamiento, pero se fusione en una pila simple y rápida de convoluciones 3x3 durante la inferencia.
  2. Entrenamiento asistido por anclas (AAT): una estrategia híbrida que intenta estabilizar el entrenamiento reintroduciendo pistas basadas en anclas en el marco sin anclas, lo que aumenta ligeramente la velocidad de convergencia y la precisión final.
  3. Quantization Aware: La arquitectura está diseñada específicamente para ser compatible con la cuantificación, lo que permite una pérdida mínima de precisión al convertir a precisión INT8 para obtener aceleraciones extremas en las GPU de borde.

Diferencias fundamentales y casos de uso

1. Contexto global frente a características locales

RTDETRv2 destaca en la comprensión de escenas complejas. Si su aplicación implica identificar relaciones entre objetos distantes o gestionar oclusiones graves (por ejemplo, contar personas en un estadio abarrotado), el mecanismo de autoatención del transformador ofrece una ventaja clara. YOLOv6. YOLOv6, que se basa en convoluciones, es muy eficaz para detectar características locales, pero puede tener algo más de dificultad con solapamientos importantes en comparación con los transformadores NMS.

2. Dependencia del hardware

YOLOv6.YOLOv6 es un diseño «compatible con el hardware». Sus impresionantes cifras de FPS se consiguen sobre todo en NVIDIA específico NVIDIA (como el T4) utilizando TensorRT. En CPU de uso general o NPU móviles, sus ventajas de rendimiento pueden disminuir en comparación con modelos optimizados para esas plataformas, como YOLOv10 o YOLO11. RTDETRv2, aunque es más pesado desde el punto de vista computacional debido a los mecanismos de atención, ofrece un comportamiento consistente en todas las plataformas gracias a su canalización más sencilla y NMS.

3. Formación y despliegue

RTDETRv2 simplifica los procesos de implementación al eliminar el NMS . Esto significa que el resultado del modelo es el resultado final, sin necesidad de umbrales ni clasificaciones en el código de posprocesamiento. YOLOv6. YOLOv6 requiere NMS estándar, lo que puede convertirse en un cuello de botella en escenarios de alta velocidad de fotogramas por segundo si no está altamente optimizado en C++ o CUDA.

La ventaja de Ultralytics

Aunque RTDETRv2 y YOLOv6. YOLOv6 ofrecen características atractivas para nichos específicos, integrarlas en un flujo de trabajo de producción puede resultar complicado debido a la disparidad de los códigos base y los diseños de API. El Ultralytics unifica estas potentes arquitecturas en una única Python optimizada.

¿Por qué elegir Ultralytics?

  • Facilidad de uso: Cambia entre arquitecturas de modelos modificando una sola cadena. Entrena un RT-DETR con el mismo comando de entrenamiento que utilizas para YOLO.
  • Requisitos de memoria: Ultralytics reducen significativamente la sobrecarga de VRAM durante el entrenamiento. Esto es especialmente importante para modelos transformadores como RT-DETR, que consumen naturalmente más memoria que las CNN.
  • Versatilidad: El Ultralytics va más allá de la detección. Puede aprovechar fácilmente modelos para la estimación de poses, la segmentación de instancias y OBB dentro del mismo entorno.
  • Ecosistema bien mantenido: benefíciese del apoyo activo de la comunidad, las actualizaciones frecuentes y las integraciones perfectas con herramientas como MLflow y TensorBoard.

Ejemplo de código

Probar estos modelos es muy sencillo con elPython Ultralytics . El paquete gestiona automáticamente el procesamiento de datos y la carga de modelos.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")

# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")

Avanzando: YOLO26

Para los desarrolladores que buscan el equilibrio definitivo entre velocidad, precisión y características arquitectónicas modernas, Ultralytics representa lo último en tecnología. Lanzado en enero de 2026, sintetiza los mejores aspectos de los mundos de los transformadores y las CNN.

YOLO26 presenta un diseño nativo NMS de extremo a extremo, que refleja la simplicidad de RTDETRv2, pero con la eficiencia ligera de una CNN. Impulsado por el nuevo optimizador MuSGD, un híbrido inspirado en la estabilidad del entrenamiento LLM, y con ProgLoss + STAL para una detección superior de objetos pequeños, YOLO26 alcanza CPU hasta un 43 % más rápida que las generaciones anteriores.

Más información sobre YOLO26

Tanto si priorizas la precisión global de los transformadores como el rendimiento bruto de las CNN industriales, la Ultralytics te permite implementar la herramienta adecuada para cada tarea con una fricción mínima.


Comentarios