Ir al contenido

RTDETRv2 frente a YOLOv7: evolución basada en transformadores frente a eficiencia de CNN

El panorama de la detección de objetos ha experimentado una divergencia fascinante en las filosofías arquitectónicas. Por un lado, tenemos el linaje de las redes neuronales convolucionales (CNN), personificado por el alto rendimiento YOLOv7. Por otro lado, la revolución Transformer ha dado lugar a RTDETRv2 (Real-Time Detection Transformer), un modelo que pretende llevar las capacidades de contexto global de Vision Transformers (ViTs) a velocidades en tiempo real.

Esta guía ofrece un análisis técnico detallado de estas dos arquitecturas, analizando sus ventajas e inconvenientes en cuanto a velocidad, precisión y complejidad de implementación. Aunque ambas representaban lo último en rendimiento en el momento de su lanzamiento, el desarrollo moderno suele favorecer el ecosistema unificado y el rendimiento optimizado para el borde de Ultralytics , que integra de forma nativa las mejores características de ambos mundos, como la inferencia integral NMS.

Comparación ejecutiva

La siguiente tabla compara las métricas de rendimiento oficiales de RTDETRv2 y YOLOv7 el COCO .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2: El aspirante Transformer

RTDETRv2 (Real-Time Detection Transformer versión 2) es la evolución del RT-DETR original, desarrollado por investigadores de Baidu. Aborda el alto coste computacional que suele asociarse a los transformadores de visión mediante la introducción de un codificador híbrido eficiente y la simplificación del proceso de selección de consultas.

Detalles técnicos clave:

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
  • Organización: Baidu
  • Fecha: 17 de abril de 2023 (contexto de la versión v1)
  • Enlaces:Artículo de arXiv | Repositorio de GitHub

RTDETRv2 destaca por eliminar la necesidad de la supresión no máxima (NMS). A diferencia de las CNN, que generan miles de cuadros delimitadores redundantes que requieren un filtrado posterior al procesamiento, RTDETRv2 predice directamente un conjunto fijo de consultas de objetos. Esta capacidad integral reduce la variación de la latencia, lo que la hace atractiva para aplicaciones en las que es fundamental un tiempo de inferencia constante.

Sin embargo, la dependencia de los mecanismos de atención significa que RTDETRv2 puede consumir mucha memoria durante el entrenamiento en comparación con las CNN puras. Destaca en la captura del contexto global, es decir, en la comprensión de la relación entre partes distantes de una imagen, lo que resulta útil en escenas complejas con oclusiones importantes.

Más información sobre RT-DETR

YOLOv7: La cima de la eficiencia de las CNN

Lanzado a mediados de 2022, YOLOv7 amplió los límites de lo que podían lograr las arquitecturas puramente convolucionales. Se diseñó centrándose en los «trainable bag-of-freebies», métodos de optimización que mejoran la precisión durante el entrenamiento sin aumentar el coste de la inferencia.

Detalles técnicos clave:

La innovación principal de YOLOv7 la red de agregación de capas eficiente ampliada (E-ELAN). Esta arquitectura permite a la red aprender características más diversas mediante el control eficaz de las longitudes de las rutas de gradiente. Aunque ofrece una velocidad impresionante en GPU , YOLOv7 un detector basado en anclajes. Esto significa que requiere un ajuste cuidadoso de los hiperparámetros de los cuadros de anclaje para que coincidan con las escalas específicas de los objetos en un conjunto de datos personalizado, un paso que a menudo se automatiza o se elimina en modelos más nuevos como YOLO11.

Más información sobre YOLOv7

Análisis Arquitectónico en Profundidad

Atención frente a convolución

La diferencia fundamental radica en cómo estos modelos procesan los datos visuales. YOLOv7 convoluciones, que escanean la imagen en ventanas locales. Esto lo hace increíblemente rápido y eficiente a la hora de detectar características locales como bordes y texturas, pero potencialmente más débil a la hora de comprender las relaciones semánticas globales de la escena.

RTDETRv2 emplea mecanismos de autoatención. Calcula la relevancia de cada píxel con respecto a todos los demás píxeles (o dentro de puntos de atención deformables específicos). Esto permite al modelo «prestar atención» a las características relevantes independientemente de su distancia espacial, lo que ofrece un rendimiento superior en escenas concurridas en las que los objetos se superponen significativamente.

Postprocesamiento y NMS

YOLOv7, al igual que sus predecesores YOLOv5 y YOLOv6, genera predicciones densas que deben filtrarse mediante NMS. Este paso es un proceso heurístico que puede suponer un cuello de botella en escenarios con mucha gente e introduce hiperparámetros (IoU ) que afectan a la precisión y la recuperación.

RTDETRv2 NMS utiliza NMS. Utiliza el emparejamiento bipartito durante el entrenamiento para asignar un objeto de referencia a una predicción concreta. Esto simplifica el proceso de implementación, ya que no es necesario implementar NMS en ONNX o TensorRT .

Lo mejor de ambos mundos

Mientras que RTDETRv2 fue pionero en la detección NMS para transformadores en tiempo real, Ultralytics ha adaptado con éxito este concepto a las CNN. YOLO26 utiliza un diseño nativo de extremo a extremo que elimina NMS conserva el bajo consumo de memoria y la alta eficiencia de entrenamiento de las CNN.

La Ventaja de Ultralytics: ¿Por Qué Actualizar a YOLO26?

Aunque el análisis de modelos antiguos proporciona un contexto valioso, iniciar un nuevo proyecto con Ultralytics ofrece ventajas significativas en cuanto a rendimiento, facilidad de uso y preparación para el futuro. YOLO26 representa la tecnología más avanzada en la actualidad, perfeccionando las lecciones aprendidas tanto de YOLOv7 de RTDETR.

1. Nativamente de Extremo a Extremo (Sin NMS)

Al igual que RTDETRv2, YOLO26 está diseñado para NMS necesitar NMS, empleando un cabezal «uno a muchos» para el entrenamiento y un cabezal «uno a uno» para la inferencia. Esto elimina la sobrecarga de posprocesamiento que se encuentra en YOLOv7, lo que da como resultado una implementación más rápida y sencilla en dispositivos periféricos como NVIDIA o Raspberry Pi.

2. CPU superior de CPU

Los transformadores como RTDETRv2 suelen requerir muchas operaciones matemáticas que necesitan GPU . YOLO26 incluye optimizaciones específicas para CPU , lo que permite alcanzar velocidades hasta un 43 % más rápidas enGPU en comparación con versiones anteriores. Esto lo hace mucho más versátil para aplicaciones móviles o sensores IoT de baja potencia.

3. Estabilidad Avanzada del Entrenamiento

YOLO26 presenta el optimizador MuSGD, un híbrido entre SGD el optimizador Muon (inspirado en Kimi K2 de Moonshot AI). Esto aporta innovaciones en materia de estabilidad desde el entrenamiento de modelos de lenguaje grandes (LLM) a la visión artificial, lo que garantiza que los modelos converjan más rápido y con mayor precisión que el SGD estándar SGD en YOLOv7.

4. Funciones de pérdida especializadas

Con ProgLoss y STAL, YOLO26 ofrece capacidades mejoradas para el reconocimiento de objetos pequeños, un punto débil tradicional tanto para las CNN estándar como para algunas arquitecturas de transformadores. Esto es fundamental para tareas como el análisis de imágenes aéreas o el control de calidad en la fabricación.

5. Ultralytics unificada

El desarrollo con YOLOv7 RTDETRv2 a menudo implica la gestión de repositorios dispares y scripts de instalación complejos. La Ultralytics unifica el flujo de trabajo. Puede entrenar, validar e implementar modelos para detección, segmentación, clasificación, estimación de poses y OBB utilizando una única y sencilla API.

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")

# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Más información sobre YOLO26

Recomendaciones de casos de uso

  • Elija RTDETRv2 si: tiene acceso a potentes GPU (como NVIDIA o A100) y su aplicación incluye escenas muy concurridas en las que la oclusión es un punto débil importante para las CNN. La atención al contexto global puede proporcionar una ligera ventaja en estos escenarios específicos.
  • Elija YOLOv7 : mantiene sistemas heredados que dependen específicamente de los formatos YOLO más antiguos o si necesita un enfoque CNN puro, pero no puede actualizar a Python más recientes compatibles con Ultralytics.
  • Elija Ultralytics si: Necesita el mejor equilibrio entre velocidad y precisión en todos los tipos de hardware (CPU, GPU, NPU). Su eliminación de DFL facilita la exportación a CoreML o TFLite, y su eficiencia de memoria permite el entrenamiento en GPU de consumo. Tanto si está creando un sistema de alarma de seguridad como un gestor de aparcamiento inteligente, la amplia documentación y el activo apoyo de la comunidad lo convierten en la opción de menor riesgo para la implementación empresarial.

Conclusión

Tanto RTDETRv2 como YOLOv7 significativamente al avance de la visión artificial. RTDETRv2 demostró que los transformadores podían ser rápidos, mientras que YOLOv7 el poder duradero de las CNN bien optimizadas. Sin embargo, el campo avanza rápidamente.

Para los desarrolladores e investigadores actuales, Ultralytics captura «lo mejor de ambos mundos» al integrar la comodidad de los transformadores NMS con la velocidad y eficiencia brutas de las CNN. Con el respaldo de un ecosistema robusto que simplifica todo, desde la anotación de datos hasta la exportación de modelos, sigue siendo el punto de partida recomendado para los proyectos de IA modernos.


Comentarios