YOLOv7 RTDETRv2: equilibrio entre la velocidad tradicional y la precisión del transformador
El panorama de la detección de objetos ha evolucionado drásticamente en los últimos años, pasando de las redes neuronales convolucionales (CNN) puras a sofisticadas arquitecturas híbridas. Dos modelos fundamentales en esta narrativa son YOLOv7, una célebre y potente CNN «bag-of-freebies» de 2022, y RTDETRv2, un transformador de detección en tiempo real lanzado por Baidu en 2023/2024 para desafiar el YOLO .
Mientras que YOLOv7 al máximo el enfoque clásico basado en anclajes, RTDETRv2 aprovechó la potencia de los transformadores de visión (ViT) para eliminar pasos de posprocesamiento como la supresión no máxima (NMS). Esta guía compara sus arquitecturas, rendimiento e idoneidad para proyectos modernos de visión artificial, al tiempo que explora por qué los modelos de última generación, como Ultralytics , se están convirtiendo cada vez más en el estándar para la implementación en producción.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: La cima de la detección basada en anclajes
Lanzado en julio de 2022, YOLOv7 supuso un gran avance en la YOLO , centrándose en la eficiencia arquitectónica sin depender del ImageNet . Introdujo el concepto de «bolsa de regalos entrenable», métodos de optimización que mejoran la precisión durante el entrenamiento sin aumentar la latencia de inferencia.
Detalles técnicos clave:
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2022-07-06
- Enlaces:Artículo de arXiv | Repositorio de GitHub
La innovación principal de YOLOv7 la red de agregación de capas eficiente ampliada (E-ELAN). Esta arquitectura permite a la red aprender características más diversas mediante el control de las longitudes de las rutas de gradiente, lo que garantiza un aprendizaje eficaz en redes más profundas. Aunque es muy eficaz, YOLOv7 un detector basado en anclajes, lo que significa que se basa en cuadros de anclaje predefinidos para predecir la ubicación de los objetos. Esta dependencia a menudo requiere un ajuste cuidadoso de los hiperparámetros para conjuntos de datos personalizados, una complejidad que se elimina en los detectores modernos sin anclajes, como YOLO11.
RTDETRv2: Transformadores para velocidad en tiempo real
RTDETRv2 (Real-Time Detection Transformer v2) se basa en el éxito del RT-DETR original y tiene como objetivo resolver el alto coste computacional asociado a los detectores tradicionales basados en transformadores, como DETR. Desarrollado por Baidu, demuestra que las arquitecturas de transformadores pueden alcanzar velocidades en tiempo real en GPU .
Detalles técnicos clave:
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organización:Baidu
- Fecha: 17 de abril de 2023 (v1), 2024 (actualizaciones v2)
- Enlaces:Artículo de arXiv | Repositorio de GitHub
RTDETRv2 utiliza un codificador híbrido que procesa características multiescala de manera eficiente. Su característica definitoria es la selección de consultasIoU, que ayuda al modelo a centrarse en las partes más relevantes de una imagen. Fundamentalmente, RTDETRv2 es un detector de extremo a extremo. No requiere posprocesamiento de supresión no máxima (NMS), lo que simplifica los procesos de implementación y reduce la variación de latencia en escenas concurridas. Sin embargo, esto tiene un coste: un mayor consumo de memoria durante el entrenamiento en comparación con los modelos basados en CNN.
Comparación técnica: arquitectura y casos de uso
Comprender las diferencias fundamentales entre estas arquitecturas ayuda a seleccionar la herramienta adecuada para aplicaciones específicas de visión artificial.
1. Arquitectura: CNN frente a transformador híbrido
YOLOv7 exclusivamente en convoluciones. Esto lo hace extremadamente eficiente en dispositivos periféricos con memoria limitada pero con una capacidad de cálculo decente, ya que las CNN son naturalmente invariantes a la traslación. RTDETRv2 combina las estructuras básicas de las CNN con los codificadores Transformer. Si bien esto le permite capturar mejor el contexto global (mejorando la precisión en escenas complejas), aumenta significativamente los requisitos CUDA . Por ejemplo, el entrenamiento de un modelo Transformer a menudo requiere GPU de gama alta (por ejemplo, A100 o H100) para manejar tamaños de lote razonables, mientras que YOLOv7 a menudo se YOLOv7 entrenar en hardware de consumo.
2. Inferencia: El NMS
YOLOv7 miles de cuadros delimitadores candidatos que deben filtrarse mediante NMS. En escenarios con objetos densos (como el recuento de inventario minorista), NMS convertirse en un cuello de botella para la velocidad. RTDETRv2 elimina este paso por completo y genera exactamente el número de cuadros necesarios.
Lo mejor de ambos mundos
Ultralytics modernos, como YOLO26, ahora cuentan con un diseño integral NMS similar al RTDETRv2, pero basado en una arquitectura CNN altamente optimizada. Esto proporciona la simplicidad de implementación de los transformadores con la eficiencia y velocidad de entrenamiento de YOLO.
3. Implementación y ecosistema
Aunque ambos modelos cuentan con un sólido respaldo científico, el Ultralytics ofrece una ventaja clara en cuanto a mantenimiento. El repositorio oficial YOLOv7 es en gran medida estático, mientras que Ultralytics reciben actualizaciones frecuentes, lo que garantiza la compatibilidad con las últimas versiones de PyTorch, ONNX y TensorRT.
La alternativa moderna: Ultralytics
Para los desarrolladores que buscan la precisión de los transformadores con la velocidad de las CNN, Ultralytics destaca como la mejor opción. Lanzado en 2026, incorpora las ventajas «de extremo a extremo» de RTDETRv2, al tiempo que soluciona sus puntos débiles en cuanto al uso de recursos.
¿Por qué elegir YOLO26?
- De extremo a extremo de forma nativa: al igual que RTDETRv2, YOLO26 elimina NMS, lo que simplifica la exportación a TensorRT y CoreML.
- Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador garantiza una convergencia estable, reduciendo el «ensayo y error» que a menudo se necesita al entrenar modelos más antiguos como YOLOv7.
- Optimización de borde: YOLO26 elimina la pérdida focal de distribución (DFL), lo que lo hace significativamente más ligero. Ofrece CPU hasta un 43 % más rápida, una métrica crítica para los dispositivos de borde en los que RTDETRv2 suele tener dificultades debido a los pesados cálculos del transformador.
- Versatilidad: a diferencia de YOLOv7 RTDETRv2, que se centran principalmente en la detección, YOLO26 admite segmentación, estimación de poses y cuadros delimitadores orientados (OBB) de forma nativa.
Equilibrio del rendimiento
YOLO26 aprovecha ProgLoss y STAL (Soft-Target Anchor Loss) para mejorar la detección de objetos pequeños, un área en la que YOLO anteriores YOLO se quedaban históricamente atrás con respecto a los transformadores. Esto lo hace ideal para aplicaciones como el análisis de imágenes aéreas o el recuento de células médicas.
Ejemplo de código: Integración perfecta
Pasar de modelos antiguos a la última Ultralytics es muy sencillo. La Python Ultralytics elimina la complejidad de las diferencias de arquitectura.
from ultralytics import YOLO
# Load the latest YOLO26 model (recommended)
model = YOLO("yolo26n.pt")
# Alternatively, load RT-DETR or YOLOv7 within the same ecosystem
# model = YOLO("rtdetr-l.pt")
# model = YOLO("yolov7.pt")
# Train on a dataset like COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with NMS-free speed (native in YOLO26)
results = model("https://ultralytics.com/images/bus.jpg")
Resumen
- Utilice YOLOv7 si mantiene sistemas heredados y necesita un detector probado, basado exclusivamente en CNN, y tiene tiempo para ajustar los anclajes.
- Utilice RTDETRv2 si necesita inferencia de extremo a extremo en GPU de gama alta y puede permitirse el mayor coste de VRAM durante el entrenamiento.
- Utilice Ultralytics para obtener el mejor equilibrio. Ofrece las ventajas integrales NMS de RTDETR, la velocidad y el bajo consumo de memoria de YOLO, y el sólido soporte de la Ultralytics .
Para la mayoría de los nuevos proyectos en 2026, la facilidad de uso, la documentación y la relación rendimiento/eficiencia de YOLO26 lo convierten en el punto de partida recomendado.