RTDETRv2 frente a EfficientDet: comparación técnica para la detección de objetos
Seleccionar la arquitectura óptima para la detección de objetos es una decisión fundamental que afecta a todo, desde los costes de formación hasta la latencia de implementación. En este análisis técnico en profundidad, analizamos dos enfoques distintos: RTDETRv2, un modelo de vanguardia basado en transformadores diseñado para aplicaciones en tiempo real, y EfficientDet, una arquitectura CNN altamente escalable que introdujo el escalado compuesto en este campo.
Si bien EfficientDet estableció importantes puntos de referencia en 2019, el panorama ha cambiado significativamente con la llegada de los transformadores en tiempo real. Esta comparación explora sus arquitecturas, métricas de rendimiento y adecuación para las tareas modernas de visión por computadora.
Comparación de métricas de rendimiento
La siguiente tabla ofrece una comparación directa de los parámetros clave. Obsérvese la diferencia en velocidad y eficiencia de los parámetros, en particular cómo las arquitecturas modernas como RTDETRv2 optimizan la latencia de inferencia en aceleradores de hardware como TensorRT.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
RTDETRv2: Transformadores en tiempo real evolucionados
RTDETRv2 (Real-Time DEtection TRansformer v2) representa un avance significativo en la aplicación de arquitecturas de transformadores a tareas prácticas de visión. Mientras que los modelos DETR originales adolecían de una convergencia lenta y altos costes computacionales, RTDETRv2 está diseñado específicamente para superar a las CNN tanto en velocidad como en precisión.
Detalles de RTDETRv2:
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
- Organización:Baidu
- Fecha: 2023-04-17
- Arxiv:2304.08069
- GitHub:lyuwenyu/RT-DETR
Arquitectura y Características Clave
RTDETRv2 emplea un codificador híbrido que procesa características multiescala, abordando una debilidad común en los transformadores anteriores en lo que respecta a la detección de objetos pequeños. Una innovación fundamental es su selección de consultasIoU, que filtra las consultas de baja calidad antes de que lleguen al decodificador, lo que permite al modelo centrar los recursos computacionales en las partes más relevantes de la imagen.
La característica definitoria de RTDETRv2 es su diseño integral NMS. Los detectores tradicionales requieren la supresión no máxima (NMS) para eliminar los cuadros delimitadores duplicados, un paso de posprocesamiento que introduce variabilidad en la latencia. RTDETRv2 predice directamente un conjunto fijo de objetos, lo que garantiza tiempos de inferencia deterministas que son fundamentales para la automatización industrial.
EfficientDet: El legado de la escalabilidad
EfficientDet fue presentado por Google como una demostración de «Compound Scaling», un método para aumentar simultáneamente la anchura, la profundidad y la resolución de la red. Se basa en la estructura EfficientNet e introduce la BiFPN (Bidirectional Feature Pyramid Network, red piramidal de características bidireccionales).
Detalles de EfficientDet:
- Autores: Mingxing Tan, Ruoming Pang, y Quoc V. Le
- Organización: Google
- Fecha: 2019-11-20
- Arxiv:1911.09070
- GitHub:google/automl
Arquitectura y limitaciones
El núcleo de EfficientDet es BiFPN, que permite una fusión de características multiescala fácil y rápida. Mediante el uso de la fusión de características ponderadas, el modelo aprende la importancia de las diferentes características de entrada. A pesar de su eficiencia teórica en términos de FLOP, EfficientDet a menudo tiene dificultades con la latencia real en las GPU. Los patrones de acceso a la memoria complejos/irregulares de la capa BiFPN no se optimizan tan fácilmente con aceleradores de hardware como TensorRT en comparación con las convoluciones estándar que se encuentran en YOLO .
Análisis crítico: Arquitectura y uso
1. Eficiencia y convergencia de la formación
Una de las diferencias más profundas radica en la dinámica del entrenamiento. EfficientDet, que se basa en los paradigmas tradicionales de CNN, se entrena de forma relativamente estable, pero requiere un ajuste cuidadoso de los cuadros de anclaje (aunque su objetivo es automatizar este proceso). RTDETRv2, al ser un transformador, se beneficia desde el principio de un campo receptivo global, pero históricamente requería programas de entrenamiento más largos. Sin embargo, las optimizaciones modernas de RTDETRv2 han reducido drásticamente este tiempo de convergencia.
Consideraciones de Memoria
Los modelos basados en transformadores, como RTDETRv2, suelen consumir más VRAM durante el entrenamiento que las CNN puras debido al mecanismo de autoatención. Si está entrenando con hardware limitado (por ejemplo, una sola GPU de consumo), considere la posibilidad de utilizar Ultralytics , que ofrece menores requisitos de memoria y mantiene una precisión de vanguardia.
2. Velocidad de inferencia y despliegue
Aunque EfficientDet-d0 es ligero, sus variantes más grandes (d4-d7) experimentan una caída considerable en la velocidad. Como se muestra en la tabla comparativa, EfficientDet-d7 funciona a aproximadamente 128 ms en una GPU T4, mientras que RTDETRv2-x alcanza un mAP superior del 54,3 % con solo 15 ms. Esta ventaja de velocidad casi 10 veces mayor hace que RTDETRv2 (y YOLO26) sean muy superiores para el análisis de vídeo en tiempo real o los vehículos autónomos.
3. La ventaja Ultralytics
La implementación de documentos de investigación a menudo implica lidiar con dependencias rotas y archivos de configuración complejos. El Ultralytics resuelve este problema estandarizando la interfaz. Se puede cambiar entre un Transformer (RT-DETR) y una CNN (YOLO) con una sola línea de código, lo que simplifica el proceso de operaciones de aprendizaje automático (MLOps).
from ultralytics import RTDETR, YOLO
# Load RTDETRv2 (Transformer)
model_transformer = RTDETR("rtdetr-l.pt")
# Load YOLO26 (The new standard)
model_yolo = YOLO("yolo26l.pt")
# Training is identical
model_yolo.train(data="coco8.yaml", epochs=100)
La mejor opción: Ultralytics
Si bien RTDETRv2 ofrece un rendimiento excelente, YOLO26 representa la cúspide de la eficiencia y la precisión. Lanzado en enero de 2026, sintetiza las mejores características de los transformadores y las CNN en una arquitectura unificada.
YOLO26 adopta el diseño NMS de extremo a extremo, pionero en YOLOv10 perfeccionado en RTDETRv2, pero lo optimiza aún más para su implementación en el borde. Las innovaciones clave incluyen:
- Eliminación de DFL: Al eliminar la pérdida focal de distribución, se simplifica la estructura del modelo, lo que facilita la exportación a ONNX y CoreML mejora la compatibilidad con dispositivos periféricos de baja potencia.
- Optimizador MuSGD: híbrido entre SGD Muon (inspirado en el entrenamiento LLM), este optimizador garantiza un entrenamiento estable y una convergencia más rápida, aportando la estabilidad del modelo de lenguaje grande a las tareas de visión.
- Velocidad: YOLO26 logra CPU hasta un 43 % más rápida, lo que resuelve una deficiencia crítica en dispositivos como la Raspberry Pi, que no disponen de GPU.
- Funciones avanzadas de pérdida: La integración de ProgLoss y STAL proporciona mejoras notables en el reconocimiento de objetos pequeños, lo cual es crucial para sectores como la agricultura y la vigilancia aérea.
Para los desarrolladores que buscan el mejor equilibrio entre versatilidad de implementación y potencia bruta, YOLO26 es la opción recomendada.
Recomendaciones de casos de uso
Cuándo elegir RTDETRv2
- Hardware con Tensor : si realiza la implementación exclusivamente en NVIDIA (servidor o Jetson), RTDETRv2 utiliza Tensor de manera eficiente.
- Escenas con mucha gente: el mecanismo de atención global ayuda en escenas con mucha oclusión, como el análisis de multitudes o la supervisión de comercios minoristas.
Cuándo elegir EfficientDet
- Mantenimiento heredado: si su infraestructura actual se basa en gran medida en TensorFlow .x/2.x y el ecosistema AutoML Google.
- Benchmarking académico: útil como punto de referencia para estudiar los efectos específicos del escalado compuesto, aislado de otros cambios arquitectónicos.
Cuándo Elegir YOLO26
- Edge AI: La eliminación de DFL y CPU lo convierten en el rey indiscutible de los dispositivos móviles y IoT.
- Restricciones en tiempo real: para aplicaciones que requieren un alto FPS (fotogramas por segundo) junto con una gran precisión, como el análisis deportivo.
- Facilidad de uso: cuando necesitas una experiencia «lista para usar» con soporte para la estimación de poses y la segmentación desde el primer momento.
Conclusión
Tanto RTDETRv2 como EfficientDet han contribuido significativamente a la evolución de la visión artificial. EfficientDet demostró que el escalado podía ser científico y estructurado, mientras que RTDETRv2 demostró que los transformadores podían ser rápidos. Sin embargo, para la mayoría de los profesionales en 2026, Ultralytics ofrece el paquete más atractivo: la velocidad de una CNN, la comodidad NMS de un transformador y el sólido soporte de la Ultralytics .
Lecturas adicionales
- Modelos: Explora YOLO11 para otras opciones de alto rendimiento o YOLOv10 para conocer los orígenes del entrenamiento NMS.
- Conjuntos de datos: Encuentre los datos perfectos para su proyecto en nuestro Explorador de conjuntos de datos.
- Guías: Aprenda a optimizar modelos para TensorRT y sacar el máximo partido a su hardware.