EfficientDet frente a RTDETRv2: comparación técnica para la detección moderna de objetos
Seleccionar la arquitectura óptima para la detección de objetos requiere encontrar un equilibrio entre la complejidad arquitectónica, la latencia de inferencia y la precisión de detección. Esta comparación técnica analiza dos enfoques distintos: EfficientDet, una arquitectura CNN de escalado compuesto de Google, y RTDETRv2, un modelo basado en transformadores en tiempo real de Baidu.
Mientras que EfficientDet estableció puntos de referencia para la escalabilidad en 2019, RTDETRv2 representa el cambio hacia arquitecturas transformadoras que eliminan la supresión no máxima (NMS). Para los desarrolladores que buscan el máximo rendimiento en 2026, también exploramos cómo Ultralytics sintetiza lo mejor de estos mundos con su diseño nativo de extremo a extremo.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
EfficientDet: El legado del escalado compuesto
Lanzado a finales de 2019, EfficientDet introdujo una forma sistemática de escalar las redes neuronales convolucionales (CNN). Se diseñó para optimizar la eficiencia en un amplio espectro de limitaciones de recursos, desde dispositivos móviles hasta centros de datos.
- Autores: Mingxing Tan, Ruoming Pang, y Quoc V. Le
- Organización:Google
- Fecha: 2019-11-20
- Arxiv:EfficientDet: Scalable and Efficient Object Detection
Arquitectura y Características Clave
EfficientDet utiliza una estructura EfficientNet junto con una red piramidal de características bidireccionales ponderadas (BiFPN). La BiFPN permite una fusión de características multiescala fácil y rápida, lo que permite al modelo aprender de forma eficaz la importancia de las diferentes características de entrada. La innovación principal fue el escalado compuesto, que escala de forma uniforme la resolución, la profundidad y la anchura de la estructura de la red, la red de características y las redes de predicción de cajas/clases.
A pesar de su éxito académico, EfficientDet se basa en cuadros de anclaje y pasos de posprocesamiento pesados, como la supresión no máxima (NMS), que pueden introducir variabilidad en la latencia y complicar la implementación en hardware periférico.
RTDETRv2: Transformadores en tiempo real
RTDETRv2 (Real-Time Detection Transformer v2) se basa en el éxito del RT-DETR original y tiene como objetivo resolver el alto coste computacional asociado a los modelos basados en DETR, al tiempo que mantiene su precisión superior y su conciencia del contexto global.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organización:Baidu
- Fecha: 17 de abril de 2023 (original), actualizado en 2024.
- Arxiv:RT-DETRv2: Línea base mejorada con Bag-of-Freebies
Arquitectura y Características Clave
RTDETRv2 emplea un codificador híbrido que procesa características multiescala de manera más eficiente que los transformadores de visión (ViT) estándar. Su característica definitoria es el diseñoNMS. Al predecir los objetos directamente como un conjunto, elimina la necesidad de un posprocesamiento heurístico, lo que en teoría estabiliza la velocidad de inferencia.
Sin embargo, los modelos basados en transformadores son conocidos por consumir mucha memoria. El entrenamiento de RTDETRv2 suele requerir una cantidad significativa GPU , lo que a menudo exige hardware de gama alta como NVIDIA para una convergencia eficiente, a diferencia de YOLO basados en CNN, que son más tolerantes con el hardware de consumo.
La Ventaja de Ultralytics: Presentamos YOLO26
Si bien EfficientDet y RTDETRv2 representan hitos importantes, Ultralytics (lanzado en enero de 2026) establece un nuevo estándar al integrar las fortalezas de ambas arquitecturas en un marco unificado y de alto rendimiento.
YOLO26 está diseñado para desarrolladores que necesitan la precisión de un transformador y la velocidad de una CNN ligera.
- Diseño integral NMS: al igual que RTDETRv2, YOLO26 es integral de forma nativa. Elimina NMS , lo que garantiza una latencia determinista, fundamental para aplicaciones críticas para la seguridad, como los vehículos autónomos.
- Optimizador MuSGD: Inspirado en las innovaciones en el entrenamiento de modelos de lenguaje grandes (LLM) de Moonshot AI, YOLO26 utiliza el optimizador MuSGD. Este híbrido de SGD Muon garantiza una dinámica de entrenamiento estable y una convergencia más rápida, lo que reduce el «ensayo y error» que a menudo se necesita al ajustar los hiperparámetros para los transformadores.
- Eliminación de DFL: al eliminar la pérdida focal de distribución, YOLO26 simplifica el gráfico del modelo. Esta optimización es crucial para exportar modelos a formatos como ONNX CoreML, donde las capas de pérdida complejas pueden causar problemas de compatibilidad en los dispositivos periféricos.
- Equilibrio de rendimiento: YOLO26 ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo hace mucho más adecuado para la implementación en el borde que el EfficientDet-d7, que requiere un gran esfuerzo computacional, o el RTDETRv2, que consume mucha VRAM.
Análisis Técnico en Profundidad
Eficiencia del entrenamiento y memoria
Una diferencia fundamental entre estos modelos es su consumo de recursos durante el entrenamiento.
- EfficientDet: Aunque es eficiente en cuanto a parámetros, el método de escalado compuesto puede dar lugar a redes profundas que son lentas de entrenar. Las complejas conexiones BiFPN también aumentan el coste de acceso a la memoria (MAC), lo que ralentiza el rendimiento.
- RTDETRv2: Los transformadores requieren el cálculo de mapas de atención, que se escalan cuadráticamente con la longitud de la secuencia. Esto da lugar a un elevado uso de VRAM, lo que dificulta el entrenamiento con lotes de gran tamaño en GPU estándar (por ejemplo, RTX 3060/4070).
- YOLO Ultralytics : Modelos como YOLO11 y YOLO26 están optimizados para la eficiencia de la memoria. Permiten tamaños de lotes más grandes en hardware de consumo, democratizando el acceso a la IA de alto rendimiento. Además, la Ultralytics (antes HUB) agiliza aún más este proceso, ofreciendo formación gestionada en la nube que maneja automáticamente las complejidades de la infraestructura.
Versatilidad y ecosistema
EfficientDet es principalmente una arquitectura dedicada exclusivamente a la detección. Por el contrario, el Ultralytics admite una amplia gama de tareas dentro de una única base de código.
Capacidades multitarea
Ultralytics no se limitan a los cuadros delimitadores. La misma API le permite entrenar modelos para segmentación de instancias, estimación de la posturay detección de objetos orientados (OBB), lo que proporciona un conjunto de herramientas flexible para diversos retos de visión artificial.
YOLO26 incluye específicamente mejoras específicas para cada tarea, como ProgLoss y STAL (Soft Target Assignment Loss), que proporcionan notables mejoras en el reconocimiento de objetos pequeños, una debilidad tradicional de las CNN y los transformadores anteriores.
Casos de uso en el mundo real
Cuándo usar RTDETRv2
RTDETRv2 destaca en entornos donde los recursos de hardware son abundantes y el contexto global es primordial.
- Comprensión de escenas complejas: en escenas con alta oclusión o desorden, el mecanismo de atención global puede track entre objetos distantes mejor que las convoluciones locales.
- GPU de gama alta: si la implementación se realiza estrictamente en GPU de clase servidor (por ejemplo, T4, A10), RTDETRv2 ofrece una precisión competitiva.
Cuándo usar EfficientDet
EfficientDet se considera en gran medida una arquitectura heredada, pero sigue siendo relevante en nichos específicos.
- Google heredados Google : para los equipos profundamente integrados en los antiguos procesos TensorFlow, mantener EfficientDet podría ser menos disruptivo que migrar los marcos de trabajo.
- Bases de referencia para la investigación: sigue siendo una base de referencia estándar para comparar la eficiencia de las redes de fusión de características.
La mejor opción: YOLO26
Para la gran mayoría de las aplicaciones modernas, YOLO26 es la opción recomendada debido a su versatilidad y facilidad de implementación.
- Computación periférica: gracias a la eliminación de DFL y CPU , YOLO26 es ideal para dispositivos IoT y aplicaciones móviles en los que la duración de la batería y las restricciones térmicas son importantes.
- Robótica: El diseño NMS garantiza que los bucles de control del robot reciban datos de percepción a una velocidad constante y predecible.
- Imágenes aéreas: la función ProgLoss mejora la detección de objetos pequeños, como vehículos o ganado, en las imágenes tomadas con drones, superando a las referencias estándar de EfficientDet.
Conclusión
Si bien EfficientDet allanó el camino para una escalabilidad eficiente y RTDETRv2 demostró la potencia de los transformadores en tiempo real, el panorama ha evolucionado. YOLO26 encapsula la próxima generación de visión artificial: nativamente integral, altamente optimizada para hardware diverso y respaldada por el robusto Ultralytics .
Para los desarrolladores que buscan optimizar sus procesos de aprendizaje automático, la transición a Ultralytics ofrece no solo mejoras en el rendimiento, sino también un flujo de trabajo simplificado, desde la anotación en la Ultralytics hasta la implementación en el borde.
Lecturas adicionales
- Explora la documentaciónUltralytics para obtener detalles sobre la implementación.
- Lea sobre métricas de rendimiento como mAP IoU.
- Consulte la Guía de exportación de modelos para implementar en TensorRT OpenVINO.