EfficientDet frente a YOLOv7: evolución de la detección de objetos en tiempo real
El panorama de la visión artificial se ha visto marcado por un esfuerzo continuo por equilibrar la precisión con la eficiencia computacional. Dos filosofías distintas en esta evolución están representadas por EfficientDet, una familia de modelos centrados en la eficiencia escalable, y YOLOv7, que priorizó la velocidad de inferencia en tiempo real mediante la optimización arquitectónica.
Esta comparación analiza las especificaciones técnicas, las diferencias arquitectónicas y los parámetros de rendimiento de estos dos influyentes modelos, al tiempo que destaca por qué soluciones modernas como YOLO26 se han convertido en el nuevo estándar para los desarrolladores.
EfficientDet: Eficiencia Escalable
Lanzado a finales de 2019, EfficientDet se diseñó para solucionar las ineficiencias de los detectores anteriores, en los que el escalado solía realizarse de forma manual o no uniforme. Introdujo un método sistemático para escalar simultáneamente la resolución, la profundidad y la anchura.
Descripción técnica general
- Autores: Mingxing Tan, Ruoming Pang, y Quoc V. Le
- Organización:Google Research
- Fecha: 2019-11-20
- Enlaces:Artículo de arXiv | Repositorio de GitHub
Arquitectura y Características Clave
EfficientDet utiliza una estructura EfficientNet junto con una red piramidal bidireccional ponderada (BiFPN). La BiFPN permite una fusión de características multiescala fácil y rápida, corrigiendo el desequilibrio en el que las diferentes características de entrada contribuyen de forma desigual a la salida.
El modelo emplea Compound Scaling, que utiliza un coeficiente simple para ampliar la red troncal, BiFPN, la red de clases/cajas y la resolución. Si bien este enfoque ofrece una alta precisión para un número determinado de parámetros (FLOP), las complejas interconexiones en las capas BiFPN pueden dar lugar a una mayor latencia de inferencia en hardware que no está específicamente optimizado para patrones de acceso a la memoria tan irregulares.
YOLOv7: la potencia del "Bag-of-Freebies"
Lanzado en julio de 2022, YOLOv7 un importante avance en la familia YOLO You Only Look Once). A diferencia de EfficientDet, que se centra en la eficiencia de los parámetros, YOLOv7 en la velocidad de inferencia, ampliando los límites de lo que era posible en la detección de objetos en tiempo real en GPU estándar.
Descripción técnica general
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2022-07-06
- Enlaces:Artículo de arXiv | Repositorio de GitHub
Arquitectura y Características Clave
YOLOv7 la Red de Agregación de Capas Eficiente Extendida (E-ELAN). Esta arquitectura controla las rutas de gradiente más cortas y más largas para permitir que la red aprenda características más diversas sin destruir la ruta de gradiente original.
Un concepto fundamental de YOLOv7 el «trainable bag-of-freebies» (bolsa de regalos entrenable), métodos de optimización que mejoran la precisión durante el entrenamiento sin aumentar el coste de inferencia. Esto incluye técnicas como la reparametrización de modelos, en la que una estructura de entrenamiento compleja se simplifica en un conjunto optimizado de convoluciones para su implementación. Esto garantiza que, aunque el proceso de entrenamiento sea robusto, el modelo final implementado sea excepcionalmente rápido.
Comparación de rendimiento
La siguiente tabla compara el rendimiento de varios YOLOv7 EfficientDet y YOLOv7 . Aunque los modelos EfficientDet (d0-d7) muestran una buena eficiencia de parámetros, su latencia en hardware estándar es significativamente mayor que la de YOLOv7 , que están optimizadas para GPU de alta velocidad GPU .
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Análisis de métricas
Los datos ponen de relieve una distinción fundamental: latencia frente a FLOP. Aunque EfficientDet-d7 alcanza un elevado mAP del 53,7 %, lo hace con una latencia superior a 128 ms en una GPU T4. Por el contrario, YOLOv7x alcanza un mAP comparable del 53,1 %, pero funciona a solo 11,57 ms, más de 10 veces más rápido. Para aplicaciones del mundo real, como los vehículos autónomos o el análisis de vídeo, esta ventaja en cuanto a velocidad suele ser el factor decisivo.
La latencia importa
Aunque los FLOP (operaciones de coma flotante) son una buena métrica teórica para medir la complejidad, no siempre guardan una correlación lineal con la velocidad de inferencia. Arquitecturas como BiFPN pueden tener altos costes de acceso a la memoria que ralentizan el tiempo de ejecución real, mientras que las estructuras CNN directas YOLO están altamente optimizadas para GPU .
La ventaja de Ultralytics: Ecosistema y usabilidad
La elección de un modelo suele depender tanto del ecosistema de software como de las métricas brutas. Aquí es donde el cambio a Ultralytics ofrece ventajas sustanciales con respecto a los repositorios más antiguos.
Experiencia de Usuario Optimizada
EfficientDet se basa en TensorFlow más antiguas que pueden resultar difíciles de integrar en PyTorch . Por el contrario, Ultralytics una Python unificada que trata el entrenamiento, la validación y la implementación de modelos como tareas sencillas y estandarizadas.
Eficiencia del entrenamiento y memoria
Una ventaja importante deYOLO Ultralytics son sus requisitos de memoria. Gracias a los cargadores de datos optimizados y al diseño arquitectónico eficiente, YOLO suelen consumir menos CUDA durante el entrenamiento en comparación con las redes complejas de múltiples ramificaciones. Esto permite a los desarrolladores utilizar tamaños de lote más grandes, lo que estabiliza el entrenamiento y acelera la convergencia.
from ultralytics import YOLO
# Load a model (YOLOv7 or newer)
model = YOLO("yolov7.pt")
# Train the model with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Versatilidad más allá de la detección
Aunque EfficientDet es principalmente un detector de objetos, el Ultralytics admite una gama más amplia de tareas, entre las que se incluyen la segmentación de instancias, la estimación de poses y los rectángulos delimitadores orientados (OBB). Esta versatilidad permite a los equipos utilizar un único marco para diversos retos de visión artificial.
El nuevo estándar: YOLO26
Aunque YOLOv7 la vanguardia tecnológica en 2022, este campo evoluciona rápidamente. Para los nuevos proyectos, recomendamos YOLO26, lanzado en enero de 2026. Se basa en los puntos fuertes de las generaciones anteriores, al tiempo que introduce cambios arquitectónicos fundamentales.
- Diseño integral NMS: a diferencia de YOLOv7 EfficientDet, que requieren un posprocesamiento de supresión no máxima (NMS), YOLO26 es integral de forma nativa. Esto elimina los cuellos de botella de latencia y simplifica la lógica de implementación, un avance pionero en YOLOv10.
- Optimizador MuSGD: inspirado en Kimi K2 de Moonshot AI, este optimizador combina la estabilidad de SGD la velocidad de Muon, lo que aporta innovaciones en el entrenamiento de LLM a las tareas de visión.
- Rendimiento mejorado en dispositivos periféricos: gracias a la eliminación de la pérdida focal de distribución (DFL) y a optimizaciones específicas, YOLO26 es hasta un 43 % más rápido en CPU, lo que lo hace muy superior a EfficientDet para dispositivos periféricos como Raspberry Pi o teléfonos móviles.
- ProgLoss + STAL: Las nuevas funciones de pérdida mejoran significativamente el reconocimiento de objetos pequeños, solucionando una debilidad común en los detectores de una sola etapa anteriores.
Aplicaciones en el mundo real
Cuándo elegir EfficientDet
EfficientDet sigue siendo relevante para los sistemas heredados profundamente integrados con elTensorFlow o para investigaciones académicas específicas sobre escalado compuesto. Sus variantes más pequeñas (d0-d2) también son útiles cuando el almacenamiento en disco (tamaño del peso del modelo en MB) es la principal limitación, en lugar de la velocidad de ejecución.
Cuándo elegir YOLOv7
YOLOv7 una excelente opción para los procesos de producción existentes que requieren:
- Análisis de vídeo: procesamiento de transmisiones con alta velocidad de fotogramas por segundo (FPS) para obtener información sobre seguridad o comercio minorista.
- Robótica:Integración de la visión artificial en la robótica, donde la baja latencia es fundamental para la navegación.
- Detección general: Escenarios que requieren una arquitectura madura y ampliamente compatible.
Cuándo actualizar a YOLO26
YOLO26 es la opción ideal para prácticamente todas las nuevas implementaciones, ya que ofrece:
- Edge Computing: CPU superiores para IoT y aplicaciones móviles.
- Tareas complejas: compatibilidad nativa con segmentación, pose y OBB.
- Operaciones simplificadas: el diseño NMS elimina uno de los principales quebraderos de cabeza en el posprocesamiento y la exportación, garantizando que lo que se ve durante el entrenamiento es exactamente lo que se obtiene en la implementación.
Para los investigadores y desarrolladores que desean mantenerse a la vanguardia, la transición a la Ultralytics con YOLO26 garantiza el acceso a los últimos avances en estabilidad de entrenamiento, eficiencia de modelos y versatilidad de implementación.