Ir al contenido

EfficientDet vs YOLOv7: Una comparación técnica

Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra las exigencias de precisión, velocidad y coste computacional. Esta página proporciona una comparación técnica detallada entre dos modelos influyentes: EfficientDet, reconocido por su excepcional eficiencia de parámetros, y YOLOv7, un modelo de referencia para la detección de objetos en tiempo real. Al examinar sus arquitecturas, métricas de rendimiento y casos de uso ideales, pretendemos proporcionar la información necesaria para seleccionar el mejor modelo para su proyecto, al tiempo que destacamos las ventajas de alternativas más modernas.

EfficientDet: Escalabilidad y eficiencia

EfficientDet fue introducido por el equipo de Google Brain como una familia de detectores de objetos altamente eficientes y escalables. Su principal innovación radica en la optimización de la arquitectura del modelo y los principios de escalado para lograr un mejor rendimiento con menos parámetros y recursos computacionales (FLOPs).

Arquitectura y Características Clave

El diseño de EfficientDet se basa en tres componentes clave:

  • EfficientNet Backbone: Utiliza el EfficientNet, de gran eficiencia, como su backbone para la extracción de características, que fue diseñado utilizando la búsqueda de arquitectura neuronal (NAS).
  • BiFPN (Red Piramidal de Características Bidireccional): En lugar de una FPN estándar, EfficientDet introduce BiFPN, que permite una fusión de características multiescala más rica con conexiones ponderadas, mejorando la precisión con una sobrecarga mínima.
  • Escalado Compuesto: Un novedoso método de escalado que escala uniformemente la profundidad, el ancho y la resolución de la red troncal, la red de características y el encabezado de predicción utilizando un único coeficiente compuesto. Esto permite que el modelo se escale desde el ligero EfficientDet-D0 hasta el D7 de alta precisión, atendiendo a una amplia gama de presupuestos computacionales.

Fortalezas y Debilidades

Ventajas:

  • Eficiencia excepcional: Ofrece una alta precisión para un número determinado de parámetros y FLOP, lo que lo hace muy rentable tanto para el entrenamiento como para la implementación.
  • Escalabilidad: El método de escalado compuesto proporciona una ruta clara para escalar el modelo hacia arriba o hacia abajo según las limitaciones de hardware, desde dispositivos de IA en el borde hasta potentes servidores en la nube.
  • Sólido Rendimiento en Bancos de Pruebas Estándar: Logró resultados de última generación en el conjunto de datos COCO tras su lanzamiento, lo que demuestra su eficacia.

Debilidades:

  • Velocidad de Inferencia Más Lenta: Si bien es eficiente en FLOPs, su arquitectura puede resultar en una latencia más alta en comparación con los modelos diseñados específicamente para la inferencia en tiempo real, como la familia YOLO.
  • Específico de la tarea: EfficientDet es principalmente un modelo de detección de objetos y carece de la versatilidad nativa multi-tarea que se encuentra en los frameworks modernos.
  • Complejidad: Los conceptos de BiFPN y escalado compuesto, aunque potentes, pueden ser más complejos de implementar desde cero en comparación con arquitecturas más simples.

YOLOv7: Impulsando el rendimiento en tiempo real

YOLOv7, desarrollado por los autores del YOLOv4 original, estableció un nuevo estándar para los detectores de objetos en tiempo real al mejorar significativamente tanto la velocidad como la precisión. Introdujo nuevas técnicas de entrenamiento y optimizaciones arquitectónicas para superar los límites de lo que era posible en hardware de GPU.

Más información sobre YOLOv7

Arquitectura y Características Clave

Los avances de YOLOv7 provienen de varias áreas clave:

  • Reformas Arquitectónicas: Introduce una Red de Agregación de Capas Eficiente Extendida (E-ELAN) para mejorar la capacidad de aprendizaje de la red sin destruir la ruta de gradiente original.
  • Bag-of-Freebies entrenable: Una contribución importante es el uso de estrategias de optimización durante el entrenamiento que mejoran la precisión sin aumentar el coste de la inferencia. Esto incluye técnicas como la convolución re-parametrizada y el entrenamiento guiado de lo grueso a lo fino.
  • Escalado de modelos: YOLOv7 proporciona métodos para escalar modelos basados en concatenación, lo que garantiza que la arquitectura siga siendo óptima a medida que se escala para una mayor precisión.

Fortalezas y Debilidades

Ventajas:

  • Compromiso superior entre velocidad y precisión: En el momento de su lanzamiento, ofrecía el mejor equilibrio entre mAP y velocidad de inferencia entre los detectores en tiempo real.
  • Entrenamiento eficiente: El enfoque de "bag-of-freebies" le permite lograr una alta precisión con ciclos de entrenamiento más eficientes en comparación con los modelos que requieren un entrenamiento más largo o un post-procesamiento más complejo.
  • Rendimiento Comprobado: Es un modelo bien establecido con sólidos resultados en evaluaciones comparativas, lo que lo convierte en una opción confiable para aplicaciones de alto rendimiento.

Debilidades:

  • Uso intensivo de recursos: Los modelos YOLOv7 más grandes requieren importantes recursos de GPU para el entrenamiento.
  • Versatilidad limitada: Si bien existen versiones de la comunidad para otras tareas, el modelo oficial se centra en la detección de objetos. Los frameworks integrados como Ultralytics YOLOv8 ofrecen soporte integrado para segmentación, clasificación y estimación de pose.
  • Complejidad: La combinación de cambios arquitectónicos y técnicas de entrenamiento avanzadas puede ser compleja de entender y personalizar por completo.

Análisis de rendimiento: Eficiencia vs. Velocidad

La principal diferencia entre EfficientDet y YOLOv7 radica en su filosofía de diseño. EfficientDet prioriza la eficiencia computacional (FLOPs) y el recuento de parámetros, mientras que YOLOv7 prioriza la velocidad de inferencia bruta (latencia) en las GPU.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Como muestra la tabla, los modelos EfficientDet más pequeños son extremadamente ligeros en parámetros y FLOPs. Sin embargo, YOLOv7x alcanza un mAP comparable a EfficientDet-d6/d7 con una latencia significativamente menor en una GPU T4, lo que destaca su idoneidad para aplicaciones en tiempo real.

¿Por qué elegir los modelos YOLO de Ultralytics?

Si bien tanto EfficientDet como YOLOv7 son modelos potentes, el campo de la visión artificial ha avanzado rápidamente. Los modelos Ultralytics YOLO más nuevos, como YOLOv8 y YOLO11, ofrecen ventajas sustanciales que los convierten en una opción superior para el desarrollo moderno.

  • Facilidad de uso: Los modelos de Ultralytics están diseñados pensando en el usuario, con una API de Python optimizada, una extensa documentación y sencillos comandos de la CLI que hacen que el entrenamiento, la validación y la implementación sean increíblemente sencillos.
  • Ecosistema bien mantenido: Los usuarios se benefician de un desarrollo activo, una gran comunidad de código abierto, actualizaciones frecuentes y una integración perfecta con herramientas como Ultralytics HUB para un MLOps integral.
  • Equilibrio de rendimiento: Los modelos de Ultralytics proporcionan un excelente equilibrio entre velocidad y precisión, lo que los hace adecuados para una amplia gama de escenarios del mundo real, desde dispositivos en el borde hasta plataformas en la nube.
  • Eficiencia de memoria: Los modelos YOLO de Ultralytics están diseñados para un uso eficiente de la memoria. A menudo, requieren menos memoria CUDA para el entrenamiento que los modelos basados en transformadores e incluso algunas variantes de EfficientDet o YOLOv7, lo que permite el entrenamiento en una gama más amplia de hardware.
  • Versatilidad: Modelos como YOLOv8 y YOLO11 no son solo detectores. Son marcos multi-tarea que admiten segmentación de instancias, clasificación de imágenes, estimación de pose y detección de objetos orientados (OBB) de forma predeterminada.
  • Eficiencia del entrenamiento: Benefíciese de procesos de entrenamiento eficientes, pesos pre-entrenados disponibles en conjuntos de datos como COCO y tiempos de convergencia más rápidos.

Conclusión

EfficientDet destaca en escenarios donde la eficiencia de parámetros y FLOP es primordial, ofreciendo una excelente escalabilidad en diferentes presupuestos de recursos. Es una opción sólida para aplicaciones en dispositivos con recursos limitados o en entornos de nube a gran escala donde el coste computacional es un factor importante. YOLOv7 supera los límites de la detección de objetos en tiempo real, ofreciendo una velocidad y precisión excepcionales, especialmente en hardware de GPU, mediante el aprovechamiento de técnicas de entrenamiento avanzadas.

Sin embargo, para los desarrolladores que buscan un marco moderno, versátil y fácil de usar con un sólido rendimiento, una excelente documentación y un ecosistema completo, los modelos de Ultralytics como YOLOv8 y YOLO11 presentan una opción más atractiva. Ofrecen una solución unificada para una amplia gama de tareas de visión, lo que simplifica la canalización de desarrollo desde la investigación hasta la implementación en producción.

Otras comparaciones de modelos

Para una mayor exploración, considera estas comparaciones que involucran a EfficientDet, YOLOv7 y otros modelos relevantes:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios