Ir al contenido

EfficientDet vs YOLOv5: Una comparación técnica detallada

Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la necesidad de precisión, velocidad y recursos computacionales. Esta página ofrece una comparación técnica exhaustiva entre EfficientDet, una familia de modelos de Google conocida por su escalabilidad y precisión, y Ultralytics YOLOv5, un modelo ampliamente adoptado y celebrado por su excepcional velocidad y facilidad de uso. Profundizaremos en sus diferencias arquitectónicas, puntos de referencia de rendimiento y casos de uso ideales para ayudarle a seleccionar el mejor modelo para su proyecto de visión artificial.

EfficientDet: Arquitectura Escalable y Eficiente

EfficientDet fue introducido por el equipo de Google Brain como una nueva familia de detectores de objetos escalables y eficientes. Su principal innovación radica en una arquitectura cuidadosamente diseñada que optimiza tanto la precisión como la eficiencia a través del escalado compuesto.

Detalles técnicos

Arquitectura y Características Clave

La arquitectura de EfficientDet se basa en tres componentes clave:

  • EfficientNet Backbone: Utiliza el EfficientNet, de gran eficiencia, como su backbone para la extracción de características, que ya está optimizado para una excelente relación precisión-cálculo.
  • BiFPN (Red Piramidal de Características Bidireccional): Para la fusión de características, EfficientDet introduce BiFPN, que permite una fusión de características multiescala simple y rápida. A diferencia de las FPN tradicionales, BiFPN tiene conexiones bidireccionales y utiliza la fusión de características ponderadas para aprender la importancia de las diferentes características de entrada.
  • Escalado Compuesto: Un novedoso método de escalado que escala uniformemente la profundidad, el ancho y la resolución para la red troncal, la red de características y las redes de predicción de cuadros/clases. Esto permite la creación de una familia de modelos (de D0 a D7) que se adaptan a diferentes restricciones de recursos, manteniendo la coherencia arquitectónica.

Fortalezas y Debilidades

Ventajas:

  • Alta precisión: Los modelos EfficientDet más grandes (por ejemplo, D5-D7) pueden alcanzar puntuaciones mAP de última generación, a menudo superando a otros modelos en pruebas comparativas de precisión pura.
  • Eficiencia de parámetros: Para un nivel de precisión dado, los modelos EfficientDet son a menudo más eficientes en términos de parámetros y FLOP que las arquitecturas más antiguas como Mask R-CNN.
  • Escalabilidad: El método de escalado compuesto proporciona una ruta clara para escalar el modelo hacia arriba o hacia abajo en función del hardware de destino y los requisitos de rendimiento.

Debilidades:

  • Velocidad de Inferencia: Si bien EfficientDet es eficiente por su precisión, generalmente es más lento que los detectores de una sola etapa como YOLOv5, especialmente en GPU. Esto puede hacer que sea menos adecuado para aplicaciones de inferencia en tiempo real.
  • Complejidad: La BiFPN y el escalado compuesto introducen un mayor nivel de complejidad arquitectónica en comparación con el diseño más sencillo de YOLOv5.

Casos de Uso Ideales

EfficientDet es una excelente opción para aplicaciones donde lograr la mayor precisión posible es el objetivo principal y la latencia es una preocupación secundaria:

  • Análisis de imágenes médicas: Detección de anomalías sutiles en escaneos médicos donde la precisión es primordial.
  • Imágenes de Satélite: Análisis de alta resolución para aplicaciones como la agricultura o la monitorización ambiental.
  • Procesamiento por lotes sin conexión: Analizar grandes conjuntos de datos de imágenes o vídeos donde el procesamiento no necesita realizarse en tiempo real.

Más información sobre EfficientDet

Ultralytics YOLOv5: El Modelo Versátil y Ampliamente Adoptado

Ultralytics YOLOv5 se ha convertido en un estándar de la industria, reconocido por su increíble equilibrio de velocidad, precisión y facilidad de uso sin igual. Desarrollado en PyTorch, ha sido un modelo de referencia para desarrolladores e investigadores que buscan una solución práctica y de alto rendimiento.

Detalles técnicos

Fortalezas y Debilidades

Ventajas:

  • Velocidad excepcional: YOLOv5 es excepcionalmente rápido, lo que permite la detección de objetos en tiempo real, crucial para aplicaciones como los sistemas de alarma de seguridad.
  • Facilidad de uso: Ofrece un flujo de trabajo sencillo de entrenamiento e implementación, respaldado por una excelente documentación de Ultralytics y una experiencia de usuario optimizada a través de interfaces sencillas de Python y CLI.
  • Ecosistema bien mantenido: YOLOv5 se beneficia de un desarrollo activo, una gran comunidad, actualizaciones frecuentes y amplios recursos como tutoriales e integraciones con herramientas como Ultralytics HUB para un entrenamiento sin código.
  • Equilibrio de rendimiento: El modelo logra una sólida relación entre velocidad de inferencia y precisión de detección, lo que lo hace adecuado para una amplia gama de escenarios del mundo real.
  • Eficiencia en el entrenamiento: YOLOv5 presenta un proceso de entrenamiento eficiente con pesos pre-entrenados disponibles y, por lo general, requiere menos memoria para el entrenamiento y la inferencia en comparación con arquitecturas más complejas.
  • Versatilidad: Más allá de la detección de objetos, YOLOv5 también admite tareas de segmentación de instancias y clasificación de imágenes.

Debilidades:

  • Precisión: Aunque es muy preciso, YOLOv5 no siempre alcanza el mAP absoluto más alto en comparación con los modelos EfficientDet más grandes, especialmente para detectar objetos muy pequeños.
  • Detección Basada en Anclas: Se basa en cuadros de anclaje predefinidos, lo que podría requerir un ajuste para un rendimiento óptimo en conjuntos de datos con relaciones de aspecto de objeto inusuales.

Casos de Uso Ideales

YOLOv5 es la opción preferida para aplicaciones donde la velocidad, la eficiencia y la facilidad de implementación son primordiales:

  • Videovigilancia en tiempo real: Detección rápida de objetos en transmisiones de video en directo.
  • Sistemas autónomos: Percepción de baja latencia para robótica y vehículos autónomos.
  • Edge Computing: Implementación en dispositivos con recursos limitados como Raspberry Pi y NVIDIA Jetson debido a la eficiencia del modelo.
  • Aplicaciones móviles: Los tiempos de inferencia rápidos y los tamaños de modelo más pequeños se adaptan a las plataformas móviles.

Más información sobre YOLOv5

Análisis de rendimiento: Precisión vs. Velocidad

La principal contrapartida entre EfficientDet y YOLOv5 radica en la precisión frente a la velocidad. La tabla siguiente muestra que, si bien los modelos EfficientDet más grandes pueden alcanzar puntuaciones mAP más altas, lo hacen con una latencia significativamente mayor. En cambio, los modelos YOLOv5 ofrecen velocidades de inferencia mucho más rápidas, especialmente en GPU (T4 TensorRT), lo que los hace ideales para aplicaciones en tiempo real. Por ejemplo, YOLOv5l alcanza un mAP competitivo de 49.0 con una latencia de solo 6.61 ms, mientras que el EfficientDet-d4, con una precisión similar, es más de 5 veces más lento, con 33.55 ms.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Conclusión: ¿Qué modelo debería elegir?

Tanto EfficientDet como Ultralytics YOLOv5 son modelos de detección de objetos potentes, pero responden a diferentes prioridades. EfficientDet destaca cuando el objetivo principal es la máxima precisión, potencialmente a costa de la velocidad de inferencia.

Ultralytics YOLOv5, sin embargo, destaca por su excepcional equilibrio entre velocidad y precisión, lo que lo hace ideal para la gran mayoría de las aplicaciones del mundo real. Su facilidad de uso, su ecosistema completo y bien mantenido (incluido Ultralytics HUB), su entrenamiento eficiente y su escalabilidad lo convierten en una opción muy práctica y fácil de usar para los desarrolladores. Para los proyectos que requieren una implementación rápida, un rendimiento en tiempo real y un sólido apoyo de la comunidad, YOLOv5 suele ser la mejor opción.

Los usuarios interesados en explorar modelos más nuevos con avances adicionales también podrían considerar Ultralytics YOLOv8 o el último YOLO11, que se basan en las fortalezas de YOLOv5 con precisión mejorada y nuevas características. Para obtener más comparaciones, visite la página de comparación de modelos de Ultralytics.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios