Ir al contenido

YOLOv5 vs. EfficientDet: Un análisis comparativo detallado

Esta página proporciona una comparación técnica exhaustiva entre dos modelos influyentes de detección de objetos: Ultralytics YOLOv5 y EfficientDet de Google. Si bien ambos modelos están diseñados para un alto rendimiento, se originan a partir de diferentes filosofías de investigación y diseños arquitectónicos. Profundizaremos en sus diferencias clave en arquitectura, métricas de rendimiento y casos de uso ideales para ayudarte a elegir el mejor modelo para tus proyectos de visión artificial.

Ultralytics YOLOv5: El Modelo Versátil y Ampliamente Adoptado

Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentación: https://docs.ultralytics.com/models/yolov5/

Ultralytics YOLOv5 es un detector de objetos de una sola etapa que rápidamente se convirtió en un estándar de la industria debido a su excepcional equilibrio de velocidad, precisión y facilidad de uso. Construido completamente en PyTorch, su arquitectura presenta un backbone CSPDarknet53, un cuello de botella PANet para la agregación efectiva de características y un eficiente encabezado de detección basado en anclajes. YOLOv5 es altamente escalable, ofreciendo una gama de modelos desde nano (n) hasta extra-grande (x), lo que permite a los desarrolladores seleccionar la compensación perfecta para sus necesidades específicas de computación y rendimiento.

Fortalezas

  • Velocidad excepcional: YOLOv5 está altamente optimizado para una inferencia rápida, lo que lo convierte en una opción ideal para aplicaciones en tiempo real donde la baja latencia es crítica, como en la videovigilancia.
  • Facilidad de uso: Una gran ventaja es su experiencia de usuario optimizada. Con una API de Python y una CLI sencillas, una extensa documentación y flujos de trabajo de entrenamiento directos, YOLOv5 reduce significativamente la barrera de entrada para la detección de objetos personalizada.
  • Ecosistema bien mantenido: YOLOv5 cuenta con el respaldo del robusto ecosistema de Ultralytics, que incluye un desarrollo activo, una comunidad grande y útil, actualizaciones frecuentes y herramientas potentes como Ultralytics HUB para la gestión y el entrenamiento de modelos sin código.
  • Eficiencia en el entrenamiento: El modelo está diseñado para un entrenamiento eficiente, beneficiándose de pesos pre-entrenados disponibles en conjuntos de datos como COCO y tiempos de convergencia más rápidos. También tiene menores requisitos de memoria durante el entrenamiento y la inferencia en comparación con arquitecturas más complejas como los Transformers.
  • Versatilidad: Más allá de la detección de objetos, YOLOv5 admite tareas como la segmentación de instancias y la clasificación de imágenes, proporcionando una solución flexible dentro de un único marco de trabajo.

Debilidades

  • Si bien son muy precisos, los modelos EfficientDet más grandes a veces pueden lograr puntuaciones mAP más altas en evaluaciones comparativas académicas, particularmente al detectar objetos muy pequeños.
  • Su dependencia de anchor boxes predefinidas puede requerir ajustes para conjuntos de datos con formas y tamaños de objetos no convencionales para lograr un rendimiento óptimo.

Casos de Uso Ideales

Más información sobre YOLOv5

EfficientDet: Arquitectura Escalable y Eficiente

Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización: Google
Fecha: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Documentación: https://github.com/google/automl/tree/master/efficientdet#readme

EfficientDet, desarrollado por el equipo de Google Brain, introdujo una familia de detectores de objetos escalables y eficientes. Sus innovaciones principales incluyen el uso del EfficientNet de alta eficiencia como backbone, una novedosa Red Piramidal de Características Bidireccional (BiFPN) para la fusión rápida de características a multi-escala y un método de escalado compuesto. Este método escala uniformemente la profundidad, el ancho y la resolución del modelo, lo que le permite crear una gama de modelos (D0-D7) optimizados para diferentes presupuestos computacionales.

Fortalezas

  • Alta Precisión y Eficiencia: Los modelos EfficientDet son conocidos por alcanzar una precisión de última generación con menos parámetros y FLOPs en comparación con otros modelos en el momento de su lanzamiento.
  • Escalabilidad: El enfoque de escalado compuesto proporciona una ruta clara para escalar el modelo hacia arriba o hacia abajo, haciéndolo adaptable a diversas limitaciones de hardware, desde dispositivos móviles hasta servidores en la nube.
  • Fusión de Características Efectiva: El BiFPN permite una fusión de características más rica al incorporar conexiones ponderadas y bidireccionales, lo que contribuye a su alta precisión.

Debilidades

  • Velocidad de Inferencia Más Lenta: A pesar de su eficiencia de parámetros, EfficientDet es generalmente más lento que YOLOv5, especialmente en escenarios de implementación del mundo real. Esto lo hace menos adecuado para aplicaciones que requieren rendimiento en tiempo real.
  • Complejidad: La arquitectura, particularmente la BiFPN, es más compleja que el diseño sencillo de YOLOv5. Esto puede hacer que sea más difícil para los desarrolladores entender, personalizar y depurar.
  • Ecosistema menos integrado: Aunque cuenta con el respaldo de Google, el repositorio de código abierto no se mantiene ni es tan fácil de usar como el ecosistema de Ultralytics. Carece de la extensa documentación, los tutoriales y las herramientas integradas que simplifican el ciclo de vida de MLOps.

Casos de Uso Ideales

  • Análisis offline de imágenes de alta resolución donde la máxima precisión es primordial.
  • Análisis de imágenes médicas para detectar anomalías sutiles.
  • Control de calidad de alta precisión en la fabricación, donde la inferencia puede realizarse en lotes.
  • Investigación académica y evaluación comparativa donde la precisión es la métrica principal.

Más información sobre EfficientDet

Rendimiento y benchmarks: Un análisis comparativo directo

La elección entre YOLOv5 y EfficientDet a menudo se reduce al equilibrio entre velocidad y precisión. La siguiente tabla y análisis proporcionan una comparación clara de su rendimiento en el conjunto de datos COCO val2017.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0

La tabla ilustra claramente las diferentes prioridades de diseño de los dos modelos. Los modelos EfficientDet, particularmente las variantes más grandes como D7, alcanzan la puntuación mAP más alta de 53.7. También demuestran una alta eficiencia en términos de coste computacional, siendo EfficientDet-d0 el que tiene menos FLOPs. Sin embargo, cuando se trata de la implementación para aplicaciones en tiempo real, la velocidad de inferencia es primordial. Aquí, Ultralytics YOLOv5 muestra una ventaja decisiva, especialmente en hardware de GPU. El modelo YOLOv5n alcanza un tiempo de inferencia increíblemente rápido de 1.12 ms en una GPU T4 con TensorRT, lo que lo hace más de 3 veces más rápido que el modelo EfficientDet más ligero. Además, los modelos YOLOv5 son extremadamente ligeros, con YOLOv5n con solo 2.6M parámetros, lo que lo hace ideal para la implementación en dispositivos edge con recursos limitados. Este equilibrio de rendimiento de velocidad, precisión y tamaño de modelo pequeño hace que YOLOv5 sea una opción muy práctica para una amplia gama de entornos de producción.

Conclusión: ¿Qué modelo debería elegir?

Tanto EfficientDet como Ultralytics YOLOv5 son modelos de detección de objetos potentes, pero responden a diferentes prioridades. EfficientDet destaca cuando el objetivo principal es la máxima precisión y la latencia de inferencia es menos preocupante. Su arquitectura escalable lo convierte en un firme candidato para pruebas comparativas académicas y tareas de procesamiento fuera de línea.

Sin embargo, para la gran mayoría de las aplicaciones del mundo real, Ultralytics YOLOv5 destaca como la opción superior. Su excepcional equilibrio entre velocidad y precisión la hace ideal para los sistemas en tiempo real. Las principales ventajas de YOLOv5 residen en su facilidad de uso, su ecosistema completo y bien mantenido y su notable eficiencia de entrenamiento. Los desarrolladores pueden empezar rápidamente, entrenar modelos personalizados con un mínimo esfuerzo e implementarlos en una amplia gama de hardware. La comunidad activa y las herramientas como Ultralytics HUB proporcionan un soporte sin igual, lo que la convierte en un marco de trabajo muy práctico y fácil de usar para los desarrolladores.

Para aquellos que buscan aprovechar los últimos avances, también vale la pena explorar los modelos más nuevos en el ecosistema de Ultralytics, como el altamente versátil YOLOv8 o el YOLO11 de última generación, que se basan en la sólida base de YOLOv5 para ofrecer un rendimiento aún mejor y más características. Para obtener más comparaciones, visite la página de comparación de modelos de Ultralytics.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios