Ir al contenido

EfficientDet vs. DAMO-YOLO: Una comparación técnica

En el panorama de la detección de objetos, los desarrolladores se enfrentan a una amplia gama de modelos, cada uno con puntos fuertes únicos. Esta página proporciona una comparación técnica detallada entre dos arquitecturas influyentes: EfficientDet, desarrollado por Google, y DAMO-YOLO, del Grupo Alibaba. Si bien ambos son potentes detectores de una sola etapa, siguen diferentes filosofías de diseño. EfficientDet prioriza la eficiencia computacional y de parámetros a través de un escalado sistemático, mientras que DAMO-YOLO supera los límites de la relación velocidad-precisión utilizando técnicas modernas como la Búsqueda de Arquitectura Neuronal (NAS).

Esta comparación profundizará en sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a elegir el modelo adecuado para su proyecto de visión artificial.

EfficientDet: Detección de objetos escalable y eficiente

EfficientDet fue presentado por Google Research con el objetivo de crear una familia de detectores de objetos que pudieran escalar eficientemente en diversos presupuestos computacionales. Se basa en la eficiente red troncal EfficientNet e introduce nuevos componentes para la fusión de características multi-escala y el escalado de modelos.

Más información sobre EfficientDet

Detalles técnicos

Arquitectura y Características Clave

  • EfficientNet Backbone: EfficientDet utiliza EfficientNet pre-entrenado como su backbone, que ya está optimizado para un fuerte equilibrio entre precisión y eficiencia.
  • BiFPN (Red Piramidal de Características Bidireccional): En lugar de una FPN estándar, EfficientDet introduce BiFPN, una capa de fusión de características multiescala más eficiente. BiFPN permite un flujo de información fácil y rápido a través de diferentes resoluciones de mapas de características al incorporar la fusión de características ponderadas y las conexiones de arriba hacia abajo y de abajo hacia arriba.
  • Escalado Compuesto: Una innovación central de EfficientDet es su método de escalado compuesto. Escala conjuntamente la profundidad, el ancho y la resolución para la red troncal, la red de características y los encabezados de predicción utilizando un único coeficiente compuesto. Esto garantiza una asignación equilibrada de recursos en todas las partes de la red, lo que genera importantes ganancias de eficiencia.
  • Familia Escalable: El método de escalado compuesto permite la creación de toda una familia de modelos (EfficientDet-D0 a D7), lo que permite a los desarrolladores seleccionar un modelo que se ajuste perfectamente a sus limitaciones de hardware, desde dispositivos móviles hasta potentes servidores en la nube.

Fortalezas

  • Alta eficiencia de parámetros y FLOP: Destaca en escenarios en los que el tamaño del modelo y el coste computacional son limitaciones críticas.
  • Escalabilidad: Ofrece una amplia gama de modelos (D0-D7) que proporcionan una clara compensación entre la precisión y el uso de recursos.
  • Gran precisión: Logra una precisión competitiva, especialmente si se tiene en cuenta su bajo número de parámetros y FLOP.

Debilidades

  • Velocidad de Inferencia Más Lenta: Si bien es eficiente en términos de FLOPs, su latencia de inferencia bruta en GPUs puede ser mayor que la de los modelos más recientes y altamente optimizados como DAMO-YOLO y Ultralytics YOLO.
  • Complejidad: La BiFPN y el escalado compuesto, aunque eficaces, pueden hacer que la arquitectura sea más compleja de entender y modificar en comparación con los diseños YOLO más sencillos.

Casos de Uso Ideales

EfficientDet es ideal para aplicaciones donde las limitaciones de recursos son una preocupación primordial. Su escalabilidad la convierte en una opción versátil para la implementación en diversos hardwares, incluidos los dispositivos edge AI y los sistemas donde minimizar el coste computacional es esencial para la gestión de la energía o la temperatura.

DAMO-YOLO: Una variante de YOLO rápida y precisa

DAMO-YOLO es un detector de objetos de alto rendimiento de Alibaba Group que se basa en la serie YOLO, pero incorpora varias técnicas de vanguardia para lograr un equilibrio entre velocidad y precisión de última generación. Aprovecha la búsqueda de arquitectura neuronal (NAS) para optimizar los componentes clave de la red para hardware específico.

Más información sobre DAMO-YOLO

Detalles técnicos

Arquitectura y Características Clave

  • Backbone Impulsado por NAS: DAMO-YOLO utiliza un backbone generado por Búsqueda de Arquitectura Neuronal (NAS), que encuentra automáticamente una estructura de red óptima, lo que lleva a mejorar las capacidades de extracción de características.
  • Neck RepGFPN Eficiente: Introduce un nuevo diseño de neck llamado RepGFPN, diseñado para ser eficiente en hardware y efectivo en la fusión de características multiescala.
  • ZeroHead: El modelo utiliza un "ZeroHead" simplificado, que es un diseño de encabezado acoplado que reduce la complejidad arquitectónica y la sobrecarga computacional sin sacrificar el rendimiento.
  • Asignación de etiquetas AlignedOTA: DAMO-YOLO emplea AlignedOTA, una estrategia avanzada de asignación dinámica de etiquetas que mejora el entrenamiento al alinear mejor los objetivos de clasificación y regresión.
  • Mejora por Destilación: El proceso de entrenamiento se mejora con la destilación del conocimiento para impulsar aún más el rendimiento de los modelos más pequeños de la familia.

Fortalezas

  • Velocidad de GPU excepcional: Ofrece velocidades de inferencia extremadamente rápidas en hardware de GPU, lo que lo hace ideal para la inferencia en tiempo real.
  • Alta precisión: Alcanza altas puntuaciones de mAP, compitiendo con los mejores modelos de su clase.
  • Diseño moderno: Incorpora varias técnicas avanzadas (NAS, asignación de etiquetas avanzada) que representan la vanguardia de la investigación de detección de objetos.

Debilidades

  • Versatilidad limitada: DAMO-YOLO está especializado en la detección de objetos y carece de soporte nativo para otras tareas como la segmentación de instancias o la estimación de poses.
  • Rendimiento de la CPU: La investigación y el repositorio originales se centran principalmente en el rendimiento de la GPU, con menos énfasis en la optimización de la CPU.
  • Ecosistema y usabilidad: Como modelo centrado en la investigación, puede requerir más esfuerzo de ingeniería para integrarse e implementarse en comparación con frameworks totalmente compatibles como Ultralytics.

Casos de Uso Ideales

DAMO-YOLO es una excelente opción para aplicaciones que exigen alta precisión y muy baja latencia en hardware GPU. Esto incluye la videovigilancia en tiempo real, la robótica y los sistemas autónomos, donde la toma de decisiones rápida es fundamental.

Análisis de rendimiento: Velocidad, precisión y eficiencia

La siguiente tabla proporciona una comparación cuantitativa de los modelos EfficientDet y DAMO-YOLO en el conjunto de datos COCO. Los resultados destacan las diferentes compensaciones que realiza cada modelo.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

De los puntos de referencia, podemos extraer varias conclusiones:

  • Velocidad en GPU: DAMO-YOLO es significativamente más rápido en una GPU T4. Por ejemplo, DAMO-YOLOm alcanza 49.2 mAP con una latencia de solo 5.09 ms, mientras que el EfficientDet-d4 comparable alcanza 49.7 mAP pero con una latencia mucho mayor de 33.55 ms.
  • Eficiencia de parámetros: EfficientDet demuestra una eficiencia superior en parámetros y FLOP. El modelo más pequeño, EfficientDet-d0, utiliza solo 3.9M de parámetros y 2.54B de FLOPs.
  • Rendimiento de la CPU: EfficientDet proporciona puntos de referencia claros de la CPU, lo que la convierte en una opción más predecible para las implementaciones basadas en la CPU. La falta de velocidades oficiales de la CPU para DAMO-YOLO es una laguna notable para los desarrolladores que se dirigen a hardware que no es GPU.

La ventaja de Ultralytics: Rendimiento y usabilidad

Si bien tanto EfficientDet como DAMO-YOLO ofrecen sólidas capacidades, los modelos Ultralytics YOLO como YOLOv8 y el último YOLO11 presentan una solución más holística y fácil de usar para los desarrolladores.

Las principales ventajas de usar modelos Ultralytics incluyen:

  • Facilidad de uso: Una API de python optimizada, extensa documentación y un uso de la CLI directo hacen que empezar, entrenar y desplegar modelos sea increíblemente sencillo.
  • Ecosistema bien mantenido: Ultralytics proporciona un ecosistema robusto con desarrollo activo, un sólido apoyo de la comunidad en GitHub, actualizaciones frecuentes e integración perfecta con Ultralytics HUB para MLOps.
  • Equilibrio de rendimiento: Los modelos de Ultralytics están altamente optimizados para ofrecer un excelente equilibrio entre velocidad y precisión tanto en hardware de CPU como de GPU, lo que los hace adecuados para una amplia gama de escenarios de implementación.
  • Versatilidad: Modelos como YOLOv8 y YOLO11 son multi-tarea, admitiendo detección de objetos, segmentación, clasificación, estimación de pose y cajas delimitadoras orientadas (OBB) dentro de un único marco unificado.
  • Eficiencia en el entrenamiento: Benefíciese de tiempos de entrenamiento rápidos, menores requisitos de memoria y pesos pre-entrenados disponibles.

Conclusión

Tanto EfficientDet como DAMO-YOLO son modelos de detección de objetos convincentes. EfficientDet destaca por su excepcional eficiencia de parámetros y FLOP, ofreciendo una familia escalable de modelos adecuados para diversos perfiles de hardware. DAMO-YOLO sobresale en la entrega de alta precisión a velocidades de inferencia de GPU muy rápidas mediante el aprovechamiento de innovaciones arquitectónicas modernas.

Sin embargo, para los desarrolladores e investigadores que buscan una combinación de alto rendimiento, facilidad de uso y un ecosistema robusto y versátil, los modelos Ultralytics YOLO como YOLOv8 y YOLO11 a menudo presentan la propuesta de valor general más sólida. Su equilibrio de velocidad, precisión, soporte multi-tarea y marco centrado en el desarrollador los convierte en una opción muy recomendable para una amplia gama de aplicaciones del mundo real.

Explore otras comparaciones de modelos

Para obtener más información, explore cómo se comparan estos modelos con otras arquitecturas de última generación:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios