Ir al contenido

EfficientDet vs. YOLOv9: Una comparación técnica

Elegir el modelo de detección de objetos óptimo es fundamental para las tareas de visión artificial, ya que equilibra la precisión, la velocidad y los recursos computacionales. Esta página proporciona una comparación técnica detallada entre EfficientDet de Google y Ultralytics YOLOv9, dos modelos importantes en el panorama de la detección de objetos. Profundizaremos en sus diseños arquitectónicos, puntos de referencia de rendimiento y aplicaciones adecuadas para ayudarle a tomar una decisión informada para sus proyectos.

EfficientDet: Arquitectura Escalable y Eficiente

EfficientDet fue introducido en 2019 por investigadores de Google Research y rápidamente se convirtió en un punto de referencia para la detección eficiente de objetos. Propuso una familia de modelos que podían escalar desde versiones ligeras, compatibles con el borde, hasta versiones basadas en la nube, altamente precisas, utilizando un método sistemático de escalado compuesto.

Arquitectura y Características Clave

La arquitectura de EfficientDet se basa en tres componentes clave:

  • EfficientNet Backbone: Utiliza el EfficientNet, de gran eficiencia, como su backbone para la extracción de características, que fue diseñado utilizando una búsqueda de arquitectura neuronal (NAS) para optimizar tanto la precisión como las operaciones FLOPs.
  • BiFPN (Red Piramidal de Características Bidireccional): En lugar de una FPN tradicional, EfficientDet utiliza BiFPN, que permite una fusión de características multiescala más rica con conexiones ponderadas, mejorando la precisión con una sobrecarga computacional mínima.
  • Escalado Compuesto: Un método novedoso que escala uniformemente la profundidad, el ancho y la resolución de la red troncal, la red de características y el encabezado de detección. Esto permite la creación de una familia de modelos (D0 a D7) que se adaptan a diferentes restricciones de recursos.

Fortalezas

  • Escalabilidad: La principal fortaleza de EfficientDet es su familia de modelos, que proporciona una amplia gama de opciones para diferentes objetivos de implementación, desde dispositivos móviles hasta centros de datos.
  • Eficiencia pionera: En el momento de su lanzamiento, estableció un nuevo estándar de eficiencia, logrando una alta precisión con menos parámetros y FLOPs que los modelos de la competencia.

Debilidades

  • Antigüedad y Rendimiento: Si bien es fundamental, la arquitectura es de 2019. Los modelos más nuevos como YOLOv9 la han superado tanto en velocidad como en precisión, especialmente en hardware moderno como las GPU.
  • Velocidad de inferencia: Los modelos EfficientDet más grandes pueden ser lentos, particularmente en comparación con las velocidades de inferencia altamente optimizadas de los modelos YOLO.
  • Especificidad de la tarea: EfficientDet está diseñado puramente para la detección de objetos, careciendo de la versatilidad incorporada para otras tareas como la segmentación de instancias o la estimación de pose que se encuentran en los marcos modernos.
  • Ecosistema: El repositorio oficial está menos enfocado en la experiencia del usuario y no se mantiene ni se apoya tan activamente como el completo ecosistema de Ultralytics.

Casos de uso

EfficientDet sigue siendo una opción viable para:

  • Aplicaciones donde un punto de equilibrio específico ofrecido por una de sus variantes escaladas (D0-D7) encaja perfectamente.
  • Proyectos que requieren implementación en CPUs, donde sus modelos más pequeños muestran un rendimiento competitivo.
  • Sistemas heredados donde el modelo ya está integrado y funciona adecuadamente.

Más información sobre EfficientDet

YOLOv9: Precisión y eficiencia de última generación

Ultralytics YOLOv9, introducido en 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao, representa un avance significativo en la detección de objetos en tiempo real. Aborda el desafío de la pérdida de información en redes profundas a través de elementos arquitectónicos innovadores, estableciendo nuevos puntos de referencia de última generación.

Arquitectura y Características Clave

El rendimiento superior de YOLOv9 proviene de dos innovaciones principales:

  • Información de Gradiente Programable (PGI): Este concepto está diseñado para abordar el problema del cuello de botella de la información en las redes neuronales profundas. PGI genera gradientes fiables para asegurar que el modelo pueda aprender información completa, lo que lleva a representaciones de características más precisas.
  • Red Generalizada de Agregación de Capas Eficiente (GELAN): YOLOv9 introduce GELAN, una arquitectura novedosa y altamente eficiente que se basa en los principios de CSPNet y ELAN. Optimiza la utilización de parámetros y la eficiencia computacional, lo que permite que el modelo logre una mayor precisión con menos recursos.

Fortalezas

  • Precisión de última generación: YOLOv9 logra una precisión superior en la detección de objetos, superando a competidores como EfficientDet con un número de parámetros similar o inferior, como se detalla en su artículo "YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable".
  • Balance Excepcional de Rendimiento: Ofrece un equilibrio sobresaliente entre precisión, velocidad de inferencia y tamaño del modelo, lo que lo hace adecuado para una amplia gama de aplicaciones, desde edge AI hasta servidores en la nube de alto rendimiento.
  • Facilidad de uso: Cuando se utiliza dentro del framework de Ultralytics, YOLOv9 se beneficia de una experiencia de usuario optimizada, una sencilla API de Python y una extensa documentación.
  • Ecosistema bien mantenido: El ecosistema de Ultralytics proporciona desarrollo activo, una comunidad grande y de apoyo, actualizaciones frecuentes e integración con herramientas como Ultralytics HUB para el entrenamiento sin código y MLOps.
  • Eficiencia en el entrenamiento: Los modelos YOLO suelen tener menores requisitos de memoria durante el entrenamiento en comparación con otras arquitecturas. El framework ofrece procesos de entrenamiento eficientes y pesos pre-entrenados disponibles.
  • Versatilidad: Si bien el artículo original se centra en la detección, la arquitectura GELAN subyacente es versátil. El repositorio original insinúa soporte para tareas como la segmentación de instancias y la segmentación panóptica, lo que se alinea con las capacidades multi-tarea de otros modelos de Ultralytics como YOLOv8.

Debilidades

  • Novedad: Al ser un modelo más reciente, los ejemplos de implementación en el mundo real podrían ser menos numerosos que para los modelos más antiguos y establecidos como EfficientDet, aunque la adopción dentro de la comunidad de Ultralytics es rápida.
  • Recursos de entrenamiento: Si bien es computacionalmente eficiente para su nivel de rendimiento, el entrenamiento de las variantes más grandes de YOLOv9 (por ejemplo, YOLOv9-E) aún puede requerir importantes recursos computacionales.

Casos de uso

YOLOv9 es particularmente adecuado para aplicaciones donde la precisión y la eficiencia son primordiales, como:

Más información sobre YOLOv9

Análisis de rendimiento: YOLOv9 vs. EfficientDet

La siguiente tabla proporciona una comparación directa de las métricas de rendimiento para varios tamaños de modelos de EfficientDet y YOLOv9, evaluados en el conjunto de datos COCO.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

De los datos, emergen varias ideas clave:

  • Precisión y eficiencia: YOLOv9 ofrece consistentemente una mejor compensación. Por ejemplo, YOLOv9-C alcanza un mAP más alto (53,0) que EfficientDet-D6 (52,6) con aproximadamente la mitad de los parámetros y FLOPs.
  • Velocidad de inferencia: En una GPU moderna con optimización TensorRT, los modelos YOLOv9 son significativamente más rápidos. YOLOv9-E es más de 7 veces más rápido que EfficientDet-D7 y, al mismo tiempo, es más preciso. Incluso el modelo YOLOv9t más pequeño es mucho más rápido que el EfficientDet-d0 más pequeño.
  • Uso de recursos: Los modelos YOLOv9 son más eficientes en cuanto a parámetros. YOLOv9-S (7,1 millones de parámetros) supera la precisión de EfficientDet-D3 (12,0 millones de parámetros). Esta eficiencia es crucial para la implementación en dispositivos con recursos limitados.

Conclusión y recomendaciones

Si bien EfficientDet fue un modelo innovador que superó los límites de la eficiencia, el campo de la visión artificial ha avanzado rápidamente. Para los nuevos proyectos que comienzan hoy, YOLOv9 es la opción clara. Ofrece una precisión de última generación, una velocidad de inferencia superior en hardware moderno y una mayor eficiencia computacional.

La integración de YOLOv9 en el ecosistema de Ultralytics consolida aún más su ventaja, proporcionando a los desarrolladores un marco de trabajo fácil de usar, bien soportado y versátil que acelera todo el flujo de trabajo desde el entrenamiento hasta la implementación. EfficientDet sigue siendo un modelo históricamente importante y puede ser adecuado para el mantenimiento de sistemas heredados, pero para las nuevas aplicaciones de alto rendimiento, YOLOv9 ofrece una ventaja decisiva.

Explorar Otros Modelos

Si está explorando diferentes modelos de última generación, asegúrese de consultar nuestras otras páginas de comparación:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios