Ir al contenido

YOLOv9 vs. EfficientDet: Una Comparación Detallada

Elegir el modelo de detección de objetos óptimo es fundamental para las tareas de visión artificial, ya que equilibra la precisión, la velocidad y los recursos computacionales. Esta página proporciona una comparación técnica detallada entre Ultralytics YOLOv9 y EfficientDet, dos modelos importantes en el panorama de la detección de objetos. Profundizaremos en sus diseños arquitectónicos, puntos de referencia de rendimiento y aplicaciones adecuadas para ayudarle a tomar una decisión informada para sus proyectos.

YOLOv9: Precisión y eficiencia de última generación

YOLOv9, presentado en 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información, Academia Sinica, Taiwán, representa un avance significativo en la serie YOLO. Se detalla en su artículo "YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information" e implementado en su repositorio de GitHub. YOLOv9 aborda el desafío de la pérdida de información en redes profundas a través de elementos arquitectónicos innovadores como la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). Estas innovaciones aseguran que el modelo aprenda de manera efectiva y mantenga una alta precisión con menos parámetros, mostrando un fuerte equilibrio entre rendimiento y eficiencia.

Detalles técnicos:

Fortalezas

  • Precisión de última generación: YOLOv9 logra una precisión superior en la detección de objetos, a menudo superando a sus competidores con un número de parámetros similar.
  • Utilización Eficiente de Parámetros: Las arquitecturas PGI y GELAN mejoran la extracción de características y reducen la pérdida de información, lo que conduce a un mejor rendimiento con menos parámetros y FLOPs.
  • Escalabilidad: La familia YOLOv9 incluye varios tamaños de modelo (YOLOv9t a YOLOv9e), lo que ofrece flexibilidad para diferentes capacidades computacionales.
  • Ecosistema Ultralytics: Si bien la investigación original proviene de Academia Sinica, la integración dentro del framework de Ultralytics proporciona inmensos beneficios. Estos incluyen facilidad de uso a través de una API de Python sencilla, una amplia documentación y procesos de entrenamiento eficiente con pesos pre-entrenados disponibles. El ecosistema bien mantenido garantiza un desarrollo activo, un sólido soporte comunitario y la integración con herramientas como Ultralytics HUB para el entrenamiento sin código.
  • Menor Huella de Memoria: Los modelos YOLO suelen presentar menores requisitos de memoria durante el entrenamiento en comparación con muchas otras arquitecturas, especialmente los modelos basados en transformadores como RT-DETR.

Debilidades

  • Novedad: Al ser un modelo más reciente, los ejemplos de implementación en el mundo real podrían ser menos numerosos que para los modelos más antiguos y establecidos como EfficientDet, aunque la adopción dentro de la comunidad de Ultralytics es rápida.
  • Especificidad de la tarea: El documento original de YOLOv9 se centra principalmente en la detección de objetos. Sin embargo, su integración en el ecosistema de Ultralytics apunta a un potencial más amplio, en consonancia con las capacidades multitarea de modelos como Ultralytics YOLOv8.

Casos de uso

YOLOv9 es particularmente adecuado para aplicaciones donde la precisión y la eficiencia son primordiales, como:

Más información sobre YOLOv9

EfficientDet: Detección de objetos escalable y eficiente

EfficientDet fue introducido en 2019 por un equipo de Google Research. Propuso una nueva familia de detectores de objetos escalables que priorizaban la eficiencia sin sacrificar la precisión. La arquitectura del modelo se basa en la eficiente red troncal EfficientNet, una novedosa red Bi-directional Feature Pyramid Network (BiFPN) para la fusión de características y un método de escalado compuesto que escala uniformemente la resolución, la profundidad y el ancho de todas las partes del modelo.

Detalles técnicos:

Fortalezas

  • Escalado Compuesto: La innovación clave de EfficientDet es su enfoque sistemático del escalado, que le permite crear una familia de modelos (D0-D7) que se adaptan a diferentes limitaciones de recursos.
  • BiFPN: La red piramidal de características bidireccional permite una fusión de características multiescala más rica en comparación con las FPN tradicionales, lo que mejora la precisión de la detección.
  • Importancia histórica: En el momento de su lanzamiento, EfficientDet estableció un nuevo estándar de eficiencia en la detección de objetos, influyendo en muchas arquitecturas posteriores.

Debilidades

  • Rendimiento obsoleto: Aunque fue innovador en su momento, EfficientDet ha sido superado tanto en precisión como en velocidad por modelos más nuevos como YOLOv9. Como se muestra en la tabla de rendimiento, los modelos YOLOv9 alcanzan consistentemente un mAP más alto con menos parámetros y velocidades de inferencia significativamente más rápidas.
  • Inferencia Más Lenta: En hardware moderno como la NVIDIA T4, incluso los modelos EfficientDet más pequeños son más lentos que las variantes comparables o más precisas de YOLOv9.
  • Ecosistema limitado: EfficientDet es principalmente un repositorio de investigación. Carece del ecosistema integral y fácil de usar proporcionado por Ultralytics, que incluye capacitación, implementación y soporte comunitario optimizados.
  • Específico de la tarea: EfficientDet está diseñado únicamente para la detección de objetos y no ofrece la versatilidad integrada para otras tareas como la segmentación de instancias o la estimación de poses que se encuentra en el framework de Ultralytics.

Casos de uso

EfficientDet aún puede considerarse para sistemas heredados o como línea de base para la comparación académica. Sus aplicaciones incluyen:

  • Detección de objetos de propósito general donde la inferencia de alta velocidad no es la principal limitación.
  • Fines educativos para comprender las redes piramidales de características y los principios de escalado de modelos.
  • Proyectos que se han estandarizado en el framework TensorFlow, donde reside la implementación original.

Más información sobre EfficientDet

Análisis de rendimiento: YOLOv9 vs. EfficientDet

La comparación de rendimiento entre YOLOv9 y EfficientDet demuestra claramente los avances realizados en la detección de objetos en los últimos años. YOLOv9 ofrece consistentemente una compensación superior entre precisión, velocidad y tamaño del modelo.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0

De la tabla, emergen varias ideas clave:

  • Precisión vs. Eficiencia: El modelo YOLOv9c alcanza un 53.0 mAP con solo 25.3M de parámetros y un tiempo de inferencia ultrarrápido de 7.16 ms en una GPU T4. En contraste, el EfficientDet-d6 (52.6 mAP) con una precisión similar requiere más del doble de parámetros (51.9M) y es más de 12 veces más lento con 89.29 ms.
  • Rendimiento de primer nivel: El modelo más grande, YOLOv9e, alcanza un impresionante 55.6 mAP, superando incluso al modelo EfficientDet-d7 más grande (53.7 mAP) a la vez que es más de 7 veces más rápido y requiere significativamente menos FLOPs.
  • Modelos ligeros: En el extremo más pequeño, YOLOv9s (46,8 mAP) ofrece una precisión comparable a EfficientDet-d3 (47,5 mAP), pero con casi la mitad de parámetros y es más de 5 veces más rápido en una GPU.

Conclusión: ¿Qué modelo debería elegir?

Para casi todas las aplicaciones modernas de detección de objetos, YOLOv9 es el claro ganador. Su arquitectura avanzada ofrece una precisión de última generación, manteniendo al mismo tiempo una velocidad de inferencia y una eficiencia de parámetros excepcionales. La integración en el ecosistema de Ultralytics mejora aún más su valor, proporcionando un flujo de trabajo optimizado desde el entrenamiento hasta la implementación, respaldado por una documentación sólida y una comunidad activa.

EfficientDet sigue siendo un modelo importante desde una perspectiva histórica y académica, siendo pionero en conceptos de escalado de modelos y fusión de características. Sin embargo, para el desarrollo y la implementación prácticos, su rendimiento ha sido eclipsado por arquitecturas más nuevas y eficientes como YOLOv9. Si está comenzando un nuevo proyecto o buscando actualizar uno existente, elegir YOLOv9 le proporcionará un rendimiento superior, ciclos de desarrollo más rápidos y una mejor compatibilidad con los avances futuros.

Explorar Otros Modelos

Si está explorando otros modelos de última generación, considere consultar las comparaciones con YOLOv10, YOLOv8 y arquitecturas basadas en transformadores como RT-DETR. Puede encontrar análisis más detallados en nuestra página de comparación de modelos.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios