Ir al contenido

YOLOv9 frente a EfficientDet: Una comparación técnica exhaustiva

Seleccionar el modelo de detección de objetos adecuado es una decisión fundamental en el desarrollo de la visión por ordenador, ya que influye directamente en la velocidad, la precisión y la eficiencia de recursos de su aplicación. Esta guía proporciona una comparación técnica en profundidad entre Ultralytics YOLOv9 y EfficientDet, analizando sus innovaciones arquitectónicas, métricas de rendimiento y adecuación a los escenarios de implantación modernos.

Análisis de rendimiento

La evolución de la detección de objetos ha sido rápida, y las arquitecturas más recientes han superado con creces a sus predecesoras. La tabla siguiente presenta una comparación directa de las métricas clave, destacando los avances de YOLOv9 en lo que respecta a la velocidad de inferencia y la eficiencia de los parámetros en comparación con la antigua familia EfficientDet.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Principales conclusiones:

  • Dominio de la velocidad: Los modelos YOLOv9 demuestran velocidades de inferencia muy superiores en hardware de GPU . Por ejemplo, YOLOv9c (53,0% de mAP) es 12 veces más rápido que EfficientDet-d6 (52,6% de mAP).
  • Eficacia de los parámetros: La arquitectura de YOLOv9 le permite alcanzar una mayor precisión con menos parámetros. YOLOv9s logra un 46,8% de mAP con solo 7,1M de parámetros, mientras que EfficientDet requiere la variante D3 de mayor tamaño (12,0M de parámetros) para alcanzar un nivel de precisión similar del 47,5%.
  • Precisión de vanguardia: El modelo de mayor tamaño, YOLOv9e, pone el listón muy alto con un 55,6% de mAP, superando al modelo más pesado EfficientDet-d7 y manteniendo al mismo tiempo una fracción de la latencia.

YOLOv9: una nueva era de información de gradiente programable

YOLOv9, presentado a principios de 2024, representa un importante salto adelante en la serie YOLO . Desarrollado por Chien-Yao Wang y Hong-Yuan Mark Liao, aborda problemas fundamentales del aprendizaje profundo relacionados con la pérdida de información durante la transmisión de características.

Detalles técnicos:

Innovaciones arquitectónicas

YOLOv9 introduce dos conceptos básicos para abordar el problema del "cuello de botella informativo":

  1. Información de gradiente programable (PGI): Un marco de supervisión auxiliar que genera gradientes fiables para actualizar los pesos de la red, garantizando que el modelo retiene la información crítica a lo largo de las capas profundas.
  2. Red Generalizada de Agregación de Capas Eficiente (GELAN): Una novedosa arquitectura ligera que combina los puntos fuertes de CSPNet y ELAN. Da prioridad a la planificación de rutas por gradiente, lo que permite una mayor eficiencia de los parámetros y velocidades de inferencia más rápidas sin sacrificar la precisión.

¿Sabías que...?

La arquitectura de GELAN está diseñada para no depender del hardware, lo que optimiza la inferencia no sólo para las GPU de gama alta, sino también para dispositivos periféricos en los que los recursos computacionales son limitados.

Puntos fuertes y casos prácticos

  • Equilibrio de rendimiento: YOLOv9 ofrece un equilibrio excepcional entre velocidad y precisión, lo que lo hace ideal para aplicaciones de inferencia en tiempo real como la conducción autónoma y el análisis de vídeo.
  • EcosistemaUltralytics : La integración con Ultralytics proporciona una API y una CLI Python simplificadas que facilitan la formación, la validación y la implantación.
  • Eficiencia del entrenamiento: Gracias a su eficiente arquitectura, YOLOv9 suele necesitar menos memoria durante el entrenamiento en comparación con las alternativas basadas en transformadores, lo que facilita el entrenamiento personalizado en GPU de consumo.

Ejemplo de código: Uso de YOLOv9 con Ultralytics

Puede ejecutar fácilmente la inferencia o entrenar YOLOv9 utilizando el paquete Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLOv9c model
model = YOLO("yolov9c.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Train the model on a custom dataset (e.g., COCO8)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Más información sobre YOLOv9

EfficientDet: Arquitectura escalable pionera

EfficientDet, lanzado por Google Research a finales de 2019, fue un modelo innovador que introdujo una forma sistemática de escalar detectores de objetos. Se centra en optimizar la eficiencia en un amplio espectro de limitaciones de recursos.

Detalles técnicos:

Aspectos arquitectónicos destacados

EfficientDet se basa en la columna vertebral de EfficientNet e introduce varias funciones clave:

  1. Red piramidal bidireccional de características (BiFPN): A diferencia de las FPN tradicionales, la BiFPN permite fusionar fácilmente características multiescala introduciendo pesos aprendibles en las distintas características de entrada.
  2. Escalado compuesto: Este método escala uniformemente la resolución, la profundidad y la anchura de la red troncal, la red de características y las redes de predicción de cajas/clases, lo que permite una familia de modelos (D0 a D7) adaptados a diferentes presupuestos de recursos.

Fortalezas y Debilidades

  • Escalabilidad: La estructura de la familia D0-D7 permite a los usuarios elegir un modelo que se ajuste a su presupuesto específico de FLOPs.
  • Importancia histórica: Estableció el estándar de eficiencia en 2020, influyendo enormemente en la investigación posterior en la búsqueda de arquitecturas neuronales.
  • Rendimiento heredado: Aunque eficiente para su época, EfficientDet está ahora por detrás de detectores modernos como YOLOv9 en términos de latencia en las GPU. Su uso intensivo de convoluciones separables en profundidad, aunque eficiente en FLOP, a menudo da lugar a una inferencia más lenta en hardware como el NVIDIA T4 en comparación con las convoluciones densas optimizadas utilizadas en las arquitecturas YOLO .

Más información sobre EfficientDet

Análisis comparativo detallado

A la hora de elegir entre YOLOv9 y EfficientDet, entran en juego varios factores además mAP bruto. Aquí tienes un desglose de cómo se comparan en entornos de desarrollo prácticos.

Velocidad y latencia

La diferencia más notable radica en la velocidad de inferencia. YOLOv9 utiliza la arquitectura GELAN, optimizada para la paralelización masiva en GPU. En cambio, EfficientDet se basa en la fusión de características complejas (BiFPN) y convoluciones separables en profundidad que pueden crear cuellos de botella de acceso a memoria en los aceleradores. Como se observa en la tabla de rendimiento, los modelos YOLOv9 son entre 2 y 10 veces más rápidos con TensorRT que sus homólogos EfficientDet de precisión similar.

Ecosistema y facilidad de uso

El ecosistemaUltralytics proporciona una ventaja significativa para YOLOv9. Mientras que EfficientDet requiere un entorno TensorFlow y scripts de configuración a menudo complejos, YOLOv9 está integrado en un paquete fácil de usar y compatible:

  • Instalación en una sola línea: pip install ultralytics
  • Amplio apoyo a la exportación: Exportación sin problemas a ONNXTensorRT, CoreML, OpenVINO, etc. a través de la plataforma model.export() función.
  • Mantenimiento activo: Actualizaciones frecuentes, apoyo de la comunidad y guías exhaustivas sobre tareas como el seguimiento y la implantación de objetos.

Flexibilidad de implantación

Los modelos YOLOv9 entrenados con Ultralytics pueden desplegarse fácilmente en dispositivos edge utilizando formatos como TFLite o Edge TPU. Consulte nuestra guía de integración deTFLite para obtener más información.

Eficacia del entrenamiento y memoria

El entrenamiento de los modernos modelos de visión por ordenador puede consumir muchos recursos. Los modelosYOLO Ultralytics son famosos por su uso eficiente de la memoria deGPU . Esto permite a los desarrolladores entrenar lotes más grandes en hardware de consumo en comparación con arquitecturas más antiguas o modelos basados en transformadores pesados. Además, Ultralytics proporciona pesos preentrenados fácilmente disponibles, lo que permite un aprendizaje por transferencia que converge mucho más rápido que el entrenamiento de EfficientDet desde cero.

Versatilidad

Aunque EfficientDet es estrictamente un detector de objetos, los principios arquitectónicos en los que se basa YOLOv9 (y la más amplia familia Ultralytics YOLO ) se extienden a múltiples tareas. El marco de Ultralytics es compatible:

Esta versatilidad permite a los desarrolladores utilizar una única API unificada para diversos retos de visión por ordenador.

Conclusión

Para la mayoría de los nuevos proyectos, YOLOv9 es la mejor opción. Ofrece una precisión de vanguardia con velocidades de inferencia significativamente más rápidas, lo que lo hace adecuado para aplicaciones en tiempo real. Su integración en el ecosistemaUltralytics garantiza una experiencia de desarrollo fluida, desde la preparación de los datos hasta la implantación del modelo.

EfficientDet sigue siendo una referencia valiosa para comprender el escalado compuesto y la fusión de funciones, pero en general se queda corto en las métricas de rendimiento por vatio y latencia en el hardware moderno.

Los desarrolladores que busquen lo último en tecnología de visión por ordenador también deberían explorar YOLO11que se basa en estos avances para ofrecer una eficacia y un rendimiento aún mayores.

Explorar Otros Modelos

Si le interesan otras comparaciones, considere la posibilidad de explorar estos modelos relacionados:

  • YOLO11 vs. YOLOv9: Descubre cómo la última generación mejora a YOLOv9.
  • RT-DETR: Un detector basado en transformador que ofrece alta precisión para escenarios en tiempo real.
  • YOLOv8: Una familia de modelos muy versátil que admite la detección, la segmentación y la estimación de la pose.

Comentarios