Ir al contenido

DAMO-YOLO vs. EfficientDet: Una comparación técnica

En el panorama en rápida evolución de la visión por ordenador, seleccionar la arquitectura de detección de objetos adecuada es fundamental para el éxito de la aplicación. Este exhaustivo análisis contrasta YOLO, un modelo de alto rendimiento de Alibaba, con EfficientDet, una arquitectura escalable y eficiente de Google. Ambos modelos introdujeron importantes innovaciones en este campo, abordando el eterno equilibrio entre velocidad, precisión y coste computacional.

Modelos

Antes de entrar en las métricas de rendimiento, es esencial comprender el pedigrí y la filosofía arquitectónica que hay detrás de cada modelo.

DAMO-YOLO

Desarrollado por el Grupo Alibaba, YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) se centra en maximizar la velocidad de inferencia sin comprometer la precisión. Introduce tecnologías como la búsqueda de arquitecturas neuronales (NAS) para las redes troncales, una eficiente RepGFPN (red piramidal de características generalizadas reparametrizada) y un cabezal de detección ligero conocido como ZeroHead.

Detalles YOLO :

Más información sobre DAMO-YOLO

EfficientDet

EfficientDet, creado por el equipo de Google Brain, revolucionó la detección de objetos al proponer un método de escalado compuesto. Este enfoque escala uniformemente la resolución, la profundidad y la anchura de la red troncal, la red de características y las redes de predicción. Incorpora la BiFPN (Bi-directional Feature Pyramid Network), que permite una fusión de características fácil y rápida.

Detalles de EfficientDet:

Más información sobre EfficientDet

Análisis de rendimiento: Velocidad, precisión y eficiencia

El gráfico y la tabla siguientes ofrecen una comparación cuantitativa de los modelos EfficientDet y YOLO en el conjunto de datosCOCO . Estas pruebas destacan los distintos objetivos de optimización de cada arquitectura.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Puntos clave

A partir de los datos, podemos observar distintos puntos fuertes para cada familia de modelos:

  1. Latencia de GPU : YOLO domina en velocidad de inferencia GPU . Por ejemplo, DAMO-YOLOm logra un Precisión mediamAP) de 49,2 con una latencia de sólo 5,09 ms en una GPU T4. Por el contrario, EfficientDet-d4con un mAP similar de 49,7, es significativamente más lento, con 33,55 ms.
  2. Parámetro Eficiencia: EfficientDet es extremadamente ligero en cuanto a parámetros y operaciones en coma flotante (FLOPs). EfficientDet-d0 utiliza sólo 3,9 millones de parámetros, lo que lo hace muy eficiente en términos de almacenamiento, aunque esto no siempre se traduce en una mayor velocidad de inferencia en las GPU modernas en comparación con modelos de arquitectura optimizada como YOLO.
  3. Rendimiento deCPU CPU: EfficientDet proporciona referencias fiables de CPU , lo que sugiere que sigue siendo una opción viable para hardware heredado en el que no se dispone de aceleración de GPU .

Nota de arquitectura

La ventaja de velocidad de YOLO se debe a su optimización específica para la latencia del hardware mediante la búsqueda de arquitectura neuronal (NAS), mientras que EfficientDet optimiza para FLOPs teóricos, que no siempre se correlacionan linealmente con la latencia en el mundo real.

Análisis Arquitectónico en Profundidad

EfficientDet: El poder del escalado compuesto

EfficientDet se basa en la columna vertebral de EfficientNet, que utiliza convoluciones móviles de cuello de botella invertido (MBConv). Su característica definitoria es la BiFPN, una red piramidal bidireccional ponderada de características. A diferencia de las FPN tradicionales, que sólo suman características de arriba abajo, BiFPN permite que la información fluya tanto de arriba abajo como de abajo arriba, tratando cada capa de características con pesos aprendibles. Esto permite a la red comprender la importancia de las distintas características de entrada.

El modelo se escala utilizando un coeficiente compuesto, phi, que aumenta uniformemente la anchura, profundidad y resolución de la red, de modo que los modelos más grandes (como d7) mantienen el equilibrio entre precisión y eficacia.

YOLO: innovación orientada a la velocidad

YOLO adopta un enfoque diferente al centrarse en la latencia en tiempo real. Emplea el método MAE-NAS (Method of Automating Architecture Search) para encontrar la estructura troncal óptima con unas restricciones de latencia específicas.

Entre las principales innovaciones figuran:

  • RepGFPN: Una mejora sobre el GFPN estándar, mejorado con reparametrización para optimizar las rutas de fusión de características para la velocidad.
  • ZeroHead: un cabezal de detección simplificado que reduce la carga computacional asociada habitualmente a las capas finales de predicción.
  • AlignedOTA: Una estrategia de asignación de etiquetas que resuelve la desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

Casos de uso y aplicaciones

Las diferencias arquitectónicas dictan dónde destaca cada modelo en situaciones reales.

  • EfficientDet es ideal para entornos con limitaciones de almacenamiento o aplicaciones que dependen de la inferencia de CPU , donde minimizar los FLOPs es crucial. Suele utilizarse en aplicaciones móviles y sistemas integrados en los que la duración de la batería (correlacionada con los FLOPs) es una preocupación primordial.
  • YOLO destaca en la automatización industrial, la conducción autónoma y la vigilancia de la seguridad, donde se requiere inferencia en tiempo real en las GPU. Su baja latencia permite procesar flujos de vídeo de alta velocidad sin pérdida de fotogramas.

La ventaja Ultralytics

Mientras que YOLO y EfficientDet son modelos capaces, el Ultralytics ofrece una solución más completa para el desarrollo de la IA moderna. Modelos como el YOLO11 y el versátil YOLOv8 ofrecen ventajas significativas en cuanto a facilidad de uso, rendimiento y conjunto de funciones.

Más información sobre YOLO11

¿Por qué elegir Ultralytics?

  • Equilibrio de rendimiento: Los modelos Ultralytics están diseñados para ofrecer la mejor relación entre velocidad y precisión. YOLO11, por ejemplo, ofrece un mAP superior al de generaciones anteriores, al tiempo que mantiene una velocidad de inferencia excepcional tanto en CPU como en GPU.
  • Facilidad de uso: Con una filosofía de "pilas incluidas", Ultralytics proporciona una sencilla API Python y una potente interfaz de línea de comandos (CLI). Los desarrolladores pueden pasar de la instalación a la formación en cuestión de minutos.

    from ultralytics import YOLO
    
    # Load a pre-trained YOLO11 model
    model = YOLO("yolo11n.pt")
    
    # Run inference on an image
    results = model("path/to/image.jpg")
    
  • Ecosistema bien mantenido: A diferencia de muchos modelos de investigación que se abandonan tras su publicación, Ultralytics mantiene un repositorio activo con actualizaciones frecuentes, correcciones de errores y apoyo de la comunidad a través de temas y debates en GitHub.

  • Versatilidad: Los modelos Ultralytics no se limitan a los cuadros delimitadores. Admiten de forma nativa la segmentación de instancias, la estimación de poses, la clasificación de imágenes y los cuadros delimitadores orientados (OBB), todo ello dentro de un único marco unificado.
  • Eficiencia de memoria: Los modelosYOLO de Ultralytics están diseñados para ahorrar memoria durante el entrenamiento. Esto contrasta con los modelos basados en transformadores o arquitecturas más antiguas, que suelen requerir una cantidad considerable de memoria CUDA , lo que hace que los modelos de Ultralytics sean accesibles en hardware de consumo.
  • Eficiencia de la formación: El marco admite funciones como la precisión mixta automática (AMP), el entrenamiento GPU y el almacenamiento en caché, lo que garantiza que el entrenamiento de conjuntos de datos personalizados sea rápido y rentable.

Conclusión

Tanto YOLO como EfficientDet representan hitos importantes en la historia de la visión por ordenador. EfficientDet demostró el poder del escalado basado en principios y la fusión eficiente de características, mientras que YOLO amplió los límites de la búsqueda de arquitecturas con latencia.

Sin embargo, para los desarrolladores que buscan una solución lista para producción que combine un alto rendimiento con una experiencia excepcional para el desarrollador, Ultralytics YOLO11 es la opción recomendada. Su integración en un ecosistema sólido, su compatibilidad con múltiples tareas de visión por ordenador y sus continuas mejoras la convierten en la herramienta más práctica para transformar datos visuales en información práctica.

Explore otras comparaciones de modelos

Para ayudarle aún más en el proceso de selección de modelos, explore estas comparaciones relacionadas en la documentación Ultralytics :


Comentarios