EfficientDet vs. YOLO11: Equilibrio entre eficiencia y rendimiento en tiempo real
El panorama de la detección de objetos ha evolucionado rápidamente, impulsado por la necesidad de modelos que no sólo sean precisos, sino también lo suficientemente eficientes para su implantación en el mundo real. Dos hitos importantes en esta evolución son EfficientDet de Google y Ultralytics YOLO11. Aunque ambas arquitecturas pretenden optimizar el equilibrio entre velocidad y precisión, abordan el problema con filosofías de diseño diferentes y se dirigen a casos de uso primarios distintos.
EfficientDet revolucionó el campo introduciendo un método sistemático para escalar las dimensiones de los modelos, centrándose intensamente en la eficiencia de los parámetros y los costes teóricos de computación (FLOPs). En cambio, YOLO11 representa la vanguardia de la visión por ordenador en tiempo real, priorizando la velocidad de inferencia práctica en hardware moderno, la versatilidad entre tareas y una experiencia centrada en el desarrollador. Esta exhaustiva comparativa profundiza en sus especificaciones técnicas, innovaciones arquitectónicas y puntos de referencia de rendimiento para ayudarle a elegir la herramienta adecuada para su proyecto.
EfficientDet de Google
EfficientDet es una familia de modelos de detección de objetos desarrollados por el equipo de Google Brain. Lanzada a finales de 2019, fue diseñada para hacer frente a la ineficiencia de los detectores de última generación anteriores, que a menudo se basaban en redes troncales masivas o redes de fusión de características no optimizadas.
Detalles técnicos:
- Autores: Mingxing Tan, Ruoming Pang, Quoc V. Le
- Organización:Google
- Fecha: 2019-11-20
- Arxiv:EfficientDet: Detección de objetos escalable y eficiente
- GitHub:google
- Documentos:LÉEME de EfficientDet
Arquitectura e Innovaciones Clave
El éxito de EfficientDet radica en dos aportaciones arquitectónicas principales que funcionan en tándem para maximizar la eficiencia:
- BiFPN (red piramidal bidireccional de características): Las redes piramidales de características (FPN ) tradicionales fusionaban características de diferentes escalas de forma descendente. EfficientDet introdujo BiFPN, que permite que la información fluya tanto en sentido descendente como ascendente. Además, emplea un mecanismo de fusión de características ponderado, que aprende la importancia de cada característica de entrada, lo que permite a la red dar prioridad a las señales más informativas.
- Escalado compuesto: Inspirado en EfficientNet, este método crea una familia de modelos (D0 a D7) escalando uniformemente la resolución, profundidad y anchura de la red troncal, la red de características y las redes de predicción. Esto garantiza que, a medida que el modelo crece, mantiene un equilibrio entre sus diversos componentes, optimizando los FLOPs y el recuento de parámetros.
La columna vertebral de EfficientNet
EfficientDet utiliza como columna vertebral EfficientNet, una red de clasificación también desarrollada por Google. EfficientNet se optimizó mediante la Búsqueda de Arquitectura Neuronal (NAS) para encontrar la estructura de red más eficiente, utilizando en gran medida convoluciones separables en profundidad para reducir el cálculo.
Fortalezas y Debilidades
EfficientDet es conocido por su alta eficiencia de parámetros, consiguiendo unos mAPval con muchos menos parámetros que muchos de sus contemporáneos. Su naturaleza escalable permite a los investigadores seleccionar un tamaño de modelo que se ajuste con precisión a su presupuesto computacional teórico.
Sin embargo, la eficiencia teórica no siempre se traduce en velocidad práctica. El uso extensivo de convoluciones separables en profundidad y la compleja conectividad de la BiFPN pueden conducir a una menor utilización de GPU . En consecuencia, la latencia de inferencia en las GPU suele ser mayor en comparación con modelos optimizados para el procesamiento paralelo como la serie YOLO . Además, EfficientDet es estrictamente un detector de objetos, por lo que carece de soporte nativo para otras tareas de visión computerizada como la segmentación de instancias o la estimación de poses dentro de la misma base de código.
Casos de Uso Ideales
- Edge AI en CPU: Dispositivos en los que la memoria es la gran limitación y la aceleración de GPU no está disponible.
- Investigación académica: Estudios centrados en la eficiencia de las redes neuronales y las leyes de escalado.
- Aplicaciones de bajo consumo: Escenarios en los que minimizar el consumo de batería (ligado a FLOPs) es más crítico que la latencia bruta.
Más información sobre EfficientDet
Ultralytics YOLO11
Ultralytics YOLO11 es la última iteración de la aclamada serie YOLO (You Only Look Once). Se basa en un legado de rendimiento en tiempo real, introduciendo mejoras arquitectónicas que amplían los límites de la precisión, manteniendo al mismo tiempo la velocidad de inferencia que esperan los desarrolladores.
Detalles técnicos:
- Autores: Glenn Jocher, Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- GitHub:ultralytics
- Documentación:Documentación deYOLO11
Arquitectura y características
YOLO11 emplea un cabezal de detección sin anclajes de última generación que elimina la necesidad de configurar manualmente las cajas de anclaje y simplifica el proceso de formación. Sus arquitecturas de columna vertebral y cuello se han optimizado para mejorar las capacidades de extracción de características, mejorando el rendimiento en tareas difíciles como la detección de objetos pequeños y escenas desordenadas.
A diferencia de EfficientDet, que se centra principalmente en la reducción de FLOP, YOLO11 se ha diseñado para lograr una eficiencia consciente del hardware. Esto significa que sus capas y operaciones se seleccionan para maximizar el rendimiento en GPUs y aceleradores NPU.
Versatilidad sin límites
Un único modelo de arquitectura YOLO11 admite una amplia gama de tareas de visión. Dentro del mismo marco, puede realizar Detección de objetos, Segmentación de instancias, Clasificación de imágenes, Estimación de la posey Caja delimitadora orientada (OBB) detección.
Fortalezas y Debilidades
El principal punto fuerte de YOLO11 es su excepcional equilibrio entre velocidad y precisión. Ofrece una precisión de última generación que rivaliza o supera a los modelos más grandes a la vez que funciona con una fracción de la latencia. Esto lo hace ideal para aplicaciones de inferencia en tiempo real. Además, el ecosistema Ultralytics garantiza la facilidad de uso con una API unificada, lo que hace que la formación y el despliegue sean fluidos.
Hay que tener en cuenta que las variantes más pequeñas YOLO11 , aunque son increíblemente rápidas, pueden suponer un pequeño margen de precisión en comparación con los modelos más grandes y de mayor carga computacional disponibles en el mundo académico. Sin embargo, en la práctica, esta compensación es casi siempre favorable.
Casos de Uso Ideales
- Sistemas autónomos: Percepción en tiempo real para robótica y vehículos autónomos.
- Automatización industrial: Control de calidad de fabricación a alta velocidad y detección de defectos.
- Ciudades inteligentes: Monitorización eficiente del tráfico y vigilancia de la seguridad.
- Aplicaciones interactivas: Aplicaciones móviles que requieren información visual instantánea.
Comparación de rendimiento
Al comparar EfficientDet y YOLO11, la diferencia más notable radica en la velocidad de inferencia, sobre todo en hardware de GPU . Aunque los modelos de EfficientDet (D0-D7) muestran una buena eficiencia de parámetros, sus operaciones complejas (como BiFPN) les impiden utilizar plenamente las capacidades de procesamiento paralelo.
Como se muestra en la tabla siguiente, YOLO11n alcanza un mAP más alto (39,5) que EfficientDet-d0 (34,6) y, al mismo tiempo, es significativamente más rápido. Y lo que es más impresionante, YOLO11m iguala la precisión del mucho más pesado EfficientDet-d5 (51,5 mAP) pero se ejecuta aproximadamente 14 veces más rápido en una GPU T4 (4,7 ms frente a 67,86 ms). Esta enorme ventaja de velocidad permite a YOLO11 procesar secuencias de vídeo de alta resolución en tiempo real, una hazaña que supone todo un reto para los modelos EfficientDet de nivel superior.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
La ventaja Ultralytics
Aunque las métricas técnicas son cruciales, la experiencia del desarrollador y el apoyo del ecosistema son igualmente importantes para el éxito del proyecto. Ultralytics proporciona un completo conjunto de herramientas que simplifican todo el ciclo de vida de MLOps, ofreciendo claras ventajas sobre el repositorio EfficientDet, centrado en la investigación.
- Facilidad de uso: LaAPIPython Ultralytics y la CLI están diseñadas para la simplicidad. Puede cargar, entrenar y desplegar un modelo de última generación con solo unas líneas de código, mientras que EfficientDet suele requerir complejos archivos de configuración y gestión de dependencias en TensorFlow.
- Ecosistema bien mantenido: Los modelos de Ultralytics están respaldados por una comunidad activa y actualizaciones frecuentes. Desde el repositorio de GitHub hasta la extensa documentación, los desarrolladores tienen acceso a una gran cantidad de recursos, tutoriales y canales de soporte.
- Eficacia de la formación: YOLO11 está optimizado para una convergencia rápida. Admite estrategias eficientes de carga y aumento de datos que reducen el tiempo de entrenamiento. Además, sus menores requisitos de memoria en comparación con arquitecturas más antiguas o modelos basados en transformadores permiten entrenar en GPU de consumo sin quedarse sin memoria CUDA .
- Flexibilidad de despliegue: El framework soporta de forma nativa la exportación de modelos a varios formatos incluyendo ONNX, TensorRTCoreML y OpenVINO. Esto garantiza que tu modelo YOLO11 pueda desplegarse en cualquier lugar, desde servidores en la nube hasta dispositivos periféricos como la Raspberry Pi.
Práctica con YOLO11
Experimente la sencillez de la API de Ultralytics . El siguiente ejemplo muestra cómo cargar un modelo YOLO11 preentrenado y ejecutar la inferencia en una imagen:
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image source
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Conclusión
Tanto EfficientDet como YOLO11 son logros históricos en el campo de la visión por ordenador. EfficientDet sigue siendo una referencia valiosa para el diseño de arquitecturas escalables y es adecuado para aplicaciones nicho en las que los FLOP teóricos son la principal limitación.
Sin embargo, para la gran mayoría de las aplicaciones modernas de visión por ordenador, Ultralytics YOLO11 es la mejor opción. Su arquitectura ofrece un equilibrio mucho mejor entre precisión y velocidad, especialmente en el hardware de GPU utilizado en la mayoría de los entornos de producción. Combinado con un marco multitarea versátil, un ecosistema sólido y una facilidad de uso inigualable, YOLO11 permite a los desarrolladores crear e implantar soluciones de IA de alto rendimiento con total confianza.
Explorar otras comparaciones
Para comprender mejor el panorama de los modelos de detección de objetos, considere la posibilidad de explorar estas comparaciones adicionales: