YOLO11 vs EfficientDet: Una comparación técnica detallada
Esta página ofrece una comparación técnica detallada entre Ultralytics YOLO11 y EfficientDet, dos modelos prominentes de detección de objetos. Analizamos sus arquitecturas, puntos de referencia de rendimiento e idoneidad para diferentes aplicaciones para ayudarte a seleccionar el modelo óptimo para tus necesidades de visión artificial. Si bien ambos modelos apuntan a una detección de objetos eficiente y precisa, provienen de diferentes líneas de investigación (Ultralytics y Google) y emplean filosofías arquitectónicas distintas.
Ultralytics YOLO11
Ultralytics YOLO11 representa el último avance en la serie YOLO (You Only Look Once), desarrollado por Ultralytics y conocido por sus excepcionales capacidades de detección de objetos en tiempo real. Se basa en el éxito de predecesores como YOLOv8, centrándose en mejorar tanto la precisión como la eficiencia computacional.
Detalles técnicos:
- Autores: Glenn Jocher, Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Documentación: https://docs.ultralytics.com/models/yolo11/
Arquitectura y Características Clave
YOLO11 utiliza una arquitectura sin anclajes de una sola etapa optimizada para la velocidad y la precisión. Las características clave incluyen capas de extracción de características refinadas y una estructura de red optimizada, reduciendo el número de parámetros y la carga computacional. Este diseño garantiza un excelente rendimiento en diversos hardware, desde dispositivos edge (NVIDIA Jetson, Raspberry Pi) hasta servidores en la nube.
Una gran ventaja de YOLO11 es su versatilidad y su integración dentro del ecosistema Ultralytics. Soporta múltiples tareas más allá de la detección de objetos, incluyendo la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los bounding boxes orientados (OBB). El framework Ultralytics ofrece una API de python y una CLI sencillas, una extensa documentación, pesos pre-entrenados disponibles y procesos de entrenamiento eficientes con menores requisitos de memoria en comparación con muchas otras arquitecturas. El ecosistema se beneficia de un desarrollo activo, un fuerte apoyo de la comunidad y una integración perfecta con herramientas como Ultralytics HUB para un MLOps optimizado.
Fortalezas
- Alta velocidad y eficiencia: Excelente velocidad de inferencia, ideal para aplicaciones en tiempo real.
- Gran precisión: Logra puntuaciones mAP de última generación en todos los tamaños de modelo.
- Versatilidad: Admite tareas de detección, segmentación, clasificación, pose y OBB dentro de un único framework.
- Facilidad de uso: API sencilla, documentación completa y ecosistema fácil de usar.
- Ecosistema bien mantenido: Desarrollo activo, comunidad sólida, actualizaciones frecuentes y herramientas como Ultralytics HUB.
- Eficiencia del entrenamiento: Tiempos de entrenamiento más rápidos y menor uso de memoria en comparación con muchas alternativas.
- Deployment Flexibility: Optimizado para diversos hardwares, desde el edge hasta la nube.
Debilidades
- Los modelos más pequeños priorizan la velocidad, lo que puede implicar una compensación en la precisión máxima alcanzable en comparación con las variantes más grandes.
- Como un detector de una etapa, puede enfrentar desafíos con objetos extremadamente pequeños en ciertas escenas complejas.
Casos de Uso Ideales
YOLO11 destaca en aplicaciones que exigen rendimiento en tiempo real y alta precisión:
- Sistemas autónomos: Robótica y coches autónomos.
- Seguridad: Sistemas de vigilancia y prevención de robos.
- Automatización industrial: Control de calidad y eficiencia en el reciclaje.
- Comercio minorista: Gestión de inventario y análisis de clientes.
EfficientDet de Google
EfficientDet es una familia de modelos de detección de objetos introducida por el equipo de Google Brain. Está diseñado para lograr una alta eficiencia optimizando el equilibrio entre la precisión y los recursos computacionales (parámetros y FLOPs).
Detalles técnicos:
- Autores: Mingxing Tan, Ruoming Pang, Quoc V. Le
- Organización: Google
- Fecha: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Documentación: https://github.com/google/automl/tree/master/efficientdet#readme
Arquitectura y Características Clave
La arquitectura de EfficientDet se basa en tres innovaciones clave:
- EfficientNet Backbone: Utiliza el EfficientNet, de gran eficiencia, como su backbone para la extracción de características.
- BiFPN (Red Piramidal de Características Bidireccional): Una novedosa red de características que permite una fusión de características multiescala simple y rápida, mejorando las FPN tradicionales al añadir conexiones ponderadas.
- Escalado Compuesto: Un método que escala uniformemente la profundidad, el ancho y la resolución para la red troncal, la red de características y las redes de predicción de cuadros/clases. Esto permite que el modelo se escale desde variantes pequeñas (D0) hasta grandes (D7) para adaptarse a diferentes restricciones de recursos.
Fortalezas
- Alta eficiencia de parámetros: Ofrece una gran precisión para un número relativamente bajo de parámetros y FLOP.
- Escalabilidad: El método de escalado compuesto proporciona una ruta clara para escalar el modelo para diferentes objetivos de rendimiento.
- Sólido Rendimiento de Referencia: Logró resultados de última generación en el conjunto de datos COCO en el momento de su lanzamiento.
Debilidades
- Velocidad de Inferencia Más Lenta: A pesar de su eficiencia FLOP, EfficientDet a menudo tiene una latencia de inferencia más alta en comparación con los modelos YOLO, especialmente en GPUs, lo que lo hace menos adecuado para muchas aplicaciones en tiempo real.
- Versatilidad limitada: Diseñado principalmente para la detección de objetos y carece del soporte nativo para otras tareas como la segmentación de instancias, la estimación de poses o la detección de objetos orientados (OBB) que está integrado en el framework de Ultralytics YOLO.
- Ecosistema menos integrado: El repositorio original es principalmente un artefacto de investigación. Carece de la documentación completa, la API sencilla y las herramientas integradas como Ultralytics HUB que simplifican el flujo de trabajo de extremo a extremo desde el entrenamiento hasta el despliegue.
- Dependencia del framework: La implementación oficial está en TensorFlow, lo que puede ser una limitación para los desarrolladores e investigadores que trabajan principalmente en el ecosistema de PyTorch.
Casos de Uso Ideales
EfficientDet es ideal para escenarios donde el tamaño del modelo y el coste computacional teórico son las restricciones más críticas:
- Edge AI: Implementación en dispositivos móviles o integrados donde la memoria y la potencia de procesamiento son muy limitadas.
- Investigación académica: Estudio de las leyes de escalado de modelos y la eficiencia arquitectónica.
- Aplicaciones en la nube: Escenarios donde minimizar el coste computacional por inferencia es más importante que lograr la latencia más baja posible.
Más información sobre EfficientDet
Rendimiento y benchmarks: YOLO11 vs. EfficientDet
Al comparar el rendimiento, es crucial mirar más allá del mAP. Si bien ambas familias de modelos ofrecen una variedad de niveles de precisión, YOLO11 está diseñado para una velocidad superior en el mundo real. La tabla a continuación muestra que, para un mAP similar, los modelos YOLO11 son significativamente más rápidos, especialmente cuando se aceleran con TensorRT en una GPU.
Por ejemplo, YOLO11m logra el mismo 51.5 mAP que EfficientDet-d5, pero es más de 14 veces más rápido en una GPU T4 (4.7 ms vs. 67.86 ms) y utiliza un 40% menos de parámetros. Esto destaca el equilibrio excepcional de YOLO11 entre precisión, velocidad y tamaño del modelo, lo que lo convierte en una opción mucho más práctica para aplicaciones que requieren procesamiento en tiempo real.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Conclusión: ¿Qué modelo debería elegir?
Si bien EfficientDet fue un paso significativo hacia la eficiencia del modelo, Ultralytics YOLO11 representa una solución más moderna, práctica y poderosa para la gran mayoría de las aplicaciones de visión artificial.
-
Elija EfficientDet si su principal limitación es minimizar los FLOP teóricos o el recuento de parámetros, y se siente cómodo trabajando dentro de su marco orientado a la investigación.
-
Elija Ultralytics YOLO11 para casi todos los demás escenarios. Su equilibrio superior entre velocidad y precisión, su increíble versatilidad en múltiples tareas de visión y su facilidad de uso la convierten en la opción definitiva para desarrolladores e investigadores. El ecosistema bien mantenido, que incluye documentación completa, soporte activo de la comunidad y herramientas como Ultralytics HUB, garantiza una experiencia de desarrollo e implementación fluida, desde la experimentación inicial hasta la producción a escala.
Otras comparaciones de modelos
Para una exploración más exhaustiva, considere estas comparaciones que involucran a YOLO11 y otros modelos relevantes:
- YOLO11 vs YOLOv10
- YOLO11 vs YOLOv9
- YOLO11 vs YOLOv8
- YOLO11 vs YOLOv7
- YOLO11 vs RT-DETR
- YOLOX vs EfficientDet
- YOLOv8 vs EfficientDet