YOLO11 frente a EfficientDet: una comparativa técnica completa
Seleccionar la red neuronal óptima para proyectos de visión artificial requiere una comprensión profunda de las arquitecturas disponibles. Esta guía ofrece una comparativa técnica detallada entre Ultralytics YOLO11 y EfficientDet de Google. Exploraremos sus diferencias arquitectónicas, métricas de rendimiento, eficiencia en el entrenamiento y escenarios de despliegue ideales para ayudarte a tomar una decisión informada para tus cargas de trabajo de aprendizaje automático.
Antecedentes y especificaciones de los modelos
Ambos modelos han tenido un impacto significativo en el panorama del aprendizaje profundo, aunque provienen de filosofías de diseño y eras diferentes en el desarrollo de la IA.
Detalles de YOLO11
Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/
Detalles de EfficientDet
Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización: Google
Fecha: 20-11-2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Documentación: https://github.com/google/automl/tree/master/efficientdet#readme
Más información sobre EfficientDet
Al trabajar con modelos de visión artificial, el ecosistema que los rodea es tan importante como el propio modelo. El ecosistema de Ultralytics ofrece una experiencia de desarrollo inigualable, brindando una documentación extensa, soporte activo de la comunidad y capacidades de exportación fluidas a formatos como ONNX y TensorRT.
Innovaciones arquitectónicas
EfficientDet: BiFPN y escalado compuesto
Introducido a finales de 2019, EfficientDet buscaba maximizar la precisión minimizando el coste computacional. Lo logra principalmente a través de dos mecanismos. Primero, utiliza un backbone EfficientNet que escala la profundidad, la anchura y la resolución de forma cohesiva. Segundo, introdujo la red de pirámide de características bidireccional (BiFPN), que permite una fusión de características multiescala fácil y rápida.
Aunque fue muy eficiente en su momento, la dependencia de EfficientDet de la librería AutoML de TensorFlow puede hacerlo rígido. A menudo, los investigadores encuentran que la poda de modelos y las modificaciones personalizadas son complicadas en comparación con los marcos de trabajo modulares y modernos basados en PyTorch.
YOLO11: Extracción de características y versatilidad mejoradas
YOLO11 representa un salto significativo en arquitecturas de detección de objetos. Se basa en los éxitos de sus predecesores, introduciendo bloques C3k2 refinados y un módulo mejorado de Spatial Pyramid Pooling. Estas mejoras conducen a una extracción de características superior, permitiendo que YOLO11 capture patrones visuales complejos con una claridad excepcional.
Una gran ventaja de YOLO11 es su versatilidad. Mientras que EfficientDet es estrictamente un modelo de detección de objetos, YOLO11 admite de forma nativa segmentación de instancias, clasificación de imágenes, estimación de poses y cajas delimitadoras orientadas (OBB). Además, YOLO11 cuenta con unos requisitos de memoria increíblemente bajos tanto durante el entrenamiento como en la inferencia, lo que lo hace muy superior a modelos más antiguos y a los pesados vision transformers al realizar despliegues en entornos de Edge AI con recursos limitados.
Rendimiento y benchmarks
El equilibrio entre la precisión, medida en mAP, y la velocidad de inferencia es el factor decisivo fundamental para los despliegues en el mundo real. La siguiente tabla ilustra el rendimiento bruto de ambas familias de modelos en el dataset COCO estándar.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Como se muestra, YOLO11 logra un equilibrio de rendimiento muy favorable. YOLO11x alcanza la mayor precisión global (54.7 mAP), mientras que las variantes de YOLO11 más pequeñas dominan absolutamente en velocidades de inferencia en GPU (tan bajas como 1.5ms en una T4 usando TensorRT).
Eficiencia de entrenamiento y ecosistema
Una de las características definitorias de los modelos de Ultralytics es su facilidad de uso. Entrenar un modelo EfficientDet a menudo requiere navegar por configuraciones complejas de grafos de TensorFlow y gestionar intrincadas cadenas de dependencias. Por el contrario, YOLO11 está construido sobre una base sólida, limpia y moderna de PyTorch.
Este ecosistema bien mantenido significa que puedes instalar el paquete, cargar un modelo preentrenado y comenzar a entrenar en un dataset personalizado en solo unas pocas líneas de código.
Ejemplo de código en Python
Aquí tienes un ejemplo totalmente ejecutable que demuestra la simplicidad de la API de Ultralytics. Este script descarga un modelo YOLO11 preentrenado, lo entrena y ejecuta una predicción rápida.
from ultralytics import YOLO
# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")
# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")
# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the output bounding boxes
prediction[0].show()Mirando al futuro: la ventaja de YOLO26
Aunque YOLO11 es excepcionalmente potente, los equipos que comiencen proyectos nuevos desde cero deberían considerar seriamente Ultralytics YOLO26, lanzado en enero de 2026. YOLO26 representa un cambio de paradigma en la simplicidad de despliegue y el rendimiento en el borde (edge).
Las innovaciones clave de YOLO26 incluyen:
- Diseño integral sin NMS: Al eliminar la supresión no máxima (NMS) durante el post-procesamiento, YOLO26 garantiza una latencia ultra baja y constante, crucial para la robótica de alta velocidad y la conducción autónoma.
- Inferencia en CPU hasta un 43% más rápida: Para despliegues que carecen de GPUs dedicadas, YOLO26 está específicamente optimizado para maximizar el rendimiento en procesadores estándar.
- Optimizador MuSGD: Inspirado en Kimi K2 de Moonshot AI, este optimizador híbrido aporta la estabilidad del entrenamiento de LLMs a la visión artificial, permitiendo una convergencia más rápida.
- ProgLoss + STAL: Estas funciones de pérdida mejoradas aumentan drásticamente el reconocimiento de objetos pequeños, que a menudo es un punto crítico en el análisis de imágenes por satélite y en grabaciones de drones.
- Eliminación de DFL: La eliminación de la Distribution Focal Loss simplifica el proceso de exportación del modelo a dispositivos de borde.
Casos de uso y recomendaciones
Elegir entre YOLO11 y EfficientDet depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias del ecosistema.
Cuándo elegir YOLO11
YOLO11 es una gran opción para:
- Implementación en el borde (Edge) para producción: Aplicaciones comerciales en dispositivos como Raspberry Pi o NVIDIA Jetson donde la fiabilidad y el mantenimiento activo son primordiales.
- Aplicaciones de visión multitarea: Proyectos que requieren detección, segmentación, estimación de poses y OBB dentro de un único framework unificado.
- Prototipado rápido e implementación: Equipos que necesitan pasar rápidamente de la recopilación de datos a la producción utilizando la optimizada API de Python de Ultralytics.
Cuándo elegir EfficientDet
EfficientDet se recomienda para:
- Pipelines de Google Cloud y TPU: Sistemas profundamente integrados con las APIs de visión de Google Cloud o infraestructura de TPU donde EfficientDet cuenta con optimización nativa.
- Investigación en escalado compuesto: Benchmarking académico enfocado en estudiar los efectos del escalado equilibrado de profundidad, anchura y resolución de la red.
- Despliegue móvil mediante TFLite: Proyectos que requieren específicamente la exportación a TensorFlow Lite para Android o dispositivos Linux embebidos.
Cuándo elegir Ultralytics (YOLO26)
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:
- Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.
Conclusión
EfficientDet fue una arquitectura pionera que demostró la viabilidad del escalado compuesto en la detección de objetos. Sin embargo, el rápido ritmo de la investigación en IA ha propiciado la aparición de modelos que son simplemente más capaces, fáciles de integrar y rápidos de ejecutar.
Con sus sólidas capacidades multitarea, increíbles velocidades de inferencia en GPU y, posiblemente, la API más amigable para desarrolladores de la industria, YOLO11 es el claro ganador para los pipelines de visión modernos. Para aquellos que aspiran a lo más puntero de la tecnología (especialmente para despliegues orientados al borde), actualizar a YOLO26 proporciona la combinación definitiva de velocidad sin NMS y una precisión inigualable.