Ir al contenido

YOLO11 vs EfficientDet: Una Comparación Técnica Exhaustiva

Seleccionar la red neuronal óptima para proyectos de visión artificial requiere una comprensión profunda de las arquitecturas disponibles. Esta guía proporciona una comparación técnica en profundidad entre Ultralytics YOLO11 y EfficientDet de Google. Exploraremos sus diferencias arquitectónicas, métricas de rendimiento, eficiencias de entrenamiento y escenarios de despliegue ideales para ayudarle a tomar una decisión informada para sus cargas de trabajo de aprendizaje automático.

Contextos y Especificaciones de Modelos

Ambos modelos han impactado significativamente el panorama del aprendizaje profundo, aunque se originan de diferentes filosofías de diseño y eras del desarrollo de la IA.

Detalles de YOLO11

Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/

Más información sobre YOLO11

Detalles de EfficientDet

Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización: Google
Fecha: 20-11-2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Documentación: https://github.com/google/automl/tree/master/efficientdet#readme

Más información sobre EfficientDet

Ventaja del ecosistema

Al trabajar con modelos de visión por computadora, el ecosistema circundante es tan importante como el propio modelo. El ecosistema Ultralytics proporciona una experiencia de desarrollador sin igual, ofreciendo documentación extensa, soporte activo de la comunidad y capacidades de exportación sin interrupciones a formatos como ONNX y TensorRT.

Innovaciones Arquitectónicas

EfficientDet: BiFPN y escalado compuesto

Introducido a finales de 2019, EfficientDet tuvo como objetivo maximizar la precisión minimizando el costo computacional. Esto lo logra principalmente a través de dos mecanismos. Primero, utiliza un backbone EfficientNet que escala la profundidad, el ancho y la resolución de manera cohesiva. Segundo, introdujo la Red Piramidal de Características Bidireccional (BiFPN), que permite una fusión de características multiescala fácil y rápida.

Aunque altamente eficiente para su época, la dependencia de EfficientDet de la biblioteca AutoML de TensorFlow puede hacerlo rígido. Los investigadores a menudo encuentran que la poda de modelos y las modificaciones personalizadas son desafiantes en comparación con los frameworks modernos y modulares basados en PyTorch.

YOLO11: Extracción de Características Mejorada y Versatilidad

YOLO11 representa un avance significativo en las arquitecturas de detección de objetos. Se basa en los éxitos de sus predecesores, introduciendo bloques C3k2 refinados y un módulo mejorado de Spatial Pyramid Pooling. Estas mejoras conducen a una extracción de características superior, permitiendo a YOLO11 capturar patrones visuales intrincados con una claridad excepcional.

Una ventaja importante de YOLO11 es su versatilidad. Mientras que EfficientDet es estrictamente un modelo de detección de objetos, YOLO11 soporta de forma nativa segmentación de instancias, clasificación de imágenes, estimación de pose y cajas delimitadoras orientadas (OBB). Además, YOLO11 presenta requisitos de memoria increíblemente bajos durante el entrenamiento y la inferencia, lo que lo hace muy superior a los modelos más antiguos y a los voluminosos transformadores de visión al desplegar en entornos de IA en el borde con recursos limitados.

Rendimiento y benchmarks

El equilibrio entre la precisión, medida en precisión media promedio (mAP), y la velocidad de inferencia es el factor decisivo crítico para las implementaciones en el mundo real. La tabla siguiente ilustra el rendimiento bruto de ambas familias de modelos en el conjunto de datos COCO estándar.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Como se muestra, YOLO11 logra un equilibrio de rendimiento muy favorable. YOLO11x logra la mayor precisión general (54.7 mAP), mientras que las variantes más pequeñas de YOLO11 dominan absolutamente en velocidades de inferencia de GPU (tan bajas como 1.5ms en una T4 usando TensorRT).

Eficiencia del entrenamiento y ecosistema

Una de las características definitorias de los modelos Ultralytics es su facilidad de uso. Entrenar un modelo EfficientDet a menudo requiere navegar por configuraciones complejas de grafos de TensorFlow y gestionar intrincadas cadenas de dependencia. En marcado contraste, YOLO11 está construido sobre una base PyTorch limpia y completamente moderna.

Este ecosistema bien mantenido significa que los desarrolladores pueden instalar el paquete, cargar un modelo preentrenado y comenzar a entrenar en un conjunto de datos personalizado en solo unas pocas líneas de código.

Ejemplo de código python

Aquí hay un ejemplo completamente ejecutable que demuestra la simplicidad de la API de Ultralytics. Este script descarga un modelo YOLO11 preentrenado, lo entrena y ejecuta una predicción rápida.

from ultralytics import YOLO

# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")

# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")

# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the output bounding boxes
prediction[0].show()

Mirando hacia el futuro: La ventaja de YOLO26

Si bien YOLO11 es excepcionalmente potente, los equipos que inician nuevos proyectos desde cero deberían considerar seriamente Ultralytics YOLO26, lanzado en enero de 2026. YOLO26 representa un cambio de paradigma en la simplicidad de despliegue y el rendimiento en el borde.

Las innovaciones clave de YOLO26 incluyen:

  • Diseño de extremo a extremo sin NMS: Al eliminar la supresión no máxima (NMS) durante el postprocesamiento, YOLO26 asegura una latencia consistente y ultrabaja, crucial para la robótica de alta velocidad y la conducción autónoma.
  • Hasta un 43% más rápido en inferencia de CPU: Para implementaciones que carecen de GPU dedicadas, YOLO26 está específicamente optimizado para maximizar el rendimiento en procesadores estándar.
  • Optimizador MuSGD: Inspirado en Kimi K2 de Moonshot AI, este optimizador híbrido aporta la estabilidad del entrenamiento de LLM a la visión por computadora, permitiendo una convergencia más rápida.
  • ProgLoss + STAL: Estas funciones de pérdida mejoradas mejoran drásticamente el reconocimiento de objetos pequeños, lo cual es a menudo un punto débil en el análisis de imágenes satelitales y las grabaciones de drones.
  • Eliminación de DFL: La eliminación de Distribution Focal Loss optimiza el proceso de exportación del modelo a dispositivos de borde.

Modelos Alternativos para Explorar

Si su proyecto tiene requisitos muy específicos, también podría considerar evaluar el modelo RT-DETR para detección basada en transformadores, o el ampliamente adoptado YOLOv8, que sigue siendo un pilar en muchas implementaciones empresariales heredadas.

Casos de Uso y Recomendaciones

La elección entre YOLO11 y EfficientDet depende de los requisitos específicos de su proyecto, las limitaciones de despliegue y las preferencias del ecosistema.

Cuándo elegir YOLO11

YOLO11 es una opción sólida para:

  • Despliegue en el Borde de Producción: Aplicaciones comerciales en dispositivos como Raspberry Pi o NVIDIA Jetson, donde la fiabilidad y el mantenimiento activo son primordiales.
  • Aplicaciones de Visión Multitarea: Proyectos que requieren detection, segmentation, estimación de pose y obb dentro de un único marco unificado.
  • Prototipado Rápido y Despliegue: Equipos que necesitan pasar rápidamente de la recolección de datos a la producción utilizando la optimizada API de Python de Ultralytics.

Cuándo elegir EfficientDet

EfficientDet se recomienda para:

  • Pipelines de Google Cloud y TPU: Sistemas profundamente integrados con las API de Google Cloud Vision o la infraestructura de TPU donde EfficientDet tiene optimización nativa.
  • Investigación de Escalado Compuesto: Benchmarking académico centrado en el estudio de los efectos del escalado equilibrado de la profundidad, el ancho y la resolución de la red.
  • Despliegue móvil a través de TFLite: Proyectos que requieren específicamente la exportación a TensorFlow Lite para dispositivos Android o Linux embebidos.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Conclusión

EfficientDet fue una arquitectura pionera que demostró la viabilidad del escalado compuesto en la detección de objetos. Sin embargo, el rápido avance de la investigación en IA ha dado lugar a modelos que son simplemente más capaces, más fáciles de integrar y más rápidos de ejecutar.

Con sus robustas capacidades multitarea, increíbles velocidades de inferencia en GPU y, posiblemente, la API más amigable para desarrolladores de la industria, YOLO11 es el claro ganador para los pipelines de visión modernos. Para aquellos que buscan la vanguardia absoluta de la tecnología—especialmente para despliegues edge-first—actualizar a YOLO26 proporciona la combinación definitiva de velocidad sin NMS y precisión inigualable.


Comentarios