YOLOv5 vs. EfficientDet: Un análisis comparativo detallado

En el panorama en evolución de la visión artificial, elegir la arquitectura de detección de objetos adecuada es fundamental para el éxito del proyecto. Esta comparación explora dos modelos muy influyentes: Ultralytics YOLOv5, conocido por su equilibrio entre velocidad y facilidad de uso, y EfficientDet de Google, famoso por su escalabilidad y eficiencia de parámetros. Al examinar sus arquitecturas, métricas de rendimiento y capacidades de implementación, los desarrolladores pueden tomar decisiones informadas que se adapten a las necesidades específicas de su aplicación.

Análisis de rendimiento: Velocidad vs. Eficiencia

La principal diferencia entre estas dos arquitecturas radica en su filosofía de diseño con respecto a los recursos computacionales frente a la latencia de inferencia. EfficientDet se optimiza para FLOPs teóricos (operaciones de punto flotante), lo que la hace atractiva para la evaluación comparativa académica. Por el contrario, YOLOv5 prioriza la baja latencia en hardware práctico, particularmente las GPU, entregando velocidades de inferencia en tiempo real esenciales para entornos de producción.

La siguiente tabla ilustra esta compensación en el conjunto de datos COCO val2017. Si bien los modelos EfficientDet alcanzan un alto mAP con menos parámetros, YOLOv5 demuestra tiempos de inferencia drásticamente más rápidos en las GPU NVIDIA T4 utilizando TensorRT.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Como se muestra, YOLOv5n alcanza una latencia increíblemente rápida de 1.12 ms en la GPU, superando significativamente a la variante EfficientDet más pequeña. Para las aplicaciones en las que los milisegundos importan, como los vehículos autónomos o las líneas de fabricación de alta velocidad, esta ventaja de velocidad es fundamental.

Diferencias Arquitectónicas

Comprender el diseño estructural de cada modelo ayuda a aclarar sus características de rendimiento.

Ultralytics YOLOv5

YOLOv5 emplea una estructura troncal CSPDarknet junto con un cuello de botella PANet. Esta arquitectura está diseñada para maximizar el flujo de gradiente y la eficiencia de la extracción de características.

Backbone: Utiliza conexiones Cross Stage Partial (CSP) para reducir la información de gradiente redundante, mejorando la capacidad de aprendizaje y reduciendo los parámetros.
Cuello: Presenta una Red de Agregación de Rutas (PANet) para una fusión de características multi-escala fiable, mejorando la detección de objetos en varios tamaños.
Head: Un head de detección estándar basado en anclajes YOLO predice directamente las clases y los cuadros delimitadores.

Más información sobre YOLOv5

EfficientDet

EfficientDet se basa en la estructura EfficientNet e introduce una Red Piramidal de Características Bidireccional ponderada (BiFPN).

Backbone: Utiliza EfficientNet, que escala la profundidad, el ancho y la resolución uniformemente utilizando un coeficiente compuesto.
Cuello (BiFPN): Una capa de integración de características compleja que permite que la información fluya tanto de arriba hacia abajo como de abajo hacia arriba, aplicando pesos a diferentes características de entrada para enfatizar su importancia.
Escalado Compuesto: Una innovación clave donde la backbone, BiFPN y las redes de predicción de box/class se escalan juntas.

Más información sobre EfficientDet

La ventaja de Ultralytics: Ecosistema y usabilidad

Si bien las métricas sin procesar son importantes, la experiencia del desarrollador a menudo dicta el éxito de un proyecto. Ultralytics YOLOv5 sobresale al proporcionar un entorno pulido y centrado en el usuario que reduce drásticamente el tiempo de desarrollo.

Facilidad de uso e integración

YOLOv5 es reconocido por su usabilidad "lista para usar". El modelo se puede instalar a través de un simple comando pip y utilizar con un código mínimo. En contraste, las implementaciones de EfficientDet a menudo requieren una configuración más compleja dentro del ecosistema de TensorFlow o repositorios de investigación específicos.

Flujo de Trabajo Optimizado

Con Ultralytics, puedes pasar del conjunto de datos al modelo entrenado en minutos. La integración con herramientas como Ultralytics HUB permite una gestión, visualización e implementación de modelos sin problemas y sin una gran cantidad de código repetitivo.

Eficiencia del entrenamiento y memoria

Los modelos de Ultralytics están optimizados para la eficiencia del entrenamiento. Normalmente, convergen más rápido y requieren menos memoria CUDA en comparación con arquitecturas complejas como los niveles de escalado más altos de EfficientDet o los modelos basados en transformadores. Esta menor barrera de entrada permite a los desarrolladores entrenar modelos de última generación en hardware de consumo o en instancias estándar en la nube como Google Colab.

Versatilidad y multitarea

A diferencia de la implementación estándar de EfficientDet, que es principalmente un detector de objetos, el framework de Ultralytics admite un amplio espectro de tareas. Los desarrolladores pueden aprovechar la misma API para la segmentación de instancias y la clasificación de imágenes, proporcionando una solución unificada para diversos desafíos de visión artificial.

Casos de Uso Ideales

La elección entre YOLOv5 y EfficientDet depende en gran medida de las limitaciones y los objetivos de la implementación.

Cuándo elegir Ultralytics YOLOv5

Aplicaciones en tiempo real: Proyectos que requieren baja latencia, como la videovigilancia, la robótica o el análisis de deportes en directo.
Implementación en el borde: Ejecución en dispositivos como NVIDIA Jetson o Raspberry Pi donde la utilización eficiente de la GPU/NPU es clave.
Prototipado rápido: Cuando se priorizan los ciclos de iteración rápidos y la facilidad de uso para demostrar el valor rápidamente.
Sistemas de producción: Para implementaciones robustas y mantenibles respaldadas por una enorme comunidad de código abierto.

Cuándo elegir EfficientDet

Investigación y evaluación comparativa: Estudios académicos centrados en la eficiencia de FLOPs o en las leyes de escalado arquitectónico.
Procesamiento Offline: Escenarios donde una alta latencia es aceptable, y el objetivo es exprimir los últimos puntos porcentuales de precisión en imágenes estáticas.
Inferencia de CPU de baja potencia: En entornos muy específicos solo de CPU donde las operaciones BiFPN están altamente optimizadas para el conjunto de instrucciones de hardware específico.

Orígenes y detalles del modelo

Comprender el contexto de estos modelos proporciona información sobre sus objetivos de diseño.

Ultralytics YOLOv5

Autor: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHub:ultralytics/yolov5
Documentación:Documentación de YOLOv5

EfficientDet

Autores: Mingxing Tan, Ruoming Pang, Quoc V. Le
Organización: Google Research
Fecha: 2019-11-20
Arxiv:EfficientDet: Scalable and Efficient Object Detection
GitHub:google/automl/efficientdet

Ejemplo de código: Introducción a YOLOv5

Ultralytics hace que la inferencia sea increíblemente sencilla. A continuación, se muestra un ejemplo válido y ejecutable que utiliza la API de python para detect objetos en una imagen.

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image URL
img_url = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img_url)

# Display results
results.show()

# Print detection data (coordinates, confidence, class)
print(results.pandas().xyxy[0])

Este sencillo fragmento de código se encarga de descargar el modelo, preprocesar la imagen, ejecutar el pase hacia delante y decodificar la salida: tareas que requerirían mucho más código con implementaciones EfficientDet sin procesar.

Conclusión

Si bien EfficientDet contribuyó significativamente a la investigación sobre el escalado de modelos y la eficiencia de los parámetros, Ultralytics YOLOv5 sigue siendo la mejor opción para la implementación práctica en el mundo real. Su excepcional equilibrio entre velocidad y precisión, combinado con un ecosistema bien mantenido y próspero, garantiza que los desarrolladores puedan crear, entrenar e implementar soluciones de forma eficaz.

Para aquellos que buscan aprovechar lo último en tecnología de visión artificial, Ultralytics ha seguido innovando más allá de YOLOv5. Modelos como YOLOv8 y el innovador YOLO11 ofrecen mejoras adicionales en la arquitectura, admitiendo aún más tareas como la estimación de pose y la detección de objetos orientados, todo ello manteniendo la facilidad de uso característica que define la experiencia de Ultralytics.

Explorar Otros Modelos

Si está interesado en explorar más comparaciones para encontrar el modelo perfecto para sus necesidades, considere estos recursos:

YOLOv5 vs. YOLO11 - Compare el clásico con lo último en tecnología de punta.
EfficientDet vs. YOLOv8: vea cómo se compara EfficientDet con YOLOv8.
YOLOv8 vs. YOLO11 - Comprenda los avances en la generación más reciente.
YOLO11 vs. RT-DETR - Compara los transformadores en tiempo real con YOLO.