YOLOv7 vs. EfficientDet: Una comparación técnica de arquitecturas de detección de objetos en tiempo real

La detección de objetos sigue siendo una piedra angular de la visión artificial, impulsando innovaciones en campos que van desde la conducción autónoma hasta la imagenología médica. Elegir la arquitectura correcta es fundamental para equilibrar la precisión, la velocidad y los recursos computacionales. Este análisis proporciona una inmersión profunda en YOLOv7 y EfficientDet, dos modelos influyentes que han dado forma al panorama de la detección en tiempo real.

Diseño y Filosofía Arquitectónica

La diferencia fundamental entre estas dos arquitecturas radica en sus objetivos de optimización. EfficientDet, desarrollado por el equipo de Google Brain, prioriza la eficiencia de los parámetros y las operaciones de punto flotante (FLOPs). Aprovecha una arquitectura escalable que permite a los usuarios intercambiar recursos por precisión de forma lineal. En contraste, YOLOv7, creado por los autores de YOLOv4 (Chien-Yao Wang et al.), se centra en maximizar la velocidad de inferencia en hardware de GPU manteniendo una precisión de última generación.

EfficientDet: Escalado Compuesto y BiFPN

EfficientDet se basa en la red troncal EfficientNet, que utiliza un método de escalamiento compuesto para escalar uniformemente la resolución, la profundidad y el ancho de la red. Una innovación clave en EfficientDet es la Red Piramidal de Características Bidireccional (BiFPN). A diferencia de las FPN tradicionales, BiFPN permite una fusión de características multiescala fácil y rápida al introducir pesos aprendibles para aprender la importancia de las diferentes características de entrada. Este diseño hace que EfficientDet sea muy eficaz para aplicaciones de computación perimetral donde la memoria y los FLOP están estrictamente limitados.

Más información sobre EfficientDet

YOLOv7: E-ELAN y reparametrización del modelo

YOLOv7 introduce la Red de Agregación de Capas Eficiente Extendida (E-ELAN). Esta arquitectura controla las rutas de gradiente más cortas y más largas para mejorar la capacidad de aprendizaje de la red sin destruir la ruta de gradiente original. Además, YOLOv7 emplea la re-parametrización del modelo, una técnica donde una estructura de entrenamiento compleja se simplifica en una estructura de inferencia optimizada. Esto resulta en un modelo que es robusto durante el entrenamiento pero extremadamente rápido durante la implementación en las GPU.

Más información sobre YOLOv7

Análisis de rendimiento: Métricas y puntos de referencia

Al comparar el rendimiento, la elección a menudo depende del hardware de implementación. EfficientDet brilla en entornos de bajo consumo (CPU), mientras que YOLOv7 está diseñado para la inferencia de GPU de alto rendimiento.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Puntos clave

Latencia vs. Eficiencia: Si bien EfficientDet-d0 utiliza significativamente menos parámetros (3.9M), YOLOv7l ofrece un mAP mucho más alto (51.4%) con una latencia extremadamente baja en GPUs (6.84ms). Esto demuestra la utilización superior de la potencia de procesamiento paralelo de YOLOv7.
Escalabilidad: EfficientDet proporciona una ruta de escalado granular de d0 a d7, lo que permite a los desarrolladores ajustar el tamaño del modelo para restricciones específicas de la CPU.
Precisión de gama alta: En el extremo superior, EfficientDet-d7 logra una excelente precisión (53.7% mAP), pero a costa de una alta latencia (~128ms). YOLOv7x logra una precisión comparable (53.1% mAP) en menos de una décima parte del tiempo de inferencia (11.57ms) en una GPU T4.

Consideraciones de hardware

Si su objetivo de implementación es una CPU genérica o un procesador móvil, los FLOPs más bajos de los modelos EfficientDet (específicamente d0-d2) a menudo resultan en una mejor duración de la batería y gestión térmica. Para GPUs de borde (como NVIDIA Jetson) o servidores de inferencia en la nube, YOLOv7 ofrece velocidades de fotogramas significativamente más altas para el análisis de vídeo en tiempo real.

Metodologías de entrenamiento y optimización

Las estrategias de entrenamiento para estos modelos reflejan sus objetivos arquitectónicos.

YOLOv7 utiliza un enfoque de "Bolsa de regalos", incorporando métodos que aumentan el coste del entrenamiento pero mejoran la precisión sin afectar a la velocidad de inferencia. Las técnicas clave incluyen:

Supervisión profunda de lo general a lo específico: Se utiliza un encabezado auxiliar para supervisar las capas intermedias de la red, con estrategias de asignación de etiquetas que guían el encabezado auxiliar de manera diferente al encabezado principal.
Asignación dinámica de etiquetas: El modelo adapta la asignación de objetos ground truth a anclajes durante el entrenamiento, mejorando la convergencia.

EfficientDet se basa en gran medida en AutoML para encontrar la arquitectura óptima de backbone y red de características. Su entrenamiento normalmente implica:

Profundidad estocástica: Descartar capas aleatoriamente durante el entrenamiento para mejorar la generalización.
Activación Swish: Una función suave, no monotónica que supera consistentemente a ReLU en redes más profundas.

La ventaja de Ultralytics

Si bien tanto YOLOv7 como EfficientDet son potentes, el panorama de la visión artificial evoluciona rápidamente. El ecosistema de Ultralytics ofrece alternativas modernas como YOLO11 que sintetizan los mejores rasgos de las arquitecturas anteriores al tiempo que mejoran la experiencia del desarrollador.

Facilidad de uso y ecosistema

Uno de los principales retos de los repositorios orientados a la investigación (como la base de código original de EfficientDet) es la complejidad de la integración. Ultralytics resuelve esto con un paquete de python unificado. Los desarrolladores pueden entrenar, validar e implementar modelos con tan solo unas líneas de código, con el apoyo de una documentación completa y el apoyo activo de la comunidad.

Versatilidad y equilibrio de rendimiento

Los modelos de Ultralytics no se limitan a los bounding boxes. Admiten de forma nativa la segmentación de instancias, la estimación de poses, la clasificación y la detección de objetos orientados (OBB). En términos de rendimiento, las versiones modernas de YOLO (como YOLOv8 y YOLO11) a menudo logran una mayor precisión por parámetro que EfficientDet y una inferencia más rápida que YOLOv7, logrando un equilibrio ideal para la implementación en el mundo real.

Memoria y Eficiencia del Entrenamiento

Los modelos YOLO de Ultralytics son famosos por su eficiencia de memoria. Normalmente, requieren menos memoria CUDA durante el entrenamiento en comparación con los detectores basados en transformadores o las arquitecturas escalables más antiguas. Esto permite a los investigadores entrenar modelos de última generación en hardware de consumo. Además, el aprendizaje por transferencia se agiliza con pesos pre-entrenados de alta calidad disponibles para su descarga inmediata.

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
predictions = model("https://ultralytics.com/images/bus.jpg")

Especificaciones del modelo

YOLOv7

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha de lanzamiento: 6 de julio de 2022
Artículo:YOLOv7: El conjunto de técnicas entrenables gratuitas establece un nuevo estado del arte para los detectores de objetos en tiempo real
Fuente:Repositorio de GitHub

EfficientDet

Autores: Mingxing Tan, Ruoming Pang, y Quoc V. Le
Organización: Google Research, Brain Team
Fecha de lanzamiento: 20 de noviembre de 2019
Artículo:EfficientDet: Detección de objetos escalable y eficiente
Fuente:Repositorio de GitHub

Casos de uso en el mundo real

Cuándo elegir EfficientDet

EfficientDet sigue siendo un fuerte candidato para sistemas integrados donde la aceleración de la GPU no está disponible.

Aplicaciones móviles: Aplicaciones Android/iOS que realizan la detección de objetos en la CPU.
Sensores IoT remotos: Dispositivos alimentados por batería que monitorizan cambios ambientales donde cada milivatio de computación cuenta.

Cuándo elegir YOLOv7

YOLOv7 destaca en entornos industriales de alto rendimiento.

Conducción autónoma: Detectar peatones y vehículos a altas velocidades de fotogramas para garantizar la seguridad.
Ciudades inteligentes: Analizando múltiples transmisiones de video simultáneamente para la gestión del tráfico en servidores periféricos.

Conclusión

Ambas arquitecturas representan hitos importantes en la visión artificial. EfficientDet demostró el poder del escalado compuesto para la eficiencia de los parámetros, mientras que YOLOv7 superó los límites de lo que es posible con la optimización de la latencia de la GPU.

Sin embargo, para los desarrolladores que buscan la solución más moderna, mantenible y versátil, se recomienda la familia de modelos Ultralytics YOLO11. Ofrece compensaciones superiores entre precisión y velocidad, un flujo de trabajo más sencillo y un ecosistema robusto que simplifica el recorrido desde la selección del conjunto de datos hasta la implementación.

Explorar Otros Modelos

Si está interesado en comparar otras arquitecturas de detección de objetos, considere estos recursos: