Ir al contenido

YOLOv7 vs EfficientDet: Una Inmersión Profunda en Arquitecturas de Detección de Objetos en Tiempo Real

La evolución de la detección de objetos se ha caracterizado por un constante tira y afloja entre precisión y eficiencia. Dos pesos pesados en este ámbito son YOLOv7, un hito en la familia «You Only Look Once» lanzado en 2022, y EfficientDet, la arquitectura escalable Google de finales de 2019. Aunque ambos modelos han influido significativamente en el campo de la visión artificial, abordan el problema de la detección de objetos desde filosofías arquitectónicas fundamentalmente diferentes.

Esta guía ofrece una comparación técnica exhaustiva para ayudar a los desarrolladores, investigadores e ingenieros a seleccionar la herramienta adecuada para sus proyectos específicos de visión artificial. Exploraremos sus arquitecturas únicas, métricas de rendimiento de referencia, metodologías de formación y escenarios de implementación ideales.

Visión General y Orígenes del Modelo

Antes de profundizar en las métricas, es esencial comprender el pedigrí de estos modelos.

YOLOv7: La potente bolsa de regalos

Lanzado en julio de 2022, YOLOv7 los límites de lo que era posible con los detectores en tiempo real. Introdujo innovaciones arquitectónicas diseñadas para optimizar el proceso de entrenamiento sin aumentar los costes de inferencia, un concepto que los autores denominaron «bolsa de regalos entrenable».

Más información sobre YOLOv7

EfficientDet: Escalable y Eficiente

Desarrollado por el equipo Google , EfficientDet se centró en un enfoque sistemático para el escalado. Combinó una novedosa red piramidal de características bidireccionales ponderadas (BiFPN) con un método de escalado compuesto que escala uniformemente la resolución, la profundidad y la anchura.

Diferencias Arquitectónicas

La diferencia fundamental entre estos dos modelos radica en cómo gestionan la agregación de características y el escalado de modelos.

Arquitectura de YOLOv7

YOLOv7 la Red de Agregación de Capas Eficiente Extendida (E-ELAN). Esta arquitectura permite al modelo aprender características más diversas mediante el control de las rutas de gradiente más cortas y más largas, mejorando la capacidad de aprendizaje de la red sin destruir la ruta de gradiente original.

Las características arquitectónicas clave incluyen:

  • Escalado de modelos: a diferencia del escalado compuesto de EfficientDet, YOLOv7 simultáneamente los atributos de la arquitectura (profundidad y anchura) en modelos basados en concatenación.
  • Cabezal auxiliar de grueso a fino: emplea supervisión profunda, en la que un cabezal auxiliar genera etiquetas gruesas para el entrenamiento, mientras que el cabezal principal se encarga del ajuste fino.
  • Reparametrización: YOLOv7 capas RepConv que simplifican las complejas estructuras del tiempo de entrenamiento en convoluciones estándar para una inferencia más rápida, una técnica crucial para la inferencia en tiempo real.

Arquitectura de EfficientDet

EfficientDet se basa en la estructura EfficientNet e introduce la BiFPN.

Las características arquitectónicas clave incluyen:

  • BiFPN: Una red piramidal de características bidireccional ponderada que permite una fusión de características multiescala fácil y rápida. Aprende la importancia de las diferentes características de entrada y aplica repetidamente la fusión de características multiescala de arriba abajo y de abajo arriba.
  • Escalado compuesto: un coeficiente sencillo pero eficaz que escala conjuntamente el ancho, la profundidad y la resolución de la red, lo que permite crear una familia de modelos (D0 a D7) orientados a diferentes limitaciones de recursos.

Comparación de rendimiento

Al comparar el rendimiento, analizamos la precisión media (mAP) en el COCO frente a la velocidad de inferencia.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Análisis Crítico

  1. Latencia: YOLOv7 significativamente más rápido en GPU . Por ejemplo, YOLOv7x alcanza mAP del 53,1 % mAP una TensorRT de ~11,5 ms, mientras que EfficientDet-d7 requiere ~128 ms para alcanzar un mAP ligeramente superior, del 53,7 %. Esto hace que YOLOv7 sea YOLOv7 10 veces más rápido en escenarios de alta precisión.
  2. Eficiencia: EfficientDet-d0 a d2 son extremadamente ligeros en términos de FLOP, lo que los hace adecuados para CPU de muy baja potencia en las que no se dispone de GPU . Sin embargo, a medida que se escala a D4 y superior, las ganancias de eficiencia disminuyen en comparación con YOLO .
  3. Precisión: Aunque EfficientDet-d7 alcanza una precisión impresionante, el coste computacional es prohibitivo para aplicaciones en tiempo real. YOLOv7 un mejor «punto óptimo», ya que mantiene una alta precisión sin sacrificar las capacidades en tiempo real.

Entrenamiento y ecosistema

El ecosistema que rodea a un modelo determina su viabilidad para los desarrolladores. Aquí es donde la Ultralytics ofrece un valor sustancial.

Ecosistema EfficientDet

EfficientDet tiene sus raíces principalmente en el TensorFlow . Aunque es potente, integrarlo en los procesos modernos a menudo implica lidiar con dependencias complejas.

  • Complejidad: Las activaciones BiFPN y swish pueden ser más difíciles de optimizar en ciertos aceleradores de borde en comparación con las convoluciones estándar.
  • Mantenimiento: Muchos repositorios se actualizan con menos frecuencia en comparación con el rápido ciclo de lanzamiento de la YOLO .

Ventaja del ecosistema de Ultralytics

Una de las ventajas más destacadas de utilizar Ultralytics como YOLOv7 y sus versiones más recientes) es el ecosistema bien mantenido.

  • Facilidad de uso: Ultralytics una Python unificada que simplifica el entrenamiento, la validación y la implementación.
  • Eficiencia del entrenamiento: YOLO utilizan eficazmente GPU estándar GPU , lo que reduce el tiempo y el coste asociados al entrenamiento con conjuntos de datos personalizados.
  • Requisitos de memoria: En comparación con los detectores de dos etapas más antiguos o los modelos pesados basados en transformadores, YOLOv7 requiere menos CUDA durante el entrenamiento, lo que permite tamaños de lote más grandes en hardware de consumo.

Formación optimizada con Ultralytics

Entrenar un modelo YOLO es sencillo con la API de python. Así es como podrías iniciar una ejecución de entrenamiento:

from ultralytics import YOLO

# Load a model
model = YOLO("yolov7.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Recomendaciones de casos de uso

Cuándo elegir YOLOv7

YOLOv7 es la elección preferida para aplicaciones en tiempo real donde la latencia es crítica.

  • Conducción Autónoma: detecta peatones, vehículos y señales a altas velocidades de fotogramas, garantizando una toma de decisiones segura.
  • Robótica: Ideal para integrar la visión por computadora en robótica, permitiendo a los robots navegar e interactuar con entornos dinámicos.
  • Análisis de vídeo: procesa múltiples flujos de vídeo simultáneamente para análisis de seguridad o minoristas sin necesidad de grandes clústeres informáticos.

Cuándo elegir EfficientDet

EfficientDet sigue siendo relevante para escenarios específicos de bajo consumo o donde el tamaño del modelo (en MB) es la principal restricción en lugar de la latencia.

  • Aplicaciones móviles: Las variantes más pequeñas, como D0-D1, son adecuadas para dispositivos móviles en los que el espacio de almacenamiento es muy limitado.
  • Sistemas Heredados: En entornos ya muy optimizados para los ecosistemas de TensorFlow/AutoML, EfficientDet podría ofrecer una integración más sencilla.
  • Investigación académica: útil para estudiar los efectos de las técnicas de escalado compuesto o fusión de características en las que la inferencia en tiempo real no es el objetivo principal.

El futuro: actualización a YOLO26

Aunque YOLOv7 una herramienta eficaz, el campo de la visión artificial evoluciona rápidamente. Para los desarrolladores que buscan el mejor rendimiento absoluto, el modelo YOLO26, lanzado en enero de 2026, representa la vanguardia.

YOLO26 se basa en el legado de los YOLO anteriores con un diseño integral NMS. Esto elimina la necesidad del posprocesamiento de supresión no máxima (NMS), lo que simplifica los procesos de implementación y aumenta la velocidad de inferencia.

Las principales ventajas de YOLO26 sobre YOLOv7 EfficientDet incluyen:

  • Optimizador MuSGD: una combinación de SGD Muon que aporta innovaciones en el entrenamiento de LLM a la visión artificial para lograr un entrenamiento más estable y una convergencia más rápida.
  • Optimización de borde: con la eliminación de la pérdida focal de distribución (DFL), YOLO26 es hasta un 43 % más rápido en CPU, lo que lo hace aún más adecuado para dispositivos de borde que EfficientDet.
  • Mayor versatilidad: más allá de la detección, YOLO26 ofrece un rendimiento de vanguardia en estimación de poses, segmentación de instancias y Oriented Bounding Box (OBB), todo ello dentro de un único marco.
  • ProgLoss + STAL: Las funciones de pérdida mejoradas proporcionan mejoras notables en el reconocimiento de objetos pequeños, algo fundamental para el IoT y las imágenes aéreas.

Más información sobre YOLO26

Conclusión

Tanto YOLOv7 EfficientDet se han ganado un lugar en la historia de la visión artificial. EfficientDet introdujo elegantes principios de escalado, mientras que YOLOv7 el enfoque «bag-of-freebies» para la velocidad en tiempo real. Sin embargo, para los procesos de producción modernos que requieren equilibrio de rendimiento, facilidad de uso y versatilidad, el Ultralytics , representado por YOLOv7 el más reciente YOLO26, ofrece una ventaja distintiva.

Con menores requisitos de memoria durante el entrenamiento y exportación fluida a formatos como ONNX y TensorRT, Ultralytics garantizan que su proceso desde el conjunto de datos hasta la implementación sea lo más fluido posible.

Lecturas adicionales


Comentarios