Ir al contenido

EfficientDet frente aYOLO: un análisis en profundidad de la evolución de la detección de objetos

En el dinámico mundo de la visión artificial, la búsqueda del equilibrio óptimo entre precisión y latencia impulsa la innovación constante. Dos arquitecturas que han definido sus respectivas épocas son EfficientDet Google y YOLO de Alibaba. Mientras que EfficientDet introdujo un enfoque basado en principios para el escalado de modelos,YOLO los límites del rendimiento en tiempo real utilizando la búsqueda de arquitectura neuronal (NAS).

Esta guía ofrece una comparación técnica exhaustiva de estos dos modelos, analizando sus características arquitectónicas distintivas, sus métricas de rendimiento y su idoneidad para implementaciones modernas. Para los desarrolladores que buscan soluciones de vanguardia, también exploramos cómo los marcos más recientes, como Ultralytics , se basan en estos fundamentos para ofrecer una facilidad de uso y un rendimiento superiores.

Descripción general de EfficientDet

Lanzado a finales de 2019, EfficientDet marcó un cambio de paradigma en la forma de escalar los modelos de detección de objetos. Antes de su lanzamiento, el escalado se realizaba a menudo de forma arbitraria. El equipo de Google introdujo un método de escalado compuesto que escala de forma uniforme la resolución, la profundidad y la anchura, lo que dio lugar a una familia de modelos (D0-D7) que se adaptan a diversas limitaciones de recursos.

Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización:Google
Fecha: 20 de noviembre de 2019
Arxiv:EfficientDet Artículo
GitHub:google

Características arquitectónicas clave

  • BiFPN (Red piramidal de características bidireccionales ponderadas): a diferencia de las FPN tradicionales, BiFPN permite la fusión de características multiescala de arriba abajo y de abajo arriba. Introduce pesos aprendibles en diferentes características de entrada, reconociendo que no todas las características contribuyen por igual a la salida.
  • Escalado compuesto: un coeficiente unificado $\phi$ controla la anchura, la profundidad y la resolución de la red, lo que garantiza que la columna vertebral, la red de características y los cabezales de predicción se escalen en armonía.
  • EfficientNet Backbone: El uso de EfficientNet como columna vertebral permite una alta eficiencia de parámetros, aprovechando las capas de convolución invertida móvil (MBConv).

Más información sobre EfficientDet

Descripción general de DAMO-YOLO

YOLO, desarrollado por Alibaba Group en 2022, se diseñó con un enfoque estricto en aplicaciones industriales donde la latencia es primordial. Se aleja del diseño arquitectónico manual y emplea NAS para descubrir estructuras eficientes adaptadas a la inferencia de alto rendimiento.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 23 de noviembre de 2022
Arxiv:YOLO
GitHub:YOLO

Innovaciones arquitectónicas clave

  • MAE-NAS Backbone: Mediante un método denominado «Method-Aware Efficiency Neural Architecture Search» (Búsqueda de arquitectura neuronal eficiente y consciente del método),YOLO backbones optimizados específicamente para la velocidad de inferencia, lo que difiere significativamente de la CSPNet diseñada manualmente que se utiliza en YOLOv5 o YOLOv8.
  • RepGFPN: un FPN generalizado eficiente que emplea la reparametrización (estilo RepVGG) para fusionar características, lo que reduce la latencia durante la inferencia y mantiene una alta expresividad de las características durante el entrenamiento.
  • ZeroHead: un cabezal de detección ligero que reduce significativamente la carga computacional en comparación con los cabezales desacoplados que se encontraban en modelos anteriores.
  • AlignedOTA: Una estrategia de asignación de etiquetas mejorada que resuelve la desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

Más información sobre DAMO-YOLO

Comparación de rendimiento

La siguiente tabla compara el rendimiento de EfficientDet yYOLO diferentes escalas de modelos. Mientras que EfficientDet ofrece una amplia gama de tamaños (hasta D7 para tareas de alta resolución),YOLO en el «punto óptimo» de latencia en tiempo real (T/S/M/L).

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análisis

  • Latencia frente a precisión: YOLO una eficiencia superior en GPU . Por ejemplo, DAMO-YOLOs alcanza 46,0 mAP con solo 3,45 ms latencia en una GPU T4. Por el contrario, EfficientDet-d3 alcanza un nivel ligeramente superior 47,5 mAP pero a costa de 19,59 ms—casi 5,5 veces más lento.
  • Envejecimiento de la arquitectura: EfficientDet depende en gran medida de convoluciones separables en profundidad. Aunque son eficientes en cuanto a parámetros, estas operaciones suelen estar limitadas por la memoria en las GPU modernas, lo que conduce a una menor utilización en comparación con las convoluciones densas optimizadas en la estructura NASYOLO.
  • Requisitos informáticos: EfficientDet-d7 requiere enormes recursos informáticos (325 GFLOP) para obtener ganancias marginales en precisión (53,7 mAP), lo que dificulta su implementación en dispositivos periféricos.

Entrenamiento y ecosistema

La experiencia del usuario difiere drásticamente entre estas dos generaciones de modelos.

Ecosistema EfficientDet

EfficientDet está profundamente arraigado en el ecosistema Google y TensorFlow. Aunque es potente, los usuarios a menudo se enfrentan a:

  • Complejidad de las dependencias: navegar entre las versiones TensorFlow . TensorFlow y 2.x TensorFlow puede resultar complicado.
  • Limitaciones de los gráficos estáticos: la exportación de modelos a ONNX TensorRT requiere scripts de conversión complejos que pueden no ser compatibles de forma nativa con todas las operaciones BiFPN.

YOLO

YOLO PyTorch, que suele ser más flexible para la investigación. Sin embargo:

  • Enfoque especializado: Se trata principalmente de un repositorio de investigación. Aunque es excelente para tareas de detección específicas, carece de la amplia utilidad «lista para usar» para otras tareas como la segmentación o la estimación de la postura.
  • Dependencia de la destilación: para alcanzar el máximo rendimiento,YOLO utilizar la destilación de modelos más grandes, lo que añade complejidad al proceso de entrenamiento.

El ecosistema importa

Al elegir un modelo para la producción, tenga en cuenta no solo el mAP la facilidad de entrenamiento con datos personalizados. Un modelo que tarda semanas en integrarse suele costar más en tiempo de ingeniería de lo que vale la ganancia marginal de precisión.

La Ventaja de Ultralytics: Presentamos YOLO26

Si bien EfficientDet yYOLO hitos en la visión artificial, el campo ha evolucionado. Ultralytics representa la próxima generación de IA de visión, combinando la eficiencia arquitectónica de los modelos basados en NAS con la facilidad de uso del Ultralytics .

¿Por qué actualizar a YOLO26?

YOLO26 aborda los puntos débiles de las arquitecturas anteriores con varias características innovadoras:

  1. Diseño integral NMS: a diferencia de EfficientDet yYOLO, que requieren un posprocesamiento de supresión no máxima (NMS), YOLO26 es integral de forma nativa. Esto elimina un importante cuello de botella en los procesos de implementación, reduce la variabilidad de la latencia y simplifica la exportación a formatos como CoreML TensorRT.
  2. Optimizador MuSGD: inspirado en la estabilidad del entrenamiento LLM, el nuevo optimizador MuSGD (una combinación de SGD Muon) garantiza una convergencia más rápida y ejecuciones de entrenamiento más estables, incluso en conjuntos de datos más pequeños.
  3. ProgLoss + STAL: Las nuevas funciones de pérdida (ProgLoss y Soft-Target Assignment Loss) proporcionan mejoras significativas en la detección de objetos pequeños, una debilidad tradicional de los modelos sin anclajes.
  4. OptimizaciónCPU borde: con la eliminación de DFL (pérdida focal de distribución) y las optimizaciones arquitectónicas, YOLO26 logra CPU hasta un 43 % más rápida, lo que lo convierte en la opción superior para implementaciones en Raspberry Pi y dispositivos móviles.

Resumen de la comparación

CaracterísticaEfficientDetDAMO-YOLOUltralytics YOLO26
ArquitecturaBiFPN + Escalado compuestoNAS + RepGFPNNMS de extremo a extremo
PostprocesamientoNMSNMSNinguno (de extremo a extremo)
Soporte de TareasDetecciónDeteccióndetect, segment, Pose, obb, classify
PlataformaTensorFlowPyTorchUltralytics Platform
DespliegueComplejoModeradoUn clic (más de 10 formatos)

Más información sobre YOLO26

Facilidad de uso y formación

Una de las características definitorias de Ultralytics es la API unificada. Tanto si está entrenando un detector de objetos, un modelo de cuadro delimitador orientado (OBB) o un modelo de estimación de postura, el código sigue siendo coherente y sencillo.

Así de fácil es entrenar un modelo YOLO26 de última generación con tus datos personalizados:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
metrics = model.val()
print(f"mAP50-95: {metrics.box.map}")

Casos de uso en el mundo real

¿Cuándo utilizar EfficientDet?

EfficientDet sigue siendo relevante en escenarios que implican:

  • Google Pipelines heredadas: sistemas profundamente integrados con API Google Vision más antiguas o infraestructura TPU .
  • Benchmarking académico: como referencia estándar para la investigación sobre escalado compuesto.

¿Cuándo utilizarYOLO?

YOLO en:

  • Restricciones estrictas GPU : líneas de fabricación industrial en las que cada milisegundo cuenta y el hardware está fijado a NVIDIA .
  • Análisis de vídeo: procesamiento de flujos de vídeo con un alto número de fotogramas por segundo, donde el rendimiento (tamaño de lote 1) es la métrica principal.

¿Cuándo utilizar YOLO26?

YOLO26 es la solución recomendada para:

  • IA en el borde: implementación en teléfonos móviles, drones o dispositivos IoT, donde la inferencia NMS simplifica la lógica de la aplicación y CPU es fundamental.
  • Aplicaciones multitarea: proyectos que requieren segmentación de instancias o estimación de poses junto con detección dentro de un único código base.
  • Desarrollo rápido: equipos que necesitan pasar de la recopilación de datos en la Ultralytics a la implementación en cuestión de horas, en lugar de semanas.

Conclusión

Mientras que EfficientDet nos enseñó la importancia del escalado yYOLO el poder de NAS, Ultralytics sintetiza estas lecciones en una potente herramienta lista para la producción. Con su diseñoNMS, su versatilidad en todas las tareas y su ecosistema bien mantenido, YOLO26 ofrece al desarrollador moderno el camino más sólido hacia el éxito en la visión por computadora.

Para explorar más a fondo las arquitecturas de los modelos, considere revisar las comparaciones con YOLOv10 o RT-DETR, que también exploran innovaciones basadas en transformadores.


Comentarios