Ir al contenido

YOLO EfficientDet: un análisis en profundidad de las arquitecturas de detección de objetos

Seleccionar la arquitectura de visión artificial óptima es una decisión fundamental que afecta a todo, desde la latencia de inferencia hasta los costes de hardware. En esta comparación técnica, analizamos dos modelos influyentes: YOLO de Alibaba y EfficientDet Google. Mientras que EfficientDet introdujo el concepto de eficiencia escalable,YOLO los límites del rendimiento en tiempo real con novedosas técnicas de destilación.

Esta guía ofrece un análisis riguroso de sus arquitecturas, métricas de rendimiento e idoneidad para implementaciones modernas, al tiempo que explora cómo las soluciones de última generación, como Ultralytics , están estableciendo nuevos estándares en cuanto a facilidad de uso y eficiencia periférica.

Descripción general de DAMO-YOLO

YOLO un marco de detección de objetos de alto rendimiento desarrollado por Alibaba Group. Prioriza el equilibrio entre velocidad y precisión, aprovechando tecnologías como la búsqueda de arquitectura neuronal (NAS) y la reparametrización intensiva. Diseñado principalmente para aplicaciones industriales, su objetivo es reducir la latencia sin comprometer la calidad de la detección.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 23 de noviembre de 2022
Arxiv:YOLO
GitHub:YOLO
Documentación:YOLO

Características arquitectónicas clave

  • MAE-NAS Backbone: utiliza una búsqueda de arquitectura neuronal basada en un autoencoder enmascarado (MAE) para descubrir estructuras backbone eficientes.
  • RepGFPN eficiente: un diseño de cuello pesado que utiliza la reparametrización (similar a YOLOv6) para fusionar características de manera eficaz y mantener la rapidez de la inferencia.
  • ZeroHead: un cabezal de detección ligero que minimiza la sobrecarga computacional durante la etapa final de predicción.
  • AlignedOTA: una estrategia mejorada de asignación de etiquetas que resuelve los problemas de desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

Descripción general de EfficientDet

EfficientDet, desarrollado por el equipo Google , introdujo un enfoque sistemático para el escalado de modelos. Al escalar conjuntamente la columna vertebral, la resolución y la profundidad, EfficientDet alcanza una eficiencia notable. Se basa en la columna vertebral EfficientNet e introduce la BiFPN (red piramidal de características bidireccionales) para la fusión de características complejas.

Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización:Google
Fecha: 20 de noviembre de 2019
Arxiv:EficienteDet Artículo
GitHub:google
Documentación:EficienteDet README

Características arquitectónicas clave

  • Escalado compuesto: método para escalar de manera uniforme el ancho, la profundidad y la resolución de la red con un coeficiente compuesto simple (phi).
  • BiFPN: Una red piramidal de características bidireccional ponderada que permite una fusión de características multiescala fácil y rápida.
  • EfficientNet Backbone: Aprovecha la potente arquitectura EfficientNet para la extracción de características.

Comparación de rendimiento

La siguiente tabla compara el rendimiento de las variantesYOLO EfficientDet.YOLO ofrece,YOLO , una relación velocidad-precisión superior, especialmente en GPU , donde destacan sus bloques reparametrizados. EfficientDet, aunque preciso, suele sufrir una mayor latencia debido a las complejas conexiones BiFPN y a las funciones de activación más lentas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Análisis de resultados

  • Latencia:YOLO superaYOLO a EfficientDet en TensorRT . Por ejemplo, DAMO-YOLOl alcanza 50,8 mAP ~7 ms, mientras que EfficientDet-d4 requiere ~33 ms para obtener una precisión similar.
  • Eficiencia arquitectónica: el bajo número de parámetros de EfficientDet (por ejemplo, d0 solo tiene 3,9 millones de parámetros) lo hace fácil de almacenar, pero su compleja estructura gráfica (BiFPN) a menudo da lugar a velocidades de inferencia reales más lentas en comparación con las estructuras optimizadas de los modelos YOLO.
  • Uso de recursos:YOLO la «mejora de la destilación» durante el entrenamiento, lo que permite que los modelos de alumnos más pequeños aprendan de los profesores más grandes, lo que aumenta el rendimiento sin aumentar el coste de la inferencia.

Explicación de la reparametrización

YOLO técnicas de reparametrización, similares a RepVGG. Durante el entrenamiento, el modelo utiliza bloques complejos de múltiples ramificaciones para aprender características enriquecidas. Antes de la inferencia, estas ramificaciones se fusionan matemáticamente en una sola convolución, lo que aumenta drásticamente la velocidad sin perder precisión.

Casos de uso y aplicaciones

Comprender en qué destaca cada modelo ayuda a elegir la herramienta adecuada para cada trabajo.

Cuándo usar DAMO-YOLO

  • Inspección industrial: ideal para líneas de fabricación en las que la latencia de milisegundos es fundamental para detectar defectos en cintas transportadoras de movimiento rápido.
  • Vigilancia inteligente en ciudades: su alto rendimiento permite procesar múltiples flujos de vídeo en una sola GPU.
  • Robótica: Adecuada para la navegación autónoma, donde se requieren tiempos de reacción rápidos para evitar obstáculos.

Cuándo usar EfficientDet

  • Investigación académica: Sus reglas de escalado sistemáticas lo convierten en una excelente base de referencia para estudiar las teorías de eficiencia de los modelos.
  • Entornos con limitaciones de almacenamiento: el número extremadamente bajo de parámetros de las variantes d0/d1 resulta beneficioso si el espacio en disco es el principal cuello de botella, aunque el uso de RAM y CPU pueden seguir siendo superiores a YOLO comparables.
  • Aplicaciones móviles (heredadas): Las primeras implementaciones móviles utilizaban versiones de EfficientDet TFLite, aunque las arquitecturas modernas como YOLO11 lo han sustituido en gran medida.

La Ventaja de Ultralytics: Presentamos YOLO26

AunqueYOLO EfficientDet fueron hitos importantes, el campo ha evolucionado. Ultralytics representa la tecnología más avanzada en la actualidad, ya que aborda las limitaciones de las arquitecturas anteriores mediante un diseño integral y una optimización superior.

Más información sobre YOLO26

Por qué los desarrolladores prefieren Ultralytics

  1. Facilidad de uso y ecosistema: Ultralytics una experiencia fluida «de cero a héroe». A diferencia de los complejos archivos de configuración que suelen requerir los repositorios de investigación, Ultralytics le Ultralytics comenzar a entrenar con unas pocas líneas de Python. El ecosistema incluye la Ultralytics para facilitar la gestión de conjuntos de datos y el entrenamiento en la nube.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset
    results = model.train(data="coco8.yaml", epochs=100)
    
  2. Equilibrio de rendimiento: YOLO26 está diseñado para dominar la frontera de Pareto. Ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en una potente herramienta para aplicaciones de IA de vanguardia en las que no se dispone de GPU.

  3. NMS de extremo a extremo: uno de los mayores inconvenientes a la hora de implementar detectores de objetos es la supresión no máxima (NMS).YOLO EfficientDet dependen de NMS, lo que complica el posprocesamiento e introduce variabilidad en la latencia. YOLO26 es nativamente de extremo a extremo, lo que elimina NMS para una inferencia determinista y más rápida.

  4. Eficiencia de entrenamiento y MuSGD: YOLO26 integra el optimizador MuSGD, un híbrido de SGD Muon. Esta innovación, inspirada en el entrenamiento LLM, garantiza una convergencia estable y reduce la necesidad de un ajuste exhaustivo de los hiperparámetros. En combinación con unos requisitos de memoria más bajos durante el entrenamiento, permite a los usuarios entrenar lotes de mayor tamaño en hardware de consumo en comparación con los híbridos transformadores que consumen mucha memoria, como RT-DETR.

  5. Versatilidad: Mientras que EfficientDet yYOLO principalmente en los cuadros delimitadores, Ultralytics admiten de forma nativa una amplia gama de tareas, como la segmentación de instancias, la estimación de poses, OBB y la clasificación, todo ello dentro de una única API unificada.

Resumen de la comparación

CaracterísticaEfficientDetDAMO-YOLOUltralytics YOLO26
ArquitecturaBasado en anclaje, BiFPNSin ancla, RepGFPNDe extremo a extremo, NMS
Velocidad de InferenciaLento (gráfico complejo)Rápido (GPU )SOTA (CPU GPU)
DespliegueComplejo (NMS )Moderado (NMS )Simple (NMS)
Entrenamiento de la memoriaAltaModeradoBajo (optimizado)
Soporte de TareasDetecciónDetecciónDetectar, Seg, Pose, OBB

Conclusión

TantoYOLO EfficientDet han contribuido de manera significativa a la historia de la visión artificial. EfficientDet demostró el poder del escalado compuesto, mientras queYOLO la eficacia de la reparametrización y la destilación. Sin embargo, para los desarrolladores que comienzan nuevos proyectos en 2026, Ultralytics ofrece una ventaja convincente.

La eliminación de NMS los procesos de implementación, el optimizador MuSGD acelera el entrenamiento y su arquitectura optimizada ofrece una velocidad superior tanto en CPU periféricas como en potentes GPU. Tanto si está creando un sistema de cámaras inteligentes como una plataforma de análisis de vídeo basada en la nube, el sólido ecosistema y el rendimiento de Ultralytics lo Ultralytics la opción recomendada.

Para profundizar más, quizá te interese comparar YOLO26 con YOLOv10 o conocer las ventajas de YOLO11 para la compatibilidad con versiones anteriores.


Comentarios