PP-YOLOE+ vs. EfficientDet: Una comparación técnica para la detección de objetos
Seleccionar el modelo de detección de objetos óptimo es crucial para las aplicaciones de visión artificial. Esta página ofrece una comparación técnica detallada entre PP-YOLOE+ y EfficientDet, dos modelos significativos, para ayudarle a tomar una decisión informada basada en los requisitos de su proyecto. Profundizaremos en sus diseños arquitectónicos, puntos de referencia de rendimiento e idoneidad de la aplicación. Si bien ambos modelos han realizado importantes contribuciones, representan diferentes etapas en la evolución de los detectores de objetos eficientes.
PP-YOLOE+: Optimizado para eficiencia y precisión
PP-YOLOE+, desarrollado por PaddlePaddle Authors en Baidu y lanzado el 2 de abril de 2022, es una versión mejorada de la serie PP-YOLOE. Se centra en ofrecer alta precisión y una implementación eficiente, especialmente dentro del ecosistema PaddlePaddle. Destaca como un detector sin anclaje de una sola etapa diseñado para un equilibrio superior de rendimiento y velocidad en tareas de detección de objetos.
- Autores: Autores de PaddlePaddle
- Organización: Baidu
- Fecha: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Documentación: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Arquitectura y Características Clave
PP-YOLOE+ adopta un enfoque sin anclajes, lo que simplifica la estructura del modelo y el proceso de entrenamiento al eliminar la necesidad de cajas de anclaje predefinidas. Su arquitectura presenta un encabezado de detección desacoplado que separa las tareas de clasificación y localización, mejorando la precisión general. El modelo utiliza VariFocal Loss, una función de pérdida especializada, para manejar mejor el desequilibrio entre muestras positivas y negativas, refinando aún más la clasificación y la precisión de las cajas delimitadoras. La arquitectura incluye mejoras en el backbone, el cuello con una Path Aggregation Network (PAN) y el encabezado para mejorar tanto la precisión como la velocidad de inferencia.
Fortalezas y Debilidades
- Puntos fuertes: Alta precisión para su número de parámetros, el diseño sin anclajes simplifica la implementación y está bien soportado dentro del framework PaddlePaddle. El modelo muestra excelentes velocidades de inferencia en GPU cuando se optimiza con TensorRT.
- Debilidades: Principalmente optimizado para el ecosistema PaddlePaddle, lo que puede limitar la flexibilidad para los usuarios de otros frameworks populares como PyTorch. Su soporte comunitario y los recursos disponibles pueden ser menos extensos que los de los modelos adoptados globalmente como la serie Ultralytics YOLO.
Casos de uso
El rendimiento equilibrado y el moderno diseño sin anclajes hacen de PP-YOLOE+ una opción versátil para diversas aplicaciones. Es muy adecuado para tareas como la inspección de calidad industrial, la automatización del reciclaje y la mejora de las operaciones de comercio minorista inteligente.
Más información sobre PP-YOLOE+
EfficientDet: Arquitectura Escalable y Eficiente
EfficientDet fue introducido por el equipo de Google Brain en noviembre de 2019. Estableció un nuevo estándar de eficiencia en la detección de objetos al presentar una familia de modelos que podían escalar desde dispositivos de borde hasta grandes servidores en la nube. Sus principales innovaciones se centraron en la creación de una arquitectura altamente eficiente y escalable.
- Autores: Mingxing Tan, Ruoming Pang, y Quoc V. Le
- Organización: Google
- Fecha: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Documentación: https://github.com/google/automl/tree/master/efficientdet
Arquitectura y Características Clave
La arquitectura de EfficientDet se basa en tres ideas clave:
- EfficientNet Backbone: Utiliza el EfficientNet, de gran eficiencia, como su backbone para la extracción de características, que fue diseñado utilizando una búsqueda de arquitectura neuronal para optimizar la precisión y las operaciones FLOPs.
- BiFPN (Red Piramidal de Características Bidireccional): En lugar de una FPN estándar, EfficientDet introduce BiFPN, un método de fusión de características multiescala más eficiente. Permite un flujo de información fácil y rápido a través de diferentes niveles de características con conexiones ponderadas.
- Escalado Compuesto: Un método de escalado novedoso que escala uniformemente la profundidad, el ancho y la resolución para la red troncal, la red de características y el encabezado de detección utilizando un coeficiente compuesto simple. Esto permite que el modelo se escale desde el pequeño D0 hasta la variante grande D7 de una manera fundamentada y eficaz.
Análisis de rendimiento
La siguiente tabla proporciona una comparación detallada del rendimiento. Si bien EfficientDet era de última generación en el momento de su lanzamiento, los benchmarks muestran que los modelos más nuevos como PP-YOLOE+ ofrecen un rendimiento significativamente mejor, especialmente en términos de velocidad de inferencia en la GPU. Por ejemplo, PP-YOLOE+l alcanza una mAP más alta (52.9) que EfficientDet-d5 (51.5) pero es más de 8 veces más rápido en una GPU T4 con TensorRT. Esto destaca los rápidos avances en la arquitectura del modelo y las técnicas de optimización.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Fortalezas y Debilidades
- Puntos fuertes: Arquitectura innovadora con BiFPN y escalado compuesto que influyó en muchos modelos posteriores. Altamente escalable en una amplia gama de presupuestos computacionales.
- Debilidades: Velocidades de inferencia más lentas en comparación con las arquitecturas modernas. El diseño basado en anchors es más complejo que las alternativas sin anchors. La implementación original está en TensorFlow, lo que puede ser un obstáculo para la comunidad de investigación dominante de PyTorch.
Casos de uso
EfficientDet sigue siendo una opción viable para aplicaciones donde la escalabilidad del modelo es clave y el rendimiento extremo en tiempo real no es la principal limitación. Se puede utilizar para el procesamiento por lotes sin conexión de imágenes, las API de visión basadas en la nube y ciertos escenarios de edge AI donde sus variantes más pequeñas (D0-D2) pueden proporcionar una buena compensación entre precisión y recursos.
Más información sobre EfficientDet
Conclusión: ¿Qué modelo debería elegir?
Tanto PP-YOLOE+ como EfficientDet son modelos potentes, pero satisfacen diferentes necesidades y representan diferentes puntos en la línea de tiempo de la investigación de detección de objetos.
- PP-YOLOE+ es una opción sólida si está trabajando dentro del ecosistema PaddlePaddle y necesita un detector sin anclaje moderno, rápido y preciso.
- EfficientDet sigue siendo un modelo de referencia debido a sus innovaciones arquitectónicas. Sin embargo, para proyectos nuevos, su rendimiento ha sido ampliamente superado por modelos más recientes.
Para desarrolladores e investigadores que buscan la mejor combinación de rendimiento, versatilidad y facilidad de uso, recomendamos considerar la serie YOLO de Ultralytics. Modelos como YOLOv8 y el último YOLO11 ofrecen varias ventajas clave:
- Equilibrio entre rendimiento: Los modelos YOLO de Ultralytics proporcionan un equilibrio de última generación entre velocidad y precisión, lo que los hace adecuados tanto para la implementación en tiempo real en el edge como para aplicaciones en la nube de alta precisión.
- Versatilidad: Son modelos multi-tarea que admiten no solo la detección de objetos, sino también la segmentación de instancias, la estimación de pose, la clasificación y más, todo dentro de un único marco de trabajo unificado.
- Facilidad de uso: Los modelos vienen con una API de Python y una CLI sencillas, una amplia documentación y un proceso de entrenamiento directo.
- Ecosistema bien mantenido: Ultralytics proporciona un ecosistema robusto con desarrollo activo, un sólido apoyo de la comunidad y una integración perfecta con herramientas como Ultralytics HUB para una MLOps optimizada desde la gestión de conjuntos de datos hasta el despliegue.
- Eficiencia del entrenamiento: Los modelos Ultralytics YOLO son conocidos por su entrenamiento eficiente, que requiere menos memoria y tiempo en comparación con muchas alternativas, y vienen con una amplia gama de pesos pre-entrenados para acelerar proyectos personalizados.
Para comparaciones más detalladas, puede que le interese explorar cómo se comparan estos modelos con otras arquitecturas populares como YOLO11 vs. EfficientDet o PP-YOLOE+ vs. YOLOv10.