Ir al contenido

YOLOv7 vs. PP-YOLOE+: Una comparación técnica para la detección de objetos

Seleccionar el modelo de detección de objetos adecuado es una decisión crítica en la visión artificial, que requiere un equilibrio cuidadoso entre precisión, velocidad y recursos computacionales. Esta página proporciona una comparación técnica detallada entre YOLOv7 y PP-YOLOE+, dos modelos influyentes que han establecido altos puntos de referencia en el campo. Exploraremos sus diseños arquitectónicos, métricas de rendimiento y casos de uso ideales para ayudarle a tomar una decisión informada para sus proyectos.

YOLOv7: Optimizado para velocidad y precisión

YOLOv7 representa un hito significativo en la familia YOLO, celebrado por su excepcional equilibrio entre la velocidad de inferencia en tiempo real y la alta precisión. Introdujo novedosas optimizaciones arquitectónicas y de entrenamiento que superaron los límites de lo que era posible para los detectores de objetos en el momento de su lanzamiento.

Más información sobre YOLOv7

Arquitectura y Características Clave

La arquitectura de YOLOv7 incorpora varias innovaciones clave que se detallan en su artículo. Una de sus principales contribuciones es la Extended Efficient Layer Aggregation Network (E-ELAN), un novedoso diseño de backbone que mejora la capacidad de aprendizaje de la red sin interrumpir la ruta del gradiente, lo que conduce a una extracción de características más eficaz.

Además, YOLOv7 emplea un enfoque de "bolsa de trucos entrenable". Esto implica el uso de técnicas de optimización avanzadas y estrategias de entrenamiento, como la pérdida guiada de lo grueso a lo fino, que mejoran la precisión de la detección sin añadir ningún coste computacional durante la inferencia. El modelo también aprovecha las técnicas de reparametrización para crear una arquitectura más eficiente para su despliegue una vez finalizado el entrenamiento.

Rendimiento y casos de uso

YOLOv7 es famoso por su excelente rendimiento, especialmente en escenarios que exigen un procesamiento de alta velocidad sin comprometer significativamente la precisión. Su eficiencia lo convierte en una excelente opción para la inferencia en tiempo real en hardware de GPU.

Las aplicaciones ideales incluyen:

  • Sistemas autónomos: Potenciando los sistemas de percepción en vehículos autónomos y drones donde la baja latencia es crítica para la seguridad.
  • Seguridad y Vigilancia: Se utiliza en sistemas de seguridad avanzados para la detección inmediata de amenazas en transmisiones de video en vivo.
  • Robótica: Permite a los robots percibir e interactuar con su entorno en tiempo real, lo cual es crucial para la automatización de la fabricación y la logística.

Fortalezas y Debilidades

  • Puntos fuertes: Equilibrio vanguardista entre velocidad y precisión, arquitectura muy eficiente para la inferencia en GPU y estrategias de entrenamiento avanzadas que mejoran el rendimiento.
  • Debilidades: Como un modelo basado en anclajes, puede requerir un ajuste cuidadoso de las configuraciones de las cajas de anclaje para un rendimiento óptimo en conjuntos de datos personalizados. El proceso de entrenamiento para variantes más grandes puede ser computacionalmente intensivo.

PP-YOLOE+: Sin anclajes y versátil

PP-YOLOE+, desarrollado por Baidu, es un detector sin anclaje de alto rendimiento del conjunto PaddleDetection. Destaca por su escalabilidad y su sólido rendimiento en una variedad de tamaños de modelo, a la vez que simplifica el pipeline de detección al eliminar los anchor boxes.

Documentación de PP-YOLOE+ (PaddleDetection)

Arquitectura y Características Clave

La innovación principal de PP-YOLOE+ es su diseño sin anclajes, que simplifica el modelo al eliminar la necesidad de cuadros delimitadores predefinidos y sus hiperparámetros asociados. Esto hace que el modelo sea más flexible y fácil de adaptar a diferentes formas y tamaños de objetos. Cuenta con un encabezado desacoplado para las tareas de clasificación y localización, lo que ayuda a resolver los conflictos de optimización entre las dos. El modelo también utiliza VariFocal Loss, una función de pérdida especializada, para priorizar los ejemplos difíciles durante el entrenamiento. La versión "+" incluye mejoras en el backbone, el cuello (Path Aggregation Network) y el encabezado para mejorar el rendimiento.

Rendimiento y casos de uso

PP-YOLOE+ proporciona una familia de modelos (t, s, m, l, x) que ofrecen una compensación flexible entre velocidad y precisión. Esta escalabilidad lo hace adaptable a diversas limitaciones de hardware, desde dispositivos de borde con recursos limitados hasta potentes servidores en la nube.

Las aplicaciones ideales incluyen:

Fortalezas y Debilidades

  • Puntos fuertes: El diseño sin anclajes simplifica la arquitectura y el proceso de entrenamiento. Ofrece una excelente escalabilidad con múltiples tamaños de modelo y logra un sólido equilibrio entre precisión y velocidad.
  • Debilidades: El modelo está diseñado principalmente para el framework de aprendizaje profundo PaddlePaddle, lo que puede requerir un esfuerzo adicional para la integración en flujos de trabajo basados en PyTorch. Su comunidad y el soporte de herramientas de terceros son menos extensos que los de la familia YOLO.

Comparación directa del rendimiento

Al comparar YOLOv7 y PP-YOLOE+, la elección a menudo depende de los requisitos de rendimiento específicos y del hardware. YOLOv7 generalmente sobresale en la entrega del máximo rendimiento en las GPU, como se ve con sus altas métricas de FPS. PP-YOLOE+, por otro lado, proporciona una selección más granular de modelos, lo que permite a los desarrolladores elegir el punto de equilibrio exacto que necesitan. Por ejemplo, PP-YOLOE+s es excepcionalmente rápido, mientras que PP-YOLOE+x alcanza un mAP muy alto a costa de la velocidad.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59

Por qué Ultralytics YOLO es la mejor opción

Si bien tanto YOLOv7 como PP-YOLOE+ son modelos potentes, los desarrolladores e investigadores que buscan un framework moderno, versátil y fácil de usar encontrarán un valor superior en el ecosistema Ultralytics, particularmente con modelos como Ultralytics YOLOv8 y el último YOLO11.

He aquí por qué destacan los modelos Ultralytics YOLO:

  • Facilidad de uso: Ultralytics proporciona una API de Python y una CLI optimizadas que hacen que el entrenamiento, la validación y la implementación sean increíblemente sencillos. Esto se apoya en una extensa documentación y numerosos tutoriales.
  • Ecosistema bien mantenido: Los modelos forman parte de un ecosistema completo que incluye desarrollo activo, una gran comunidad de código abierto e integración con herramientas como Ultralytics HUB para MLOps sin problemas.
  • Versatilidad: Los modelos de Ultralytics como YOLOv8 y YOLO11 no se limitan a la detección de objetos. Ofrecen soporte integrado para otras tareas de visión clave, incluyendo la segmentación de instancias, la estimación de pose, la clasificación y la detección de objetos orientados (OBB), proporcionando una solución unificada.
  • Rendimiento y eficiencia: Los modelos Ultralytics están diseñados para un equilibrio óptimo entre velocidad y precisión. También son eficientes en el uso de la memoria, a menudo requiriendo menos memoria CUDA para el entrenamiento y la inferencia en comparación con otras arquitecturas, lo cual es una ventaja significativa.
  • Eficiencia en el entrenamiento: Gracias a los pesos pre-entrenados disponibles en conjuntos de datos como COCO y a los procesos de entrenamiento eficientes, obtener un modelo personalizado de alto rendimiento es más rápido y accesible.

Conclusión

YOLOv7 es una opción formidable para aplicaciones donde el rendimiento de la GPU en tiempo real es la máxima prioridad. PP-YOLOE+ ofrece una excelente escalabilidad y un enfoque simplificado sin anclajes, pero su dependencia del framework PaddlePaddle puede ser una limitación para muchos desarrolladores.

Sin embargo, para la mayoría de las aplicaciones modernas, los modelos de Ultralytics como YOLOv8 y YOLO11 presentan una opción más atractiva y preparada para el futuro. Combinan un rendimiento de última generación con una experiencia de usuario inigualable, una amplia compatibilidad con tareas y un ecosistema robusto y bien mantenido. Esto los convierte en la opción ideal para los desarrolladores e investigadores que buscan construir e implementar soluciones de visión artificial de alta calidad de forma eficiente.

Explorar Otros Modelos

Para una exploración más exhaustiva, considere estas comparaciones que involucran a YOLOv7, PP-YOLOE+ y otros modelos líderes:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios