Ir al contenido

PP-YOLOE+ frente a YOLOv7: una inmersión técnica en las arquitecturas de detección de objetos

Para elegir el modelo óptimo de detección de objetos es necesario encontrar un equilibrio entre precisión, velocidad de inferencia y complejidad de despliegue. PP-YOLOE+ y YOLOv7ambos lanzados en 2022 con el objetivo de avanzar en el rendimiento de vanguardia. Este exhaustivo análisis explora sus arquitecturas únicas, sus puntos de referencia y su idoneidad para aplicaciones del mundo real, ayudando a los desarrolladores a tomar decisiones basadas en datos.

Comparación de métricas de rendimiento

La siguiente tabla presenta una comparación directa de las principales métricas de rendimiento, incluida la precisión media (mAP) y la velocidad de inferencia en el hardware compatible. Estos datos ayudan a visualizar las compensaciones entre el enfoque sin anclajes de PP-YOLOE+ y la arquitectura optimizada de YOLOv7.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

PP-YOLOE+: Detección refinada sin anclajes

PP-YOLOE+ es una evolución de la serie YOLO , desarrollada por investigadores de Baidu. Se basa en los puntos fuertes de su predecesor, PP-YOLOE, introduciendo mejoras en el proceso de entrenamiento y en la arquitectura para aumentar aún más la velocidad de convergencia y el rendimiento de las tareas posteriores. Como detector sin anclajes, elimina la necesidad de cajas de anclaje predefinidas, lo que simplifica el diseño y reduce el ajuste de hiperparámetros.

Más información sobre PP-YOLOE+

Aspectos arquitectónicos destacados

La arquitectura de PP-YOLOE+ incluye una red troncal CSPResNet equipada con diversos campos receptivos para captar eficazmente características a múltiples escalas. Una innovación clave es el cabezal alineado con tareas eficientes (ET-head), que desacopla las tareas de clasificación y regresión al tiempo que garantiza su alineación mediante una función de pérdida específica.

PP-YOLOE+ utiliza el aprendizaje por alineación de tareas (TAL), una estrategia de asignación de etiquetas que selecciona dinámicamente muestras positivas basándose en la alineación de la clasificación y la calidad de la localización. Esto garantiza que el modelo se centre en predicciones de alta calidad durante el entrenamiento. Además, el modelo emplea una estrategia de formación distribuida y evita el uso de operadores no estándar, lo que facilita su despliegue en diversas plataformas de hardware compatibles con el ecosistema PaddlePaddle .

Característica clave: Diseño sin anclajes

Al eliminar los cuadros de anclaje, PP-YOLOE+ reduce la complejidad asociada a los pasos de agrupación y correspondencia de anclajes. Esto suele mejorar la generalización en diversos conjuntos de datos en los que los objetos pueden tener relaciones de aspecto extremas.

YOLOv7: optimizado para la velocidad en tiempo real

YOLOv7 marcó un nuevo hito en la detección de objetos en tiempo real desde su lanzamiento, centrándose en gran medida en la eficiencia arquitectónica y los métodos "bag-of-freebies", técnicas que aumentan la precisión sin incrementar el coste de la inferencia. Se diseñó para superar en velocidad y precisión a modelos anteriores de última generación como YOLOR y YOLOv5 .

Más información sobre YOLOv7

Innovaciones arquitectónicas

YOLOv7 introdujo la Red de Agregación de Capas Eficiente Ampliada (E-ELAN). Este diseño de red troncal permite a la red aprender características más diversas controlando las rutas de gradiente más corta y más larga, lo que mejora la capacidad de aprendizaje sin destruir la ruta de gradiente original.

Otra contribución significativa es el uso de la re-parametrización del modelo. Durante el entrenamiento, el modelo utiliza una estructura de múltiples ramas que se fusiona en una estructura más simple de una sola rama para la inferencia. Esto permite YOLOv7 beneficiarse de representaciones de características ricas durante el aprendizaje, manteniendo al mismo tiempo una alta velocidad durante el despliegue. El modelo también emplea cabezas auxiliares para el entrenamiento de redes profundas, utilizando una estrategia de asignación de etiquetas guiada por pistas de "grueso a fino".

Análisis comparativo: Puntos fuertes y débiles

A la hora de decidir entre estos dos potentes modelos, es esencial tener en cuenta los requisitos específicos de su proyecto de visión por ordenador.

Precisión frente a velocidad

PP-YOLOE+ ofrece una gama granular de modelos. En PP-YOLOE+s es muy eficaz para los dispositivos periféricos, mientras que PP-YOLOE+x alcanza un mAP de primer nivel, aunque a frecuencias de cuadro inferiores. YOLOv7 destaca en el "punto dulce" de la detección en tiempo real, ofreciendo a menudo mayores FPS en hardware de GPU para un determinado nivel de precisión en comparación con muchos competidores. Para aplicaciones de alto rendimiento como control del tráficola optimización de la inferencia de YOLOv7 es ventajosa.

Ecosistema y usabilidad

Una de las principales diferencias radica en sus ecosistemas. PP-YOLOE+ está profundamente arraigado en el framework PaddlePaddle . Aunque potente, esto puede suponer una curva de aprendizaje más pronunciada para los equipos acostumbrados principalmente a PyTorch. YOLOv7 es nativo de PyTorch, lo que lo hace más accesible a la comunidad investigadora en general.

Sin embargo, ambos modelos pueden resultar complejos de entrenar y ajustar en comparación con los estándares modernos. YOLOv7 implica complejos cálculos de anclaje y sensibilidad de hiperparámetros, mientras que PP-YOLOE+ requiere navegar por las configuraciones de detección de palas.

La ventaja Ultralytics : ¿Por qué actualizarse?

Aunque PP-YOLOE+ y YOLOv7 son modelos excelentes, el campo de la IA avanza rápidamente. Los modelos Ultralytics , como YOLOv8 y el más avanzado YOLO11representan la próxima generación de la IA de visión, ya que resuelven muchos de los problemas de usabilidad y eficiencia de las arquitecturas anteriores.

Experiencia de usuario y ecosistema superiores

Ultralytics prioriza la facilidad de uso. A diferencia de los complejos archivos de configuración que suelen requerir otros marcos de trabajo, los modelos de Ultralytics pueden entrenarse, validarse y desplegarse con unas pocas líneas de código Python o sencillos comandos CLI .

Rendimiento y eficacia

Los modelos Ultralytics están diseñados para lograr un equilibrio óptimo entre rendimiento y calidad. A menudo logran una precisión mayor que YOLOv7 con una menor sobrecarga computacional. Además, están diseñados para ser eficientes en el uso de la memoria, por lo que requieren menos recursos de CUDA durante el entrenamiento en comparación con muchas alternativas basadas en transformadores o versiones anteriores de YOLO . Esta eficiencia en el entrenamiento permite iteraciones más rápidas y menores costes de computación en la nube.

Ejemplo de código: Simplicidad en acción

Compruebe lo sencillo que resulta entrenar un modelo moderno Ultralytics en comparación con los flujos de trabajo heredados:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (recommended for best performance)
model = YOLO("yolo11n.pt")

# Train the model on a dataset (e.g., COCO8)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")

Proyectos de futuro

Adoptar el marco de Ultralytics le garantiza que no sólo utiliza un modelo, sino una plataforma que evoluciona. Compatible con las últimas versiones de Python y aceleradores de hardware, reducirá la deuda técnica y garantizará el mantenimiento a largo plazo de sus soluciones de IA.

Conclusión

PP-YOLOE+ sigue siendo una opción sólida para quienes invierten en el ecosistema PaddlePaddle , ya que ofrece una arquitectura robusta sin anclajes. YOLOv7 sigue siendo una opción formidable para los proyectos que requieren un rendimiento bruto de GPU . Sin embargo, para los desarrolladores que buscan una solución versátil, fácil de usar y de alto rendimiento que cubra todo el espectro de tareas de visión por computador, Ultralytics YOLO11 es el camino recomendado.

Explorar Otros Modelos

Amplíe sus conocimientos sobre el panorama de la detección de objetos con estas comparaciones:


Comentarios