Ir al contenido

PP-YOLOE+ frente a YOLOv5: Navegar por la detección de alta precisión y la preparación para la producción

La selección del modelo óptimo de detección de objetos suele implicar un compromiso entre las métricas académicas brutas y las capacidades prácticas de despliegue. Esta comparación técnica examina PP-YOLOE+, un detector evolucionado sin anclaje del ecosistema PaddlePaddle , y Ultralytics YOLOv5el modelo estándar del sector, famoso por su equilibrio entre velocidad, precisión y facilidad de uso. Mientras que PP-YOLOE+ amplía los límites de la precisión media mediamAP), YOLOv5 sigue siendo una fuerza dominante en las aplicaciones de inferencia en tiempo real gracias a su incomparable experiencia de desarrollo y versatilidad de despliegue.

PP-YOLOE+: Ingeniería de precisión en PaddlePaddle

PP-YOLOE+ es una versión mejorada de PP-YOLOE, desarrollada por investigadores de Baidu como parte de la suite PaddleDetection. Está diseñado para ser un detector de objetos industrial eficiente y de última generación centrado en tareas de alta precisión. Al aprovechar una arquitectura sin anclajes, simplifica el proceso de formación y reduce el ajuste de hiperparámetros que suele asociarse a los métodos basados en anclajes.

Autores: PaddlePaddle Autores
Organización: Baidu
Fecha: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Docs: https:PaddlePaddle

Arquitectura e innovación

La arquitectura de PP-YOLOE+ introduce varios mecanismos avanzados para mejorar la representación y localización de características:

  • Red troncal: Utiliza CSPRepResNet, una red troncal que combina las ventajas del flujo gradiente de las redes Cross Stage Partial (CSP) con las técnicas de re-parametrización de RepVGG.
  • Cabezal sin anclaje: se utiliza un cabezal alineado con tareas eficientes (ET-Head) para desacoplar las tareas de clasificación y regresión, lo que mejora la velocidad de convergencia y la precisión.
  • Estrategia de formación: Incorpora el Aprendizaje por Alineación de Tareas (TAL) para asignar dinámicamente muestras positivas, garantizando que se prioricen las predicciones de mayor calidad durante el entrenamiento.
  • Funciones de pérdida: Emplea VariFocal Loss (VFL) y Distribution Focal Loss (DFL) para manejar el desequilibrio de clases y refinar la precisión de los cuadros delimitadores.

Fortalezas y Debilidades

PP-YOLOE+ destaca en situaciones en las que la máxima precisión es fundamental. Su diseño sin anclajes elimina la necesidad de agrupar cajas de anclaje, lo que lo hace adaptable a conjuntos de datos con formas de objeto variables. Sin embargo, su gran dependencia del PaddlePaddle puede ser un obstáculo para los equipos estandarizados en PyTorch o TensorFlow. Aunque existen herramientas para convertir modelos, el soporte del ecosistema nativo es menos amplio que el de otros marcos más universalmente adoptados.

Consideraciones sobre el ecosistema

Aunque PP-YOLOE+ ofrece un rendimiento teórico impresionante, su adopción requiere a menudo familiarizarse con la sintaxis específica y las herramientas de despliegue de PaddlePaddle, que pueden diferir significativamente de los flujos de trabajo estándar PyTorch .

Más información sobre PP-YOLOE+

Ultralytics YOLOv5: el estándar mundial para la IA de visión

Publicado por Glenn Jocher en 2020, Ultralytics YOLOv5 cambió radicalmente el panorama de la visión por computador al hacer accesible la detección de objetos de última generación a desarrolladores de todos los niveles. Construido de forma nativa en PyTorch, YOLOv5 se centra en la "eficiencia de la formación" y la "facilidad de uso", proporcionando un camino sin problemas desde la curación del conjunto de datos hasta el despliegue de producción.

Autores: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: yolov5
Docs: https:yolov5

Arquitectura y Características Clave

YOLOv5 emplea una arquitectura basada en anclajes altamente optimizada que equilibra la profundidad y la anchura para maximizar el rendimiento:

  • Red troncal CSPDarknet: El diseño de la red Cross Stage Partial minimiza la información redundante del gradiente, mejorando la capacidad de aprendizaje a la vez que reduce los parámetros.
  • Cuello PANet: Una Red de Agregación de Caminos (PANet) mejora el flujo de información, ayudando al modelo a localizar objetos con precisión a través de diferentes escalas.
  • Aumento de mosaico: Una técnica avanzada de aumento de datos que combina cuatro imágenes de entrenamiento en una sola, mejorando significativamente la capacidad del modelo para detect objetos pequeños y generalizar a nuevos entornos.
  • Algoritmos genéticos: La evolución automatizada de los hiperparámetros permite al modelo autoajustarse para obtener un rendimiento óptimo en conjuntos de datos personalizados.

Fortalezas y ecosistema

YOLOv5 es famoso por su facilidad de uso. La API es intuitiva y permite a los usuarios cargar un modelo y ejecutar inferencias con solo unas líneas de código Python .

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Más allá del código, el ecosistema bien mantenido distingue a YOLOv5 . Los usuarios se benefician de actualizaciones frecuentes, un foro comunitario masivo e integraciones perfectas con herramientas MLOps como Comet y ClearML. La versatilidad del modelo va más allá de la simple detección, ya que admite tareas de segmentación de instancias y clasificación de imágenes dentro del mismo marco. Además, los modelos YOLOv5 suelen requerir menos memoria durante el entrenamiento que las arquitecturas basadas en transformadores, lo que los hace accesibles en GPU de consumo.

Más información sobre YOLOv5

Comparación de prestaciones técnicas

Al comparar los dos modelos, es esencial tener en cuenta las métricas que afectan a la utilidad en el mundo real, como la velocidad de inferencia y el recuento de parámetros, junto con las métricas de precisión estándar como mAP.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Análisis de los resultados

  • Precisión frente a velocidad: PP-YOLOE+ demuestra puntuaciones mAP más altas, especialmente en las variantes más grandes (l y x), beneficiándose de su cabeza sin anclajes y de la estrategia TAL. Sin embargo, YOLOv5 ofrece un Balance de Rendimiento superior, proporcionando una precisión altamente competitiva con una latencia significativamente menor (ver velocidades TensorRT ). Esto hace que YOLOv5 sea especialmente adecuado para aplicaciones de inteligencia artificial en las que cada milisegundo cuenta.
  • Eficiencia de recursos: YOLOv5n (Nano) es extremadamente ligero con solo 2,6M de parámetros, lo que lo hace ideal para dispositivos móviles y IoT. Aunque PP-YOLOE+ cuenta con backbones eficientes, la complejidad arquitectónica puede provocar un mayor uso de memoria durante el entrenamiento en comparación con el diseño optimizado de YOLOv5.
  • Eficacia del entrenamiento: YOLOv5 utiliza AutoAnchor y la evolución de hiperparámetros para maximizar el rendimiento desde el principio. La disponibilidad de pesos preentrenados de alta calidad permite un aprendizaje por transferencia rápido, lo que reduce significativamente el tiempo de desarrollo.

Casos de uso en el mundo real

La elección entre estos modelos suele depender del entorno de implantación específico.

Aplicaciones PP-YOLOE

El PP-YOLOE+ suele ser el preferido en la investigación académica y los escenarios industriales, especialmente en el mercado asiático, donde predomina la infraestructura de Baidu.

  • Detección automática de defectos: La alta precisión ayuda a identificar arañazos diminutos en las líneas de fabricación.
  • Vigilancia del tráfico: Capaz de distinguir entre tipos de vehículos similares en un flujo de tráfico denso.

Aplicaciones YOLOv5

La versatilidad de YOLOv5 la convierte en la solución ideal para un amplio espectro de industrias de todo el mundo.

  • Agricultura inteligente: Se utiliza para la supervisión en tiempo real de la salud de los cultivos y los robots de recogida de fruta gracias a su velocidad en los dispositivos de borde.
  • Retail Analytics: Impulsa sistemas para el recuento de objetos y la gestión de inventarios, que funcionan eficientemente en hardware de servidor de tienda.
  • Robótica autónoma: La baja latencia permite a drones y robots navegar por entornos complejos con seguridad.
  • Sistemas de seguridad: Se integra fácilmente en los sistemas de alarma de seguridad para la detección de intrusiones.

Flexibilidad de implantación

YOLOv5 exporta sin problemas a numerosos formatos, entre ellos ONNX, TensorRT, CoreML y TFLite , utilizando la tecnología export modo. Esto garantiza que, una vez entrenado un modelo, pueda desplegarse prácticamente en cualquier lugar, desde un iPhone hasta un servidor en la nube.

Conclusión

Mientras que PP-YOLOE+ representa un logro significativo en la detección sin anclaje con una precisión impresionante en puntos de referencia como COCO, Ultralytics YOLOv5 sigue siendo la mejor opción para la mayoría de desarrolladores y aplicaciones comerciales. Su combinación ganadora de facilidad de uso, un sólido ecosistema bien mantenido y un excelente equilibrio de rendimiento garantiza que los proyectos pasen del concepto a la producción de forma rápida y fiable.

Para los usuarios que buscan lo último en tecnología de visión por ordenador, Ultralytics también ofrece YOLO11que se basa en el legado de YOLOv5 con una eficacia y capacidad aún mayores en las tareas de detección, segmentación y estimación de la pose.

Más información

Para explorar alternativas modernas que ofrezcan características de rendimiento mejoradas, considere la posibilidad de revisar lo siguiente:

  • Ultralytics YOLO11: El último modelo de última generación que ofrece precisión y velocidad de vanguardia.
  • Ultralytics YOLOv8: Un modelo versátil que introduce marcos unificados de detección, segmentación y clasificación.
  • RT-DETR: Un detector en tiempo real basado en transformador para requisitos de alta precisión.

Visite nuestra página de modelos para ver la gama completa de soluciones de IA de visión disponibles para su próximo proyecto.


Comentarios