Ir al contenido

YOLOv5 frente a PP-YOLOE+: Comparación técnica para la detección de objetos

Seleccionar el modelo óptimo de detección de objetos es una decisión fundamental que repercute en la eficacia, la precisión y la escalabilidad de los proyectos de visión por ordenador. Esta completa guía compara Ultralytics YOLOv5un modelo legendario conocido por su facilidad de uso y velocidad, frente a PP-YOLOE+, un modelo de alta precisión del ecosistema PaddlePaddle de Baidu. Mediante el análisis de sus arquitecturas, métricas de rendimiento y flujos de trabajo de implantación, pretendemos ayudar a los desarrolladores e investigadores a elegir la mejor solución para sus necesidades específicas.

Ultralytics YOLOv5: el estándar de facilidad de uso y rapidez

YOLOv5, lanzado por Ultralytics en 2020, cambió radicalmente el panorama de la IA de visión al poner la detección de objetos de última generación al alcance de todos. A diferencia de sus predecesores, fue el primer modelo YOLO implementado de forma nativa en PyTorchsimplificando el proceso de entrenamiento y despliegue para la comunidad científica de datos global. Su filosofía de diseño prioriza un equilibrio entre la velocidad de inferencia en tiempo real y la alta precisión, empaquetado en un ecosistema increíblemente fácil de usar.

Autores: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHubyolov5
Docsyolov5

Puntos fuertes

  • Facilidad de uso: YOLOv5 es famoso por su experiencia "lista para usar". Con una APIPython simplificada y comandosCLI intuitivos, los desarrolladores pueden empezar a formarse en conjuntos de datos personalizados en cuestión de minutos.
  • Ecosistema bien mantenido: Respaldado por Ultralytics, disfruta de actualizaciones frecuentes y de una comunidad masiva y activa. Esto garantiza un soporte a largo plazo y una gran cantidad de conocimientos compartidos en plataformas como GitHub Issues.
  • Equilibrio de rendimiento: Ofrece velocidades de inferencia en tiempo real excepcionales, sobre todo en dispositivos periféricos como la Raspberry Pi, sin sacrificar una precisión significativa.
  • Versatilidad: Más allá de la detección estándar, YOLOv5 admite la segmentación de instancias y la clasificación de imágenes, lo que la convierte en una herramienta flexible para diversas tareas de visión.

Más información sobre YOLOv5

PP-YOLOE+: Alta precisión en el ecosistema del pádel

PP-YOLOE+ es una evolución de la serie YOLO , desarrollada por investigadores de Baidu. Lanzado en 2022, es el modelo insignia del conjunto de herramientas PaddleDetection. Adopta una arquitectura sin anclajes y estrategias de entrenamiento avanzadas para superar los límites de la precisión en conjuntos de datos de referencia como COCO.

Autores: PaddlePaddle Autores
Organización:Baidu
Fecha: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
DocsPaddlePaddle

Arquitectura y características

PP-YOLOE+ utiliza una red troncal CSPRepResNet y un exclusivo cabezal de detección sin prototipos. Al ser un detector sin anclas, reduce la complejidad del ajuste de hiperparámetros relacionados con las cajas de anclas. Destaca en escenarios en los que el objetivo principal es maximizar la Precisión Media Promedio (mAP ), logrando a menudo puntuaciones ligeramente superiores a las de modelos comparables basados en anclas a costa de una mayor complejidad computacional. Sin embargo, su dependencia del marco PaddlePaddle puede presentar una curva de aprendizaje para los equipos estandarizados en PyTorch o TensorFlow.

Más información sobre PP-YOLOE+

Análisis del rendimiento: Métricas y eficiencia

Al comparar YOLOv5 y PP-YOLOE+, el equilibrio suele estar entre la precisión bruta y la eficacia operativa (rapidez y facilidad de despliegue).

Velocidad frente a precisión

En general, los modelos PP-YOLOE+ presentan una mayor mAPval en el conjunto de datos COCO , lo que demuestra su gran capacidad de detección. Por ejemplo, el PP-YOLOE+l alcanza un notable 52,9 mAP. Sin embargo, esto suele ir acompañado de una latencia más alta en hardware estándar en comparación con YOLOv5.

Ultralytics YOLOv5 brilla en velocidad de inferencia. El YOLOv5n (Nano) es increíblemente ligero y alcanza 28,0 mAP con un tiempo de inferencia rapidísimo de 1,12 ms en una GPU T4 utilizando TensorRT. Esto convierte YOLOv5 en la mejor opción para aplicaciones edge AI donde la latencia de milisegundos es crítica.

Eficiencia computacional

Los modelos YOLOv5 se han diseñado teniendo en cuenta las limitaciones de memoria. Normalmente requieren menos memoria CUDA durante el entrenamiento y la inferencia en comparación con las arquitecturas complejas sin anclajes o los modelos basados en transformadores. Esta eficiencia facilita la implantación en hardware con recursos limitados, como los módulos NVIDIA Jetson, sin necesidad de grandes esfuerzos de optimización.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Ecosistema de formación y usabilidad

Las métricas "blandas" de la experiencia de los desarrolladores dictan a menudo el éxito de un proyecto. Aquí, la diferencia entre los dos modelos es más pronunciada.

Ecosistema Ultralytics

YOLOv5 se beneficia del ecosistema integrado Ultralytics , que agiliza todo el proceso de MLOps.

  • PyTorch Nativo: Estar construido sobre PyTorch asegura la compatibilidad con la gran mayoría de herramientas y librerías de código abierto.
  • Integraciones sin fisuras: Compatibilidad integrada con Weights & Biases, Comety ClearML facilita el seguimiento de los experimentos.
  • Eficacia de la formación: Los pesos preentrenados están fácilmente disponibles y se descargan automáticamente, lo que permite un rápido aprendizaje por transferencia.
  • Despliegue: El modo de exportación admite la conversión con un solo clic a ONNX, CoreML, TFLiteetc.

Simplificación del flujo de trabajo con Ultralytics HUB

Puede entrenar, previsualizar y desplegar modelos YOLOv5 sin escribir una sola línea de código utilizando Ultralytics HUB. Esta plataforma basada en web gestiona sus conjuntos de datos y ejecuciones de entrenamiento, haciendo que la IA de visión sea accesible para equipos de todos los niveles de habilidad.

Ecosistema PaddlePaddle

PP-YOLOE+ se basa en PaddlePaddle, el marco de aprendizaje profundo de Baidu. Aunque es potente y popular en Asia, su presencia en la comunidad investigadora occidental es menor que la de PyTorch. Adoptar PP-YOLOE+ a menudo requiere configurar un entorno independiente y aprender la sintaxis específica de Paddle (paddle.io, paddle.nn). Mientras que el documentación es completo, el ecosistema de herramientas de terceros y el apoyo de la comunidad es menos amplio que el de YOLOv5.

Ejemplo de código: Simplicidad de YOLOv5

El siguiente código Python demuestra lo fácil que es cargar un modelo YOLOv5 preentrenado y realizar la inferencia utilizando PyTorch Hub.

import torch

# Load a YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the image with bounding boxes
results.show()

Casos de uso en el mundo real

En qué destaca YOLOv5

  • Automatización industrial: Su alta velocidad permite detectar defectos en tiempo real en líneas de montaje de rápido movimiento.
  • Robótica autónoma: Su escasa sobrecarga de memoria lo hace ideal para robots con capacidad de cálculo limitada, como los utilizados en logística.
  • Aplicaciones para ciudades inteligentes: El rendimiento eficiente de CPU permite el despliegue a gran escala para la supervisión del tráfico en la infraestructura existente.

Dónde encaja PP-YOLOE

  • Investigación de alta precisión: Proyectos académicos en los que exprimir el último 1% de mAP es más importante que la velocidad de inferencia.
  • Entornos centrados en el pádel: Entornos empresariales que ya han invertido mucho en la infraestructura del ecosistema de Baidu.

Conclusión: ¿Qué modelo es el adecuado para ti?

Para la gran mayoría de desarrolladores y aplicaciones comerciales, Ultralytics YOLOv5 sigue siendo la opción recomendada. Su incomparable facilidad de uso, el sólido soporte de la comunidad y la flexibilidad de despliegue la convierten en una solución de bajo riesgo y alta rentabilidad. Su capacidad para implantarse en prácticamente cualquier plataforma -desde teléfonos móviles hasta servidores en la nube- con un mínimo de fricción le confiere una ventaja decisiva en entornos de producción.

PP-YOLOE+ es una potente alternativa para los usuarios que requieran específicamente una arquitectura sin anclajes o para los que ya estén integrados en el flujo de trabajo PaddlePaddle . Su gran precisión es encomiable, pero la fragmentación del ecosistema puede ralentizar el desarrollo para quienes estén acostumbrados a los flujos de trabajo estándar PyTorch .

Explorar Otros Modelos

La visión por ordenador avanza rápidamente. Aunque comparar estos modelos establecidos es valioso, le animamos a explorar los últimos avances de la familia Ultralytics YOLO , que ofrecen un rendimiento y unas prestaciones aún mayores.

  • YOLO11: el último modelo de última generación que ofrece una precisión y eficacia superiores para la detección, segmentación y estimación de la pose.
  • YOLOv8: un marco unificado muy popular que admite tareas OBB y de clasificación.
  • RT-DETR: Detector basado en transformador optimizado para funcionar en tiempo real.

Para obtener una visión más amplia, consulte nuestra página principal de comparación de modelos para comparar diferentes arquitecturas con sus requisitos específicos.


Comentarios