Ir al contenido

PP-YOLOE+ frente a YOLOv5: comparación técnica de la detección de objetos en tiempo real

En el competitivo panorama de la visión artificial, seleccionar la arquitectura adecuada para la detección de objetos es una decisión fundamental para los desarrolladores e investigadores. PP-YOLOE+, desarrollado por PaddlePaddle de Baidu, y YOLOv5, creado por Ultralytics, destacan como dos enfoques distintos para resolver los retos de la detección en tiempo real. Mientras que PP-YOLOE+ hace hincapié en los mecanismos sin anclajes dentro del PaddlePaddle , YOLOv5 establecido el estándar del sector en cuanto a usabilidad, flexibilidad de implementación y apoyo de la comunidad dentro de PyTorch.

Esta guía ofrece un análisis técnico detallado de estos dos modelos influyentes, comparando sus arquitecturas, métricas de rendimiento y adecuación para aplicaciones del mundo real, como la automatización de la fabricación y la computación periférica.

Descripción general del modelo

PP-YOLOE+

PP-YOLOE+ es una evolución de PP-YOLOE, diseñada para mejorar la convergencia del entrenamiento y el rendimiento de las tareas posteriores. Funciona con el PaddlePaddle y utiliza un paradigma sin anclajes para simplificar el cabezal de detección. Al incorporar una estructura más sólida y estrategias de entrenamiento perfeccionadas, su objetivo es ofrecer una alta precisión para aplicaciones industriales en las que es habitual el uso de la inferencia basada en la nube.

Ultralytics YOLOv5

YOLOv5 revolucionó la experiencia del usuario en la detección de objetos. Lanzado por Ultralytics, prioriza la ingeniería «de implementación primero», lo que garantiza que los modelos no solo sean precisos, sino también increíblemente fáciles de entrenar, exportar y ejecutar en diversos tipos de hardware. Su arquitectura basada en anclajes está altamente optimizada para la velocidad, lo que la convierte en una de las favoritas para la inferencia en tiempo real en dispositivos periféricos.

Más información sobre YOLOv5

Comparación de Arquitectura Técnica

Las filosofías arquitectónicas de PP-YOLOE+ y YOLOv5 significativamente, lo que afecta a su comportamiento de entrenamiento y a sus características de implementación.

Backbone y Extracción de Características

YOLOv5 utiliza una red troncal CSPDarknet (Cross Stage Partial Network). Este diseño mejora el flujo de gradientes y reduce el número de parámetros sin sacrificar el rendimiento. La arquitectura es altamente modular, lo que permite experimentar rápidamente con diferentes profundidades y anchuras de modelo (desde Nano hasta X-Large). Esta modularidad es clave para los desarrolladores que implementan en entornos con recursos limitados, como Raspberry Pi o dispositivos móviles.

PP-YOLOE+, por el contrario, suele emplear una estructura CSPRepResStage, que combina conexiones residuales con técnicas de reparametrización. Aunque es eficaz para extraer características enriquecidas, esta estructura suele dar lugar a una mayor complejidad durante la fase de entrenamiento en comparación con la eficiencia optimizada de la implementación YOLOv5.

Cabezales de detección: con anclaje frente a sin anclaje

Una diferencia fundamental radica en los cabezales de detección:

  1. YOLOv5 basado en anclajes): utiliza cuadros de anclaje predefinidos para predecir la ubicación de los objetos. Aunque requiere una configuración inicial (que Ultralytics mediante AutoAnchor), proporciona gradientes de entrenamiento estables y un rendimiento históricamente sólido en conjuntos de datos estándar como COCO.
  2. PP-YOLOE+ (sin anclaje): predice directamente los centros y tamaños de los objetos, lo que elimina la necesidad de ajustar los hiperparámetros del cuadro de anclaje. Este enfoque maneja bien los objetos con relaciones de aspecto extremas, pero puede ser más sensible a la calidad de los datos de entrenamiento y a la convergencia inicial de la pérdida.

Evolución hacia la navegación sin ancla

Mientras que YOLOv5 utiliza YOLOv5 los anclajes, Ultralytics más recientes Ultralytics , como YOLOv8 y el innovador YOLO26 han pasado a diseños sin anclajes, combinando lo mejor de ambos mundos: facilidad de uso y generalización geométrica superior.

Métricas de rendimiento

A la hora de evaluar el rendimiento, es fundamental tener en cuenta la relación entre la precisión media (mAP) y la latencia. La tabla siguiente destaca que, si bien PP-YOLOE+ alcanza una alta precisión, YOLOv5 una ventaja competitiva en cuanto a CPU y versatilidad de implementación, con barreras de entrada significativamente más bajas para los nuevos usuarios.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Análisis de velocidad y eficiencia

Ultralytics YOLOv5 una eficiencia excepcional, especialmente en las variantes «Nano» y «Small». El modelo YOLOv5n, con solo 1,9 millones de parámetros, está diseñado específicamente para entornos extremadamente limitados, como aplicaciones móviles o sensores IoT. Si bien PP-YOLOE+ ofrece mAP sólidas, la complejidad de la configuración y la dependencia del PaddlePaddle pueden introducir fricciones en los procesos de producción que se basan en ONNX estándar PyTorch ONNX .

Además, los requisitos de memoria favorecen a YOLOv5. Durante el entrenamiento, los cargadores de datos optimizados y la gestión de memoria YOLOv5 permiten tamaños de lote más grandes en GPU de consumo en comparación con muchos competidores, lo que reduce la barrera de hardware para los ingenieros de IA.

Entrenamiento y ecosistema

El ecosistema que rodea a un modelo suele ser tan importante como el propio modelo. Aquí es donde Ultralytics una ventaja distintiva.

Facilidad de uso y documentación

YOLOv5 famoso por su experiencia «de cero a héroe». Un desarrollador puede pasar de instalar la biblioteca a entrenar un modelo personalizado en un conjunto de datos como VisDrone en cuestión de minutos.

from ultralytics import YOLO

# Load a pretrained YOLO model (YOLOv5 or the newer YOLO26)
model = YOLO("yolov5s.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

En comparación, PP-YOLOE+ requiere la instalación de PaddlePaddle la clonación del repositorio PaddleDetection. La configuración suele implicar la modificación de varios archivos YAML y la navegación por una estructura de directorios más compleja, lo que puede suponer una curva de aprendizaje más pronunciada para quienes están acostumbrados a la simplicidad pythónica de Ultralytics.

Versatilidad y Soporte de Tareas

Aunque PP-YOLOE+ se centra principalmente en la detección, el Ultralytics ofrece compatibilidad nativa con una gama más amplia de tareas de visión dentro de una única API:

Esta versatilidad permite a los desarrolladores alternar entre tareas sin necesidad de aprender nuevos marcos de trabajo ni reescribir los flujos de datos.

Aplicaciones en el mundo real

Cuándo elegir PP-YOLOE+

PP-YOLOE+ es una opción muy recomendable si su infraestructura ya está profundamente integrada con la pila tecnológica de Baidu. Para los usuarios de regiones en las que PaddlePaddle el marco dominante, o para implementaciones específicas del lado del servidor en las que mAP la única prioridad por encima de la facilidad de implementación, PP-YOLOE+ sigue siendo una opción viable.

Cuándo elegirYOLO Ultralytics

Para la gran mayoría de desarrolladores, startups y equipos empresariales de todo el mundo, Ultralytics YOLOv5 (y sus sucesores) es la opción recomendada debido a:

  1. Implementación de Edge: exportación fluida a TFLite, CoreML y OpenVINO garantiza que los modelos se ejecuten de manera eficiente en los dispositivos de los usuarios finales.
  2. Soporte de la comunidad: Una comunidad enorme y activa contribuye a que haya actualizaciones frecuentes, lo que garantiza que se corrijan los errores y se añadan nuevas funciones, como la anotación automática, de forma regular.
  3. Plataforma holística: La Ultralytics simplifica todo el ciclo de vida, desde la gestión de conjuntos de datos hasta el entrenamiento de modelos y la implementación en la nube.

El futuro: entra en YOLO26

Aunque YOLOv5 una herramienta robusta y fiable, el campo de la visión artificial avanza rápidamente. Ultralytics presentado recientemente YOLO26, que representa lo último en eficiencia y rendimiento.

YOLO26 ofrece varias mejoras revolucionarias con respecto a YOLOv5 PP-YOLOE+:

  • NMS de extremo a extremo: YOLO26 elimina la supresión no máxima (NMS), un paso de posprocesamiento que ralentiza la inferencia. Esto da como resultado una lógica de implementación más sencilla y una menor latencia.
  • Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador híbrido garantiza una convergencia estable y tiempos de entrenamiento más rápidos.
  • Detección mejorada de objetos pequeños: gracias a ProgLoss y STAL (Task-Alignment Loss), YOLO26 destaca en la detección de objetos pequeños, una capacidad fundamental para la inspección con drones y la agricultura de precisión.
  • CPU un 43 % más rápida: con la eliminación de la pérdida focal de distribución (DFL), YOLO26 está optimizado específicamente para CPU, lo que lo convierte en la opción ideal para una computación periférica rentable.

Para los desarrolladores que comiencen nuevos proyectos en 2026, recomendamos encarecidamente evaluar YOLO26 para garantizar la viabilidad futura de sus aplicaciones con los últimos avances en arquitectura de redes neuronales.

Más información sobre YOLO26


Comentarios