PP-YOLOE+ frente a YOLOv10: comparación de detectores de objetos modernos

El panorama de la detección de objetos en tiempo real ha evolucionado rápidamente, impulsado por la necesidad de modelos que equilibren una alta precisión con una baja latencia. Dos contribuciones significativas a este campo son PP-YOLOE+, desarrollado por Baidu como parte del paquete PaddleDetection, y YOLOv10, un lanzamiento académico de la Universidad de Tsinghua que introdujo el entrenamiento NMS.

Esta guía ofrece una comparación técnica detallada de estas arquitecturas, examinando sus métricas de rendimiento, metodologías de entrenamiento y adecuación para diversas aplicaciones de visión artificial. Aunque ambos modelos ofrecen capacidades impresionantes, también destacamos cómo el Ultralytics y los modelos más recientes, como YOLO26, proporcionan una vía más unificada y eficiente para su implementación.

Descripción general del modelo y especificaciones técnicas

Comprender el origen y la filosofía de diseño de cada modelo ayuda a seleccionar la herramienta adecuada para sus restricciones de ingeniería específicas.

PP-YOLOE+

PP-YOLOE+ es una versión mejorada de PP-YOLOE, centrada en perfeccionar el mecanismo sin anclaje y la eficiencia del entrenamiento. Está profundamente integrada en el PaddlePaddle .

Autores:PaddlePaddle
Organización:Baidu
Fecha: abril de 2022
Referencia:arXiv:2203.16250
Arquitectura clave: utiliza una estructura CSPRepResNet con una estrategia de asignación de etiquetas Task Alignment Learning (TAL). Se basa en un diseño estándar de cabeza sin anclaje.

Más información sobre PP-YOLOE+

YOLOv10

YOLOv10 marcó un cambio significativo en la YOLO al introducir un diseño integral que elimina la necesidad de la supresión no máxima (NMS) durante la inferencia.

Autores: Ao Wang, Hui Chen, et al.
Organización:Universidad de Tsinghua
Fecha: mayo de 2024
Referencia:arXiv:2405.14458
Arquitectura clave: Cuenta con asignaciones duales coherentes para el entrenamiento NMS y un diseño de modelo holístico impulsado por la eficiencia y la precisión.

Más información sobre YOLOv10

Métricas de rendimiento

La siguiente tabla compara los modelos en el COCO . Las métricas clave incluyen la precisión media (mAP) y la velocidad de inferencia en diferentes configuraciones de hardware. Obsérvese el importante aumento de la eficiencia en la YOLOv10 , especialmente en el recuento de parámetros.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Análisis de rendimiento

YOLOv10 una eficiencia superior, ya que a menudo alcanza una precisión similar o superior con un número significativamente menor de parámetros. Por ejemplo, YOLOv10x alcanza casi el mismo mAP PP-YOLOE+x, pero con aproximadamente un 42 % menos de parámetros, lo que lo hace mucho más adecuado para implementaciones periféricas con limitaciones de memoria.

Análisis en profundidad de la arquitectura

Diseño PP-YOLOE+

PP-YOLOE+ se basa en los sólidos cimientos de PP-YOLOv2. Utiliza una estructura escalable denominada CSPRepResNet, que combina conexiones residuales con redes parciales entre etapas para mejorar el flujo de gradiente. El cabezal no tiene anclajes, lo que simplifica el espacio de búsqueda de hiperparámetros en comparación con sus predecesores basados en anclajes, como YOLOv4.

Sin embargo, PP-YOLOE+ se basa en complejos pasos de posprocesamiento. Aunque es preciso, la dependencia de NMS introducir cuellos de botella de latencia en escenas concurridas en las que se superponen muchos cuadros delimitadores.

YOLOv10 : procesamiento integral

YOLOv10 un cambio de paradigma al eliminar NMS . Lo consigue mediante asignaciones duales coherentes:

Asignación uno a muchos: Se utiliza durante el entrenamiento para proporcionar señales de supervisión enriquecidas.
Asignación uno a uno: se utiliza para la inferencia con el fin de garantizar predicciones únicas por objeto.

Esta alineación permite implementar el modelo sin la sobrecarga computacional que supone clasificar y filtrar cajas, lo que supone una gran ventaja para las aplicaciones en tiempo real.

Ecosistema y facilidad de uso

El ecosistema que rodea a un modelo suele ser tan importante como la propia arquitectura. Aquí es donde se hace más evidente la diferencia entre los modelos PaddlePaddle y los modelos Ultralytics.

La ventaja de Ultralytics

Tanto YOLOv10 la más reciente YOLO26 son compatibles con elPython Ultralytics , lo que proporciona una experiencia fluida a los desarrolladores.

API unificada: Cambia entre modelos (por ejemplo, de YOLOv8 YOLOv10 YOLO26) modificando un único argumento de cadena.
Integración de plataformas: los usuarios pueden aprovechar la Ultralytics para gestionar conjuntos de datos, visualizar ejecuciones de entrenamiento e implementar modelos en terminales web y periféricos con solo unos clics.
Amplia compatibilidad con la exportación: aunque PP-YOLOE+ está optimizado para la inferencia de Paddle, Ultralytics se exportan de forma nativa a ONNX, TensorRT, CoreMLy OpenVINO, lo que permite cubrir una gama más amplia de hardware de implementación.

from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for broad compatibility
path = model.export(format="onnx")

Flujo de trabajo de PP-YOLOE+

PP-YOLOE+ generalmente requiere la instalación de PaddlePaddle la clonación del repositorio PaddleDetection. Este ecosistema es potente, pero puede resultar menos accesible para los usuarios acostumbrados a PyTorch estándar PyTorch . El proceso de exportación suele dar prioridad al motor Paddle Inference, lo que puede requerir pasos de conversión adicionales para una implementación genérica.

El futuro: YOLO26

Mientras que YOLOv10 el concepto NMS, el recientemente lanzado YOLO26 perfecciona y amplía estas innovaciones.

YOLO26 es nativamente NMS de extremo a extremo, lo que garantiza las velocidades de inferencia más rápidas posibles sin retrasos de posprocesamiento. Cuenta con el optimizador MuSGD, un híbrido de SGD Muon (inspirado en el entrenamiento LLM), que garantiza una convergencia estable. Además, con la eliminación de la pérdida focal de distribución (DFL), YOLO26 es significativamente más fácil de exportar y ejecutar en dispositivos periféricos de baja potencia.

Para los desarrolladores que buscan lo mejor en velocidad y precisión, especialmente para la detección de objetos pequeños mediante ProgLoss y STAL, YOLO26 es la ruta de actualización recomendada.

Más información sobre YOLO26

Casos de uso en el mundo real

Cuándo elegir PP-YOLOE+

Implementación en Baidu Cloud: si su infraestructura ya está construida en Baidu Cloud o utiliza Paddle Serving, PP-YOLOE+ ofrece optimización nativa.
Hardware específico: algunos chips de IA del mercado asiático cuentan con soporte especializado para modelos PaddlePaddle .

Cuándo elegir Ultralytics YOLOv10 YOLO26)

Computación periférica: con CPU hasta un 43 % más rápida en YOLO26, estos modelos son ideales para Raspberry Pi, Jetson Nano o implementaciones móviles.
Tareas complejas: además de la detección, la Ultralytics admite la estimación de poses, la segmentación de instancias y la detección de objetos orientados (OBB), lo que le permite abordar diversos problemas con una sola herramienta.
Prototipado rápido: la facilidad de formación y validación permite a los equipos iterar rápidamente, un factor crucial en entornos de desarrollo ágiles.

Eficiencia de Memoria

YOLO Ultralytics son conocidos por su bajo consumo de memoria. A diferencia de las arquitecturas con transformadores pesados que consumen grandes cantidades de CUDA , YOLO eficientes, como YOLO26, permiten tamaños de lote más grandes en GPU de consumo, lo que democratiza el acceso a la formación en IA de alta gama.

Conclusión

Tanto PP-YOLOE+ como YOLOv10 modelos capaces. PP-YOLOE+ es una opción sólida para el PaddlePaddle , mientras que YOLOv10 los límites de la eficiencia con su diseño NMS. Sin embargo, para disfrutar de la experiencia de desarrollo más optimizada, la compatibilidad con el hardware más amplia y funciones de vanguardia como el optimizador MuSGD y ProgLoss, Ultralytics destaca como la opción superior para los ingenieros de visión artificial modernos.

Para explorar otras opciones, considere investigar YOLOv8 o el algoritmo basado en transformadores RT-DETR para escenarios de alta precisión.