PP-YOLOE+ frente a YOLOv10: comparación de detectores de objetos modernos
El panorama de la detección de objetos en tiempo real ha evolucionado rápidamente, impulsado por la necesidad de modelos que equilibren una alta precisión con una baja latencia. Dos contribuciones significativas a este campo son PP-YOLOE+, desarrollado por Baidu como parte del paquete PaddleDetection, y YOLOv10, un lanzamiento académico de la Universidad de Tsinghua que introdujo el entrenamiento NMS.
Esta guía ofrece una comparación técnica detallada de estas arquitecturas, examinando sus métricas de rendimiento, metodologías de entrenamiento y adecuación para diversas aplicaciones de visión artificial. Aunque ambos modelos ofrecen capacidades impresionantes, también destacamos cómo el Ultralytics y los modelos más recientes, como YOLO26, proporcionan una vía más unificada y eficiente para su implementación.
Descripción general del modelo y especificaciones técnicas
Comprender el origen y la filosofía de diseño de cada modelo ayuda a seleccionar la herramienta adecuada para sus restricciones de ingeniería específicas.
PP-YOLOE+
PP-YOLOE+ es una versión mejorada de PP-YOLOE, centrada en perfeccionar el mecanismo sin anclaje y la eficiencia del entrenamiento. Está profundamente integrada en el PaddlePaddle .
- Autores:PaddlePaddle
- Organización:Baidu
- Fecha: abril de 2022
- Referencia:arXiv:2203.16250
- Arquitectura clave: utiliza una estructura CSPRepResNet con una estrategia de asignación de etiquetas Task Alignment Learning (TAL). Se basa en un diseño estándar de cabeza sin anclaje.
Más información sobre PP-YOLOE+
YOLOv10
YOLOv10 marcó un cambio significativo en la YOLO al introducir un diseño integral que elimina la necesidad de la supresión no máxima (NMS) durante la inferencia.
- Autores: Ao Wang, Hui Chen, et al.
- Organización:Universidad de Tsinghua
- Fecha: mayo de 2024
- Referencia:arXiv:2405.14458
- Arquitectura clave: Cuenta con asignaciones duales coherentes para el entrenamiento NMS y un diseño de modelo holístico impulsado por la eficiencia y la precisión.
Métricas de rendimiento
La siguiente tabla compara los modelos en el COCO . Las métricas clave incluyen la precisión media (mAP) y la velocidad de inferencia en diferentes configuraciones de hardware. Obsérvese el importante aumento de la eficiencia en la YOLOv10 , especialmente en el recuento de parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Análisis de rendimiento
YOLOv10 una eficiencia superior, ya que a menudo alcanza una precisión similar o superior con un número significativamente menor de parámetros. Por ejemplo, YOLOv10x alcanza casi el mismo mAP PP-YOLOE+x, pero con aproximadamente un 42 % menos de parámetros, lo que lo hace mucho más adecuado para implementaciones periféricas con limitaciones de memoria.
Análisis en profundidad de la arquitectura
Diseño PP-YOLOE+
PP-YOLOE+ se basa en los sólidos cimientos de PP-YOLOv2. Utiliza una estructura escalable denominada CSPRepResNet, que combina conexiones residuales con redes parciales entre etapas para mejorar el flujo de gradiente. El cabezal no tiene anclajes, lo que simplifica el espacio de búsqueda de hiperparámetros en comparación con sus predecesores basados en anclajes, como YOLOv4.
Sin embargo, PP-YOLOE+ se basa en complejos pasos de posprocesamiento. Aunque es preciso, la dependencia de NMS introducir cuellos de botella de latencia en escenas concurridas en las que se superponen muchos cuadros delimitadores.
YOLOv10 : procesamiento integral
YOLOv10 un cambio de paradigma al eliminar NMS . Lo consigue mediante asignaciones duales coherentes:
- Asignación uno a muchos: Se utiliza durante el entrenamiento para proporcionar señales de supervisión enriquecidas.
- Asignación uno a uno: se utiliza para la inferencia con el fin de garantizar predicciones únicas por objeto.
Esta alineación permite implementar el modelo sin la sobrecarga computacional que supone clasificar y filtrar cajas, lo que supone una gran ventaja para las aplicaciones en tiempo real.
Ecosistema y facilidad de uso
El ecosistema que rodea a un modelo suele ser tan importante como la propia arquitectura. Aquí es donde se hace más evidente la diferencia entre los modelos PaddlePaddle y los modelos Ultralytics.
La ventaja de Ultralytics
Tanto YOLOv10 la más reciente YOLO26 son compatibles con elPython Ultralytics , lo que proporciona una experiencia fluida a los desarrolladores.
- API unificada: Cambia entre modelos (por ejemplo, de YOLOv8 YOLOv10 YOLO26) modificando un único argumento de cadena.
- Integración de plataformas: los usuarios pueden aprovechar la Ultralytics para gestionar conjuntos de datos, visualizar ejecuciones de entrenamiento e implementar modelos en terminales web y periféricos con solo unos clics.
- Amplia compatibilidad con la exportación: aunque PP-YOLOE+ está optimizado para la inferencia de Paddle, Ultralytics se exportan de forma nativa a ONNX, TensorRT, CoreMLy OpenVINO, lo que permite cubrir una gama más amplia de hardware de implementación.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for broad compatibility
path = model.export(format="onnx")
Flujo de trabajo de PP-YOLOE+
PP-YOLOE+ generalmente requiere la instalación de PaddlePaddle la clonación del repositorio PaddleDetection. Este ecosistema es potente, pero puede resultar menos accesible para los usuarios acostumbrados a PyTorch estándar PyTorch . El proceso de exportación suele dar prioridad al motor Paddle Inference, lo que puede requerir pasos de conversión adicionales para una implementación genérica.
El futuro: YOLO26
Mientras que YOLOv10 el concepto NMS, el recientemente lanzado YOLO26 perfecciona y amplía estas innovaciones.
YOLO26 es nativamente NMS de extremo a extremo, lo que garantiza las velocidades de inferencia más rápidas posibles sin retrasos de posprocesamiento. Cuenta con el optimizador MuSGD, un híbrido de SGD Muon (inspirado en el entrenamiento LLM), que garantiza una convergencia estable. Además, con la eliminación de la pérdida focal de distribución (DFL), YOLO26 es significativamente más fácil de exportar y ejecutar en dispositivos periféricos de baja potencia.
Para los desarrolladores que buscan lo mejor en velocidad y precisión, especialmente para la detección de objetos pequeños mediante ProgLoss y STAL, YOLO26 es la ruta de actualización recomendada.
Casos de uso en el mundo real
Cuándo elegir PP-YOLOE+
- Implementación en Baidu Cloud: si su infraestructura ya está construida en Baidu Cloud o utiliza Paddle Serving, PP-YOLOE+ ofrece optimización nativa.
- Hardware específico: algunos chips de IA del mercado asiático cuentan con soporte especializado para modelos PaddlePaddle .
Cuándo elegir Ultralytics YOLOv10 YOLO26)
- Computación periférica: con CPU hasta un 43 % más rápida en YOLO26, estos modelos son ideales para Raspberry Pi, Jetson Nano o implementaciones móviles.
- Tareas complejas: además de la detección, la Ultralytics admite la estimación de poses, la segmentación de instancias y la detección de objetos orientados (OBB), lo que le permite abordar diversos problemas con una sola herramienta.
- Prototipado rápido: la facilidad de formación y validación permite a los equipos iterar rápidamente, un factor crucial en entornos de desarrollo ágiles.
Eficiencia de Memoria
YOLO Ultralytics son conocidos por su bajo consumo de memoria. A diferencia de las arquitecturas con transformadores pesados que consumen grandes cantidades de CUDA , YOLO eficientes, como YOLO26, permiten tamaños de lote más grandes en GPU de consumo, lo que democratiza el acceso a la formación en IA de alta gama.
Conclusión
Tanto PP-YOLOE+ como YOLOv10 modelos capaces. PP-YOLOE+ es una opción sólida para el PaddlePaddle , mientras que YOLOv10 los límites de la eficiencia con su diseño NMS. Sin embargo, para disfrutar de la experiencia de desarrollo más optimizada, la compatibilidad con el hardware más amplia y funciones de vanguardia como el optimizador MuSGD y ProgLoss, Ultralytics destaca como la opción superior para los ingenieros de visión artificial modernos.
Para explorar otras opciones, considere investigar YOLOv8 o el algoritmo basado en transformadores RT-DETR para escenarios de alta precisión.