PP-YOLOE+ frente a YOLO11: Navegando por la evolución de la detección de objetos de alto rendimiento
En el campo de la visión artificial, que avanza rápidamente, elegir la arquitectura de modelo adecuada es fundamental para equilibrar la precisión, la velocidad y las limitaciones de implementación. Esta comparación explora dos hitos importantes en la historia de la detección: PP-YOLOE+, un detector refinado sin anclajes del PaddlePaddle , y YOLO11, una iteración de última generación de Ultralytics para ofrecer una eficiencia y versatilidad superiores.
Mientras que PP-YOLOE+ representa una solución madura para aplicaciones industriales dentro de marcos específicos, YOLO11 los límites de lo que es posible en dispositivos periféricos gracias a mejoras arquitectónicas. Además, miraremos hacia el futuro con YOLO26, la última innovación que ofrece detección nativa de extremo a extremo NMS.
Comparación de métricas de rendimiento
La siguiente tabla ofrece una comparación directa de los indicadores clave de rendimiento. YOLO11 demuestra una clara ventaja en cuanto a eficiencia, ya que ofrece una precisión comparable o superior con un número de parámetros significativamente reducido y velocidades de inferencia más rápidas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
PP-YOLOE+: La PaddlePaddle
PP-YOLOE+ es una versión mejorada de PP-YOLOE, desarrollada por investigadores de Baidu como parte del kit de herramientas PaddleDetection. Se centra en mejorar la velocidad de convergencia del entrenamiento y el rendimiento de las tareas posteriores de su predecesor.
Arquitectura técnica
PP-YOLOE+ es un modelo sin anclaje que aprovecha una estructura CSPRepResNet y una estrategia de aprendizaje de alineación de tareas (TAL) para la asignación de etiquetas. Utiliza un mecanismo de atención ESE (Effective Squeeze-and-Excitation) único dentro de su cuello para mejorar la representación de características. Una elección arquitectónica clave es el uso de la reparametrización al estilo RepVGG, que permite al modelo tener dinámicas de entrenamiento complejas que se colapsan en estructuras más simples y rápidas durante la inferencia.
Las características clave incluyen:
- Cabezal sin anclajes: simplifica el diseño al eliminar la necesidad de cajas de anclaje predefinidas.
- Aprendizaje de alineación de tareas (TAL): alinea dinámicamente las tareas de clasificación y regresión para mejorar la precisión.
- Preentrenamiento de Object365: La versión «Plus» (+) se beneficia enormemente de un sólido preentrenamiento en el enorme conjunto de datos Objects365, lo que aumenta significativamente la velocidad de convergencia en conjuntos de datos más pequeños.
Metadatos:
- Autores: Autores de PaddlePaddle
- Organización:Baidu
- Fecha: 2022-04-02
- Arxiv:PP-YOLOE: Una versión evolucionada de YOLO
- GitHub:PaddlePaddle/PaddleDetection
Limitaciones del ecosistema
Aunque PP-YOLOE+ ofrece un gran rendimiento, está estrechamente vinculado al PaddlePaddle . Los desarrolladores acostumbrados a PyTorch TensorFlow enfrentarse a una curva de aprendizaje pronunciada y a fricciones al integrarlo en los pipelines de MLOps existentes que no admiten de forma nativa Paddle Inference.
Más información sobre PP-YOLOE+
Ultralytics YOLO11: Redefiniendo la eficiencia
Publicado por Ultralytics a finales de 2024, YOLO11 una mejora significativa en la YOLO , dando prioridad a la eficiencia de los parámetros y a la capacidad de extracción de características. A diferencia de algunas arquitecturas centradas en la investigación, YOLO11 diseñado para su implementación en el mundo real, equilibrando la precisión bruta con la velocidad operativa.
Innovaciones Arquitectónicas
YOLO11 el bloque C3k2, una evolución más ligera y rápida del cuello de botella CSP, e integra C2PSA (Cross-Stage Partial with Spatial Attention) para mejorar el enfoque del modelo en las regiones críticas de la imagen. Estos cambios dan como resultado un modelo que es computacionalmente más económico que las iteraciones anteriores, al tiempo que mantiene mAP competitivas.
Las ventajas para los desarrolladores incluyen:
- Menor consumo de memoria: YOLO11 muchos menos parámetros que PP-YOLOE+ para obtener una precisión similar (por ejemplo, YOLO11x tiene aproximadamente un 42 % menos de parámetros que PP-YOLOE+x), lo que lo hace ideal para dispositivos periféricos con RAM limitada.
- Marco unificado: admite la detección, segmentación, clasificación, estimación de postura y OBB de forma fluida.
- PyTorch : Desarrollado sobre el ampliamente adoptado PyTorch , lo que garantiza la compatibilidad con la gran mayoría de las herramientas y bibliotecas de IA modernas.
Metadatos:
- Autores: Glenn Jocher y Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- GitHub:ultralytics/ultralytics
- Documentación:Documentación de YOLO11
Análisis crítico: elegir la herramienta adecuada
1. Facilidad de uso y ecosistema
Aquí es donde la distinción es más pronunciada. Ultralytics son famosos por su facilidad de uso. El ultralytics Python permite el entrenamiento, la validación y la implementación en menos de cinco líneas de código.
Por el contrario, PP-YOLOE+ requiere la instalación del PaddlePaddle y la clonación del repositorio PaddleDetection. La configuración suele implicar la modificación de archivos YAML complejos y el uso de scripts de línea de comandos en lugar de una API Python, lo que puede ralentizar la creación rápida de prototipos.
2. Implementación y versatilidad
YOLO11 por su versatilidad. Se puede exportar fácilmente a formatos como ONNX, TensorRT, CoreML y TFLite un solo comando. Esto lo convierte en la mejor opción para implementarlo en diversos tipos de hardware, desde módulos NVIDIA hasta iOS .
Aunque PP-YOLOE+ se puede exportar, el proceso suele dar prioridad a Paddle Inference o requiere pasos de conversión intermedios (por ejemplo, Paddle2ONNX) que pueden introducir problemas de compatibilidad. Además, YOLO11 una gama más amplia de tareas, como la detección de cuadros delimitadores orientados (OBB) y la segmentación de instancias, mientras que PP-YOLOE+ es principalmente una arquitectura centrada en la detección.
3. Eficiencia de la formación
Ultralytics están optimizados para la eficiencia del entrenamiento, a menudo requieren menos CUDA y convergen más rápidamente gracias a los hiperparámetros preestablecidos inteligentes. El ecosistema también proporciona una integración perfecta con herramientas de seguimiento de experimentos como Comet y Weights & Biases, lo que agiliza el ciclo de vida de MLOps.
Perspectivas Futuras: El Poder de YOLO26
Para los desarrolladores que buscan lo último en tecnología, Ultralytics presentado YOLO26, un revolucionario avance que supera tanto a YOLO11 PP-YOLOE+.
YOLO26 presenta un diseño nativo de extremo a extremo NMS, una innovación pionera en YOLOv10 ahora perfeccionada para la producción. Esto elimina la necesidad del posprocesamiento de supresión no máxima (NMS), que a menudo supone un cuello de botella de latencia en las aplicaciones en tiempo real.
Los avances clave en YOLO26 incluyen:
- CPU hasta un 43 % más rápida: al eliminar la pérdida focal de distribución (DFL) y optimizar la arquitectura principal, YOLO26 está específicamente diseñado para la computación periférica y entornos sin GPU potentes.
- Optimizador MuSGD: híbrido entre SGD Muon (inspirado en Kimi K2 de Moonshot AI), este optimizador aporta la estabilidad del entrenamiento de modelos de lenguaje grandes (LLM) a la visión artificial, lo que garantiza una convergencia más rápida.
- ProgLoss + STAL: Funciones de pérdida avanzadas que mejoran la detección de objetos pequeños, cruciales para tareas como la obtención de imágenes aéreas o el control de calidad.
- Mejoras específicas para cada tarea: incluye pérdida de segmentación semántica para una mayor precisión de la máscara y pérdida de ángulo especializada para OBB, lo que permite abordar las discontinuidades de los límites.
Recomendación
Para proyectos nuevos, YOLO26 es la opción recomendada. Su arquitectura NMS simplifica significativamente los procesos de implementación, eliminando la complejidad de ajustar IoU para el posprocesamiento.
Ejemplo de implementación
Experimente la simplicidad del Ultralytics . El siguiente código muestra cómo cargar y entrenar un modelo. Puede cambiar fácilmente entre YOLO11 YOLO26 cambiando la cadena del nombre del modelo.
from ultralytics import YOLO
# Load the latest YOLO26 model (or use "yolo11n.pt")
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The system automatically handles data augmentation and logging
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
# NMS-free output is handled automatically for YOLO26
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for simplified deployment
path = model.export(format="onnx")
Para los usuarios interesados en otras arquitecturas especializadas, la documentación también cubre modelos como RT-DETR para la detección basada en transformadores y YOLO para tareas de vocabulario abierto.
Conclusión
Aunque PP-YOLOE+ sigue siendo una opción sólida para quienes están muy involucrados en el ecosistema de Baidu, YOLO11 y el más reciente YOLO26 ofrecen un paquete más atractivo para la comunidad de desarrolladores en general. Con una facilidad de uso superior, menores requisitos de memoria, amplias opciones de exportación y una comunidad próspera, Ultralytics proporcionan el equilibrio de rendimiento necesario para las aplicaciones de visión artificial modernas y escalables.