YOLO11 frente a PP-YOLOE+: Una comparativa técnica de detectores en tiempo real
Seleccionar la arquitectura de red neuronal óptima es fundamental al desplegar aplicaciones de visión artificial en producción. En esta comparativa técnica, examinamos dos modelos destacados en el ámbito de la detección de objetos en tiempo real: Ultralytics YOLO11 y PP-YOLOE+ de Baidu. Ambas arquitecturas ofrecen un rendimiento sólido, pero abordan los desafíos de precisión, velocidad de inferencia y ecosistema de desarrollo de formas muy distintas.
A continuación, presentamos un gráfico interactivo que muestra los límites de rendimiento de estos modelos para ayudarte a identificar cuál se adapta mejor a tus limitaciones de hardware.
Orígenes y linaje técnico de los modelos
Entender los orígenes y las filosofías de diseño de estos modelos proporciona un contexto valioso sobre sus respectivas fortalezas y casos de uso ideales.
Detalles de YOLO11
Desarrollado por Ultralytics, YOLO11 representa una iteración altamente refinada de la serie YOLO, priorizando un equilibrio entre inferencia de alta velocidad, eficiencia extrema de parámetros y una facilidad de uso inigualable. Es ampliamente reconocido por sus capacidades multitarea unificadas y su API de Python fácil de usar para los desarrolladores.
- Autores: Glenn Jocher y Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Documentación: Documentación de YOLO11
Detalles de PP-YOLOE+
PP-YOLOE+ es una versión evolucionada de PP-YOLOv2, construida sobre el framework PaddlePaddle. Introduce cambios arquitectónicos como el backbone CSPRepResNet y el aprendizaje de alineación de tareas (TAL, por sus siglas en inglés) para ampliar los límites de la precisión, especialmente en GPUs de gama alta.
- Autores: Autores de PaddlePaddle
- Organización: Baidu
- Fecha: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Documentación: Documentación de configuración de PP-YOLOE+
Más información sobre PP-YOLOE+
Diferencias arquitectónicas
Los diseños arquitectónicos fundamentales de YOLO11 y PP-YOLOE+ reflejan sus distintas prioridades en el panorama de la visión artificial.
YOLO11 se basa en un backbone altamente optimizado y una cabeza de detección sin anclas (anchor-free). Utiliza bloques C3k2 y Spatial Pyramid Pooling - Fast (SPPF) para capturar características a múltiples escalas con un gasto computacional mínimo. Este diseño es muy ventajoso para reducir la latencia de inferencia en dispositivos con recursos limitados, como NPUs de borde y CPUs móviles. Además, YOLO11 está diseñado de forma nativa para el aprendizaje multitarea, soportando segmentación de instancias, estimación de poses y detección de cuadros delimitadores orientados (OBB) desde el primer momento.
PP-YOLOE+ introduce el backbone CSPRepResNet y una cabeza de tareas alineadas eficiente (ET-head). Utiliza intensivamente técnicas de re-parametrización para aumentar la capacidad de representación durante el entrenamiento, mientras pliega esos parámetros en convoluciones estándar para la inferencia. Aunque esto produce una impresionante precisión media (mAP), los modelos resultantes tienden a ser más pesados en términos de parámetros y consumo de memoria, lo que los hace más adecuados para el despliegue en servidores con GPUs robustas en lugar de dispositivos de borde ligeros.
Si tu proyecto requiere expandirse más allá de los cuadros delimitadores estándar, Ultralytics YOLO11 proporciona soporte nativo para segmentación, estimación de poses y clasificación dentro de la misma API, reduciendo drásticamente la carga de trabajo de desarrollo en comparación con la integración de múltiples repositorios distintos.
Rendimiento y benchmarks
Al evaluar el rendimiento, observamos la precisión (mAP), la velocidad de inferencia en diferentes hardware y la eficiencia del modelo (parámetros y FLOPs). La siguiente tabla destaca las métricas comparativas, con los valores más eficientes o de mayor rendimiento en negrita.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Análisis
YOLO11 demuestra una clara ventaja en el equilibrio de rendimiento y la eficiencia de parámetros. Por ejemplo, YOLO11m alcanza un mAP más alto (51.5) que PP-YOLOE+m (49.8) mientras utiliza menos parámetros (20.1M frente a 23.43M) y logra velocidades de inferencia significativamente más rápidas en TensorRT (4.7ms frente a 5.56ms). La naturaleza ligera de los modelos YOLO11 se traduce inherentemente en menores requisitos de memoria tanto durante el entrenamiento del modelo como en el despliegue.
Ecosistema de entrenamiento y facilidad de uso
The true value of a model often lies in how easily developers can train it on custom computer vision datasets and deploy it to production.
La ventaja de Ultralytics
Ultralytics prioriza una experiencia de desarrollo optimizada. El entrenamiento de YOLO11 se gestiona a través de una API de Python sencilla o mediante la CLI, eliminando la complejidad del código repetitivo. La Plataforma Ultralytics mejora aún más esto al proporcionar entrenamiento sin código, gestión automatizada de datasets y exportaciones con un solo clic a formatos como ONNX, CoreML y TensorRT.
Además, los modelos YOLO son altamente eficientes en memoria durante el entrenamiento, evitando las enormes cargas de VRAM típicas de arquitecturas basadas en Transformer o modelos con re-parametrización pesada, permitiendo el entrenamiento en hardware de consumo.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()Ecosistema PP-YOLOE+
PP-YOLOE+ opera dentro del ecosistema PaddleDetection. Si bien este framework es potente y está profundamente integrado con las soluciones industriales de Baidu, requiere que los desarrolladores adopten el framework de aprendizaje profundo PaddlePaddle. Esto puede introducir una curva de aprendizaje más pronunciada para los equipos ya estandarizados en PyTorch. Además, exportar modelos PP-YOLOE+ a formatos universales estándar para dispositivos de borde puede requerir pasos de conversión adicionales en comparación con los flujos de trabajo de exportación nativos que se encuentran en Ultralytics.
Casos de uso ideales
La elección entre estos modelos depende de tu entorno de despliegue específico.
- Elige YOLO11 para un desarrollo ágil, computación de borde y aplicaciones móviles. Su alta velocidad de inferencia, bajo consumo de memoria y amplias capacidades de exportación lo hacen ideal para tareas como la gestión de inventario minorista en tiempo real en CPUs estándar, análisis de imágenes aéreas mediante drones y complejos flujos de trabajo multitarea.
- Elige PP-YOLOE+ si todo tu flujo de trabajo de producción ya está fuertemente invertido en el ecosistema PaddlePaddle o si vas a realizar despliegues en servidores de inferencia dedicados y de alta gama, donde las limitaciones de memoria y la compatibilidad con el hardware (fuera del hardware optimizado de Paddle) no son preocupaciones primarias.
La próxima generación: Presentamos YOLO26
Aunque YOLO11 sigue siendo increíblemente potente, el campo de la IA avanza rápido. Para lo último en detección de objetos, Ultralytics ha presentado el nuevo YOLO26. Lanzado en enero de 2026, YOLO26 se basa en los éxitos de sus predecesores para ofrecer una eficiencia y precisión sin precedentes.
Innovaciones clave de YOLO26:
- Diseño integral sin NMS: YOLO26 elimina de forma nativa el post-procesamiento de Supresión de no máximos (NMS). Esto acelera significativamente la inferencia y simplifica la lógica de despliegue, un salto arquitectónico que fue pionero en YOLOv10.
- Hasta un 43% más rápido en inferencia de CPU: Optimizado específicamente para dispositivos de borde sin GPUs, garantizando un rendimiento en tiempo real en hardware de menor potencia.
- Optimizador MuSGD: Inspirado en la estabilidad de entrenamiento de los LLMs, este híbrido de SGD y Muon garantiza una convergencia más rápida y un entrenamiento más estable.
- ProgLoss + STAL: Las funciones de pérdida mejoradas aumentan drásticamente el reconocimiento de objetos pequeños, lo cual es crítico para aplicaciones con drones y vigilancia de seguridad.
- Eliminación de DFL: La eliminación de Distribution Focal Loss simplifica la exportación del modelo y mejora drásticamente la compatibilidad en una amplia gama de dispositivos de borde.
Para nuevos proyectos que prioricen la velocidad, una exportación fluida y la máxima precisión, recomendamos encarecidamente aprovechar las capacidades de YOLO26 a través de la Plataforma Ultralytics.
Si estás evaluando otras arquitecturas, quizás también te interese comparar YOLO11 con RT-DETR o explorar cómo el YOLOv8 original se mantiene en los benchmarks modernos.