Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 vs PP-YOLOE+#

Seleccionar la arquitectura de red neuronal óptima es fundamental al implementar aplicaciones de visión artificial en producción. En esta comparativa técnica, examinamos dos modelos destacados en el ámbito de la detección de objetos en tiempo real: Ultralytics YOLO11 y PP-YOLOE+ de Baidu. Ambas arquitecturas ofrecen un rendimiento robusto, pero abordan los desafíos de precisión, velocidad de inferencia y ecosistema de desarrollo de maneras bastante distintas.

A continuación presentamos un gráfico interactivo que muestra los límites de rendimiento de estos modelos para ayudarte a identificar cuál se ajusta mejor a las restricciones de tu hardware.

Link to this sectionOrígenes de los modelos y linaje técnico#

Comprender los orígenes y las filosofías de diseño de estos modelos proporciona un contexto valioso sobre sus respectivas fortalezas y casos de uso ideales.

Link to this sectionDetalles de YOLO11#

Desarrollado por Ultralytics, YOLO11 representa una iteración altamente refinada de la serie YOLO, que prioriza un equilibrio entre una inferencia de alta velocidad, una eficiencia de parámetros extrema y una facilidad de uso inigualable. Es ampliamente reconocido por sus capacidades multitarea unificadas y su API de Python fácil de usar para los desarrolladores.

Más información sobre YOLO11

Link to this sectionDetalles de PP-YOLOE+#

PP-YOLOE+ es una versión evolucionada de PP-YOLOv2, construida sobre el framework PaddlePaddle. Introduce cambios arquitectónicos como el backbone CSPRepResNet y el Task Alignment Learning (TAL) para superar los límites de la precisión, especialmente en GPUs de gama alta.

Aprende más sobre PP-YOLOE+

Link to this sectionDiferencias arquitectónicas#

Los diseños arquitectónicos fundamentales de YOLO11 y PP-YOLOE+ reflejan sus diferentes prioridades en el panorama de la visión artificial.

YOLO11 se basa en un backbone altamente optimizado y una head de detección sin anclas (anchor-free). Utiliza bloques C3k2 y Spatial Pyramid Pooling - Fast (SPPF) para capturar características a múltiples escalas con un mínimo gasto computacional. Este diseño es sumamente ventajoso para reducir la latencia de inferencia en dispositivos con recursos limitados como NPUs de borde y CPUs móviles. Además, YOLO11 está diseñado de forma nativa para el aprendizaje multitarea, soportando segmentación de instancias, estimación de pose y detección de cajas delimitadoras orientadas (OBB) desde el primer momento.

PP-YOLOE+ introduce el backbone CSPRepResNet y una head de tarea alineada eficiente (ET-head). Utiliza intensivamente técnicas de rep-parameterization para aumentar la capacidad de representación durante el entrenamiento, integrando esos parámetros en convoluciones estándar para la inferencia. Aunque esto genera un impresionante mean Average Precision (mAP), los modelos resultantes tienden a ser más pesados en términos de parámetros y consumo de memoria, lo que los hace más adecuados para su implementación en servidores con GPUs robustas en lugar de dispositivos de borde ligeros.

Versatilidad multitarea

Si tu proyecto requiere ir más allá de las cajas delimitadoras estándar, Ultralytics YOLO11 proporciona soporte nativo para segmentación, estimación de pose y clasificación dentro de la misma API, reduciendo drásticamente la carga de desarrollo en comparación con la integración de múltiples repositorios distintos.

Link to this sectionRendimiento y benchmarks#

Al evaluar el rendimiento, observamos la precisión (mAP), la velocidad de inferencia en diferentes hardware y la eficiencia del modelo (parámetros y FLOPs). La siguiente tabla destaca las métricas comparativas, con los valores más eficientes o de mayor rendimiento en negrita.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Link to this sectionAnálisis#

YOLO11 demuestra una clara ventaja en el equilibrio de rendimiento y la eficiencia de parámetros. Por ejemplo, YOLO11m alcanza un mAP más alto (51.5) que PP-YOLOE+m (49.8) mientras utiliza menos parámetros (20.1M frente a 23.43M) y logra velocidades de inferencia significativamente más rápidas en TensorRT (4.7ms frente a 5.56ms). La naturaleza ligera de los modelos YOLO11 se traduce inherentemente en requisitos de memoria más bajos tanto durante el entrenamiento del modelo como en la implementación.

Link to this sectionEcosistema de entrenamiento y facilidad de uso#

El verdadero valor de un modelo a menudo radica en la facilidad con la que los desarrolladores pueden entrenarlo en datasets de visión artificial personalizados e implementarlo en producción.

Link to this sectionLa ventaja de Ultralytics#

Ultralytics prioriza una experiencia de desarrollo optimizada. El entrenamiento de YOLO11 se gestiona a través de una API de Python simple o CLI, abstrayendo el código repetitivo complejo. La Plataforma Ultralytics mejora aún más esto al proporcionar entrenamiento sin código, gestión automatizada de datasets y exportaciones con un solo clic a formatos como ONNX, CoreML y TensorRT.

Además, los modelos YOLO son altamente eficientes en el uso de memoria durante el entrenamiento, evitando las enormes cargas de VRAM típicas de arquitecturas basadas en Transformer o modelos pesados con re-parametrización, lo que permite entrenar en hardware de consumo.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Link to this sectionEcosistema de PP-YOLOE+#

PP-YOLOE+ opera dentro del ecosistema PaddleDetection. Si bien este framework es potente y está profundamente integrado con las soluciones industriales de Baidu, requiere que los desarrolladores adopten el framework de deep learning específico PaddlePaddle. Esto puede introducir una curva de aprendizaje más pronunciada para equipos ya estandarizados en PyTorch. Además, exportar modelos PP-YOLOE+ a formatos universales estándar para dispositivos de borde puede requerir pasos de conversión adicionales en comparación con los pipelines de exportación nativos que se encuentran en los flujos de trabajo de Ultralytics.

Link to this sectionCasos de uso ideales#

Elegir entre estos modelos depende de tu entorno de implementación específico.

  • Elige YOLO11 para un desarrollo ágil, edge computing y aplicaciones móviles. Su alta velocidad de inferencia, bajo consumo de memoria y amplias capacidades de exportación lo hacen ideal para tareas como la gestión de inventario minorista en tiempo real en CPUs estándar, el análisis de imágenes aéreas basado en drones y pipelines multitarea complejos.
  • Elige PP-YOLOE+ si todo tu pipeline de producción ya está fuertemente invertido en el ecosistema PaddlePaddle o si estás realizando implementaciones en servidores de inferencia dedicados de alta gama donde las restricciones de memoria y la compatibilidad de hardware (fuera del hardware optimizado de Paddle) no son preocupaciones primordiales.

Link to this sectionLa próxima generación: Presentamos YOLO26#

Aunque YOLO11 sigue siendo increíblemente potente, el campo de la IA avanza rápido. Para estar a la vanguardia absoluta en detección de objetos, Ultralytics ha presentado el nuevo YOLO26. Lanzado en enero de 2026, YOLO26 construye sobre los éxitos de sus predecesores para ofrecer una eficiencia y precisión sin precedentes.

Innovaciones clave de YOLO26:

  • Diseño de extremo a extremo sin NMS: YOLO26 elimina de forma nativa el post-procesamiento de Non-Maximum Suppression (NMS). Esto acelera significativamente la inferencia y simplifica la lógica de implementación, un salto arquitectónico pionero en YOLOv10.
  • Inferencia de CPU hasta un 43% más rápida: Optimizado específicamente para dispositivos de borde sin GPUs, garantizando un rendimiento en tiempo real en hardware de menor potencia.
  • Optimizador MuSGD: Inspirado en la estabilidad del entrenamiento de LLMs, este híbrido de SGD y Muon garantiza una convergencia más rápida y un entrenamiento más estable.
  • ProgLoss + STAL: Las funciones de pérdida mejoradas potencian drásticamente el reconocimiento de objetos pequeños, lo cual es crítico para aplicaciones con drones y vigilancia de seguridad.
  • Eliminación de DFL: La eliminación de Distribution Focal Loss simplifica la exportación del modelo y mejora drásticamente la compatibilidad en una amplia gama de dispositivos de borde.

Para nuevos proyectos que prioricen la velocidad, una exportación fluida y la máxima precisión, recomendamos encarecidamente aprovechar las capacidades de YOLO26 a través de la Plataforma Ultralytics.

Si estás evaluando otras arquitecturas, también puede interesarte comparar YOLO11 con RT-DETR o explorar cómo se comporta el YOLOv8 original en los benchmarks modernos.

Colaboradores

Comentarios