Ir al contenido

YOLO11 frente a PP-YOLOE+: Comparación técnica detallada

Seleccionar la arquitectura óptima de detección de objetos es una decisión fundamental que influye en la velocidad, la precisión y la viabilidad de despliegue de los proyectos de visión por ordenador. Esta guía ofrece una comparación técnica en profundidad entre Ultralytics YOLO11el último modelo de última generación de Ultralytics, y PP-YOLOE+, un detector robusto del ecosistema PaddlePaddle de Baidu. Aunque ambos modelos ofrecen un alto rendimiento, YOLO11 se distingue por su excepcional eficiencia computacional, su perfecta integración PyTorch y un completo ecosistema diseñado para acelerar el desarrollo de investigadores e ingenieros.

Ultralytics YOLO11: la eficacia se une a la versatilidad

YOLO11 representa la evolución más reciente de la célebre serie YOLO (You Only Look Once), lanzada por Ultralytics para ampliar los límites de la detección de objetos en tiempo real. Diseñado por Glenn Jocher y Jing Qiu, este modelo perfecciona la arquitectura sin anclajes para ofrecer una precisión superior con una sobrecarga computacional significativamente reducida.

Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11

Arquitectura y puntos fuertes

YOLO11 emplea un diseño de red racionalizado que optimiza la extracción y fusión de características. A diferencia de los detectores tradicionales basados en anclajes que se basan en recuadros predefinidos, YOLO11 predice directamente los centros y escalas de los objetos. Este enfoque simplifica la cabeza del modelo y reduce el número de hiperparámetros necesarios para su ajuste.

La arquitectura del modelo es muy versátil y admite una amplia gama de tareas de visión por ordenador que van más allá de la simple detección. Gestiona de forma nativa la segmentación de instancias, la estimación de poses, la clasificación de imágenes y los recuadros delimitadores orientados (OBB), todo ello dentro de un único marco unificado.

Experiencia de los desarrolladores

Una de las ventajas más significativas de YOLO11 es su integración en la ultralytics Paquete Python . Esto proporciona una API coherente para la formación, validación y despliegue, permitiendo a los desarrolladores cambiar entre tareas o exportar modelos a formatos como ONNX y TensorRT con una sola línea de código.

Principales ventajas

  • Equilibrio de rendimiento superior: YOLO11 logra un equilibrio líder en la industria entre mAP y la latencia de inferencia, lo que lo hace adecuado para aplicaciones en tiempo real en dispositivos periféricos.
  • Eficiencia computacional: El modelo requiere menos parámetros y FLOPs (Floating Point Operations) en comparación con competidores como PP-YOLOE+, lo que se traduce en una ejecución más rápida y un menor consumo de energía.
  • Bajo consumo de memoria: Optimizado para un uso eficiente de la memoria, YOLO11 se entrena más rápido y puede ejecutarse en hardware con VRAM limitada, a diferencia de los modelos de transformadores que consumen muchos recursos.
  • Ecosistema robusto: Los usuarios se benefician de un mantenimiento activo, una amplia documentación y el apoyo de la comunidad, lo que garantiza la viabilidad a largo plazo de los proyectos empresariales.

Más información sobre YOLO11

PP-YOLOE+: Alta precisión en el ecosistema PaddlePaddle

PP-YOLOE+ es una evolución de la serie YOLO desarrollada por investigadores de Baidu. Lanzada en 2022, forma parte del conjunto de herramientas PaddleDetection y está diseñada para ejecutarse de forma eficiente en el marco de aprendizaje profundo PaddlePaddle .

Autores: PaddlePaddle Autores
Organización:Baidu
Fecha: 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
Docs:PaddleDetection Documentación

Arquitectura y características

PP-YOLOE+ utiliza una red troncal CSPRepResNet y un cabezal eficiente de alineación de tareas (ET-Head). Incorpora la asignación dinámica de etiquetas mediante el aprendizaje por alineación de tareas (TAL) y utiliza la pérdida varifocal para mejorar la calidad de la clasificación de objetos. El modelo está optimizado específicamente para el motor de inferencia PaddlePaddle , aprovechando la integración de TensorRT para su despliegue.

Puntos fuertes y limitaciones

Mientras que PP-YOLOE+ ofrece una precisión competitiva en pruebas de referencia como COCOse enfrenta a obstáculos de adopción debido a su dependencia del marco. La mayor parte de la comunidad investigadora mundial confía en PyTorchpor lo que el cambio a PaddlePaddle es una fuente de fricción. Además, los modelos PP-YOLOE+ suelen requerir un mayor número de parámetros para igualar la precisión de arquitecturas más recientes como YOLO11, lo que conlleva un aumento de los costes computacionales durante el entrenamiento y la inferencia.

Más información sobre PP-YOLOE+

Análisis del rendimiento: Eficacia y velocidad

Una comparación directa de las métricas de rendimiento revela que YOLO11 supera sistemáticamente a PP-YOLOE+ en términos de eficacia y velocidad, al tiempo que mantiene la precisión más avanzada.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Observaciones críticas

  1. Dominio de la eficiencia: La eficiencia de parámetros de YOLO11 es contundente. Por ejemplo, YOLO11x alcanza un 54,7 mAP en comparación con PP-YOLOE+x, pero lo hace con sólo 56,9 millones de parámetros frente a 98,42 millones. Esto implica que YOLO11x es aproximadamente un 42% más pequeño, lo que facilita su implantación en dispositivos con limitaciones de almacenamiento.
  2. Velocidad de inferencia: en el mundo real, la velocidad es fundamental. YOLO11n proporciona un increíble tiempo de inferencia de 1,5 ms en la GPU T4, significativamente más rápido que los 2,84 ms del PP-YOLOE+t comparable. Esta ventaja de velocidad permite aumentar la velocidad de procesamiento de imágenes en aplicaciones como los vehículos autónomos y la robótica.
  3. Rendimiento deCPU : La disponibilidad de pruebas de rendimiento de CPU optimizadas para YOLO11 pone de manifiesto su flexibilidad. Alcanzar 56,1 ms en la CPU con YOLO11n permite crear aplicaciones viables en tiempo real incluso sin aceleración dedicada en GPU , una métrica que suele faltar o estar menos optimizada en los marcos de la competencia.

Casos de uso en el mundo real

Las ventajas arquitectónicas de YOLO11 se traducen directamente en beneficios para diversas industrias.

  • Infraestructura de ciudad inteligente: El alto rendimiento de YOLO11 permite la monitorización del tráfico en tiempo real y el análisis de la congestión a través de múltiples flujos de cámaras utilizando menos servidores.
  • Fabricación industrial: Con una precisión superior a latencias más bajas, YOLO11 destaca en el control de calidad y la detección de defectos en líneas de montaje de alta velocidad.
  • Análisis del comercio minorista: La capacidad del modelo para gestionar eficazmente el recuento de objetos y la generación de mapas de calor ayuda a los minoristas a optimizar la distribución de las tiendas y la gestión del inventario.
  • Imágenes médicas: La versatilidad para realizar segmentaciones ayuda en el análisis preciso de imágenes médicas, como la identificación de tumores o el análisis de estructuras celulares.

Formación e integración en el ecosistema

Un factor diferenciador importante es la facilidad con la que los desarrolladores pueden entrenar y desplegar modelos. El ecosistema Ultralytics se basa en simplificar el recorrido del usuario.

Flujo de trabajo optimizado

Entrenar un modelo YOLO11 en un conjunto de datos personalizado requiere un código mínimo. El marco gestiona automáticamente tareas complejas como el aumento de datos, la evolución de hiperparámetros y el entrenamiento GPU .

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Por el contrario, la utilización de PP-YOLOE+ a menudo implica navegar por las complejidades del ecosistema PaddlePaddle , los archivos de configuración y los posibles scripts de conversión si el canal de datos original está PyTorch.

Flexibilidad de implantación

Ultralytics proporciona modos de exportación integrados para una amplia gama de formatos, incluidos ONNX, OpenVINO, CoreML y TFLite. Esto garantiza que un modelo entrenado una vez pueda desplegarse en cualquier lugar, desde un dispositivo edge NVIDIA Jetson hasta un smartphone iOS o una API en la nube.

Conclusión

Aunque PP-YOLOE+ sigue siendo un modelo capaz en el contexto del ecosistema de Baidu, Ultralytics YOLO11 destaca como la mejor opción para la comunidad de visión por ordenador en general. Su combinación de recuentos de parámetros significativamente más bajos, velocidades de inferencia más rápidas y usabilidad PyTorch elimina las barreras de entrada y acelera el tiempo de comercialización.

Para los desarrolladores que buscan una solución preparada para el futuro que equilibre el rendimiento de vanguardia con la facilidad de uso, YOLO11 proporciona una plataforma robusta, versátil y muy eficiente para crear la próxima generación de aplicaciones de IA.

Explorar Otros Modelos

Si está interesado en explorar otras arquitecturas dentro del ecosistema Ultralytics , tenga en cuenta estas comparaciones:


Comentarios