PP-YOLOE+ vs YOLOv9: Una comparación técnica

Seleccionar la arquitectura óptima para proyectos de visión artificial requiere navegar por un panorama de modelos que evolucionan rápidamente. Esta página proporciona una comparación técnica detallada entre PP-YOLOE+ de Baidu y YOLOv9, dos detectores de objetos sofisticados de una sola etapa. Analizamos sus innovaciones arquitectónicas, métricas de rendimiento e integración del ecosistema para ayudarle a tomar una decisión informada. Si bien ambos modelos demuestran altas capacidades, representan distintas filosofías de diseño y dependencias del framework.

PP-YOLOE+: Alta precisión dentro del ecosistema PaddlePaddle

PP-YOLOE+ es una versión evolucionada de PP-YOLOE, desarrollada por Baidu como parte del conjunto PaddleDetection. Está diseñado para proporcionar un equilibrio entre precisión y velocidad de inferencia, optimizado específicamente para el framework de aprendizaje profundo PaddlePaddle.

Autores: Autores de PaddlePaddle
Organización:Baidu
Fecha: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Documentación:README de PaddleDetection PP-YOLOE+

Arquitectura y Características Clave

PP-YOLOE+ opera como un detector de una sola etapa y sin anclaje. Se basa en el backbone CSPRepResNet y utiliza una estrategia de Task Alignment Learning (TAL) para mejorar la alineación entre las tareas de clasificación y localización. Una característica clave es el Efficient Task-aligned Head (ET-Head), que reduce la sobrecarga computacional manteniendo la precisión. El modelo utiliza una función de pérdida Varifocal para manejar el desequilibrio de clases durante el entrenamiento.

Fortalezas y Debilidades

La principal fortaleza de PP-YOLOE+ radica en su optimización para la pila de hardware y software de Baidu. Ofrece modelos escalables (s, m, l, x) que funcionan bien en los benchmarks estándar de detección de objetos.

Sin embargo, su fuerte dependencia del ecosistema PaddlePaddle presenta un obstáculo importante para la comunidad de IA en general, que favorece en gran medida PyTorch. La migración de los flujos de trabajo existentes de PyTorch a PaddlePaddle puede requerir muchos recursos. Además, en comparación con las arquitecturas más nuevas, PP-YOLOE+ requiere más parámetros para lograr una precisión similar, lo que afecta el almacenamiento y la memoria en dispositivos con limitaciones.

Más información sobre PP-YOLOE+

YOLOv9: Información de Gradiente Programable para un Aprendizaje Mejorado

Ultralytics YOLOv9 introduce un cambio de paradigma en la detección de objetos en tiempo real al abordar el problema del "cuello de botella de la información" inherente a las redes neuronales profundas.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentación:https://docs.ultralytics.com/models/yolov9/

Arquitectura y Características Clave

YOLOv9 integra dos conceptos innovadores: la Información de Gradiente Programable (PGI) y la Red Generalizada de Agregación de Capas Eficientes (GELAN).

PGI: A medida que las redes se hacen más profundas, la información de los datos de entrada a menudo se pierde durante el proceso de avance. PGI proporciona una rama de supervisión auxiliar que garantiza la generación fiable de gradientes, lo que permite al modelo "recordar" características cruciales para las tareas de seguimiento de objetos y detección sin añadir coste de inferencia.
GELAN: Este diseño arquitectónico optimiza la eficiencia de los parámetros, lo que permite que el modelo alcance una mayor precisión con menos recursos computacionales (FLOPs) en comparación con los backbones convencionales que utilizan la convolución en profundidad.

¿Sabías que?

La técnica PGI de YOLOv9 resuelve el problema del cuello de botella de la información que antes requería engorrosos métodos de supervisión profunda. Esto da como resultado modelos que son más ligeros y precisos, lo que mejora significativamente el equilibrio del rendimiento.

Fortalezas y Debilidades

YOLOv9 destaca en eficiencia de entrenamiento y utilización de parámetros. Logra resultados de última generación en el conjunto de datos COCO, superando las iteraciones anteriores en precisión al tiempo que mantiene velocidades en tiempo real. Su integración en el ecosistema de Ultralytics significa que se beneficia de un ecosistema bien mantenido, incluida la implementación sencilla a través de modos de exportación a formatos como ONNX y TensorRT.

Una posible consideración es que las variantes más grandes (YOLOv9-E) requieren importantes recursos de GPU para el entrenamiento. Sin embargo, la huella de memoria de la inferencia sigue siendo competitiva, evitando los altos costes asociados a los modelos basados en transformadores.

Más información sobre YOLOv9

Análisis comparativo del rendimiento

En una comparación directa, YOLOv9 demuestra una eficiencia superior. Por ejemplo, el modelo YOLOv9-C alcanza un mAP más alto (53.0%) que el PP-YOLOE+l (52.9%) mientras utiliza aproximadamente la mitad de los parámetros (25.3M vs 52.2M). Esta drástica reducción en el tamaño del modelo sin comprometer la precisión destaca la eficacia de la arquitectura GELAN.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

La tabla ilustra que, para objetivos de precisión similares, YOLOv9 requiere constantemente menos recursos computacionales. El modelo YOLOv9-E supera aún más los límites, alcanzando un 55.6% de mAP, una clara ventaja sobre la variante PP-YOLOE+ más grande.

La ventaja de Ultralytics

Si bien PP-YOLOE+ es un detector capaz, elegir YOLOv9 a través del framework de Ultralytics ofrece distintas ventajas con respecto a la facilidad de uso y la versatilidad.

Experiencia de Usuario Optimizada

Ultralytics prioriza una experiencia amigable para el desarrollador. A diferencia de los complejos archivos de configuración que a menudo requiere PaddleDetection, los modelos de Ultralytics se pueden cargar, entrenar e implementar con solo unas pocas líneas de código python. Esto reduce significativamente la barrera de entrada para ingenieros e investigadores.

Versatilidad y ecosistema

Ultralytics soporta una amplia gama de tareas más allá de la simple detección, incluyendo la segmentación de instancias, la estimación de pose y la detección de cajas delimitadoras orientadas (obb). Esta versatilidad permite a los desarrolladores abordar diversos desafíos utilizando una única API unificada. Además, la comunidad activa y las actualizaciones frecuentes aseguran que los usuarios tengan acceso a las últimas optimizaciones e integraciones con herramientas como TensorBoard y MLflow.

Ejemplo de código: Uso de YOLOv9

El siguiente ejemplo demuestra lo fácil que es ejecutar la inferencia con YOLOv9 utilizando la API de python de Ultralytics. Esta simplicidad contrasta con la configuración más detallada que a menudo se requiere para PP-YOLOE+.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display results
results[0].show()

Casos de Uso Ideales

PP-YOLOE+: Más adecuado para equipos ya integrados profundamente en el ecosistema Baidu/PaddlePaddle, o para aplicaciones industriales heredadas específicas en regiones donde el soporte de hardware de PaddlePaddle es dominante.
YOLOv9: Ideal para aplicaciones que demandan la mayor relación precisión-eficiencia, como vehículos autónomos, análisis de video en tiempo real e implementación en el borde donde los requisitos de memoria y el almacenamiento son limitaciones.

Conclusión y recomendaciones

Para la mayoría de los desarrolladores y organizaciones, YOLOv9 representa la mejor opción debido a su arquitectura moderna (GELAN/PGI), su eficiencia de parámetros superior y el sólido soporte del ecosistema Ultralytics. Ofrece una solución preparada para el futuro con pesos pre-entrenados disponibles y capacidades de exportación perfectas.

Si busca aún mayor versatilidad y velocidad, también recomendamos explorar YOLO11, la última iteración de la serie YOLO. YOLO11 refina aún más el equilibrio entre rendimiento y latencia, ofreciendo capacidades de última generación para tareas de detection, segmentation y clasificación en un paquete compacto.

Para aquellos interesados en un caballo de batalla probado, YOLOv8 sigue siendo una opción muy fiable con amplios recursos comunitarios e integraciones de terceros.

PP-YOLOE+ vs YOLOv9: Una comparación técnica

PP-YOLOE+: Alta precisión dentro del ecosistema PaddlePaddle

Arquitectura y Características Clave

Fortalezas y Debilidades

YOLOv9: Información de Gradiente Programable para un Aprendizaje Mejorado

Arquitectura y Características Clave

Fortalezas y Debilidades

Análisis comparativo del rendimiento

La ventaja de Ultralytics

Experiencia de Usuario Optimizada

Versatilidad y ecosistema

Ejemplo de código: Uso de YOLOv9

Casos de Uso Ideales

Conclusión y recomendaciones

Comentarios