Ir al contenido

YOLOv9 frente a PP-YOLOE+: Comparación técnica

La selección de la arquitectura óptima para la detección de objetos es una decisión fundamental para los ingenieros de visión por ordenador, ya que equilibra la necesidad de alta precisión con las limitaciones computacionales. Esta completa guía compara YOLOv9un modelo de última generación que introduce novedosas técnicas de información de gradiente, y PP-YOLOE+, un detector robusto optimizado para el marco PaddlePaddle . Analizamos sus innovaciones arquitectónicas, rendimiento de referencia e idoneidad de despliegue para ayudarle a determinar la mejor opción para sus aplicaciones de visión por ordenador.

YOLOv9: información de gradiente programable para mejorar el aprendizaje

YOLOv9 representa un salto significativo en la evolución de los detectores de objetos en tiempo real. Lanzado a principios de 2024, aborda problemas fundamentales relacionados con la pérdida de información en redes neuronales profundas, estableciendo nuevos puntos de referencia en cuanto a precisión y eficiencia de los parámetros.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentaciónultralytics

La arquitectura introduce dos conceptos innovadores: La Información Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). A medida que las redes se hacen más profundas, pueden perderse los datos esenciales para calcular la función de pérdida, fenómeno conocido como cuello de botella de la información. PGI resuelve este problema generando gradientes fiables a través de una rama auxiliar reversible, lo que garantiza que las características profundas conserven la información crítica. Al mismo tiempo, GELAN optimiza la utilización de los parámetros, lo que permite al modelo alcanzar una precisión superior con menos recursos informáticos en comparación con las arquitecturas basadas en la convolución en profundidad.

Integrado en el ecosistemaUltralytics , YOLOv9 se beneficia de un diseño centrado en el usuario que simplifica los flujos de trabajo complejos. Los desarrolladores pueden aprovechar una APIPython unificada para la formación, validación y despliegue, lo que reduce drásticamente el tiempo desde el prototipo hasta la producción. Esta integración también garantiza la compatibilidad con una amplia gama de conjuntos de datos y formatos de exportación.

Más información sobre YOLOv9

PP-YOLOE+: Alta precisión dentro del ecosistema PaddlePaddle

PP-YOLOE+ es una versión evolucionada de PP-YOLOE, desarrollada por Baidu como parte de la suite PaddleDetection. Está diseñado específicamente para funcionar de forma eficiente en el sistema PaddlePaddle ofreciendo un sólido equilibrio entre velocidad y precisión para aplicaciones industriales.

Autores: PaddlePaddle Autores
Organización:Baidu
Fecha: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
DocumentaciónPaddlePaddle

PP-YOLOE+ emplea un mecanismo sin anclajes que elimina la necesidad de cajas de anclaje predefinidas, lo que simplifica el proceso de ajuste de hiperparámetros. Su columna vertebral utiliza normalmente CSPRepResNet, y cuenta con un diseño de cabezal único impulsado por el Aprendizaje de Alineación de Tareas (TAL). Este enfoque alinea las tareas de clasificación y localización para mejorar la calidad de los resultados de detección. A pesar de su gran capacidad, PP-YOLOE+ está estrechamente vinculado al ecosistema PaddlePaddle , lo que puede suponer una curva de aprendizaje para los equipos estandarizados en PyTorch o TensorFlow.

Dependencia de los ecosistemas

Aunque PP-YOLOE+ ofrece un rendimiento competitivo, su dependencia del marco PaddlePaddle puede limitar la interoperabilidad con la gama más amplia de herramientas y bibliotecas PyTorch que se utilizan habitualmente en la comunidad investigadora occidental.

Más información sobre PP-YOLOE+

Análisis de rendimiento: Velocidad, precisión y eficiencia

Al comparar estas dos arquitecturas, YOLOv9 demuestra una clara ventaja tanto en eficiencia de parámetros como en precisión máxima. La integración de GELAN permite YOLOv9 procesar los datos visuales con mayor eficacia, lo que se traduce en puntuaciones de precisión media (mAP ) más altas en el conjunto de datosCOCO , al tiempo que se mantiene a menudo una latencia más baja.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Puntos clave

  • Eficacia de los parámetros: El modelo YOLOv9 alcanza un rendimiento comparable al de los modelos más grandes utilizando sólo 2,0 millones de parámetros, una cantidad drásticamente inferior a la de la variante PP-YOLOE+t, con 4,85 millones. Esto hace que YOLOv9 sea especialmente adecuado para dispositivos de inteligencia artificial con almacenamiento limitado.
  • Precisión máxima:YOLOv9 alcanza un notable 55,6% de mAP, superando al mayor modelo PP-YOLOE+x (54,7% de mAP) a pesar de utilizar aproximadamente un 40% menos de parámetros (57,3M frente a 98,42M). Esto pone de manifiesto la superioridad arquitectónica de GELAN a la hora de maximizar la capacidad de extracción de características.
  • Velocidad de inferencia: aunque PP-YOLOE+s muestra una ligera ventaja en latencia bruta en las GPU T4, los modelos YOLOv9 suelen ofrecer una mejor relación calidad-precio, ya que proporcionan una precisión significativamente mayor con costes de cálculo similares. Por ejemplo, YOLOv9 supera a PP-YOLOE+l en precisión (53,0% frente a 52,9%) a la vez que es más rápido (7,16 ms frente a 8,36 ms) y ligero.

Metodología de formación y facilidad de uso

La experiencia del desarrollador difiere significativamente entre los dos modelos, debido principalmente a sus marcos subyacentes y al apoyo del ecosistema.

Ventaja del ecosistema Ultralytics

Elegir YOLOv9 a través de Ultralytics proporciona acceso a un completo conjunto de herramientas diseñadas para agilizar el ciclo de vida del aprendizaje automático.

  • API sencilla: Para entrenar un modelo sólo se necesitan unas pocas líneas de código.
  • Eficiencia de memoria: Los modelosYOLO Ultralytics están optimizados para un menor uso de memoria durante el entrenamiento en comparación con las arquitecturas basadas en transformadores, lo que permite tamaños de lote mayores en hardware de consumo.
  • Versatilidad: Más allá de la detección, el marco Ultralytics admite la segmentación de instancias, la estimación de poses y la clasificación, ofreciendo una interfaz unificada para diversas tareas.
  • Entrenamiento eficiente: Con el aumento avanzado de datos y los pesos preentrenados fácilmente disponibles, los desarrolladores pueden lograr la convergencia más rápidamente, ahorrando valiosas horas de GPU .

Flujo de trabajo optimizado con Ultralytics

Puede cargar, entrenar y validar un modelo YOLOv9 en unas pocas líneas de Python, aprovechando el robusto motor Ultralytics para el ajuste automatizado de hiperparámetros y el seguimiento de experimentos.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

PaddlePaddle Medio ambiente

PP-YOLOE+ requiere la biblioteca PaddleDetection. Aunque es potente, requiere estar familiarizado con el ecosistema de Baidu. Configurar el entorno, convertir los conjuntos de datos al formato requerido y exportar los modelos para su despliegue puede resultar más complicado para los usuarios que no estén ya integrados en la infraestructura PaddlePaddle .

Casos de Uso Ideales

Comprender los puntos fuertes de cada modelo ayuda a seleccionar la herramienta adecuada para aplicaciones concretas del mundo real.

Cuándo elegir YOLOv9

  • Sistemas autónomos: Para los coches autónomos y la robótica en los que maximizar la precisión es fundamental para la seguridad, el mAP superior de YOLOv9 proporciona la fiabilidad necesaria.
  • Despliegue Edge: La ligera YOLOv9 es perfecta para su despliegue en dispositivos Raspberry Pi o NVIDIA Jetson para tareas como el recuento de personas o el análisis inteligente de comercios.
  • Investigación y desarrollo: El ecosistema bien mantenido y la compatibilidad con PyTorch lo hacen ideal para los investigadores que crean prototipos de nuevas soluciones de visión por ordenador o integran funciones de seguimiento de objetos.
  • Entornos con recursos limitados: Las aplicaciones que requieren un alto rendimiento con una VRAM limitada se benefician de la eficiente arquitectura de YOLOv9 y de su menor huella de memoria.

Cuándo elegir PP-YOLOE

  • UsuariosPaddlePaddle : Para las organizaciones que ya utilizan la infraestructura de Baidu, PP-YOLOE+ ofrece una integración perfecta y una optimización nativa.
  • Inspección industrial (China): Dada su fuerte adopción en el mercado asiático, se encuentra a menudo en los pipelines de fabricación que dependen de hardware específico de inferencia Paddle.

Conclusión

Aunque ambos modelos son formidables contendientes en el panorama de la detección de objetos, YOLOv9 se perfila como la mejor opción para la mayoría de los desarrolladores y empresas de todo el mundo. Su innovador uso de la información de gradiente programable (PGI) proporciona una precisión de vanguardia con una eficiencia notable, superando a PP-YOLOE+ en métricas clave al tiempo que utiliza un número significativamente menor de parámetros.

Además, el ecosistemaUltralytics eleva YOLOv9 al proporcionar una facilidad de uso inigualable, una amplia documentación y una vibrante comunidad. Tanto si está creando sistemas de alarmas de seguridad, analizando imágenes médicas o desarrollando infraestructuras para ciudades inteligentes, YOLOv9 ofrece el equilibrio de rendimiento y la versatilidad necesarios para triunfar.

Otros modelos a considerar

Si está explorando la IA de visión de última generación, tenga en cuenta estos otros potentes modelos de Ultralytics:

  • YOLO11: La última evolución de la serie YOLO , que ofrece velocidades aún más rápidas y una mayor precisión para aplicaciones de vanguardia.
  • YOLOv8: Un estándar industrial muy versátil que admite tareas de detección, segmentación, pose y OBB.
  • RT-DETR: Un detector en tiempo real basado en transformadores que destaca por su precisión y ofrece una alternativa a las arquitecturas basadas en CNN.

Comentarios