Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs PP-YOLOE+#

El panorama de la detección de objetos en tiempo real sigue avanzando rápidamente, ofreciendo a los ingenieros de visión artificial una amplia gama de opciones para implementar modelos de gran precisión en infraestructuras periféricas (edge) y en la nube. Dos modelos destacados en este ámbito son YOLOv9 y PP-YOLOE+. Aunque ambos superan los límites de precisión y velocidad, provienen de diferentes linajes de investigación y ecosistemas de software.

Esta comparativa técnica exhaustiva explora sus arquitecturas, metodologías de entrenamiento, métricas de rendimiento y aplicaciones ideales en el mundo real. También exploraremos cómo el ecosistema de Ultralytics más amplio proporciona ventajas significativas para los desarrolladores que priorizan la facilidad de uso, la eficiencia de memoria y la implementación versátil.

Link to this sectionOrígenes y especificaciones técnicas de los modelos#

Entender los antecedentes de estos modelos ayuda a contextualizar sus decisiones arquitectónicas y dependencias de marcos de trabajo (frameworks).

Link to this sectionYOLOv9: resolviendo el cuello de botella de información#

Presentado a principios de 2024, YOLOv9 aborda la pérdida de datos que ocurre a medida que la información fluye a través de redes neuronales profundas. Es una red neuronal convolucional altamente optimizada diseñada para maximizar la eficiencia de los parámetros.

Aprende más sobre YOLOv9

Link to this sectionPP-YOLOE+: Avanzando en el ecosistema Paddle#

Lanzado por Baidu en 2022, PP-YOLOE+ es una mejora iterativa sobre PP-YOLOv2. Utiliza un paradigma sin anclas (anchor-free) e introduce una estrategia de asignación dinámica de etiquetas para mejorar la convergencia y la precisión dentro del framework PaddlePaddle.

Más información sobre PP-YOLOE+

Link to this sectionComparativa arquitectónica#

Link to this sectionProgrammable Gradient Information frente a CSPRepResStage#

La innovación principal en YOLOv9 es la Programmable Gradient Information (PGI). La PGI actúa como un marco de supervisión auxiliar, asegurando que la información vital del gradiente se preserve y se propague con precisión de vuelta a las capas superficiales durante el entrenamiento. Esto se combina con la Generalized Efficient Layer Aggregation Network (GELAN), que combina las fortalezas de CSPNet y ELAN para ofrecer una gran precisión mientras reduce drásticamente el coste computacional (FLOPs).

PP-YOLOE+ se basa en un backbone especializado llamado CSPRepResStage. Aprovecha técnicas de re-parametrización (similares a las vistas en RepVGG) para acelerar la inferencia mediante la fusión de capas convolucionales durante la implementación. Además, utiliza el Efficient Task-aligned head (ET-head) para equilibrar las tareas de clasificación y regresión.

Aunque PP-YOLOE+ es robusto, la arquitectura GELAN de YOLOv9 requiere normalmente una menor huella de memoria tanto durante el entrenamiento como en la inferencia, lo que lo hace excepcionalmente adecuado para dispositivos de IA periférica.

Link to this sectionComparación de rendimiento#

Al evaluar modelos para producción, el equilibrio entre mAP (mean Average Precision), velocidad de inferencia y tamaño del modelo es crucial.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Link to this sectionAnálisis#

  • Eficiencia de parámetros: YOLOv9 logra una eficiencia notablemente mayor. Por ejemplo, YOLOv9c alcanza un mAP del 53,0% utilizando solo 25,3M de parámetros, mientras que PP-YOLOE+l requiere más del doble de parámetros (52,2M) para lograr un mAP ligeramente inferior del 52,9%. Esto reduce drásticamente los requisitos de memoria para YOLOv9.
  • Velocidad de inferencia: Los modelos YOLOv9 demuestran una excelente optimización para aceleradores de hardware como TensorRT, obteniendo velocidades de inferencia competitivas en GPUs NVIDIA T4 que son cruciales para la inferencia en tiempo real.

Link to this sectionMetodologías de entrenamiento y ecosistema#

La elección entre estos modelos a menudo se reduce al ecosistema de software.

Link to this sectionPP-YOLOE+ y PaddlePaddle#

PP-YOLOE+ está estrechamente vinculado a la suite PaddleDetection. Aunque es potente, requiere que los usuarios naveguen por un entorno pesado en configuraciones y controlado por línea de comandos. Para los equipos profundamente integrados en los ecosistemas de PyTorch o TensorFlow, la transición a PaddlePaddle introduce una fricción significativa y una curva de aprendizaje más pronunciada.

Link to this sectionLa ventaja de Ultralytics: flujos de trabajo optimizados#

Por el contrario, YOLOv9 opera dentro del altamente pulido ecosistema de Ultralytics. Diseñado para desarrolladores e investigadores, Ultralytics prioriza una facilidad de uso excepcional. La Python API abstrae completamente el código repetitivo y complejo.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

Este flujo de trabajo destaca la Eficiencia de Entrenamiento superior de los modelos de Ultralytics. El soporte nativo para aumento de datos, entrenamiento distribuido y registro automático en plataformas como Weights & Biases o MLflow viene de serie.

Explora lo último en IA de visión

Aunque YOLOv9 ofrece un rendimiento excepcional, recomendamos encarecidamente considerar el recién lanzado Ultralytics YOLO26 para nuevos proyectos. YOLO26 presenta un diseño nativo End-to-End sin NMS, simplificando drásticamente la implementación. Con la eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia), ofrece hasta un 43% más de velocidad de inferencia en CPU para computación de borde. Impulsado por el optimizador MuSGD, asegura un entrenamiento estable y una convergencia rápida. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con notables mejoras en el reconocimiento de objetos pequeños, crítico para IoT, robótica e imágenes aéreas.

Link to this sectionVersatilidad y soporte de tareas#

Los proyectos modernos de visión artificial rara vez se limitan a simples cuadros delimitadores (bounding boxes).

PP-YOLOE+ está diseñado principalmente para la detección de objetos estándar. Adaptar su arquitectura para otras tareas implica una ingeniería personalizada extensa.

Por el contrario, el framework de Ultralytics es una potencia multitarea. Mediante el uso de una API unificada, los desarrolladores pueden cambiar sin esfuerzo de la detección de objetos estándar a una compleja segmentación de instancias, una estimación de pose altamente precisa, detección Oriented Bounding Box (OBB) para imágenes aéreas, y clasificación de imágenes. Esta versatilidad inigualable es la razón por la que los equipos empresariales eligen constantemente modelos de Ultralytics como YOLOv9, YOLO11 y YOLO26.

Link to this sectionCasos de uso y aplicaciones ideales#

  • Análisis de ciudades inteligentes y gestión del tráfico: La alta eficiencia de parámetros y la baja latencia de YOLOv9 (y el posterior YOLO26) los hacen ideales para su implementación en hardware de borde restringido (como los dispositivos NVIDIA Jetson) para monitorizar el flujo de tráfico y la seguridad urbana.
  • Sistemas de inventario minorista: Para detectar configuraciones densas de artículos pequeños en estanterías, la PGI de YOLOv9 mantiene eficazmente los detalles espaciales de grano fino, superando a PP-YOLOE+ en tareas de detección de objetos pequeños.
  • Implementaciones heredadas: PP-YOLOE+ sigue siendo una opción viable estrictamente para equipos obligados explícitamente a utilizar la pila de software de Baidu/PaddlePaddle en infraestructuras heredadas existentes.

Para los investigadores que exploran arquitecturas basadas en Transformer, Ultralytics también admite de forma nativa RT-DETR dentro de la misma API fácil de usar, garantizando que siempre tengas acceso al modelo óptimo para tus requisitos específicos de implementación.

Comentarios