Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ frente a YOLOv9#

El panorama de la visión artificial en tiempo real cambia constantemente, con investigadores y desarrolladores superando continuamente los límites de la precisión y la velocidad de inferencia. Al comparar PP-YOLOE+ y YOLOv9, analizamos dos filosofías distintas en la arquitectura de modelos y el diseño de ecosistemas.

Esta comparación técnica exhaustiva analiza sus innovaciones arquitectónicas, métricas de rendimiento, metodologías de entrenamiento y casos de uso ideales para ayudarte a elegir el modelo de detección de objetos adecuado para tu próxima implementación.

Link to this sectionLinaje del modelo y fundamentos técnicos#

Entender los orígenes y las decisiones arquitectónicas de estos modelos es crucial para determinar su encaje dentro de tus proyectos de visión artificial.

Link to this sectionVisión general de PP-YOLOE+#

Desarrollado por los autores de PaddlePaddle en Baidu, PP-YOLOE+ se presentó el 2 de abril de 2022. Se basa en iteraciones anteriores dentro del marco de PaddleDetection para ofrecer detección de objetos de alto rendimiento.

PP-YOLOE+ introduce una robusta arquitectura sin anclas (anchor-free), altamente optimizada para su despliegue dentro del ecosistema PaddlePaddle. Utiliza una columna vertebral CSPRepResNet modificada y un ET-head para mejorar la extracción de características y la regresión de cajas delimitadoras. Aunque logra una alta precisión media (mAP), su dependencia del marco PaddlePaddle puede introducir a veces fricción en la integración para desarrolladores acostumbrados a PyTorch o TensorFlow.

Aprende más sobre PP-YOLOE+

Link to this sectionDescripción general de YOLOv9#

Presentado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información, Academia Sinica, Taiwán, YOLOv9 supone un salto significativo en la gestión eficiente de los cuellos de botella de información en el aprendizaje profundo.

  • Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
  • Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
  • Fecha: 2024-02-21
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

El mayor avance de YOLOv9 es la Información de Gradiente Programable (PGI), que evita la pérdida de datos a medida que las características pasan a través de redes neuronales profundas. Combinado con la Red de Agregación de Capas Eficiente Generalizada (GELAN), YOLOv9 maximiza la eficiencia de los parámetros y el flujo computacional. Además, está integrado de forma nativa en el ecosistema Ultralytics, lo que lo hace muy accesible tanto para la investigación como para aplicaciones comerciales.

Aprende más sobre YOLOv9

Otros modelos de Ultralytics

Si estás explorando opciones de vanguardia, también te pueden interesar YOLO11 y RT-DETR, que ofrecen diferentes equilibrios entre precisión basada en Transformer y rendimiento en tiempo real en el borde (edge).

Link to this sectionComparación de rendimiento y métricas#

Al analizar el rendimiento bruto, YOLOv9 demuestra una eficiencia de parámetros excepcional. Logra una precisión comparable o superior al tiempo que requiere menos parámetros y FLOPs, lo que se traduce en menores requisitos de VRAM durante el entrenamiento del modelo.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Como se observa en la tabla, YOLOv9c logra una sólida mAP de 53.0 con significativamente menos parámetros (25.3M) que el comparable PP-YOLOE+l (52.2M). Este menor uso de memoria hace que YOLOv9 sea una opción superior para los desarrolladores que trabajan con recursos de GPU limitados.

Link to this sectionEcosistema, versatilidad y facilidad de uso#

La ventaja definitoria de YOLOv9 reside en su integración perfecta con el ecosistema bien mantenido de Ultralytics. Mientras que PP-YOLOE+ requiere navegar por complejos archivos de configuración de PaddlePaddle, YOLOv9 se beneficia de una API de Python optimizada.

La API de Python de Ultralytics permite a los desarrolladores cargar pesos preentrenados, gestionar la aumentación de datos e iniciar el entrenamiento con un mínimo de código repetitivo (boilerplate).

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format
model.export(format="onnx")

Además, el ecosistema Ultralytics proporciona una versatilidad inigualable. Más allá de la detección de cajas delimitadoras, el marco admite de forma nativa Segmentación de instancias, Estimación de pose y detección de Caja delimitadora orientada (OBB). Esto hace que adaptar tu modelo a complejos flujos de trabajo del mundo real sea increíblemente eficiente.

Opciones de exportación

Los modelos entrenados mediante el ecosistema Ultralytics se pueden exportar a múltiples formatos, incluidos TensorRT y OpenVINO, lo que garantiza una inferencia altamente optimizada en diversos dispositivos de hardware.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre PP-YOLOE+ y YOLOv9 depende de los requisitos específicos de tu proyecto, las restricciones de implementación y las preferencias del ecosistema.

Link to this sectionCuándo elegir PP-YOLOE+#

PP-YOLOE+ es una buena elección para:

  • Integración con el ecosistema PaddlePaddle: Organizaciones con infraestructura existente construida sobre el marco de trabajo PaddlePaddle de Baidu.
  • Despliegue en el borde con Paddle Lite: Desplegar en hardware con kernels de inferencia altamente optimizados específicamente para el motor de inferencia Paddle Lite o Paddle.
  • Detección de alta precisión en el lado del servidor: Escenarios que priorizan la máxima precisión de detección en potentes servidores GPU donde la dependencia del marco de trabajo no es una preocupación.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 se recomienda para:

  • Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
  • Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
  • Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionMirando hacia el futuro: La ventaja de YOLO26#

Aunque tanto PP-YOLOE+ como YOLOv9 son potentes, el recientemente lanzado YOLO26 representa el paso definitivo para entornos de producción. Lanzado en enero de 2026, YOLO26 establece un nuevo estándar para la computación en el borde y los despliegues en la nube. Recomendamos encarecidamente YOLO26 para todos los nuevos proyectos de visión artificial debido a sus innovaciones revolucionarias:

  • Diseño de extremo a extremo sin NMS: YOLO26 es nativamente de extremo a extremo, eliminando por completo la necesidad de postprocesamiento de Supresión No Máxima (NMS). Esto simplifica significativamente los flujos de implementación y reduce la latencia.
  • Hasta un 43% más rápido en inferencia de CPU: Al optimizar específicamente la arquitectura para la computación en el borde, YOLO26 es significativamente más rápido en hardware que carece de GPUs dedicadas.
  • Eliminación de DFL: Se ha eliminado la Pérdida Focal de Distribución (Distribution Focal Loss), lo que facilita las exportaciones y mejora drásticamente la compatibilidad con dispositivos de borde de bajo consumo.
  • Optimizador MuSGD: Inspirado en las técnicas de entrenamiento de grandes modelos de lenguaje (como Kimi K2 de Moonshot AI), este híbrido de SGD y Muon garantiza dinámicas de entrenamiento muy estables y una rápida convergencia.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas proporcionan mejoras notables en el reconocimiento de objetos pequeños, una actualización esencial para imágenes aéreas y robótica.
  • Mejoras específicas de la tarea: YOLO26 incluye arquitecturas personalizadas para tareas específicas, como proto multi-escala para segmentación y Estimación de Log-Verosimilitud Residual (RLE) para la estimación de pose.

Puedes entrenar e implementar fácilmente modelos YOLO26 a través de la Plataforma Ultralytics, una solución todo en uno para la anotación de conjuntos de datos, entrenamiento en la nube y monitorización de modelos.

Link to this sectionAplicaciones en el mundo real#

Elegir entre estas arquitecturas a menudo se reduce a tu entorno de despliegue objetivo.

PP-YOLOE+ se implementa frecuentemente en centros de fabricación industrial, particularmente en regiones donde la integración de PaddlePaddle y la pila de hardware de Baidu están profundamente integradas en la infraestructura empresarial. Destaca en el análisis de imágenes estáticas donde se prioriza la precisión absoluta sobre las estrictas limitaciones de tiempo real.

YOLOv9 destaca en entornos dinámicos que requieren una rápida inferencia en tiempo real. Su eficiencia superior de parámetros lo hace ideal para la navegación autónoma de drones y sistemas de seguridad basados en el borde. Además, su menor consumo de VRAM reduce la barrera de entrada para los investigadores que entrenan en GPUs de grado de consumo.

Para obtener el mejor rendimiento absoluto en la gestión del tráfico de ciudades inteligentes y robótica de alta velocidad, el nuevo YOLO26 no tiene rival, ofreciendo eficiencia de extremo a extremo sin la carga de los cuellos de botella de NMS.

Colaboradores

Comentarios