Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 frente a PP-YOLOE+#

Al evaluar modelos de visión artificial de última generación para procesos de producción, los desarrolladores suelen sopesar las ventajas de diferentes arquitecturas. Dos modelos destacados en el panorama de la detección de objetos son YOLOv7 y PP-YOLOE+. Esta guía ofrece una comparación técnica detallada de sus arquitecturas, métricas de rendimiento y escenarios de despliegue ideales para ayudarte a tomar una decisión informada para tu próximo proyecto de visión artificial.

Link to this sectionInnovaciones arquitectónicas#

Comprender las diferencias estructurales básicas entre estos modelos es crucial para predecir cómo se comportarán durante el entrenamiento y la inferencia.

Link to this sectionAspectos destacados de la arquitectura de YOLOv7#

YOLOv7 introdujo varios avances clave diseñados para mejorar la precisión sin aumentar drásticamente los costes de inferencia.

  • Redes de agregación de capas eficientes extendidas (E-ELAN): esta arquitectura controla las rutas de gradiente más cortas y más largas. Al hacerlo, permite que la red aprenda características más diversas y mejora la capacidad de aprendizaje general sin destruir la ruta de gradiente original.
  • Estrategias de escalado de modelos: YOLOv7 emplea un escalado de modelos compuesto, ajustando la profundidad y la anchura simultáneamente mientras concatena capas para mantener una estructura de arquitectura óptima en diferentes tamaños.
  • Bag-of-Freebies entrenable: los autores integraron un método de convolución reparametrizada (RepConv) sin conexiones de identidad, lo que mejora significativamente la velocidad de inferencia sin comprometer el poder predictivo del modelo.

Detalles de YOLOv7:\nAutores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao\nOrganización: Institute of Information Science, Academia Sinica, Taiwán\nFecha: 06-07-2022\nArxiv: https://arxiv.org/abs/2207.02696

Más información sobre YOLOv7

Link to this sectionAspectos destacados de la arquitectura de PP-YOLOE+#

Desarrollado por Baidu dentro del ecosistema PaddlePaddle, PP-YOLOE+ se basa en su predecesor, PP-YOLOv2, centrándose en gran medida en metodologías sin anclas (anchor-free) y representaciones de características mejoradas.

  • Diseño sin anclas (Anchor-Free): a diferencia de los enfoques basados en anclas, este diseño simplifica la cabecera de predicción y reduce el número de hiperparámetros, lo que facilita el ajuste del modelo para conjuntos de datos personalizados.
  • Backbone CSPRepResNet: este backbone incorpora conexiones residuales y redes Cross Stage Partial para mejorar las capacidades de extracción de características mientras se mantiene la eficiencia computacional.
  • Task Alignment Learning (TAL): PP-YOLOE+ utiliza la ET-head (Efficient Task-aligned head) para alinear mejor las tareas de clasificación y localización, abordando un cuello de botella común en los detectores de una sola etapa.

Detalles de PP-YOLOE+:\nAutores: Autores de PaddlePaddle\nOrganización: Baidu\nFecha: 02-04-2022\nArxiv: https://arxiv.org/abs/2203.16250

Aprende más sobre PP-YOLOE+

Link to this sectionMétricas de rendimiento y benchmarks#

Elegir el modelo adecuado suele depender de las limitaciones específicas de tu hardware y de los requisitos de latencia. La siguiente tabla ilustra las compensaciones entre precisión (mAP), velocidad y complejidad del modelo.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Link to this sectionAnálisis de los resultados#

  • Escenarios de alta precisión: YOLOv7x demuestra un gran rendimiento, logrando un mAP alto que es competitivo para tareas de detección complejas. Aunque PP-YOLOE+x escala ligeramente más en mAP, lo hace con un aumento sustancial de parámetros y FLOPs.
  • Eficiencia y velocidad: las variantes más pequeñas de PP-YOLOE+ (t y s) ofrecen velocidades de TensorRT extremadamente bajas, lo que las hace muy adecuadas para despliegues en el borde (edge) donde las limitaciones de hardware son estrictas.
  • El punto óptimo: YOLOv7l proporciona un equilibrio convincente, ofreciendo más de un 51% de mAP mientras mantiene un tiempo de inferencia inferior a 7 ms en GPUs T4, lo que lo convierte en una opción sólida para aplicaciones de servidor en tiempo real estándar.
Optimización para producción

Al desplegar estos modelos, aprovechar formatos de exportación como TensorRT u ONNX puede reducir significativamente la latencia en comparación con la inferencia nativa de PyTorch.

Link to this sectionLa ventaja de Ultralytics#

Aunque tanto YOLOv7 como PP-YOLOE+ ofrecen un fuerte rendimiento en pruebas comparativas, la experiencia de desarrollo y el soporte del ecosistema son igualmente críticos para el éxito del proyecto.

Link to this sectionExperiencia de usuario optimizada#

Los modelos de Ultralytics priorizan la facilidad de uso a través de una API de Python unificada. A diferencia de PP-YOLOE+, que requiere navegar por el ecosistema PaddlePaddle y sus archivos de configuración específicos, Ultralytics te permite pasar del entrenamiento al despliegue sin problemas.

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolov7.pt")

# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized deployment
model.export(format="engine")  # TensorRT export

Link to this sectionEficiencia de recursos#

Una gran ventaja de los modelos YOLO de Ultralytics son sus menores requisitos de memoria tanto durante el entrenamiento como en la inferencia. Esta eficiencia permite a investigadores y desarrolladores utilizar tamaños de lote (batch sizes) mayores en hardware de consumo, acelerando el proceso de entrenamiento en comparación con modelos más pesados o arquitecturas de Transformer complejas como RT-DETR.

Link to this sectionEcosistema y versatilidad#

El ecosistema de Ultralytics está excepcionalmente bien mantenido, con actualizaciones frecuentes, documentación extensa y soporte nativo para diversas tareas más allá de la detección estándar. Con Ultralytics, un único marco admite segmentación de instancias, estimación de pose, clasificación y cajas delimitadoras orientadas (OBB), proporcionando una versatilidad inigualable de la que a menudo carecen los modelos competidores.

Link to this sectionEl futuro de la IA de visión: YOLO26#

A medida que la visión artificial evoluciona rápidamente, han surgido arquitecturas más nuevas que redefinen los estándares de velocidad y eficiencia. Lanzado en enero de 2026, Ultralytics YOLO26 representa la cúspide de esta evolución y es la opción altamente recomendada para todos los proyectos nuevos.

Innovaciones clave de YOLO26:

  • Diseño de extremo a extremo sin NMS: YOLO26 elimina el posprocesamiento de Supresión no máxima (NMS). Este enfoque nativo de extremo a extremo simplifica drásticamente la lógica de despliegue y reduce la latencia variable, un avance introducido por primera vez en YOLOv10.
  • Rendimiento en el borde (edge) sin precedentes: al eliminar la pérdida focal de distribución (DFL), YOLO26 logra una inferencia en CPU hasta un 43% más rápida, lo que lo hace superior para dispositivos IoT y de borde en comparación con generaciones anteriores.
  • Dinámicas de entrenamiento avanzadas: la integración del optimizador MuSGD —inspirado en innovaciones de LLM como Kimi K2 de Moonshot AI— garantiza un entrenamiento más estable y una convergencia más rápida.
  • Detección superior de objetos pequeños: las funciones de pérdida mejoradas, específicamente ProgLoss + STAL, abordan debilidades históricas en el reconocimiento de objetos pequeños, algo crucial para aplicaciones como imágenes aéreas.

Link to this sectionAplicaciones en el mundo real#

Elegir entre estas arquitecturas a menudo depende del entorno de despliegue específico.

Link to this sectionCuándo elegir PP-YOLOE+#

  • Integración con PaddlePaddle: si tu infraestructura ya está profundamente integrada con el ecosistema PaddlePaddle de Baidu, PP-YOLOE+ encaja de forma nativa.
  • Inspección industrial en Asia: utilizado a menudo en los centros de fabricación asiáticos donde las pilas de hardware y software están preconfiguradas para las herramientas de Baidu.

Link to this sectionCuándo elegir YOLOv7#

  • Sistemas acelerados por GPU: funciona excepcionalmente bien en GPUs de clase servidor para tareas que requieren un alto rendimiento, como análisis de vídeo.
  • Integración en robótica: ideal para integrar visión artificial en robótica, permitiendo una toma de decisiones rápida en entornos dinámicos.
  • Investigación académica: ampliamente respaldado y utilizado con frecuencia como referencia fiable en la investigación basada en PyTorch.

Si bien los modelos antiguos tienen un significado histórico, la transición a arquitecturas modernas como YOLO26 o YOLO11 a través de la plataforma Ultralytics garantiza el acceso a las últimas optimizaciones, los flujos de trabajo de entrenamiento más sencillos y el soporte multitarea más amplio disponible hoy en día.

Colaboradores

Comentarios