YOLOv7 PP-YOLOE+: enfrentamiento arquitectónico en la detección de objetos en tiempo real

El panorama de la visión artificial se caracteriza por la innovación constante, y 2022 fue un año crucial en el que se lanzaron dos arquitecturas muy influyentes: YOLOv7 y PP-YOLOE+. Mientras que YOLOv7 el legado de la YOLO centrándose en la optimización «bag-of-freebies», PP-YOLOE+ representó el impulso de Baidu hacia la detección de alto rendimiento y sin anclajes dentro del PaddlePaddle .

Para los investigadores e ingenieros, la elección entre estos modelos suele depender de los requisitos específicos del marco (PyTorch PaddlePaddle) y del hardware de implementación. Esta guía ofrece una comparación técnica detallada de sus arquitecturas, métricas de rendimiento y usabilidad, al tiempo que presenta alternativas modernas como YOLO26, que unifica las mejores características de sus predecesores en un marco integral y NMS.

Comparación de métricas de rendimiento

La siguiente tabla compara el rendimiento de YOLOv7 el de PP-YOLOE+ en diferentes escalas de modelos. Mientras que YOLOv7 unas sólidas capacidades de detección, PP-YOLOE+ ofrece un equilibrio muy competitivo entre el número de parámetros y la velocidad de inferencia.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv7: la potencia del "Bag-of-Freebies"

Lanzado a mediados de 2022, YOLOv7 los límites de la detección de objetos al centrarse en la eficiencia arquitectónica y en estrategias de optimización del entrenamiento que no aumentan el coste de la inferencia.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Enlaces:Artículo de arXiv | Repositorio de GitHub

Características arquitectónicas clave

YOLOv7 E-ELAN (Extended Efficient Layer Aggregation Network), una arquitectura novedosa diseñada para controlar las rutas de gradiente más cortas y más largas, lo que permite a la red aprender características más diversas. También utilizó en gran medida una «bolsa de recursos gratuitos entrenables», que incluía la reparametrización de modelos y la asignación dinámica de etiquetas.

Sin embargo, YOLOv7 un detector basado en anclajes. Aunque esta metodología está probada, a menudo requiere un ajuste cuidadoso de los cuadros de anclaje para conjuntos de datos personalizados, lo que puede complicar el proceso de entrenamiento en comparación con las implementaciones más recientes sin anclajes que se encuentran en YOLOv8 o YOLO26.

Más información sobre YOLOv7

PP-YOLOE+: El Desafío Sin Anclajes

PP-YOLOE+ es una evolución de PP-YOLOE, desarrollado por Baidu como parte de su suite PaddleDetection. Fue diseñado para abordar las limitaciones de los métodos basados en anclajes y maximizar la velocidad de inferencia en diversos tipos de hardware.

Autores: Autores de PaddlePaddle
Organización:Baidu
Fecha: 2022-04-02
Enlaces:Artículo de arXiv | Repositorio de GitHub

Características arquitectónicas clave

PP-YOLOE+ utiliza un sin ancla paradigma, lo que reduce significativamente el número de hiperparámetros. Su núcleo se basa en el Bloqueo de representación (inspirado en RepVGG) y un Aprendizaje por alineación de tareas (TAL) estrategia, que alinea dinámicamente las tareas de clasificación y localización. Esto da como resultado una alta precisión, especialmente en el x (extragrande) escala, donde alcanza un impresionante 54,7 % mAP.

Consideraciones sobre el ecosistema

Aunque PP-YOLOE+ ofrece un rendimiento excelente, está estrechamente vinculado al PaddlePaddle . Los desarrolladores acostumbrados a PyTorch enfrentarse a una curva de aprendizaje pronunciada y a fricciones al intentar integrar estos modelos en los procesos MLOps existentes PyTorch o al utilizar herramientas de implementación estándar como TorchScript.

Comparación: Arquitectura y Usabilidad

Basado en anclajes frente a sin anclajes

La diferencia más notable radica en su enfoque respecto a los recuadros delimitadores. YOLOv7 utiliza cuadros de anclaje predefinidos, que actúan como plantillas de referencia para detectar objetos. Esto funciona bien para conjuntos de datos estándar como COCO , pero puede tener dificultades con formas de objetos irregulares que se encuentran en conjuntos de datos como DOTA-v2, a menos que se devuelvan manualmente.

PP-YOLOE+ no utiliza anclajes, sino que predice directamente el centro de los objetos y sus distancias a los límites. Esto simplifica en general el proceso de entrenamiento. Ultralytics modernos Ultralytics , como YOLO11 y YOLO26, también han adoptado por completo arquitecturas sin anclajes e incluso NMS para maximizar la flexibilidad y la velocidad.

Memoria y Eficiencia

Ultralytics son conocidos por su eficiencia en el entrenamiento. Mientras que YOLOv7 GPU considerable para sus modelos más grandes debido a las complejas rutas de concatenación en E-ELAN, PP-YOLOE+ optimiza esto mediante la reparametrización. Sin embargo, las iteraciones más recientes, como YOLO26, superan a ambas al eliminar componentes pesados como la pérdida focal de distribución (DFL), lo que se traduce en unos requisitos de memoria significativamente menores tanto durante el entrenamiento como durante la inferencia.

El futuro: ¿por qué mudarse a YOLO26?

Aunque YOLOv7 PP-YOLOE+ eran lo último en tecnología en 2022, el campo ha avanzado rápidamente. YOLO26, lanzado por Ultralytics enero de 2026, representa la culminación de estos avances, ya que aborda los puntos débiles específicos de los modelos anteriores.

Diseño de extremo a extremo sin NMS

Uno de los mayores cuellos de botella tanto en YOLOv7 PP-YOLOE+ es la supresión no máxima (NMS), un paso de posprocesamiento necesario para filtrar las detecciones duplicadas. YOLO26 es nativamente NMS de extremo a extremo. Esto elimina la variabilidad de la latencia causada por NMS escenas concurridas, lo que lo hace ideal para aplicaciones en tiempo real como vehículos autónomos y supervisión del tráfico.

Optimizado para la computación periférica

YOLO26 incluye la eliminación de la pérdida focal de distribución (DFL). Esta simplificación arquitectónica agiliza el proceso de exportación a formatos como CoreML y TFLite, lo que garantiza una mejor compatibilidad con dispositivos de bajo consumo. En combinación con las optimizaciones para CPU , YOLO26 ofrece CPU hasta un 43 % más rápidas en comparación con las generaciones anteriores, lo que supone una ventaja fundamental para las implementaciones de IoT.

Estabilidad en el entrenamiento avanzado

Inspirado en las innovaciones en el entrenamiento de modelos de lenguaje grandes (LLM), YOLO26 incorpora el optimizador MuSGD, un híbrido de SGD Muon (inspirado en Kimi K2 de Moonshot AI). Esto da como resultado una convergencia más rápida y ejecuciones de entrenamiento más estables, lo que reduce el «ensayo y error» que suele asociarse al entrenamiento de modelos de aprendizaje profundo. Además, la inclusión de ProgLoss y STAL (Soft-Task Alignment Learning) mejora significativamente el rendimiento en la detección de objetos pequeños, un área en la que los modelos más antiguos solían tener dificultades.

Más información sobre YOLO26

Facilidad de uso con Ultralytics

Una de las características que definen el Ultralytics es su facilidad de uso. Tanto si utiliza YOLOv8, YOLOv9o el innovador YOLO26, la API sigue siendo coherente y sencilla.

A diferencia de la configuración del PaddlePaddle para PP-YOLOE+, que puede requerir CUDA específica CUDA y la instalación de bibliotecas independientes, Ultralytics se ejecutan inmediatamente con un estándar. pip install ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO26n for maximum speed)
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset with a single command
# The system handles data augmentation, logging, and plots automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Conclusión

Ambos YOLOv7 y PP-YOLOE+ son arquitecturas capaces. YOLOv7 una opción sólida para aquellos que están profundamente involucrados en la YOLO clásica YOLO y PyTorch, ya que ofrece una alta precisión. PP-YOLOE+ es una excelente opción para los usuarios del ecosistema Baidu, ya que ofrece una gran eficiencia en los parámetros.

Sin embargo, para los desarrolladores que buscan un ecosistema bien mantenido, una versatilidad inigualable (que abarca la detección, la segmentación, la estimación de la pose y OBB) y los últimos avances en rendimiento, Ultralytics es la mejor opción. Su diseño integral, su reducido consumo de memoria y sus mejoras específicas para cada tarea (como RLE para pérdidas de pose y segmentación semántica) lo convierten en la solución más preparada para el futuro para los retos de la IA en el mundo real.

Para comenzar su viaje con la IA de visión más avanzada, explore la Ultralytics para una formación y una implementación sin fisuras.

Explorar Otros Modelos

¿Te interesa ver cómo se comparan otros modelos? Echa un vistazo a nuestras comparaciones entre YOLOv6 YOLOv7 y RT-DETR YOLOv8 para encontrar el que mejor se adapta a las limitaciones de tu proyecto.

YOLOv7 PP-YOLOE+: enfrentamiento arquitectónico en la detección de objetos en tiempo real

Comparación de métricas de rendimiento

YOLOv7: la potencia del "Bag-of-Freebies"

Características arquitectónicas clave

PP-YOLOE+: El Desafío Sin Anclajes

Características arquitectónicas clave

Comparación: Arquitectura y Usabilidad

Basado en anclajes frente a sin anclajes

Memoria y Eficiencia

El futuro: ¿por qué mudarse a YOLO26?

Diseño de extremo a extremo sin NMS

Optimizado para la computación periférica

Estabilidad en el entrenamiento avanzado

Facilidad de uso con Ultralytics

Conclusión

Comentarios