Ir al contenido

PP-YOLOE+ frente a RTDETRv2: comparación de detección de objetos mediante aprendizaje profundo

La evolución de las arquitecturas de detección de objetos se ha caracterizado por una feroz rivalidad entre las redes neuronales convolucionales (CNN) y los modelos basados en transformadores. Dos hitos importantes en esta línea temporal son PP-YOLOE+, un detector perfeccionado basado en CNN del PaddlePaddle , y RTDETRv2, un transformador de detección en tiempo real de última generación.

Esta comparación técnica evalúa sus arquitecturas, métricas de rendimiento y adecuación para la implementación con el fin de ayudar a los investigadores e ingenieros a seleccionar el modelo óptimo para sus aplicaciones específicas de visión artificial.

Resumen Ejecutivo

PP-YOLOE+ representa la cúspide de laYOLO , centrándose en perfeccionar los mecanismos sin anclaje y las estrategias de asignación de etiquetas dentro de un marco CNN puro. Destaca en entornos profundamente integrados con PaddlePaddle de Baidu, pero puede encontrar dificultades al exportarse a otros ecosistemas.

RTDETRv2 (Real-Time Detection Transformer v2) va más allá al introducir un decodificador flexible y ajustable y optimizar el codificador híbrido. Elimina con éxito la necesidad de la supresión no máxima (NMS), un cuello de botella habitual en el posprocesamiento, al aprovechar las capacidades de atención global de los transformadores.

Sin embargo, para los desarrolladores que buscan una solución unificada que combine la velocidad de las CNN con la comodidad de los transformadores NMS, sin la enorme sobrecarga computacional,Ultralytics ofrece una alternativa superior. Con su diseño nativo de extremo a extremo y CPU hasta un 43 % más rápida, YOLO26 salva la brecha entre los servidores de alto rendimiento y los dispositivos periféricos.

PP-YOLOE+: La Potencia de CNN Sin Anclajes

Lanzado en 2022, PP-YOLOE+ es una versión mejorada de PP-YOLOE, que incorpora una estructura sólida y una asignación dinámica de etiquetas para lograr una precisión competitiva.

Autores: PaddlePaddle
Organización:Baidu
Fecha: 02/04/2022
Arxiv:2203.16250
GitHub:PaddleDetection

Aspectos Arquitectónicos Destacados

PP-YOLOE+ utiliza CSPRepResStage, una estructura que combina las ventajas del flujo de gradiente de CSPNet con las técnicas de reparametrización observadas en RepVGG. Esto permite que el modelo tenga dinámicas de entrenamiento complejas que se reducen a convoluciones simples durante la inferencia, lo que acelera la implementación.

El modelo emplea una cabeza sin anclaje con una estrategia de aprendizaje de alineación de tareas (TAL). A diferencia de los métodos antiguos basados en anclajes que se basan en cuadros predefinidos, PP-YOLOE+ predice el centro de los objetos y sus distancias a los bordes del cuadro delimitador. Esto simplifica la búsqueda de hiperparámetros y mejora la generalización en diversos conjuntos de datos como COCO.

Restricciones heredadas

Aunque PP-YOLOE+ ofrece un gran rendimiento, su fuerte dependencia del PaddlePaddle puede complicar los procesos de implementación que se basan en PyTorch ONNX. Los usuarios suelen necesitar convertidores especializados para trasladar los modelos a plataformas periféricas.

Más información sobre PP-YOLOE+

RTDETRv2: La evolución del Transformer

RTDETRv2 se basa en el éxito del RT-DETR original y tiene como objetivo demostrar que los transformadores pueden superar a los YOLO en escenarios en tiempo real. Aborda el alto coste computacional de los transformadores de visión estándar (ViT) mediante el uso de un codificador híbrido que procesa características multiescala de manera eficiente.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización: Baidu
Fecha: 17/04/2023 (original), 24/07/2024 (versión v2)
Arxiv:2304.08069
GitHub:RT-DETR

Aspectos Arquitectónicos Destacados

La innovación principal de RTDETRv2 es su codificador híbrido y la selección de consultasIoU. Los transformadores tradicionales tienen dificultades con la complejidad cuadrática de los mecanismos de atención cuando procesan mapas de características de alta resolución. RTDETRv2 mitiga esto desacoplando la interacción intraescala y la fusión entre escalas, lo que reduce significativamente el uso de memoria.

Fundamentalmente, RTDETRv2 es un detector de extremo a extremo. Utiliza un Hungarian Matcher durante el entrenamiento para asignar predicciones a la verdad fundamental uno a uno. Esto significa que la salida del modelo no requiere NMS , lo que evita los picos de latencia y el ajuste de parámetros asociados con YOLO tradicionales.

Más información sobre RTDETR

Comparación de rendimiento

La siguiente tabla compara el rendimiento de ambas arquitecturas. Mientras que PP-YOLOE+ muestra competencia en recuentos de parámetros más bajos, RTDETRv2 demuestra una escalabilidad superior en tamaños más grandes, aunque con mayores exigencias computacionales (FLOP).

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

La Ventaja Ultralytics: ¿Por qué elegir YOLO26?

Si bien RTDETRv2 introdujo las ventajas de la detección NMS, esto supuso el uso de pesados bloques de transformadores que a menudo son lentos de entrenar y difíciles de implementar enGPU . Ultralytics revoluciona este panorama al lograr una detección integral NMS utilizando una arquitectura CNN pura.

Al adoptar una estrategia de asignación dual consistente (CDA) durante el entrenamiento, YOLO26 aprende a suprimir internamente las cajas duplicadas. Esto elimina la sobrecarga de inferencia de NMS incurrir en las penalizaciones de latencia de los transformadores.

Ventajas clave de YOLO26

  1. Optimizador MuSGD: Inspirado en innovaciones en el entrenamiento de LLM como Kimi K2 de Moonshot AI, el optimizador MuSGD combina SGD Muon para una convergencia más rápida y un entrenamiento estable, una característica exclusiva de la generación YOLO26.
  2. Eficiencia optimizada para el borde: con la eliminación de la pérdida focal de distribución (DFL) y las complejas capas de atención, YOLO26 logra CPU hasta un 43 % más rápida en comparación con las iteraciones anteriores. Esto lo hace ideal para ejecutarse en Raspberry Pi o dispositivos móviles, donde RTDETR tiene dificultades.
  3. Versatilidad de tareas: a diferencia de PP-YOLOE+, que es principalmente un detector, YOLO26 admite de forma nativa la estimación de poses, la segmentación de instancias y OBB en una sola biblioteca.
  4. ProgLoss + STAL: Las nuevas funciones de pérdida mejoran la detección de objetos pequeños, una debilidad crítica en muchos modelos de transformadores, lo que hace que YOLO26 sea superior para el análisis de imágenes aéreas.

Flujo de trabajo optimizado con Ultralytics

Olvídate de los complejos archivos de configuración. Puedes entrenar, versionar e implementar modelos YOLO26 directamente a través de la Ultralytics . El ecosistema se encarga de todo, desde la anotación de conjuntos de datos hasta la exportación con un solo clic para TensorRT, CoreML y TFLite.

Ejemplo de Código: Primeros Pasos con YOLO26

Ejecutar el último modelo de vanguardia es increíblemente sencillo con laPython Ultralytics :

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

Más información sobre YOLO26

Casos de Uso Ideales

Cuándo utilizar PP-YOLOE+

  • Sistemas Paddle heredados: si su infraestructura actual está construida íntegramente sobre PaddlePaddle de Baidu, PP-YOLOE+ ofrece una ruta de actualización nativa sin necesidad de cambiar los marcos de trabajo.
  • CNN del lado del servidor: para escenarios en los que hay abundante GPU , pero falta compatibilidad con transformadores (por ejemplo, TensorRT para Multi-Head Attention) en el entorno de implementación.

Cuándo usar RTDETRv2

  • Escenas con mucha gente: el mecanismo de atención global de los transformadores ayuda en escenas con mucha oclusión, en las que las CNN pueden tener dificultades para separar objetos superpuestos.
  • Hardware fijo: adecuado para GPU de gama alta (como NVIDIA o A100), donde la sobrecarga de la multiplicación matricial de los transformadores es insignificante en comparación con las ganancias de precisión.

Cuándo usar Ultralytics YOLO26

  • IA móvil y de vanguardia: su bajo consumo de memoria y CPU alta CPU convierten a YOLO26 en la opción definitiva para Android o sistemas integrados.
  • Análisis de vídeo en tiempo real: para aplicaciones que requieren un alto número de fotogramas por segundo, como la supervisión del tráfico o las líneas de fabricación, el diseño NMS garantiza una latencia determinista.
  • Investigación y prototipado rápido: la amplia documentación y el apoyo activo de la comunidad permiten a los investigadores iterar rápidamente, aprovechando los pesos preentrenados para una variedad de tareas que van más allá de la simple detección de cuadros delimitadores.

Conclusión

Tanto PP-YOLOE+ como RTDETRv2 han contribuido significativamente al campo de la visión artificial. PP-YOLOE+ amplió los límites de las CNN dentro del ecosistema Paddle, mientras que RTDETRv2 demostró la viabilidad de los transformadores para tareas en tiempo real. Sin embargo, Ultralytics representa la síntesis de estos avances: ofrece la simplicidad arquitectónica y la velocidad de una CNN con la elegancia integral y NMS de un transformador. En combinación con el robusto Ultralytics , se erige como la herramienta más versátil para el desarrollo moderno de la IA.


Comentarios