Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ frente a RTDETRv2#

El campo de la visión artificial ha sido testigo de una evolución espectacular en los últimos años, especialmente en el ámbito de la detección de objetos en tiempo real. Elegir la arquitectura adecuada para tu implementación puede marcar la diferencia entre una aplicación lenta y pesada en memoria o un sistema altamente optimizado y receptivo. En esta comparativa técnica, exploramos dos modelos destacados de Baidu: PP-YOLOE+, basado en CNN, y RTDETRv2, basado en Transformer. Analizaremos sus arquitecturas, métricas de rendimiento y casos de uso ideales, examinando además cómo se comparan con la plataforma de vanguardia Ultralytics YOLO26.

Link to this sectionPP-YOLOE+: impulsando el paradigma de las CNN#

Desarrollado como una iteración sobre sus predecesores, PP-YOLOE+ supera los límites de lo que las redes neuronales convolucionales (CNN) tradicionales pueden lograr en la detección de objetos. Es un detector sin anclas (anchor-free) altamente capaz que se basa en la mecánica fundamental de la serie YOLO, al tiempo que introduce optimizaciones específicas para el ecosistema PaddlePaddle.

Detalles del modelo:

Link to this sectionArquitectura y metodologías#

PP-YOLOE+ depende de una backbone altamente optimizada y de una red de pirámide de características personalizada para agregar eficazmente características multiescala. Utiliza un diseño sin anclas, lo que simplifica el proceso de ajuste heurístico habitualmente necesario para la generación de cajas delimitadoras (anchor boxes). Además, su metodología de entrenamiento incluye estrategias avanzadas de asignación de etiquetas para relacionar mejor las predicciones con las cajas de la verdad (ground truth) durante la fase de aprendizaje.

Link to this sectionFortalezas y casos de uso#

La principal fortaleza de PP-YOLOE+ reside en su rendimiento robusto en hardware de servidor estándar y su profunda integración con las herramientas de Baidu. Es muy adecuado para flujos de trabajo industriales tradicionales, como la detección de defectos estáticos en entornos de fabricación donde las restricciones de hardware no son excesivamente limitantes.

Aprende más sobre PP-YOLOE+

Consideraciones del ecosistema

Aunque PP-YOLOE+ ofrece una gran precisión, desplegarlo fuera de su ecosistema nativo a veces puede requerir pasos de conversión adicionales, a diferencia de los formatos de exportación nativos disponibles fácilmente en los flujos de trabajo modernos de Ultralytics.

Link to this sectionRTDETRv2: Transformers de detección en tiempo real#

Alejándose de las CNN puras, RTDETRv2 (Real-Time Detection Transformer version 2) representa un salto hacia los mecanismos basados en atención para tareas de visión artificial. Intenta combinar la comprensión del contexto global de los Transformers con la baja latencia requerida para aplicaciones del mundo real.

Detalles del modelo:

Link to this sectionArquitectura y metodologías#

RTDETRv2 aprovecha una arquitectura híbrida, combinando una backbone CNN para la extracción de características con un encoder-decoder de Transformer optimizado. Una característica definitoria de RTDETRv2 es su diseño nativo extremo a extremo (end-to-end) que evita el posprocesamiento tradicional de supresión de no máximos (NMS). También introduce características como la detección multiescala y el manejo de escenas complejas, utilizando la autoatención para entender las relaciones espaciales entre objetos distantes.

Link to this sectionFortalezas y casos de uso#

La arquitectura Transformer hace que RTDETRv2 sea altamente eficaz en escenarios donde es crucial entender el contexto global. Sin embargo, los modelos Transformer normalmente exigen una memoria CUDA significativamente mayor tanto durante el entrenamiento como en la inferencia en comparación con las CNN ligeras. Es más adecuado para entornos con hardware sin restricciones, como el análisis de vídeo en la nube ejecutándose en potentes servidores GPU.

Más información sobre RTDETR

Link to this sectionComparación de rendimiento y métricas#

Al evaluar estos modelos, el equilibrio entre la precisión media (mAP) y el coste computacional (medido en FLOPs y latencia de inferencia) es fundamental. La tabla siguiente describe las métricas clave para varias escalas tanto de PP-YOLOE+ como de RTDETRv2.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Aunque RTDETRv2 muestra un mAP sólido a costa de un mayor número de parámetros y FLOPs, los desarrolladores que buscan realizar implementaciones en dispositivos edge limitados suelen enfrentarse a cuellos de botella debido a los altos requisitos de memoria típicos de las capas Transformer.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre PP-YOLOE+ y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y tus preferencias de ecosistema.

Link to this sectionCuándo elegir PP-YOLOE+#

PP-YOLOE+ es una buena elección para:

  • Integración con el ecosistema PaddlePaddle: Organizaciones con infraestructura existente construida sobre el marco de trabajo PaddlePaddle de Baidu.
  • Despliegue en el borde con Paddle Lite: Desplegar en hardware con kernels de inferencia altamente optimizados específicamente para el motor de inferencia Paddle Lite o Paddle.
  • Detección de alta precisión en el lado del servidor: Escenarios que priorizan la máxima precisión de detección en potentes servidores GPU donde la dependencia del marco de trabajo no es una preocupación.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR se recomienda para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics: Presentamos YOLO26#

Aunque tanto PP-YOLOE+ como RTDETRv2 representan hitos significativos, el desarrollador moderno requiere un ecosistema que equilibre perfectamente un rendimiento extremo con una facilidad de uso optimizada. La Plataforma Ultralytics y el innovador modelo YOLO26 ofrecen exactamente eso.

Lanzado en enero de 2026, YOLO26 establece el nuevo estándar para la visión artificial centrada en el edge. Resuelve elegantemente los obstáculos de implementación asociados con arquitecturas más antiguas mientras las supera tanto en velocidad como en precisión.

Link to this sectionInnovaciones arquitectónicas#

YOLO26 introduce varias mejoras pioneras que superan a las CNN tradicionales y a los Transformers pesados:

  • Diseño extremo a extremo sin NMS: Al igual que RTDETRv2, YOLO26 es nativamente extremo a extremo. Al eliminar el posprocesamiento de supresión de no máximos (NMS), ofrece una implementación más rápida y sencilla con menor fluctuación de latencia, ideal para robótica en tiempo real y sistemas autónomos.
  • Inferencia en CPU hasta un 43% más rápida: Mediante optimizaciones arquitectónicas profundas, YOLO26 supera significativamente a los modelos competidores en dispositivos edge que carecen de GPUs discretas, convirtiéndolo en la elección principal para aplicaciones de IoT y ciudades inteligentes.
  • Optimizador MuSGD: Inspirado en innovaciones en el entrenamiento de LLM, YOLO26 emplea un híbrido de SGD y Muon. Esto proporciona trayectorias de entrenamiento más estables y una convergencia notablemente más rápida, reduciendo drásticamente las horas de entrenamiento en GPU.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, un área donde modelos como PP-YOLOE+ históricamente han tenido dificultades, lo cual resulta crítico para imágenes aéreas y aplicaciones de drones.
  • Eliminación de DFL: La eliminación de la pérdida focal de distribución (Distribution Focal Loss) simplifica el proceso de exportación, garantizando una compatibilidad perfecta en varios dispositivos edge y de bajo consumo.

Más información sobre YOLO26

Versatilidad específica de la tarea

A diferencia de los detectores de objetos especializados, YOLO26 es altamente versátil y admite segmentación de instancias, estimación de poses, clasificación y cajas delimitadoras orientadas (OBB). Incluye mejoras adaptadas como RLE para Pose y pérdida de ángulo especializada para OBB.

Link to this sectionFacilidad de uso inigualable#

Uno de los mayores inconvenientes de adoptar arquitecturas complejas como RTDETRv2 es la empinada curva de aprendizaje y los procesos de integración inconexos. El ecosistema de Ultralytics abstrae estas complejidades por completo a través de una API de Python intuitiva y una plataforma web integral.

Tanto si estás entrenando conjuntos de datos personalizados como ejecutando una inferencia rápida, el proceso es fluido:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", quantize=16)

Los menores requisitos de memoria típicos de los modelos Ultralytics YOLO significan que puedes entrenar más rápido e implementar en hardware más económico en comparación con sus homólogos basados en Transformer. Además, el desarrollo activo y la documentación de clase mundial garantizan que tus pipelines de producción permanezcan estables.

Para los equipos que exploran alternativas, YOLO11 sigue siendo un predecesor altamente respaldado y excepcionalmente capaz dentro del ecosistema, proporcionando una excelente base para integraciones de hardware heredado. También podría resultarte útil leer nuestra comparativa sobre YOLO11 frente a RTDETR.

Link to this sectionResumen#

PP-YOLOE+ y RTDETRv2 han hecho contribuciones sustanciales a la evolución de la visión artificial, demostrando la viabilidad de los pipelines de CNN avanzados y los Transformers en tiempo real, respectivamente. Sin embargo, para las organizaciones que buscan implementar aplicaciones de visión artificial robustas, versátiles y altamente optimizadas en 2026, Ultralytics YOLO26 proporciona una solución inigualable. Su arquitectura nativa sin NMS, su inferencia en CPU significativamente más rápida y su ecosistema optimizado permiten a los desarrolladores pasar de la ideación a la producción escalable más rápido que nunca.

Comentarios