Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a PP-YOLOE+#

El campo de la visión artificial, en rápida evolución, ha generado diversos enfoques arquitectónicos para resolver problemas complejos de detección de objetos en tiempo real. Entre los avances recientes más notables se encuentran RTDETRv2 y PP-YOLOE+, dos potentes modelos que abordan el reconocimiento visual desde filosofías de diseño fundamentalmente diferentes. Aunque ambos modelos tienen como objetivo ofrecer una detección de alto rendimiento, sus mecanismos subyacentes, paradigmas de entrenamiento y escenarios de despliegue ideales varían significativamente.

Esta guía exhaustiva profundiza en los matices técnicos de ambos modelos, comparando sus arquitecturas, métricas de rendimiento y soporte del ecosistema para ayudar a los desarrolladores e investigadores a elegir la solución óptima para sus necesidades de despliegue específicas.

Link to this sectionResumen de modelos#

Antes de analizar los datos de rendimiento, es importante comprender los orígenes y los objetivos arquitectónicos de cada modelo. Ambos provienen de equipos de investigación de Baidu, aunque representan diferentes ramas del árbol genealógico de la detección de objetos.

Link to this sectionRTDETRv2#

RTDETRv2 representa un salto significativo en las arquitecturas de visión basadas en Transformer. Basándose en el Real-Time Detection Transformer original, aprovecha un backbone de vision transformer flexible junto con un codificador híbrido eficiente. Su característica más definitoria es su capacidad de predicción nativa de extremo a extremo, eliminando por completo la necesidad de NMS durante el postprocesamiento.

Autor: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu Organización: Baidu Fecha: 2024-07-24 Arxiv: 2407.17140 GitHub: Repositorio RT-DETR

Más información sobre RTDETRv2

Link to this sectionPP-YOLOE+#

PP-YOLOE+ es una iteración avanzada de la serie YOLO, fuertemente optimizada para aplicaciones industriales de alto rendimiento. Cuenta con una arquitectura CNN escalable con una cabeza de detección sin anclas (anchor-free). Diseñado para ofrecer compensaciones excepcionales entre velocidad y precisión, introduce técnicas potentes como la ET-head y una función de pérdida focal generalizada para mejorar la detección de objetos pequeños.

Autor: Autores de PaddlePaddle Organización: Baidu Fecha: 2022-04-02 Arxiv: 2203.16250 GitHub: Repositorio PaddleDetection

Aprende más sobre PP-YOLOE+

Integración del ecosistema

Aunque ambos modelos tienen sus propios repositorios de investigación independientes, puedes experimentar fácilmente con RTDETRv2 directamente dentro del paquete Python de Ultralytics, beneficiándote de una API unificada y opciones de exportación optimizadas.

Link to this sectionDiferencias arquitectónicas#

La diferencia fundamental entre estos dos modelos radica en cómo procesan el contexto visual y generan las predicciones.

PP-YOLOE+ utiliza un backbone de red neuronal convolucional (CNN) tradicional, pero altamente optimizado. Se basa en campos receptivos locales para extraer características, lo que lo hace increíblemente rápido y eficiente para el despliegue estándar. Sin embargo, todavía requiere un postprocesamiento NMS estándar para filtrar los BBox superpuestos, lo que puede introducir cuellos de botella de latencia en escenas densas.

Por el contrario, RTDETRv2 emplea un codificador híbrido y un decodificador Transformer. Esto permite que el modelo capture el contexto global en toda la imagen simultáneamente. Los mecanismos de atención comprenden intrínsecamente las relaciones entre los objetos, lo que permite al modelo generar los BBox finales directamente sin NMS. Este enfoque de extremo a extremo garantiza una latencia de inferencia estable independientemente del número de objetos detectados.

Link to this sectionMétricas de rendimiento y comparación#

Al evaluar las métricas de rendimiento de YOLO, es crucial equilibrar la precisión (mAP) con el coste computacional (FLOPs) y la velocidad de inferencia. La siguiente tabla destaca el rendimiento de ambos modelos en varios tamaños.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Aunque PP-YOLOE+x logra un mAPval marginalmente mayor del 54,7% en el conjunto de datos COCO, los modelos RTDETRv2 generalmente ofrecen una precisión competitiva con la ventaja añadida de una latencia constante debido a su diseño sin NMS. Sin embargo, PP-YOLOE+ mantiene una clara ventaja en el número de parámetros y FLOPs para modelos más pequeños, lo que lo hace altamente eficiente para despliegues en el Edge.

Link to this sectionLa ventaja de Ultralytics: llega YOLO26#

Aunque RTDETRv2 y PP-YOLOE+ son formidables por derecho propio, el estado del arte ha seguido evolucionando. Para los desarrolladores que buscan el equilibrio definitivo de velocidad, precisión y soporte del ecosistema, Ultralytics YOLO26 representa el nuevo estándar de la industria.

YOLO26 sintetiza los mejores aspectos tanto de las CNN como de los Transformer. Adopta el diseño End-to-End NMS-Free iniciado por arquitecturas modernas, eliminando eficazmente los cuellos de botella del postprocesamiento. Además, introduce el revolucionario Optimizador MuSGD, un enfoque híbrido inspirado en las innovaciones de entrenamiento de LLM que garantiza un entrenamiento altamente estable y una rápida convergencia.

Optimizado para el Edge

A diferencia de los modelos Transformer pesados que exigen una cantidad sustancial de memoria CUDA, YOLO26 cuenta con Eliminación de DFL (Distribution Focal Loss) y está específicamente optimizado para la computación en el Edge, ofreciendo una inferencia en CPU hasta un 43% más rápida en comparación con las generaciones anteriores.

Además, YOLO26 no se limita a la simple detección de objetos. Es nativamente versátil y admite segmentación de instancias, estimación de poses y BBox orientados (OBB) de forma inmediata, mientras que PP-YOLOE+ se centra principalmente en la detección de BBox.

Más información sobre YOLO26

Link to this sectionMetodologías de entrenamiento y ecosistema#

La eficiencia en el entrenamiento y la facilidad de uso es donde el ecosistema de Ultralytics realmente brilla en comparación con los repositorios de investigación independientes. Mientras que PP-YOLOE+ depende del framework PaddlePaddle y RTDETRv2 a menudo requiere configuraciones de entorno complejas, integrar modelos a través de Ultralytics proporciona una experiencia fluida.

Con la API de Ultralytics, te beneficias de requisitos de memoria más bajos durante el entrenamiento, manejo automatizado de conjuntos de datos y ajuste simplificado de hiperparámetros. Además, el despliegue de modelos a formatos de producción como ONNX o TensorRT se puede lograr con un solo comando.

Link to this sectionEjemplo de código: Inferencia simplificada#

A continuación, se muestra una demostración de lo fácil que es utilizar RTDETRv2 junto con el modelo recomendado YOLO26 utilizando el paquete Python de Ultralytics:

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this sectionAplicaciones y casos de uso en el mundo real#

Elegir entre estas arquitecturas a menudo depende de los requisitos específicos de hardware y de la aplicación.

  • RTDETRv2 destaca en entornos de servidor y en la comprensión de escenas complejas. Su mecanismo de atención global lo hace altamente efectivo para la gestión de multitudes y el análisis de imágenes médicas denso, donde los objetos superpuestos suelen hacer que los algoritmos NMS estándar fallen.
  • PP-YOLOE+ es muy adecuado para la inspección industrial de alta velocidad y entornos que invierten mucho en el ecosistema PaddlePaddle. Su bajo número de parámetros en las escalas más pequeñas lo hace viable para ciertas aplicaciones de robótica.
  • Ultralytics YOLO26 es la solución universalmente recomendada para un despliegue comercial integral. Con sus funciones mejoradas ProgLoss + STAL, mejora drásticamente el reconocimiento de objetos pequeños, algo crítico para operaciones de drones aéreos y control de tráfico en ciudades inteligentes.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre RT-DETR y PP-YOLOE+ depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y tus preferencias de ecosistema.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR es una opción sólida para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir PP-YOLOE+#

Se recomienda PP-YOLOE+ para:

  • Integración con el ecosistema PaddlePaddle: Organizaciones con infraestructura existente construida sobre el marco de trabajo PaddlePaddle de Baidu.
  • Despliegue en el borde con Paddle Lite: Desplegar en hardware con kernels de inferencia altamente optimizados específicamente para el motor de inferencia Paddle Lite o Paddle.
  • Detección de alta precisión en el lado del servidor: Escenarios que priorizan la máxima precisión de detección en potentes servidores GPU donde la dependencia del marco de trabajo no es una preocupación.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionConclusión#

Tanto RTDETRv2 como PP-YOLOE+ han superado los límites de lo posible en visión artificial, demostrando la viabilidad tanto de las arquitecturas Transformer como de las CNN altamente optimizadas. Sin embargo, la complejidad de implementar bases de código de investigación fragmentadas puede obstaculizar los plazos de producción.

Para los ingenieros de IA modernos, aprovechar la Plataforma Ultralytics proporciona una ventaja inigualable. Al migrar a modelos perfectamente integrados como YOLO11 o el vanguardista YOLO26, los equipos pueden lograr las relaciones de precisión-velocidad más altas posibles, reduciendo drásticamente los requisitos de memoria y los costes de desarrollo.

Comentarios