Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ frente a DAMO-YOLO#

La evolución continua de la visión artificial ha producido una gran variedad de arquitecturas altamente especializadas para la detección de objetos en tiempo real. Al evaluar modelos para aplicaciones industriales y de investigación, suelen entrar en la discusión dos marcos de trabajo destacados de 2022: PP-YOLOE+ de Baidu y DAMO-YOLO de Alibaba Group. Ambos modelos superaron los límites de la detección sin anclas (anchor-free) al introducir backbones novedosos, estrategias avanzadas de asignación de etiquetas y técnicas especializadas de fusión de características.

Esta guía proporciona un análisis técnico detallado de PP-YOLOE+ y DAMO-YOLO, explorando sus arquitecturas, metodologías de entrenamiento y puntos fuertes de despliegue. También examinaremos cómo se comparan estos marcos de trabajo con soluciones modernas como Ultralytics YOLO26 para ayudarte a elegir la herramienta adecuada para tus limitaciones de despliegue específicas.

Link to this sectionPP-YOLOE+: Detección de objetos industrial refinada#

Desarrollado dentro del ecosistema de Baidu, PP-YOLOE+ es una mejora iterativa del PP-YOLOE original, altamente optimizado para el marco de aprendizaje profundo PaddlePaddle. Se diseñó para maximizar la precisión y la velocidad de inferencia en hardware de nivel servidor, convirtiéndolo en un firme candidato para aplicaciones de inspección industrial y comercio inteligente.

Link to this sectionInnovaciones arquitectónicas#

PP-YOLOE+ introduce varias mejoras arquitectónicas para superar a los detectores sin anclas anteriores:

  • Backbone CSPRepResNet: Este backbone utiliza una arquitectura al estilo RepVGG combinada con conexiones Cross Stage Partial (CSP), ofreciendo un fuerte equilibrio entre la capacidad de extracción de características y la latencia de inferencia.
  • Task Alignment Learning (TAL): PP-YOLOE+ emplea una estrategia avanzada de asignación dinámica de etiquetas que alinea las tareas de clasificación y regresión durante el entrenamiento, reduciendo la brecha entre el rendimiento en entrenamiento e inferencia.
  • Efficient Task-aligned Head (ET-head): Un head de detección optimizado diseñado para procesar características rápidamente sin sacrificar la resolución espacial, lo cual es altamente beneficioso para mantener métricas de mAP elevadas.

Detalles de PP-YOLOE+:

Aprende más sobre PP-YOLOE+

Link to this sectionDAMO-YOLO: Búsqueda de arquitectura neuronal en el Edge#

Creado por la Alibaba DAMO Academy, DAMO-YOLO adopta un enfoque marcadamente distinto. En lugar de diseñar el backbone manualmente, el equipo de investigación utilizó la Búsqueda de Arquitectura Neuronal (NAS) para descubrir topologías de red altamente eficientes adaptadas a estrictas limitaciones de latencia.

Link to this sectionCaracterísticas clave y pipeline de entrenamiento#

DAMO-YOLO enfatiza la baja latencia y la alta precisión mediante una metodología automatizada y basada intensamente en la destilación:

  • Backbones MAE-NAS: Mediante la utilización del método de automatización de la búsqueda eficiente de arquitecturas neuronales, DAMO-YOLO construye backbones optimizados específicamente para el equilibrio entre parámetros y precisión.
  • Efficient RepGFPN: Una red de pirámide de características generalizada y reparametrizada permite una fusión de características multiescala robusta, lo que ayuda al modelo a detectar objetos de tamaños muy diferentes en un solo fotograma.
  • Diseño ZeroHead: Un head de detección altamente simplificado que reduce drásticamente la carga computacional durante la fase de inferencia.
  • Mejora por destilación: Para potenciar el rendimiento de las variantes más pequeñas, DAMO-YOLO depende en gran medida de un complejo proceso de destilación de conocimiento donde un modelo profesor más grande guía al modelo alumno.

Detalles de DAMO-YOLO:

Más información sobre DAMO-YOLO

Bloqueo de framework

Aunque tanto PP-YOLOE+ como DAMO-YOLO ofrecen innovaciones teóricas robustas, están fuertemente vinculados a sus respectivos frameworks (PaddlePaddle y entornos específicos de Alibaba). Esto puede introducir fricción al intentar portar estos modelos a despliegues estandarizados en la nube o en el edge.

Link to this sectionAnálisis de rendimiento#

Al evaluar estos modelos, el equilibrio entre latencia, complejidad computacional (FLOPs) y precisión media (mAP) dicta su entorno de despliegue ideal.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

DAMO-YOLO generalmente logra latencias menores en TensorRT en las escalas nano y tiny, lo que lo hace altamente competitivo para flujos de vídeo de alto rendimiento. Sin embargo, PP-YOLOE+ escala increíblemente bien hacia su variante extra-large (x), logrando una precisión de primer nivel para imágenes complejas donde el tiempo de inferencia es una consideración secundaria.

Link to this sectionLa ventaja de Ultralytics: avanzando más allá de las arquitecturas de 2022#

Aunque PP-YOLOE+ y DAMO-YOLO representaron hitos significativos, el desarrollo moderno exige una mayor versatilidad, pipelines de entrenamiento más sencillos y menores requisitos de memoria. La Plataforma Ultralytics aborda estas necesidades ofreciendo una experiencia sin fricción que supera drásticamente la compleja destilación y las configuraciones específicas de framework requeridas por los modelos más antiguos.

Para los desarrolladores que buscan lograr el mejor equilibrio de rendimiento hoy en día, Ultralytics YOLO26 proporciona un salto revolucionario en la eficiencia de despliegue en el mundo real.

Link to this sectionPor qué YOLO26 lidera la industria#

Lanzado a principios de 2026, YOLO26 construye sobre el legado de YOLO11 introduciendo tecnologías innovadoras adaptadas a la producción:

  • Diseño End-to-End libre de NMS: YOLO26 elimina el posprocesamiento de Supresión de No Máximos (NMS). Esto se traduce en una lógica de despliegue más sencilla y latencias de inferencia consistentes y altamente predecibles.
  • Optimizador MuSGD: Inspirado en las técnicas de entrenamiento de modelos de lenguaje a gran escala, YOLO26 utiliza un optimizador híbrido MuSGD. Esto garantiza un entrenamiento increíblemente estable y una convergencia rápida, ahorrando valiosas horas de GPU.
  • Inferencia superior en CPU: Al eliminar la Pérdida Focal de Distribución (DFL) y optimizar el grafo de la red, YOLO26 logra una inferencia en CPU hasta un 43% más rápida, convirtiéndolo en la opción preferida para dispositivos de Edge AI.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, algo crítico para operaciones con drones y teledetección.
  • Versatilidad inigualable: A diferencia de PP-YOLOE+, que se centra estrictamente en la detección, YOLO26 admite de forma nativa estimación de poses, segmentación de instancias, clasificación de imágenes y cajas delimitadoras orientadas (OBB) sin problemas.

Link to this sectionFacilidad de uso y eficiencia de entrenamiento#

Entrenar un modelo DAMO-YOLO requiere gestionar un pesado pipeline de destilación profesor-alumno. Por el contrario, entrenar un modelo Ultralytics requiere solo unas pocas líneas de Python, con un uso mínimo de memoria CUDA en comparación con las arquitecturas competidoras.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

Más información sobre YOLO26

Link to this sectionCasos de uso ideales y recomendaciones#

La selección de la arquitectura de visión artificial óptima depende en gran medida de la integración en el ecosistema de tu equipo y de los objetivos de despliegue.

  • Elige PP-YOLOE+ si todo tu pipeline está profundamente integrado en el ecosistema Baidu PaddlePaddle. Sigue siendo una excelente opción para el análisis de imágenes estáticas en servidores potentes donde maximizar la precisión es el objetivo principal.
  • Elige DAMO-YOLO si estás realizando una investigación específica en algoritmos de Búsqueda de Arquitectura Neuronal, o si cuentas con los recursos de ingeniería para mantener pipelines de destilación complejos para alcanzar objetivos agresivos de latencia en TensorRT.
  • Elige Ultralytics YOLO26 para casi todos los escenarios de producción modernos. El ecosistema Ultralytics proporciona una documentación inigualable, menores requisitos de memoria y una API optimizada. Tanto si estás construyendo sistemas de control de calidad automatizado como si ejecutas seguimiento en tiempo real en una Raspberry Pi, la arquitectura sin NMS de YOLO26 garantiza resultados rápidos, estables y altamente precisos desde el primer momento.

Para los desarrolladores que exploran otras soluciones de vanguardia, la documentación de Ultralytics también proporciona amplios recursos sobre el ampliamente adoptado YOLOv8 y el robusto YOLO11, asegurando que tengas el modelo adecuado para cualquier desafío de visión artificial.

Colaboradores

Comentarios