Link to this sectionDAMO-YOLO frente a PP-YOLOE+#
En el competitivo panorama de la visión artificial en tiempo real, elegir la arquitectura óptima para tus necesidades específicas de despliegue es crucial. Esta guía ofrece una comparación técnica completa entre DAMO-YOLO y PP-YOLOE+, profundizando en sus diseños arquitectónicos, metodologías de entrenamiento y métricas de rendimiento. También examinaremos cómo se comparan estos modelos con soluciones de vanguardia como el recién lanzado Ultralytics YOLO26.
Link to this sectionResumen de modelos#
Ambos frameworks surgieron en 2022 como alternativas potentes para aplicaciones industriales, aprovechando técnicas sofisticadas para superar los límites de la precisión y la velocidad de inferencia.
Link to this sectionDAMO-YOLO#
Desarrollado por Alibaba Group, DAMO-YOLO introdujo varias técnicas novedosas para optimizar el equilibrio entre latencia y precisión, apoyándose fuertemente en técnicas de búsqueda automatizada y fusión avanzada de características.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
- Organización: Alibaba Group
- Fecha: 23-11-2022
- Arxiv: DAMO-YOLO: A Report on Real-Time Object Detection Design
- GitHub: tinyvision/DAMO-YOLO
- Documentación: DAMO-YOLO README
DAMO-YOLO emplea una búsqueda de arquitectura multiescala (MAE-NAS) para diseñar automáticamente backbones optimizados para la eficiencia del hardware. También cuenta con una eficiente RepGFPN (Re-parameterized Generalized Feature Pyramid Network) para la fusión de características del cuello y un diseño ligero "ZeroHead". Además, se basa en gran medida en técnicas de destilación durante el entrenamiento para potenciar la capacidad de representación del modelo estudiante.
Más información sobre DAMO-YOLO
Link to this sectionPP-YOLOE+#
Del equipo de PaddlePaddle de Baidu, PP-YOLOE+ es una actualización incremental de la arquitectura PP-YOLOE. Se centra en el preentrenamiento a gran escala y en funciones de pérdida refinadas para ofrecer un mAP elevado, especialmente dentro de su framework nativo de aprendizaje profundo.
- Autores: Autores de PaddlePaddle
- Organización: Baidu
- Fecha: 02-04-2022
- Arxiv: PP-YOLOE: An evolved version of YOLO
- GitHub: PaddlePaddle/PaddleDetection
- Documentación: PP-YOLOE+ Configs
PP-YOLOE+ utiliza un backbone CSPRepResNet y un ET-head (Efficient Task-aligned head). La versión "plus" introduce una potente estrategia de preentrenamiento en el conjunto de datos Objects365, lo que mejora significativamente su capacidad de generalización en diversos entornos del mundo real.
Link to this sectionComparativa arquitectónica#
La divergencia en la filosofía de diseño entre estos dos modelos influye enormemente en sus casos de uso ideales y en su compatibilidad de hardware.
Link to this sectionFusión de características y backbones#
Los backbones generados por MAE-NAS de DAMO-YOLO están altamente adaptados a dispositivos de borde, proporcionando a menudo una relación velocidad-parámetros favorable. Sin embargo, estas arquitecturas personalizadas pueden ser rígidas y complejas de adaptar para tareas novedosas como la segmentación de instancias. El cuello RepGFPN mejora la fusión de características multiescala, pero añade complejidad durante la fase de exportación de re-parametrización.
PP-YOLOE+ depende del más tradicional, aunque altamente efectivo, CSPRepResNet. Aunque este backbone requiere una huella de parámetros mayor que DAMO-YOLO para una precisión similar, es altamente estable de entrenar y más fácil de integrar en pipelines existentes. Su ET-head maneja eficientemente la clasificación y la regresión, pero aún requiere pasos de post-procesamiento como la supresión de no máximos (NMS).
Tanto DAMO-YOLO como PP-YOLOE+ requieren NMS para el post-procesamiento de cajas delimitadoras. Si la latencia de inferencia es crítica, considera usar Ultralytics YOLO26, que presenta un diseño nativo End-to-End NMS-Free. Este enfoque revolucionario elimina el post-procesamiento NMS para obtener un pipeline de despliegue más rápido y sencillo.
Link to this sectionAnálisis de rendimiento y métricas#
Al evaluar estos modelos para producción, el equilibrio entre precisión (mAP), velocidad de inferencia y tamaño de parámetros es crítico. A continuación, se muestra una comparación directa de sus variantes principales.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Como ilustra la tabla, DAMO-YOLO generalmente logra una latencia menor en las escalas pequeña (s) y diminuta (t), gracias a sus backbones optimizados mediante NAS. Sin embargo, PP-YOLOE+ escala increíblemente bien en los niveles medio (m) y grande (l), presumiendo de puntuaciones mAP significativamente más altas, aunque con un ligero coste en la velocidad de T4 TensorRT.
Link to this sectionRequisitos de memoria y eficiencia de entrenamiento#
La dependencia de DAMO-YOLO de la destilación significa que a menudo necesitas entrenar un modelo profesor mucho más grande antes de entrenar el modelo estudiante más pequeño. Esto aumenta drásticamente los requisitos de memoria CUDA y el presupuesto computacional general. PP-YOLOE+ simplifica esto con un entrenamiento estándar de una sola etapa, pero permanece estrechamente acoplado al framework PaddlePaddle, lo que puede limitar la flexibilidad para equipos acostumbrados a PyTorch.
Por el contrario, el modelo moderno Ultralytics YOLO26 resuelve estos cuellos de botella. Utilizando el nuevo optimizador MuSGD—un híbrido de SGD y Muon inspirado en las innovaciones de entrenamiento de LLMs—YOLO26 logra una convergencia más rápida y un entrenamiento altamente estable sin requerir complejos pipelines de destilación. Además, los modelos YOLO suelen requerir mucha menos memoria CUDA durante el entrenamiento en comparación con los detectores basados en Transformer como RT-DETR.
Link to this sectionAplicaciones del mundo real y casos de uso ideales#
Link to this sectionCuándo usar DAMO-YOLO#
DAMO-YOLO es ideal para inferencia de borde de alto rendimiento donde la latencia es el cuello de botella definitivo. Sus variantes pequeñas destacan en entornos como sistemas de gestión de tráfico o vigilancia básica con drones, siempre que tu equipo de ingeniería tenga la capacidad para gestionar sus complejos procesos de destilación y re-parametrización.
Link to this sectionCuándo usar PP-YOLOE+#
PP-YOLOE+ brilla cuando ya estás profundamente integrado en el ecosistema de Baidu o estás ejecutando despliegues en servidores a gran escala. Su impresionante mAP lo hace adecuado para el análisis complejo de imágenes médicas o la detección densa de defectos de fabricación.
Link to this sectionLa ventaja de Ultralytics#
Aunque tanto DAMO-YOLO como PP-YOLOE+ ofrecen ventajas localizadas específicas, los desarrolladores que buscan la máxima versatilidad, velocidad y facilidad de uso recurren constantemente a la Plataforma Ultralytics.
Al actualizar tu pipeline de visión artificial, Ultralytics YOLO26 proporciona una experiencia de desarrollador inigualable:
- Hasta un 43% más de rapidez en inferencia por CPU: Con la eliminación completa de la pérdida focal de distribución (DFL), YOLO26 es notablemente rápido en CPUs de borde y dispositivos IoT de baja potencia.
- Detección mejorada de objetos pequeños: La integración de las funciones de pérdida ProgLoss y STAL proporciona mejoras drásticas en el reconocimiento de objetos pequeños, vital para imágenes aéreas.
- Versatilidad extensa: A diferencia de PP-YOLOE+, que se centra estrictamente en la detección, YOLO26 maneja sin problemas la estimación de poses, cajas delimitadoras orientadas (OBB) y segmentación semántica con mejoras arquitectónicas específicas para cada tarea.
Link to this sectionConclusión#
DAMO-YOLO y PP-YOLOE+ representan hitos importantes en la evolución de la detección de objetos sin anclas. DAMO-YOLO superó los límites de la búsqueda de arquitectura neuronal para la latencia en el borde, mientras que PP-YOLOE+ demostró el poder del preentrenamiento a gran escala.
Sin embargo, para los desarrolladores que buscan el mejor equilibrio entre velocidad, precisión y simplicidad de despliegue, el modelo Ultralytics YOLO26 es la elección definitiva. Su arquitectura sin NMS, su robusta API de Python y su integración perfecta con herramientas como Weights & Biases y TensorRT aseguran que tus proyectos pasen sin problemas del prototipo a la producción.
¿Listo para empezar? Explora la Guía de inicio rápido de Ultralytics o compara más modelos en nuestro resumen de YOLO11 vs DAMO-YOLO.