YOLO11 vs DAMO-YOLO: Una comparación técnica
Esta página proporciona una comparación técnica detallada entre dos modelos de detección de objetos de última generación: Ultralytics YOLO11 y DAMO-YOLO. Analizaremos sus diferencias arquitectónicas, métricas de rendimiento y aplicaciones ideales para ayudarte a tomar una decisión informada para tus proyectos de visión artificial. Si bien ambos modelos están diseñados para la detección de objetos de alto rendimiento, emplean enfoques distintos y exhiben diferentes fortalezas, con YOLO11 ofreciendo una versatilidad superior y un ecosistema más robusto para la implementación en el mundo real.
Ultralytics YOLO11
Autores: Glenn Jocher, Jing Qiu
Organización: Ultralytics
Fecha: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 es el último avance en la reconocida serie YOLO (You Only Look Once), célebre por sus capacidades de detección de objetos rápidas y eficaces. YOLO11 mejora las iteraciones anteriores de YOLO con refinamientos arquitectónicos destinados a impulsar tanto la precisión como la velocidad. Conserva el método de detección de una sola etapa, procesando imágenes en una sola pasada para un rendimiento en tiempo real.
Una ventaja clave de YOLO11 es su versatilidad. A diferencia de DAMO-YOLO, que se centra principalmente en la detección, YOLO11 es un framework multi-tarea que soporta detección de objetos, segmentación de instancias, clasificación de imágenes y estimación de poses. Esto la convierte en una solución integral para pipelines complejos de visión artificial.
Arquitectura y Características Clave
YOLO11 se centra en equilibrar el tamaño del modelo y la precisión a través de mejoras arquitectónicas. Estas incluyen capas de extracción de características refinadas para una captura de características más rica y una red optimizada para reducir los costes computacionales, lo que conduce a modelos más rápidos y con parámetros más eficientes. Su diseño adaptable permite el despliegue en una amplia gama de hardware, desde dispositivos de borde como la NVIDIA Jetson hasta potentes servidores en la nube.
Es fundamental destacar que YOLO11 se beneficia enormemente del ecosistema bien mantenido de Ultralytics. Esto proporciona una ventaja significativa para desarrolladores e investigadores:
- Facilidad de uso: Una API de Python sencilla, una CLI clara y una extensa documentación facilitan la puesta en marcha.
- Flujo de trabajo integrado: La integración perfecta con Ultralytics HUB simplifica la gestión, el entrenamiento y la implementación de conjuntos de datos, optimizando todo el ciclo de vida de MLOps.
- Eficiencia en el entrenamiento: Procesos de entrenamiento eficientes, ponderaciones preentrenadas disponibles en conjuntos de datos como COCO y, por lo general, menores requisitos de memoria en comparación con otras arquitecturas complejas.
- Desarrollo activo: Actualizaciones frecuentes, sólido soporte de la comunidad a través de GitHub y Discord, y numerosas integraciones con herramientas como TensorRT y OpenVINO.
DAMO-YOLO
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Documentación: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO es un modelo de detección de objetos desarrollado por Alibaba Group que introduce varias técnicas novedosas para lograr un equilibrio sólido entre velocidad y precisión. Forma parte de la familia YOLO, pero incorpora componentes arquitectónicos únicos derivados de conceptos de investigación avanzados.
Arquitectura y Características Clave
La arquitectura de DAMO-YOLO se basa en varias innovaciones clave:
- Backbone MAE-NAS: Utiliza un enfoque de Búsqueda de Arquitectura Neuronal (NAS) para encontrar una estructura de backbone óptima, lo que resulta en una extracción de características eficiente.
- Cuello de Botella RepGFPN Eficiente: Emplea una red de pirámide de características generalizada con reparametrización para mejorar la fusión de características en diferentes escalas de manera efectiva.
- ZeroHead: El modelo utiliza un encabezado desacoplado y ligero que separa las tareas de clasificación y regresión con una sobrecarga mínima.
- Asignación de etiquetas AlignedOTA: Introduce una estrategia de asignación de etiquetas mejorada para alinear mejor los objetivos de clasificación y regresión durante el entrenamiento, lo que ayuda a aumentar la precisión.
Si bien estas características hacen de DAMO-YOLO un detector potente, su enfoque principal sigue siendo la detección de objetos. Carece del soporte integrado para otras tareas de visión como la segmentación o la estimación de pose que proporciona YOLO11. Además, su ecosistema es menos completo, con menos tutoriales oficiales, integraciones y una comunidad más pequeña en comparación con Ultralytics YOLO.
Más información sobre DAMO-YOLO
Rendimiento y benchmarks: Un análisis comparativo directo
El rendimiento de ambos modelos en el conjunto de datos COCO val2017 revela diferencias clave. YOLO11 demuestra consistentemente una precisión superior en tamaños de modelo comparables.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
De la tabla, podemos extraer varias conclusiones:
- Precisión: Los modelos YOLO11 alcanzan consistentemente puntuaciones mAP más altas que sus contrapartes DAMO-YOLO. Por ejemplo, YOLO11m alcanza 51.5 mAP, superando el 49.2 mAP de DAMO-YOLOm. El modelo más grande, YOLO11x, alcanza un mAP de 54.7, el más avanzado hasta la fecha.
- Eficiencia: Los modelos YOLO11 son más eficientes en cuanto a parámetros. YOLO11m logra una precisión superior con solo 20.1M de parámetros, en comparación con los 28.2M de DAMO-YOLOm.
- Velocidad de Inferencia: YOLO11n es el modelo más rápido tanto en CPU como en GPU, lo que lo hace ideal para escenarios de computación perimetral altamente limitados. En particular, Ultralytics proporciona benchmarks de CPU transparentes, una métrica crítica para muchas aplicaciones del mundo real que los resultados oficiales de DAMO-YOLO omiten.
Diferenciadores Clave y Casos de Uso
¿Cuándo elegir Ultralytics YOLO11?
YOLO11 es la opción ideal para proyectos que requieren:
- Capacidades Multi-Tarea: Si tu aplicación necesita algo más que detección de objetos, como segmentación de instancias o estimación de pose, YOLO11 proporciona un marco de trabajo unificado y eficiente.
- Facilidad de uso y desarrollo rápido: La documentación completa, la API sencilla y la plataforma integrada Ultralytics HUB aceleran significativamente el desarrollo y la implementación.
- Deployment Flexibility: Con un sólido rendimiento tanto en CPU como en GPU y una amplia gama de tamaños de modelos, YOLO11 se puede implementar en cualquier lugar, desde una Raspberry Pi hasta un servidor en la nube.
- Soporte y Mantenimiento Sólidos: El desarrollo activo y la gran comunidad garantizan que el framework se mantenga actualizado, fiable y con buen soporte.
¿Cuándo considerar DAMO-YOLO?
DAMO-YOLO podría considerarse para:
- Investigación académica: Sus novedosos componentes arquitectónicos, como RepGFPN y AlignedOTA, lo convierten en un modelo interesante para los investigadores que exploran nuevas técnicas de detección de objetos.
- Implementaciones específicas para GPU: Para aplicaciones que tienen garantizado ejecutarse en GPU y solo requieren detección de objetos, DAMO-YOLO ofrece velocidades de inferencia competitivas.
Conclusión
Si bien DAMO-YOLO presenta innovaciones académicas interesantes para la detección de objetos, Ultralytics YOLO11 destaca como la opción superior para la gran mayoría de las aplicaciones del mundo real. Su mayor precisión, mejor equilibrio de rendimiento e inigualable versatilidad la convierten en una herramienta más potente y práctica.
La principal ventaja de YOLO11 no radica solo en su rendimiento de última generación, sino en el ecosistema robusto, fácil de usar y bien mantenido que lo rodea. Esta combinación permite a los desarrolladores e investigadores construir e implementar soluciones avanzadas de visión artificial de forma más rápida y eficaz. Para los proyectos que exigen fiabilidad, escalabilidad y un conjunto de características completo, YOLO11 es el claro ganador.
Explore otras comparaciones de modelos
Si te interesa saber cómo se comparan estos modelos con otros, consulta nuestras otras páginas de comparación:
- YOLO11 vs. YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLO11 vs. YOLOv10
- DAMO-YOLO vs. YOLOv9
- Explore otros modelos como EfficientDet y YOLOX.