YOLO11 vs DAMO-YOLO: Una comparación técnica

En el panorama de la visión artificial, que evoluciona rápidamente, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta página presenta una comparación técnica detallada entre Ultralytics YOLO11 y DAMO-YOLO, dos arquitecturas de alto rendimiento diseñadas para la velocidad y la precisión. Si bien DAMO-YOLO introduce técnicas innovadoras de la investigación académica, YOLO11 destaca como una solución versátil y lista para la producción respaldada por un ecosistema robusto.

Resumen Ejecutivo

Ultralytics YOLO11 representa la última evolución de la serie YOLO, optimizando la inferencia en tiempo real en diversos hardware, desde dispositivos de borde hasta servidores en la nube. Es compatible de forma nativa con múltiples tareas, incluyendo la detección, la segmentación y la estimación de la pose, lo que la convierte en una solución unificada para pipelines de IA complejos.

DAMO-YOLO, desarrollado por Alibaba Group, se centra en equilibrar la velocidad de detección y la precisión utilizando la búsqueda de arquitectura neuronal (NAS) y novedosas técnicas de fusión de características. Es principalmente un detector orientado a la investigación optimizado para el rendimiento de la GPU.

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Docs:https://docs.ultralytics.com/models/yolo11/

YOLO11 refina el estado del arte introduciendo mejoras arquitectónicas que mejoran la extracción de características al tiempo que mantienen una alta eficiencia. Utiliza un backbone CSPNet modificado y un cabezal avanzado sin anclajes para ofrecer una precisión superior con menos parámetros en comparación con las generaciones anteriores.

Características Clave y Puntos Fuertes

Versatilidad: A diferencia de muchos modelos especializados, YOLO11 es un framework multi-tarea. Admite la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de pose y los bounding boxes orientados (OBB).
Arquitectura refinada: Incorpora bloques C3k2 y módulos C2PSA (Cross-Stage Partial with Spatial Attention) para capturar patrones complejos de manera efectiva, mejorando el rendimiento en objetos pequeños y fondos difíciles.
Amplio Soporte de Hardware: Optimizado para la inferencia en CPU y GPU, ofreciendo variadas escalas de modelos (Nano a X-Large) para ajustarse a las limitaciones que van desde Raspberry Pi hasta clústeres NVIDIA A100.
Facilidad de uso: La API de python y la CLI de Ultralytics permiten a los desarrolladores entrenar, validar e implementar modelos con un código mínimo.

Ecosistema listo para producción

YOLO11 se integra perfectamente con el ecosistema de Ultralytics, incluyendo herramientas para la gestión de datos, el entrenamiento de modelos a través de Ultralytics HUB y exportaciones con un solo clic a formatos como ONNX, TensorRT y CoreML.

Más información sobre YOLO11

DAMO-YOLO

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO está diseñado con un enfoque en la baja latencia y el alto rendimiento para aplicaciones industriales. Introduce varios componentes de "nueva tecnología" a la familia YOLO para superar los límites de las compensaciones entre velocidad y precisión.

Innovaciones Arquitectónicas

Backbone MAE-NAS: Utiliza la Búsqueda de Arquitectura Neuronal (NAS) guiada por el Error Absoluto Medio (MAE) para descubrir automáticamente una topología de red eficiente.
RepGFPN Eficiente: Una Red Piramidal de Características Generalizada (GFPN) que emplea la reparametrización, lo que permite una fusión de características compleja durante el entrenamiento mientras se colapsa en una estructura más rápida y simple durante la inferencia.
ZeroHead: Un cabezal de detección ligero que desacopla las tareas de clasificación y regresión, reduciendo significativamente la sobrecarga computacional de las capas de salida final.
AlignedOTA: Una estrategia de asignación de etiquetas mejorada que resuelve la desalineación entre la confianza de la clasificación y la precisión de la regresión durante el entrenamiento.

Si bien DAMO-YOLO destaca en métricas específicas, es principalmente un repositorio de investigación. Carece de la extensa documentación, las actualizaciones continuas y el amplio soporte de la comunidad que se encuentran en el ecosistema de Ultralytics.

Más información sobre DAMO-YOLO

Métricas de rendimiento: Cara a cara

La siguiente tabla compara el rendimiento de YOLO11 y DAMO-YOLO en el conjunto de datos COCO val2017. Las métricas clave incluyen la precisión media promedio (mAP) y la velocidad de inferencia en hardware de CPU y GPU.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Análisis de resultados

Dominio de la eficiencia: YOLO11 demuestra una eficiencia de parámetros superior. Por ejemplo, el modelo YOLO11m alcanza 51.5 mAP con solo 20.1 millones de parámetros, mientras que el comparable DAMO-YOLOm se queda atrás con 49.2 mAP y una huella mayor de 28.2 millones de parámetros.
Precisión máxima: La variante más grande, YOLO11x, alcanza un notable 54.7 mAP, superando el modelo DAMO-YOLO más grande listado. Esto convierte a YOLO11 en la opción preferible para tareas de alta precisión como imágenes médicas o detección de fallos.
Implementación en el borde: El modelo YOLO11n (Nano) es excepcionalmente ligero (2.6M parámetros) y rápido (1.5 ms en T4), lo que lo hace perfecto para sistemas integrados donde la memoria es escasa. En contraste, el modelo DAMO-YOLO más pequeño es significativamente más pesado (8.5M parámetros).
Rendimiento de la CPU: Ultralytics proporciona benchmarks de CPU transparentes, destacando la viabilidad de YOLO11 para implementaciones sin aceleradores dedicados. DAMO-YOLO no informa oficialmente de las velocidades de la CPU, lo que limita su evaluación para aplicaciones IoT de bajo consumo.

Análisis Técnico en Profundidad

Entrenamiento y Arquitectura

DAMO-YOLO se basa en gran medida en la Búsqueda de Arquitectura Neuronal (NAS) para definir su backbone. Si bien esto puede producir estructuras teóricamente óptimas, a menudo resulta en bloques irregulares que pueden no ser compatibles con el hardware en todos los dispositivos. En contraste, YOLO11 utiliza bloques refinados y hechos a mano (C3k2, C2PSA) que están diseñados intuitivamente para bibliotecas de aceleración estándar de GPU y CPU.

YOLO11 también enfatiza la eficiencia del entrenamiento. Converge rápidamente gracias a los hiperparámetros optimizados y las estrategias de aumento de datos. Sus requisitos de memoria durante el entrenamiento son generalmente más bajos que los de las arquitecturas complejas basadas en transformadores o basadas en NAS, lo que permite a los investigadores entrenar modelos eficaces en hardware de consumo.

Ecosistema y usabilidad

Uno de los diferenciadores más significativos es el ecosistema. DAMO-YOLO es principalmente un repositorio de código para reproducir los resultados de artículos de investigación.

Ultralytics YOLO11, sin embargo, es una plataforma de servicio completo:

Documentación: Guías exhaustivas sobre cada aspecto del pipeline.
Integraciones: Soporte nativo para MLFlow, TensorBoard y Weights & Biases para el seguimiento de experimentos.
Comunidad: Una comunidad masiva y activa en GitHub y Discord que garantiza que los errores se corrijan rápidamente y que las preguntas sean respondidas.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

Recomendaciones de casos de uso

¿Cuándo elegir Ultralytics YOLO11?

Implementación en el mundo real: Si necesita implementar en hardware diverso (iOS, Android, Edge TPU, Jetson), las capacidades de exportación de YOLO11 son inigualables.
Pipelines de Visión Complejos: Cuando su proyecto requiere algo más que bounding boxes, como el tracking de objetos o la estimación de la pose corporal, YOLO11 se encarga de esto de forma nativa.
Prototipado Rápido: La facilidad de uso permite a los desarrolladores pasar de los datos a una demostración funcional en minutos.
Limitaciones de recursos: Los modelos Nano y Small ofrecen la mejor relación precisión-tamaño para dispositivos alimentados por baterías.

¿Cuándo considerar DAMO-YOLO?

Investigación Académica: Los investigadores que estudian la eficacia de NAS en la detección de objetos o las técnicas de reparametrización podrían encontrar en DAMO-YOLO una valiosa línea de base.
Configuraciones Específicas de GPU: En escenarios donde los bloques arquitectónicos específicos de DAMO-YOLO se alinean perfectamente con la jerarquía de caché de un acelerador objetivo, puede ofrecer un rendimiento competitivo.

Conclusión

Si bien DAMO-YOLO introduce conceptos académicos impresionantes como MAE-NAS y RepGFPN, Ultralytics YOLO11 sigue siendo la opción superior para la gran mayoría de los desarrolladores y empresas. Su combinación de precisión de última generación, arquitectura ligera y un ecosistema próspero garantiza que los proyectos no solo tengan un buen rendimiento, sino que también sean mantenibles y escalables.

Para los desarrolladores que buscan una solución de visión artificial fiable, versátil y de alto rendimiento, YOLO11 ofrece las herramientas y métricas necesarias para tener éxito en 2025 y más allá.

Explore otras comparaciones de modelos

Para comprender mejor el panorama de los modelos de detección de objetos, explore estas comparaciones relacionadas: