DAMO-YOLO vs. YOLO11: Una comparación técnica

En el panorama de la visión artificial, que evoluciona rápidamente, elegir el modelo de detección de objetos adecuado es fundamental para el éxito de la aplicación. Esta comparación exhaustiva analiza dos arquitecturas significativas: DAMO-YOLO, desarrollada por Alibaba Group, y Ultralytics YOLO11, el modelo de última generación de Ultralytics. Si bien ambos modelos pretenden optimizar el equilibrio entre velocidad y precisión, sirven para diferentes propósitos principales y ofrecen distintas ventajas según el escenario de implementación.

Esta guía proporciona una visión en profundidad de sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudar a los desarrolladores e investigadores a tomar decisiones informadas.

DAMO-YOLO

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Documentación:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO es un framework de detección de objetos que integra varias tecnologías de vanguardia para lograr un alto rendimiento. Se centra en reducir la latencia manteniendo una precisión competitiva a través de una serie de innovaciones arquitectónicas impulsadas por la investigación de Alibaba.

Más información sobre DAMO-YOLO

Arquitectura e innovación

DAMO-YOLO introduce un enfoque de "Destilación y Selección" e incorpora los siguientes componentes clave:

Backbone MAE-NAS: Utilizando la Búsqueda de Arquitectura Neuronal (NAS), el backbone se optimiza bajo restricciones específicas para asegurar una extracción de características eficiente.
RepGFPN Eficiente: Una Red Piramidal de Características Generalizada (GFPN) que utiliza en gran medida mecanismos de reparametrización para mejorar la fusión de características en diferentes escalas sin incurrir en grandes costos computacionales durante la inferencia.
ZeroHead: Este cabezal de detección ligero desacopla las tareas de clasificación y regresión, con el objetivo de maximizar la velocidad de inferencia.
AlignedOTA: Una estrategia de asignación de etiquetas que resuelve la desalineación entre los objetivos de clasificación y regresión, mejorando la convergencia durante el entrenamiento.

Si bien DAMO-YOLO presenta avances teóricos impresionantes, es principalmente un marco orientado a la investigación centrado en la detección de objetos. Por lo general, carece del soporte multitarea nativo que se encuentra en ecosistemas más completos.

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Docs:https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 representa la cúspide de la visión artificial en tiempo real, refinando el legado de la serie YOLO con mejoras significativas en la arquitectura, la eficiencia y la facilidad de uso. Está diseñado no solo como un modelo, sino como una herramienta versátil para la implementación práctica en el mundo real en diversos entornos de hardware.

Más información sobre YOLO11

Arquitectura y ecosistema

YOLO11 se basa en éxitos anteriores con una arquitectura refinada sin anclajes. Cuenta con un backbone mejorado para una extracción de características superior y un diseño de cuello modificado que mejora el flujo de información en varias escalas.

Las ventajas clave del framework Ultralytics YOLO11 incluyen:

Versatilidad: A diferencia de muchos competidores, YOLO11 admite de forma nativa una amplia gama de tareas, incluyendo la detección de objetos, la segmentación de instancias, la estimación de pose, la clasificación de imágenes y los bounding boxes orientados (OBB).
Facilidad de uso: El modelo está envuelto en una API de python y una CLI fáciles de usar, lo que lo hace accesible tanto para principiantes como para expertos.
Eficiencia del Entrenamiento: Optimizado para una convergencia más rápida, YOLO11 utiliza funciones de aumento de datos y pérdida eficientes, lo que permite a los usuarios entrenar modelos personalizados en conjuntos de datos como COCO con una menor sobrecarga de recursos.
Ecosistema bien mantenido: Respaldado por el equipo de Ultralytics, los usuarios se benefician de actualizaciones frecuentes, documentación exhaustiva y una integración perfecta con herramientas de MLOps como Ultralytics HUB.

¿Sabías que?

YOLO11 está diseñado para ser altamente eficiente en dispositivos Edge AI. Su arquitectura optimizada asegura un bajo uso de memoria y altas velocidades de inferencia en hardware como NVIDIA Jetson y Raspberry Pi, convirtiéndolo en una opción superior para aplicaciones integradas en comparación con los modelos basados en transformadores más pesados.

Comparación de rendimiento

El siguiente gráfico y tabla ilustran las diferencias de rendimiento entre DAMO-YOLO y YOLO11. Ultralytics YOLO11 demuestra consistentemente una precisión superior (mAP) y velocidades de inferencia favorables, particularmente en el hardware de la CPU donde DAMO-YOLO carece de benchmarks oficiales.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Análisis de resultados

Precisión: YOLO11 supera significativamente a los modelos DAMO-YOLO comparables. Por ejemplo, YOLO11m alcanza un 51.5 mAP, notablemente más alto que DAMO-YOLOm con 49.2 mAP, a pesar de tener menos parámetros (20.1M vs 28.2M).
Velocidad de inferencia: En GPU (T4 TensorRT), YOLO11 ofrece una latencia altamente competitiva. YOLO11n es increíblemente rápida con 1.5 ms, lo que la hace adecuada para aplicaciones de latencia ultrabaja.
Rendimiento de la CPU: Una de las principales ventajas de los modelos Ultralytics es su transparencia con respecto al rendimiento de la CPU. YOLO11 está optimizado para la inferencia de la CPU a través de ONNX y OpenVINO, mientras que DAMO-YOLO se centra en gran medida en la GPU, a menudo dejando el rendimiento de la implementación de la CPU sin definir.
Eficiencia del modelo: YOLO11 demuestra un mejor equilibrio de parámetros con respecto al rendimiento. La eficiencia arquitectónica permite archivos de modelo más pequeños, lo que se traduce en descargas más rápidas y menores requisitos de almacenamiento en dispositivos edge.

Diferenciadores Clave y Casos de Uso

Fortalezas de Ultralytics YOLO11

Los desarrolladores que utilizan Ultralytics YOLO11 obtienen acceso a un entorno robusto de calidad para producción.

Equilibrio de rendimiento: La arquitectura del modelo está meticulosamente ajustada para ofrecer la mejor compensación entre la velocidad de inferencia y la precisión, crucial para el análisis de vídeo en tiempo real.
Capacidades Multi-Tarea: Si el alcance de su proyecto se expande desde la detection al track o la segmentación, YOLO11 gestiona esto sin problemas dentro del mismo código base.
Facilidad de uso: El ultralytics package simplifica todo el proceso. Cargar un modelo, ejecutar predicciones y exportar a formatos como CoreML, TFLite o TensorRT se puede hacer con tan solo unas pocas líneas de código.
Menores requisitos de memoria: En comparación con detectores basados en transformadores o arquitecturas no optimizadas, YOLO11 normalmente requiere menos memoria CUDA durante el entrenamiento, lo que permite a los investigadores entrenar en GPU de consumo.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Fortalezas de DAMO-YOLO

DAMO-YOLO es un fuerte competidor en los círculos de investigación académica.

Innovación en la investigación: Características como MAE-NAS y ZeroHead ofrecen interesantes perspectivas sobre la búsqueda de arquitecturas neuronales y el desacoplamiento de cabezales.
Rendimiento de la GPU: Para aplicaciones industriales específicas que se ejecutan exclusivamente en GPU compatibles, DAMO-YOLO proporciona un alto rendimiento, aunque a menudo se queda atrás de YOLO11 en eficiencia pura de precisión por parámetro.

Conclusión

Si bien DAMO-YOLO introduce conceptos novedosos del equipo de investigación de Alibaba, Ultralytics YOLO11 destaca como la opción superior para la gran mayoría de los desarrolladores y empresas. Su dominio se define no solo por las puntuaciones de mAP más altas y la inferencia más rápida, sino por el ecosistema integral que lo respalda.

Desde la facilidad de uso y la versatilidad hasta una base de código bien mantenida y un soporte activo de la comunidad, YOLO11 reduce la barrera de entrada para la creación de soluciones avanzadas de IA. Ya sea que se implemente en servidores en la nube o en dispositivos perimetrales con recursos limitados, YOLO11 proporciona la fiabilidad y el rendimiento necesarios para las aplicaciones modernas de visión artificial.

Explore otras comparaciones de modelos

Para comprender mejor cómo se comparan los modelos de Ultralytics con otras arquitecturas, explore nuestras páginas de comparación detalladas: