Ir al contenido

DAMO-YOLO vs. YOLO11: Una comparación técnica

Esta página proporciona una comparación técnica detallada entre dos modelos de detección de objetos de última generación: DAMO-YOLO, desarrollado por Alibaba Group, y Ultralytics YOLO11. Si bien ambos modelos están diseñados para la detección de objetos en tiempo real y de alto rendimiento, emplean filosofías arquitectónicas distintas y sobresalen en diferentes áreas. Analizaremos sus diferencias arquitectónicas, métricas de rendimiento y aplicaciones ideales para ayudarte a tomar una decisión informada para tus proyectos de visión artificial.

DAMO-YOLO

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Documentación: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO es un método de detección de objetos rápido y preciso desarrollado por Alibaba Group. Introduce varias técnicas novedosas para superar los límites de rendimiento de los detectores estilo YOLO. El modelo tiene como objetivo lograr un equilibrio superior entre precisión y latencia, particularmente en hardware GPU.

Más información sobre DAMO-YOLO

Arquitectura y Características Clave

La arquitectura de DAMO-YOLO es una combinación de componentes de vanguardia diseñados para trabajar en sinergia:

  • Backbones impulsados por NAS: Aprovecha la Búsqueda de Arquitectura Neuronal (NAS) para generar backbones eficientes (como GiraffeNet) que están optimizados para hardware específico, reduciendo el costo computacional mientras se mantienen sólidas capacidades de extracción de características.
  • Neck RepGFPN Eficiente: El modelo incorpora una estructura de neck eficiente basada en Redes Piramidales de Características Generalizadas (GFPN) con técnicas de reparametrización para mejorar la fusión de características multiescala.
  • ZeroHead: DAMO-YOLO introduce un encabezado de detección ligero y sin anclajes llamado ZeroHead, que desacopla las tareas de clasificación y regresión y reduce la sobrecarga computacional.
  • Asignación de etiquetas AlignedOTA: Utiliza una estrategia de asignación de etiquetas mejorada llamada AlignedOTA, que empareja dinámicamente los objetos reales con las predicciones más adecuadas basándose tanto en las puntuaciones de clasificación como en las de localización, lo que lleva a una mejor convergencia del entrenamiento.
  • Destilación del conocimiento: El proceso de entrenamiento se mejora con la destilación del conocimiento, donde un modelo maestro más grande y potente guía el entrenamiento de un modelo estudiante más pequeño para aumentar su precisión final.

Fortalezas

  • Alta precisión en GPU: DAMO-YOLO alcanza puntuaciones mAP impresionantes, particularmente en sus variantes más grandes, lo que demuestra un sólido rendimiento en el conjunto de datos COCO.
  • Inferencia rápida en GPU: El modelo está altamente optimizado para la inferencia en GPU, ofreciendo baja latencia, lo cual es crítico para aplicaciones en tiempo real que se ejecutan en hardware de gráficos dedicado.
  • Técnicas innovadoras: Muestra la eficacia de técnicas modernas como NAS, la asignación avanzada de etiquetas y la destilación en la detección de objetos.

Debilidades

  • Versatilidad limitada: DAMO-YOLO está diseñado principalmente para la detección de objetos. Carece de soporte nativo para otras tareas de visión artificial como la segmentación de instancias, la estimación de poses o la clasificación, que son estándar en frameworks como Ultralytics.
  • Ecosistema Complejo: El repositorio y la documentación, aunque funcionales, están menos optimizados en comparación con el ecosistema de Ultralytics. Esto puede presentar una curva de aprendizaje más pronunciada para los nuevos usuarios.
  • Enfoque en el hardware: Su rendimiento se evalúa principalmente en GPU, con información limitada sobre el rendimiento de la CPU, lo que la convierte en una opción menos flexible para la implementación en solo CPU o en diversos dispositivos de borde.

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organización: Ultralytics
Fecha: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 es la última evolución de la renombrada serie YOLO (You Only Look Once), que representa el estado del arte en la detección de objetos en tiempo real y más allá. Se basa en los éxitos de sus predecesores como YOLOv8, ofreciendo una mayor precisión, velocidad y versatilidad dentro de un ecosistema maduro y fácil de usar.

Más información sobre YOLO11

Arquitectura y Características Clave

YOLO11 presenta una arquitectura sin anclajes de una sola etapa refinada que está altamente optimizada para un equilibrio excepcional de rendimiento y eficiencia. Su diseño se centra en la extracción de características optimizada y una estructura de red ligera, lo que reduce el recuento de parámetros y la carga computacional. Esto hace que YOLO11 sea muy adaptable para su despliegue en una amplia gama de hardware, desde potentes servidores en la nube hasta dispositivos de borde con recursos limitados como la NVIDIA Jetson.

Sin embargo, el verdadero poder de YOLO11 reside en su integración con el ecosistema Ultralytics bien mantenido, que proporciona ventajas significativas:

  • Facilidad de uso: Una API de Python sencilla y una CLI potente hacen que el entrenamiento, la validación y la inferencia sean increíblemente directos. La extensa documentación proporciona una guía clara para usuarios de todos los niveles.
  • Versatilidad: A diferencia de DAMO-YOLO, YOLO11 es un modelo multi-tarea que admite de forma nativa la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de pose y las cajas delimitadoras orientadas (OBB) dentro de un único framework unificado.
  • Equilibrio entre rendimiento: Los modelos YOLO11 ofrecen un excelente equilibrio entre velocidad y precisión tanto en CPU como en GPU, lo que garantiza una implementación flexible y eficiente en diversos escenarios del mundo real.
  • Eficiencia en el entrenamiento: El framework está optimizado para tiempos de entrenamiento rápidos y tiene menores requisitos de memoria en comparación con arquitecturas más complejas. Los pesos pre-entrenados disponibles aceleran los flujos de trabajo de entrenamiento personalizados.
  • Ecosistema Robusto: Los usuarios se benefician de un desarrollo activo, un sólido apoyo de la comunidad a través de GitHub y Discord, actualizaciones frecuentes y una integración perfecta con herramientas como Ultralytics HUB para MLOps de extremo a extremo.

Fortalezas

  • Rendimiento de última generación: Alcanza las mejores puntuaciones mAP con una arquitectura optimizada tanto para la velocidad como para la precisión.
  • Versatilidad incomparable: Un único framework de modelo puede gestionar cinco tareas de visión diferentes, proporcionando una solución integral para proyectos complejos.
  • Usabilidad superior: La API optimizada, la documentación clara y el ecosistema integrado hacen que sea excepcionalmente fácil comenzar a usarlo e implementarlo.
  • Flexibilidad de hardware: Altamente eficiente tanto en CPU como en GPU, lo que lo hace adecuado para una gama más amplia de objetivos de implementación.
  • Activo y con soporte: Respaldado por un equipo dedicado en Ultralytics y una comunidad de código abierto grande y activa.

Debilidades

  • Los modelos más grandes como YOLO11x requieren recursos computacionales sustanciales, aunque siguen siendo altamente eficientes para su clase de rendimiento.

Comparación de rendimiento

La siguiente tabla proporciona una comparación directa de las métricas de rendimiento para DAMO-YOLO y YOLO11 en el conjunto de datos COCO val.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

De los datos, podemos extraer varias conclusiones:

  • Precisión: Si bien DAMO-YOLO es competitivo, los modelos YOLO11, particularmente las variantes de tamaño mediano a grande (YOLO11m, l, x), alcanzan puntuaciones mAP más altas, con YOLO11x alcanzando un impresionante 54.7 mAP.
  • Velocidad en GPU: DAMO-YOLO muestra una latencia en GPU muy competitiva. Sin embargo, los modelos YOLO11 también están altamente optimizados, con YOLO11n logrando la velocidad de GPU más rápida con 1.5 ms.
  • Velocidad de la CPU: Una ventaja fundamental de YOLO11 es su excelente y bien documentado rendimiento de la CPU. La disponibilidad de puntos de referencia de la CPU la convierte en una opción fiable para las aplicaciones en las que las GPU no están disponibles. DAMO-YOLO carece de métricas oficiales de velocidad de la CPU, lo que limita su aplicabilidad.
  • Eficiencia: Los modelos YOLO11 son excepcionalmente eficientes. Por ejemplo, YOLO11l alcanza un 53.4 mAP con solo 25.3M parámetros, superando a DAMO-YOLOl tanto en precisión como en eficiencia de parámetros. YOLO11n establece el estándar para modelos ligeros con solo 2.6M parámetros.

Conclusión y recomendación

DAMO-YOLO es un potente detector de objetos que muestra impresionantes innovaciones académicas y ofrece un sólido rendimiento en hardware GPU. Es una excelente opción para los investigadores que exploran conceptos arquitectónicos avanzados o para aplicaciones implementadas en entornos ricos en GPU donde solo se requiere la detección de objetos.

Sin embargo, para la gran mayoría de los desarrolladores, investigadores y empresas, Ultralytics YOLO11 es la opción clara y superior. No solo ofrece una precisión y velocidad de última generación, sino que lo hace dentro de un marco de trabajo maduro, fácil de usar e increíblemente versátil. La compatibilidad nativa con múltiples tareas, el excelente rendimiento tanto en CPU como en GPU y el robusto ecosistema de documentación, soporte de la comunidad y herramientas de MLOps como Ultralytics HUB hacen de YOLO11 una solución más práctica, escalable y potente para construir aplicaciones de visión artificial del mundo real.

Explorar Otros Modelos

Si está interesado en cómo se comparan DAMO-YOLO y YOLO11 con otros modelos líderes, consulte estas otras comparaciones:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios