Ir al contenido

DAMO-YOLO vs. YOLOv9: Una comparación técnica

Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la necesidad de precisión, velocidad y eficiencia computacional. Esta página ofrece una comparación técnica detallada entre dos modelos potentes: DAMO-YOLO de Alibaba Group y YOLOv9. Exploraremos sus innovaciones arquitectónicas, métricas de rendimiento y casos de uso ideales para ayudarle a seleccionar el mejor modelo para sus proyectos de visión artificial. Si bien ambos modelos introducen avances significativos, YOLOv9, particularmente dentro del ecosistema de Ultralytics, ofrece una combinación convincente de rendimiento de última generación y características fáciles de usar para los desarrolladores.

DAMO-YOLO: Un método rápido y preciso de Alibaba

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO es un modelo de detección de objetos desarrollado por Alibaba que se centra en lograr un equilibrio superior entre velocidad y precisión. Introduce varias técnicas novedosas para mejorar el rendimiento en una amplia gama de hardware, desde dispositivos de borde hasta GPU en la nube. La arquitectura es el resultado de una metodología "única para todos", donde se entrena una superred y luego se derivan subredes especializadas utilizando la Búsqueda de Arquitectura Neuronal (NAS) para adaptarse a diferentes restricciones computacionales.

Arquitectura y Características Clave

La arquitectura de DAMO-YOLO incorpora varias innovaciones clave:

  • Backbones Generados por NAS: En lugar de un backbone diseñado manualmente, DAMO-YOLO utiliza backbones descubiertos a través de NAS, que están optimizados para la eficiencia en la extracción de características.
  • Cuello de Botella RepGFPN Eficiente: Emplea un nuevo cuello de botella de red de pirámide de características, RepGFPN, que está diseñado para una fusión de características eficiente y es compatible con técnicas de reparametrización para aumentar la velocidad durante la inferencia.
  • ZeroHead: Un head de detección simplificado y ligero que reduce la sobrecarga computacional manteniendo un alto rendimiento.
  • Asignación de Etiquetas AlignedOTA: Una estrategia de asignación de etiquetas mejorada que aborda los problemas de desalineación entre las tareas de clasificación y regresión, lo que conduce a predicciones más precisas.
  • Mejora por Destilación: Se utiliza la destilación del conocimiento para transferir el conocimiento de un modelo maestro más grande a un modelo estudiante más pequeño, lo que mejora aún más la precisión de los modelos compactos.

Fortalezas

  • Alta velocidad en GPU: DAMO-YOLO está altamente optimizado para una inferencia rápida en las GPUs, lo que lo hace adecuado para el procesamiento de vídeo en tiempo real y otras aplicaciones sensibles a la latencia.
  • Modelos Escalables: Ofrece una familia de modelos (Tiny, Small, Medium, Large) que proporciona un claro equilibrio entre velocidad y precisión, lo que permite a los desarrolladores elegir el que mejor se adapte a su hardware.
  • Técnicas innovadoras: El uso de NAS, un neck eficiente y un asignador de etiquetas avanzado demuestra un enfoque moderno para el diseño de detectores.

Debilidades

  • Especificidad de la tarea: DAMO-YOLO está diseñado principalmente para la detección de objetos y carece de la versatilidad incorporada para otras tareas como la segmentación de instancias o la estimación de pose que se encuentran en marcos integrales como Ultralytics.
  • Ecosistema y usabilidad: Si bien es potente, su ecosistema es menos maduro que el de Ultralytics. Los usuarios pueden encontrar que requiere más esfuerzo para el entrenamiento, la implementación y la integración en los pipelines de producción.
  • Soporte de la comunidad: La comunidad y los recursos disponibles podrían ser más pequeños en comparación con modelos más ampliamente adoptados como los de la serie YOLO.

Más información sobre DAMO-YOLO

YOLOv9: Avance en precisión y eficiencia

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentación: https://docs.ultralytics.com/models/yolov9/

YOLOv9 representa un avance significativo en la detección de objetos en tiempo real, introduciendo conceptos innovadores para abordar la pérdida de información en las redes neuronales profundas. Sus innovaciones principales, la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN), le permiten lograr una precisión superior y eficiencia de parámetros. Cuando se integra en el marco de Ultralytics, YOLOv9 combina este rendimiento de última generación con una experiencia de usuario sin igual.

Arquitectura y Características Clave

La fortaleza de YOLOv9 radica en sus novedosos componentes arquitectónicos:

  • Información de Gradiente Programable (PGI): Este mecanismo ayuda a mitigar el problema del cuello de botella de la información generando gradientes fiables a través de una rama reversible auxiliar, asegurando que las capas más profundas reciban información de entrada completa para actualizaciones precisas.
  • Red Generalizada de Agregación de Capas Eficiente (GELAN): Una arquitectura de red avanzada que se basa en los principios de CSPNet y ELAN. GELAN está diseñada para una utilización óptima de los parámetros y eficiencia computacional, lo que la hace potente y rápida.

Fortalezas

  • Precisión de última generación: YOLOv9 establece un nuevo estándar de precisión en el conjunto de datos COCO, superando a muchos modelos anteriores con costes computacionales similares o inferiores.
  • Eficiencia Superior: Como se muestra en la tabla de rendimiento, los modelos YOLOv9 a menudo logran una mayor precisión con menos parámetros y FLOPs en comparación con los competidores, lo que los hace ideales para su implementación en una variedad de hardware, desde dispositivos edge hasta servidores potentes.
  • Ecosistema bien mantenido: Integrado en el ecosistema de Ultralytics, YOLOv9 se beneficia de la facilidad de uso a través de una API de Python y una CLI optimizadas, una amplia documentación y un apoyo activo de la comunidad.
  • Eficiencia en el entrenamiento: La implementación de Ultralytics garantiza procesos de entrenamiento eficientes con pesos pre-entrenados disponibles, menores requisitos de memoria y una integración perfecta con herramientas como Ultralytics HUB para el entrenamiento sin código y MLOps.
  • Versatilidad: Si bien el artículo original se centra en la detección, la arquitectura GELAN subyacente es altamente adaptable. El ecosistema de Ultralytics extiende sus capacidades a otras tareas de visión, lo que se alinea con el soporte multi-tarea que se encuentra en modelos como YOLOv8.

Debilidades

  • Modelo más reciente: Al ser una arquitectura más reciente, el número de tutoriales aportados por la comunidad y las integraciones de terceros aún está creciendo, aunque su inclusión en la biblioteca de Ultralytics ha acelerado significativamente su adopción.
  • Requisitos de recursos: Las variantes YOLOv9 más grandes, como YOLOv9-E, requieren recursos computacionales sustanciales para el entrenamiento, aunque proporcionan una precisión de primer nivel para su tamaño.

Más información sobre YOLOv9

Análisis de rendimiento: Precisión y velocidad

Al comparar DAMO-YOLO y YOLOv9, queda claro que ambas familias de modelos superan los límites de la detección de objetos en tiempo real. Sin embargo, una mirada más de cerca a las métricas revela la eficiencia superior de YOLOv9.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

De la tabla, podemos extraer varias conclusiones:

  • Precisión: Los modelos YOLOv9 alcanzan consistentemente puntuaciones mAP más altas. Por ejemplo, YOLOv9m supera a DAMO-YOLOl con un 51.4 mAP frente a 50.8 mAP. El modelo más grande, YOLOv9-E, alcanza un impresionante 55.6 mAP, estableciendo un nuevo punto de referencia.
  • Eficiencia: YOLOv9 demuestra una notable eficiencia en parámetros y computación. YOLOv9m ofrece una mejor precisión que DAMO-YOLOl utilizando menos de la mitad de los parámetros (20.0M vs. 42.1M) y menos FLOPs (76.3B vs. 97.3B). Esto convierte a YOLOv9 en una opción más eficiente para lograr un alto rendimiento.
  • Velocidad de inferencia: En una GPU T4, las velocidades de inferencia son competitivas. Por ejemplo, DAMO-YOLOs (3.45 ms) y YOLOv9s (3.54 ms) tienen una velocidad muy similar, pero YOLOv9s logra un mAP más alto (46.8 frente a 46.0).

Conclusión: ¿Qué modelo debería elegir?

Tanto DAMO-YOLO como YOLOv9 son excelentes detectores de objetos con puntos fuertes únicos. DAMO-YOLO ofrece una solución rápida y escalable con técnicas innovadoras como NAS y un cuello RepGFPN eficiente, lo que lo convierte en una opción sólida para aplicaciones que requieren una inferencia de GPU de alta velocidad.

Sin embargo, para la mayoría de los desarrolladores e investigadores, YOLOv9 es la opción recomendada, especialmente cuando se utiliza dentro del ecosistema de Ultralytics. No solo ofrece una precisión de última generación y una eficiencia superior, sino que también proporciona ventajas significativas en cuanto a usabilidad y soporte. El framework de Ultralytics abstrae la complejidad, ofreciendo un flujo de trabajo optimizado desde el entrenamiento hasta la implementación. La combinación de PGI y GELAN en YOLOv9 proporciona una arquitectura más avanzada y eficiente, mientras que el robusto ecosistema de Ultralytics garantiza que tenga las herramientas, la documentación y el soporte de la comunidad necesarios para tener éxito.

Explorar Otros Modelos

Si está interesado en cómo se comparan DAMO-YOLO y YOLOv9 con otros modelos líderes, asegúrese de consultar estas otras comparaciones en la documentación de Ultralytics:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios