Ir al contenido

YOLOv7 vs. DAMO-YOLO: Un Análisis Técnico Detallado

Elegir el modelo de detección de objetos adecuado es un paso fundamental en cualquier proyecto de visión artificial. La decisión a menudo implica una compensación entre precisión, velocidad y coste computacional. Esta página proporciona una comparación técnica detallada entre YOLOv7 y DAMO-YOLO, dos modelos potentes que han realizado contribuciones significativas a la detección de objetos en tiempo real. Exploraremos sus diferencias arquitectónicas, métricas de rendimiento y casos de uso ideales para ayudarle a tomar una decisión informada para sus necesidades específicas.

YOLOv7: Alta precisión y velocidad

YOLOv7 se introdujo como un gran paso adelante en la familia YOLO, estableciendo nuevos estándares para los detectores de objetos en tiempo real mediante la optimización tanto de la eficiencia del entrenamiento como de la velocidad de inferencia sin aumentar los costes computacionales.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Características Clave

YOLOv7 introdujo varias innovaciones arquitectónicas para lograr un rendimiento de vanguardia. Un componente clave es la Red de Agregación de Capas Eficiente Extendida (E-ELAN) en el backbone del modelo, que mejora la capacidad de la red para aprender diversas características sin interrumpir la ruta del gradiente. El modelo también emplea técnicas avanzadas de escalado de modelos adaptadas para arquitecturas basadas en concatenación.

Una de sus contribuciones más significativas es el concepto de "trainable bag-of-freebies" (conjunto de trucos entrenables), que se refiere a estrategias de entrenamiento que aumentan la precisión sin aumentar el coste de la inferencia. Estas incluyen el uso de encabezados auxiliares para una supervisión más profunda y un entrenamiento guiado de lo general a lo específico. Estas técnicas, detalladas en el artículo de YOLOv7, permiten que el modelo logre resultados impresionantes en pruebas de referencia estándar.

Rendimiento y casos de uso

Tras su lanzamiento, YOLOv7 demostró un equilibrio excepcional entre velocidad y precisión. Destaca en escenarios que exigen tanto una detección rápida como una alta precisión, como el análisis de vídeo en tiempo real, los sistemas de conducción autónoma y la inspección industrial de alta resolución. Por ejemplo, en aplicaciones de ciudades inteligentes, YOLOv7 puede utilizarse para la gestión avanzada del tráfico o para potenciar la detección inmediata de amenazas en los sistemas de seguridad.

Fortalezas

  • Excelente Compensación Precisión-Velocidad: Proporciona una sólida combinación de mAP y velocidad de inferencia, lo que lo hace muy eficaz para tareas en tiempo real.
  • Entrenamiento eficiente: Aprovecha estrategias de entrenamiento avanzadas para mejorar el rendimiento sin aumentar las demandas computacionales durante la inferencia.
  • Rendimiento Comprobado: Resultados establecidos y bien documentados en conjuntos de datos estándar como MS COCO.

Debilidades

  • Complejidad arquitectónica: La combinación de E-ELAN y varias técnicas de entrenamiento puede ser compleja de entender y modificar.
  • Entrenamiento con uso intensivo de recursos: Si bien la inferencia es rápida, el entrenamiento de los modelos YOLOv7 más grandes requiere importantes recursos de la GPU.
  • Versatilidad limitada: Diseñado principalmente para la detección de objetos, con extensiones impulsadas por la comunidad para otras tareas, a diferencia de los modelos más nuevos con capacidades multi-tarea integradas.

Más información sobre YOLOv7

DAMO-YOLO: Velocidad y eficiencia para el Edge

DAMO-YOLO, desarrollado por Alibaba Group, es un modelo de detección de objetos diseñado para un rendimiento óptimo en una amplia gama de hardware, con un enfoque particular en la velocidad y la eficiencia para dispositivos edge.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

Arquitectura y Características Clave

DAMO-YOLO introduce varias técnicas novedosas para lograr su impresionante velocidad. Utiliza una red troncal generada a través de Neural Architecture Search (NAS), lo que resulta en un extractor de características altamente eficiente llamado GiraffeNet. El cuello de la red es un RepGFPN eficiente, que equilibra las capacidades de fusión de características con un bajo costo computacional.

Una característica destacada es el ZeroHead, un encabezado de detección simplificado que tiene cero parámetros para la clasificación y la regresión, lo que reduce significativamente la sobrecarga computacional. Además, DAMO-YOLO emplea AlignedOTA para la asignación dinámica de etiquetas y utiliza la destilación del conocimiento para mejorar el rendimiento de sus modelos más pequeños, haciéndolos rápidos y precisos.

Rendimiento y casos de uso

La principal ventaja de DAMO-YOLO es su excepcional velocidad de inferencia, especialmente con sus variantes más pequeñas (DAMO-YOLO-T/S). Esto lo convierte en un candidato ideal para aplicaciones donde la baja latencia es un requisito crítico, como el procesamiento en el dispositivo para aplicaciones móviles, la monitorización en tiempo real en la automatización industrial y la robótica. Su escalabilidad permite a los desarrolladores elegir un modelo que se ajuste a sus limitaciones de hardware específicas, desde potentes servidores en la nube hasta plataformas de borde con recursos limitados.

Fortalezas

  • Velocidad de Inferencia Excepcional: Los modelos más pequeños se encuentran entre los detectores de objetos más rápidos disponibles, ideales para requisitos de baja latencia.
  • Arquitectura Escalable: Ofrece una gama de modelos (Tiny, Small, Medium, Large) que se adaptan a diferentes presupuestos computacionales.
  • Diseño innovador: Incorpora ideas de vanguardia como backbones impulsados por NAS, necks eficientes y un head sin parámetros.

Debilidades

  • Precisión en modelos más grandes: Aunque son competitivos, los modelos DAMO-YOLO más grandes pueden no alcanzar la precisión máxima de las variantes de gama alta de YOLOv7.
  • Ecosistema y soporte: Al ser un proyecto impulsado por la investigación, es posible que no tenga el mismo nivel de documentación completa, soporte de la comunidad o herramientas integradas que los frameworks con respaldo comercial.

DAMO-YOLO en GitHub

Comparación directa: YOLOv7 vs. DAMO-YOLO

Al comparar directamente estos dos modelos, la principal diferencia radica en su filosofía de diseño. YOLOv7 supera los límites de lo posible para un detector en tiempo real en términos de precisión, aprovechando estrategias de entrenamiento complejas para maximizar el mAP. En cambio, DAMO-YOLO prioriza la eficiencia arquitectónica y la velocidad de inferencia bruta, lo que hace que sus modelos más pequeños sean increíblemente rápidos, a menudo a costa de algunos puntos de precisión en comparación con los modelos más grandes y complejos.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Por qué los modelos Ultralytics YOLO son una mejor opción

Si bien tanto YOLOv7 como DAMO-YOLO son modelos potentes, los desarrolladores e investigadores que buscan una experiencia más moderna, integrada y fácil de usar deberían considerar el ecosistema Ultralytics YOLO, incluidos los modelos populares como Ultralytics YOLOv8 y el último Ultralytics YOLO11. Estos modelos ofrecen varias ventajas clave:

  • Facilidad de uso: Los modelos de Ultralytics están diseñados pensando en una experiencia de usuario optimizada, con una sencilla API de Python y una CLI. Esto se complementa con una extensa documentación y numerosas guías, lo que facilita la puesta en marcha.
  • Ecosistema bien mantenido: Benefíciese del desarrollo activo, una sólida comunidad de código abierto y una integración perfecta con herramientas como Ultralytics HUB para MLOps de extremo a extremo, desde el entrenamiento hasta la implementación.
  • Equilibrio de rendimiento: Los modelos de Ultralytics logran una excelente relación entre velocidad y precisión, lo que los hace adecuados para una amplia gama de escenarios del mundo real.
  • Eficiencia de memoria: Los modelos YOLO de Ultralytics están optimizados para un uso eficiente de la memoria, y a menudo requieren menos memoria CUDA para el entrenamiento y la inferencia en comparación con otras arquitecturas.
  • Versatilidad: Modelos como YOLOv8 y YOLO11 son verdaderas soluciones multi-tarea, que admiten detección, segmentación, clasificación, estimación de pose y detección de objetos orientados (OBB) dentro de un único marco unificado.
  • Eficiencia en el entrenamiento: Benefíciese de procesos de entrenamiento eficientes, pesos pre-entrenados disponibles y tiempos de convergencia más rápidos.

Conclusión

Tanto DAMO-YOLO como YOLOv7 representan avances significativos en la detección de objetos. DAMO-YOLO destaca en la velocidad de inferencia, especialmente con sus variantes más pequeñas, lo que lo convierte en un firme candidato para dispositivos periféricos o aplicaciones que priorizan la baja latencia. YOLOv7 supera los límites de la precisión manteniendo un buen rendimiento en tiempo real, especialmente adecuado para escenarios en los que es fundamental lograr el mAP más alto posible.

Sin embargo, los desarrolladores también podrían considerar modelos dentro del ecosistema de Ultralytics, como YOLOv8 o el último YOLO11. Estos modelos a menudo proporcionan un equilibrio superior de rendimiento, facilidad de uso, extensa documentación, entrenamiento eficiente, menores requisitos de memoria y versatilidad en múltiples tareas de visión, todo ello respaldado por un ecosistema bien mantenido y un soporte activo de la comunidad.

Explorar Otros Modelos

Los usuarios interesados en DAMO-YOLO y YOLOv7 también pueden encontrar relevantes estos modelos:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios