DAMO-YOLO vs. YOLOv7: Una Comparación Técnica Detallada

Seleccionar la arquitectura óptima para la detección de objetos es una decisión fundamental en el desarrollo de la visión artificial. La elección a menudo requiere equilibrar la latencia de inferencia con la precisión de la detección, al tiempo que se consideran las limitaciones del hardware de implementación. Esta comparación técnica examina DAMO-YOLO y YOLOv7, dos modelos influyentes lanzados en 2022 que superaron los límites de la detección en tiempo real. Analizamos sus innovaciones arquitectónicas, el rendimiento de los benchmarks y los escenarios de aplicación ideales para ayudarle a navegar por su proceso de selección de modelos.

DAMO-YOLO: Búsqueda de Arquitectura Neuronal para la Eficiencia en el Edge

DAMO-YOLO fue desarrollado por Alibaba Group con un enfoque específico en maximizar el rendimiento para aplicaciones industriales. Se distingue por incorporar la Búsqueda de Arquitectura Neuronal (NAS) para automatizar el diseño de su backbone, garantizando una eficiencia óptima.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Documentación:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Innovaciones Arquitectónicas

DAMO-YOLO introduce varias tecnologías de vanguardia destinadas a reducir la sobrecarga computacional manteniendo una alta precisión:

Backbone MAE-NAS (GiraffeNet): A diferencia de los backbones tradicionales diseñados manualmente, DAMO-YOLO utiliza un enfoque NAS de Eficiencia Consciente del Método (MAE). Esto resulta en una serie de backbones llamada GiraffeNet, que proporciona una compensación superior entre las operaciones de punto flotante (FLOPs) y la latencia bajo diversas restricciones de hardware.
RepGFPN Eficiente: El modelo presenta una Red Piramidal de Características Generalizada (GFPN) optimizada con reparametrización. Este "RepGFPN" permite una fusión de características multiescala eficiente, esencial para la detección de objetos de diferentes tamaños sin el elevado costo computacional asociado con las FPN estándar.
ZeroHead: Un novedoso diseño "ZeroHead" simplifica significativamente el cabezal de detección. Al desacoplar las tareas de clasificación y regresión y eliminar la capa específica compleja, reduce el número de parámetros del cabezal a cero durante la inferencia, lo que ahorra memoria y aumenta la velocidad.
AlignedOTA: Para mejorar la estabilidad y la precisión del entrenamiento, DAMO-YOLO emplea AlignedOTA, una estrategia de asignación de etiquetas dinámica que resuelve el problema de desalineación entre la confianza de la clasificación y la precisión de la regresión.

Fortalezas y Casos de Uso

DAMO-YOLO destaca en entornos donde la latencia es crítica. Sus variantes más pequeñas (Tiny/Small) son particularmente efectivas para implementaciones de edge AI.

Automatización industrial: Ideal para líneas de ensamblaje de alta velocidad donde los milisegundos cuentan.
Aplicaciones móviles: El bajo número de parámetros hace que sea adecuado para ejecutarse en teléfonos inteligentes con potencia de cálculo limitada.

Más información sobre DAMO-YOLO

YOLOv7: Optimización de la precisión en tiempo real

YOLOv7, lanzado poco antes de DAMO-YOLO, estableció un nuevo punto de referencia para el rendimiento de última generación en el rango de 5 FPS a 160 FPS. Se centró en gran medida en la optimización del proceso de entrenamiento y el flujo de gradiente para lograr una mayor precisión sin aumentar los costes de inferencia.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Documentación:https://docs.ultralytics.com/models/yolov7/

Innovaciones Arquitectónicas

YOLOv7 introdujo métodos de "bag-of-freebies" que mejoran la precisión durante el entrenamiento sin afectar a la estructura del modelo de inferencia:

E-ELAN (Red de Agregación de Capas Eficiente Extendida): Esta arquitectura controla las rutas de gradiente más cortas y más largas, lo que permite a la red aprender características más diversas. Mejora la capacidad de aprendizaje de la "cardinalidad" sin destruir el estado original de la ruta de gradiente.
Escalado de modelos para modelos basados en concatenación: YOLOv7 propone un método de escalado compuesto que escala la profundidad y el ancho simultáneamente para arquitecturas basadas en concatenación, lo que garantiza una utilización óptima de los parámetros.
Bag-of-Freebies Entrenable: Se utilizan técnicas como la reparametrización planificada y la supervisión de cabezales auxiliares (de lo general a lo específico). Estas mejoran la robustez y la precisión del modelo durante el entrenamiento, pero se fusionan o descartan durante la inferencia, manteniendo la velocidad del modelo.

Fortalezas y Casos de Uso

YOLOv7 es una potencia para la detección de objetos de propósito general, que ofrece una excelente Precisión Media Promedio (mAP) en conjuntos de datos estándar como MS COCO.

Vigilancia de ciudades inteligentes: Su alta precisión la hace fiable para la detección de peatones y vehículos en entornos urbanos complejos.
Sistemas autónomos: Adecuado para robótica y drones que requieren una detección fiable a rangos más largos donde las entradas de mayor resolución son beneficiosas.

Más información sobre YOLOv7

Comparación de rendimiento

La siguiente tabla contrasta el rendimiento de DAMO-YOLO y YOLOv7. Si bien DAMO-YOLO a menudo logra una latencia más baja (mayor velocidad) para su tamaño, YOLOv7 generalmente mantiene una sólida reputación por su precisión, particularmente en sus configuraciones más grandes.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Los datos ilustran que para entornos altamente restringidos, DAMO-YOLO ofrece una solución muy ligera (8.5M de parámetros para la versión tiny). Sin embargo, YOLOv7 supera los límites de la precisión con su variante X, que alcanza un 53.1% de mAP, aunque con mayores costes computacionales.

Compromisos de la arquitectura

Si bien el backbone basado en NAS de DAMO-YOLO se optimiza específicamente para la latencia, el diseño arquitectónico manual de YOLOv7 se centra en la eficiencia del flujo de gradiente. Los usuarios deben comparar ambos en su hardware específico, ya que los FLOP teóricos no siempre se correlacionan perfectamente con la velocidad de inferencia del mundo real.

La ventaja de Ultralytics: ¿Por qué actualizar?

Si bien tanto DAMO-YOLO como YOLOv7 representan logros significativos en la historia de la visión artificial, el campo evoluciona rápidamente. Para los desarrolladores que buscan las soluciones más robustas, versátiles y fáciles de usar, Ultralytics YOLO11 y YOLOv8 son las opciones recomendadas.

Los modelos de Ultralytics están diseñados no solo como artefactos de investigación, sino como herramientas de producción integrales. Abordan los problemas de la "última milla" en la implementación de la IA: usabilidad, integración y mantenimiento.

Ventajas clave de los modelos Ultralytics

Facilidad de uso: Con una API de python unificada y una CLI, puedes entrenar un modelo de última generación en unas pocas líneas de código. No hay necesidad de ajustar manualmente archivos de configuración complejos ni de lidiar con dependencias.
Ecosistema bien mantenido: Ultralytics proporciona un ecosistema próspero con actualizaciones frecuentes, identificando y corrigiendo errores rápidamente. El soporte está disponible a través de una documentación extensa y canales comunitarios activos.
Equilibrio de rendimiento: Modelos como YOLO11 utilizan encabezados de detección sin anclaje avanzados y backbones optimizados para lograr relaciones precisión-velocidad superiores en comparación con YOLOv7 y DAMO-YOLO.
Versatilidad: A diferencia de los modelos más antiguos que a menudo se limitan a la detección, Ultralytics YOLO admite segmentación de instancias, estimación de pose, detección de objetos orientados (OBB) y clasificación de fábrica.
Eficiencia del Entrenamiento: Los pesos pre-entrenados y los cargadores de datos optimizados garantizan una convergencia más rápida, lo que ahorra horas de GPU y energía.

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Más información sobre YOLO11

Conclusión

DAMO-YOLO y YOLOv7 tienen cada uno méritos distintos. DAMO-YOLO es un fuerte candidato para proyectos donde la velocidad de inferencia en el borde es la principal restricción, aprovechando NAS para recortar milisegundos. YOLOv7 sigue siendo una opción sólida para los investigadores que buscan una detección de alta precisión con un linaje arquitectónico probado.

Sin embargo, para la mayoría de las aplicaciones comerciales y de investigación actuales, el ecosistema Ultralytics YOLO ofrece una experiencia superior. Al combinar un rendimiento de última generación con una facilidad de uso y versatilidad inigualables, los modelos de Ultralytics permiten a los desarrolladores centrarse en la creación de valor en lugar de depurar código. Ya sea que esté implementando en un servidor en la nube o en un dispositivo periférico como la NVIDIA Jetson, Ultralytics proporciona la ruta más ágil hacia la producción.

Otros modelos

Si está explorando arquitecturas de detección de objetos, también puede estar interesado en estos modelos:

Ultralytics YOLOv8: Un modelo muy versátil que admite tareas de detección, segmentación y pose.
Ultralytics YOLO11: La última evolución en la serie YOLO, que ofrece una eficiencia de vanguardia.
RT-DETR: Un detector en tiempo real basado en transformadores que evita los retrasos de NMS.
YOLOv9: Presenta información de gradiente programable (PGI) para un aprendizaje mejorado.
YOLOv10: Se centra en el entrenamiento end-to-end sin NMS para reducir la latencia.

DAMO-YOLO vs. YOLOv7: Una Comparación Técnica Detallada

DAMO-YOLO: Búsqueda de Arquitectura Neuronal para la Eficiencia en el Edge

Innovaciones Arquitectónicas

Fortalezas y Casos de Uso

YOLOv7: Optimización de la precisión en tiempo real

Innovaciones Arquitectónicas

Fortalezas y Casos de Uso

Comparación de rendimiento

La ventaja de Ultralytics: ¿Por qué actualizar?

Ventajas clave de los modelos Ultralytics

Conclusión

Otros modelos

Comentarios