Ir al contenido

YOLOv7 vs. DAMO-YOLO: Una comparación técnica detallada

Seleccionar la arquitectura óptima de detección de objetos es una decisión fundamental en el desarrollo de la visión artificial, que equilibra las demandas contrapuestas de la latencia de inferencia, la precisión y la asignación de recursos computacionales. Este análisis técnico contrasta YOLOv7 y DAMO-YOLO, dos modelos influyentes lanzados a finales de 2022 que superaron los límites de la detección en tiempo real. Examinamos sus innovaciones arquitectónicas únicas, el rendimiento de los benchmarks y la idoneidad para varios escenarios de implementación para ayudarle a navegar por su proceso de selección.

YOLOv7: optimización del entrenamiento para una precisión en tiempo real

YOLOv7 marcó una evolución significativa en la familia YOLO, priorizando la eficiencia arquitectónica y las estrategias de entrenamiento avanzadas para mejorar el rendimiento sin inflar los costes de inferencia. Desarrollado por los autores originales de Scaled-YOLOv4, introdujo métodos para permitir que la red aprenda de manera más efectiva durante la fase de entrenamiento.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

Innovaciones Arquitectónicas

El núcleo de YOLOv7 presenta la Red de Agregación de Capas Eficiente Extendida (E-ELAN). Esta arquitectura permite que el modelo aprenda diversas características controlando las rutas de gradiente más cortas y más largas, mejorando la convergencia sin interrumpir el flujo de gradiente existente. Además, YOLOv7 emplea "bag-of-freebies entrenables", un conjunto de técnicas de optimización aplicadas durante el procesamiento de datos de entrenamiento que no afectan la estructura del modelo durante la implementación. Estos incluyen la reparametrización del modelo y los encabezados auxiliares para la supervisión profunda, lo que garantiza que el backbone capture características robustas.

Bag-of-Freebies (Trucos Gratuitos)

El término "bag-of-freebies" se refiere a métodos que aumentan la complejidad del entrenamiento para mejorar la precisión, pero que no implican ningún coste durante la inferencia en tiempo real. Esta filosofía garantiza que el modelo exportado final siga siendo ligero.

Fortalezas y Debilidades

YOLOv7 es celebrado por su excelente equilibrio en el benchmark de MS COCO, ofreciendo una alta Precisión Media Promedio (mAP) para su tamaño. Su principal fortaleza reside en tareas de alta resolución donde la precisión es primordial. Sin embargo, la complejidad de la arquitectura puede dificultar su modificación para la investigación personalizada. Además, si bien la inferencia es eficiente, el proceso de entrenamiento requiere muchos recursos, requiriendo una cantidad sustancial de memoria de GPU en comparación con las arquitecturas más nuevas.

Más información sobre YOLOv7

DAMO-YOLO: Búsqueda de arquitectura neuronal para el Edge

DAMO-YOLO, que surge del equipo de investigación de Alibaba, adopta un enfoque diferente al aprovechar la Búsqueda de Arquitectura Neuronal (NAS) para descubrir automáticamente estructuras de red eficientes adaptadas a entornos de baja latencia.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO

Innovaciones Arquitectónicas

DAMO-YOLO introduce MAE-NAS, un método para generar un backbone llamado GiraffeNet, que maximiza el rendimiento bajo restricciones de latencia específicas. Complementando esto está el ZeroHead, un head de detección ligero que desacopla las tareas de clasificación y regresión al tiempo que elimina parámetros pesados, lo que reduce significativamente el tamaño del modelo. La arquitectura también utiliza un cuello de botella eficiente conocido como RepGFPN (Red Piramidal de Características Generalizada) para la fusión de características a multi-escala y alinea los puntajes de clasificación con la precisión de localización utilizando AlignedOTA para la asignación de etiquetas.

Fortalezas y Debilidades

DAMO-YOLO destaca en escenarios de edge AI. Sus variantes más pequeñas (Tiny/Small) ofrecen velocidades impresionantes, lo que las hace adecuadas para dispositivos móviles y aplicaciones de IoT. El uso de NAS asegura que la arquitectura esté matemáticamente optimizada para la eficiencia. Por el contrario, los modelos DAMO-YOLO más grandes a veces se quedan atrás de los modelos YOLOv7 de nivel superior en precisión pura. Además, como proyecto centrado en la investigación, carece del extenso ecosistema y el soporte de herramientas que se encuentran en marcos más amplios.

Más información sobre DAMO-YOLO

Comparación de métricas de rendimiento

La siguiente tabla destaca las compensaciones de rendimiento. YOLOv7 generalmente logra una mayor precisión (mAP) a costa de una mayor complejidad computacional (FLOPs), mientras que DAMO-YOLO prioriza la velocidad y la eficiencia de los parámetros, particularmente en sus configuraciones más pequeñas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Aplicaciones en el mundo real

La elección entre estos modelos a menudo depende del hardware de implementación y de las tareas de visión artificial específicas requeridas.

  • Seguridad y análisis de gama alta (YOLOv7): Para aplicaciones que se ejecutan en servidores potentes donde cada punto porcentual de precisión importa, como los sistemas de alarma de seguridad o la gestión detallada del tráfico, YOLOv7 es un candidato sólido. Su capacidad para resolver detalles finos lo hace adecuado para detectar objetos pequeños en flujos de video de alta resolución.
  • Dispositivos de borde y robótica (DAMO-YOLO): En escenarios con presupuestos de latencia estrictos, como la robótica autónoma o las aplicaciones móviles, la arquitectura ligera de DAMO-YOLO brilla. El bajo número de parámetros reduce la presión del ancho de banda de la memoria, lo cual es fundamental para los dispositivos alimentados por batería que realizan la detección de objetos.

La ventaja de Ultralytics: ¿Por qué modernizar?

Si bien YOLOv7 y DAMO-YOLO son modelos capaces, el panorama de la IA avanza rápidamente. Los desarrolladores e investigadores que buscan una solución eficiente, preparada para el futuro y fácil de usar deberían considerar el ecosistema de Ultralytics, específicamente YOLO11. La actualización a los modelos modernos de Ultralytics ofrece varias ventajas distintas:

1. Facilidad de uso optimizada

Los modelos de Ultralytics priorizan la experiencia del desarrollador. A diferencia de los repositorios de investigación que a menudo requieren configuraciones de entorno complejas y la ejecución manual de scripts, Ultralytics proporciona una API de python unificada y una CLI. Puede entrenar, validar e implementar modelos en tan solo unas pocas líneas de código.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

2. Versatilidad integral

YOLOv7 y DAMO-YOLO están diseñados principalmente para la detección de bounding boxes. En cambio, YOLO11 soporta una amplia gama de tareas de forma nativa dentro del mismo framework, incluyendo segmentación de instancias, estimación de pose, detección de objetos orientados (OBB) y clasificación de imágenes. Esto le permite abordar problemas complejos, como el análisis de la postura humana en deportes, sin cambiar de bibliotecas.

3. Rendimiento y eficiencia superiores

YOLO11 se basa en años de I+D para ofrecer una precisión de última generación con una sobrecarga computacional significativamente reducida. Emplea un encabezado de detección sin anclajes y operaciones de backend optimizadas, lo que resulta en un menor uso de memoria tanto durante el entrenamiento como en la inferencia en comparación con las versiones anteriores de YOLO o los modelos basados en transformadores como RT-DETR. Esta eficiencia se traduce en menores costes de computación en la nube y un procesamiento más rápido en hardware de borde.

4. Ecosistema robusto y soporte

Adoptar un modelo de Ultralytics te conecta con un ecosistema bien mantenido y próspero. Con actualizaciones frecuentes, documentación exhaustiva y canales comunitarios activos, nunca te quedarás depurando código no soportado. Además, las integraciones perfectas con herramientas como Ultralytics HUB facilitan la implementación de modelos y la gestión de conjuntos de datos.

Más información sobre YOLO11

Conclusión

Tanto YOLOv7 como DAMO-YOLO contribuyeron significativamente al campo de la detección de objetos en 2022. YOLOv7 demostró cómo las técnicas de optimización entrenables podían aumentar la precisión, mientras que DAMO-YOLO mostró el poder de la búsqueda de arquitectura neuronal para crear modelos eficientes y listos para el borde.

Sin embargo, para los entornos de producción actuales, YOLO11 representa la cúspide de la tecnología de visión de la IA. Al combinar la velocidad de DAMO-YOLO, la precisión de YOLOv7 y la usabilidad inigualable del marco de Ultralytics, YOLO11 ofrece una solución versátil que acelera los ciclos de desarrollo y mejora el rendimiento de las aplicaciones. Ya sea que esté construyendo una infraestructura de ciudad inteligente u optimizando el control de calidad de la fabricación, los modelos de Ultralytics proporcionan la fiabilidad y la eficiencia necesarias para el éxito.

Explorar Otros Modelos

Si le interesa explorar otras opciones en el panorama de la visión artificial, considere estos modelos:

  • Ultralytics YOLOv8: El predecesor de YOLO11, conocido por su solidez y amplia adopción en la industria.
  • YOLOv10: Un detector en tiempo real que se centra en el entrenamiento sin NMS para reducir la latencia.
  • YOLOv9: Introduce la información de gradiente programable (PGI) para reducir la pérdida de información en redes profundas.
  • RT-DETR: Un detector basado en transformadores que ofrece alta precisión, pero que normalmente requiere más memoria de la GPU.
  • YOLOv6: Otro modelo centrado en la eficiencia y optimizado para aplicaciones industriales.

Comentarios