Ir al contenido

DAMO-YOLO vs YOLOv7: Evaluación de Detectores de Objetos en Tiempo Real

La rápida evolución de la visión por computadora ha producido modelos de detección de objetos altamente eficientes, diseñados para equilibrar la precisión y el costo computacional. Dos modelos notables introducidos en 2022 son DAMO-YOLO y YOLOv7. Si bien ambos buscan expandir los límites de las tareas de visión en tiempo real, logran sus resultados a través de paradigmas arquitectónicos y metodologías de entrenamiento muy diferentes.

Esta exhaustiva comparación técnica explora los enfoques distintivos de ambos modelos, examinando sus arquitecturas, potencial de despliegue y métricas de rendimiento para ayudar a los ingenieros de machine learning a elegir la herramienta adecuada para sus aplicaciones específicas de visión artificial.

Orígenes y metadatos del modelo

Antes de adentrarnos en el análisis técnico profundo, es esencial contextualizar los orígenes de estos dos modelos de visión por computadora.

DAMO-YOLO

Desarrollado por investigadores de Alibaba Group, DAMO-YOLO fue introducido para optimizar tanto la velocidad como la precisión mediante la búsqueda automatizada de arquitecturas y la destilación.

Más información sobre DAMO-YOLO

YOLOv7

Lanzado como el estado del arte a mediados de 2022, YOLOv7 impulsó aún más la inferencia en tiempo real al introducir "bag-of-freebies" entrenables sin aumentar los costos de despliegue.

Más información sobre YOLOv7

Ecosistema Compatible

YOLOv7 cuenta con soporte oficial dentro del ecosistema Ultralytics, permitiendo un entrenamiento, validación y exportación sin interrupciones con una API unificada.

Innovaciones Arquitectónicas

DAMO-YOLO: NAS y Destilación

DAMO-YOLO incorpora varias técnicas de vanguardia orientadas a la máxima eficiencia:

  • Backbones NAS: Utiliza Búsqueda de Arquitectura Neuronal (NAS) para diseñar automáticamente backbones óptimos (MAE-NAS) adaptados para entornos críticos de latencia.
  • RepGFPN eficiente: Una Red Piramidal de Características Generalizada modificada que mejora significativamente la eficiencia de la fusión de características en múltiples escalas.
  • ZeroHead & AlignedOTA: Incorpora una cabeza de detección ligera y una estrategia optimizada de asignación de etiquetas (AlignedOTA) para reducir la sobrecarga computacional.
  • Mejora de la Destilación: Aprovecha en gran medida la destilación de conocimiento durante el entrenamiento para potenciar el rendimiento de variantes de modelos más pequeños sin aumentar su número de parámetros.

YOLOv7: E-ELAN y Bag-of-Freebies

YOLOv7 adoptó un enfoque más de ingeniería estructural, centrándose en la optimización de la ruta de gradiente y estrategias de entrenamiento robustas.

  • Arquitectura E-ELAN: La Red de Agregación de Capas Eficiente Extendida permite que el modelo aprenda características más diversas al controlar las rutas de gradiente más cortas y más largas, asegurando una convergencia de aprendizaje efectiva.
  • Escalado de modelos: Introduce un método de escalado compuesto adaptado para modelos basados en concatenación, escalando la profundidad y el ancho simultáneamente para la alineación estructural.
  • Conjunto de Mejoras Entrenables: Emplea técnicas como convoluciones re-parametrizadas (RepConv) sin conexiones de identidad, y estrategias de asignación dinámica de etiquetas, que aumentan la precisión durante el entrenamiento sin afectar la velocidad de inferencia.

Análisis de rendimiento

Al evaluar la precisión media promedio (mAP), la velocidad y la eficiencia, ambos modelos exhiben métricas impresionantes, aunque se dirigen a segmentos ligeramente diferentes. YOLOv7 se centra en gran medida en el despliegue en GPU de alta precisión, mientras que las estructuras derivadas de NAS de DAMO-YOLO buscan un despliegue agresivo de baja latencia en CPU y en el borde.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Como se observa en las métricas, mientras que DAMO-YOLO ofrece variantes extremadamente ligeras (como el modelo 'tiny' con solo 8.5M de parámetros), YOLOv7 alcanza un pico de precisión general más alto, con YOLOv7x logrando un impresionante 53.1 mAP en el conjunto de datos COCO.

La ventaja del ecosistema de Ultralytics

Aunque la arquitectura teórica es importante, la practicidad de un modelo está dictada por su ecosistema. Los modelos compatibles con Ultralytics, como YOLOv7, se benefician de un ecosistema bien mantenido y una facilidad de uso inigualable.

  • Equilibrio de Rendimiento: Los modelos Ultralytics logran consistentemente un equilibrio óptimo entre la velocidad de inferencia y la precisión de detección, lo que los hace ideales tanto para dispositivos de borde como para el despliegue de modelos basado en la nube.
  • Requisitos de Memoria: A diferencia de los modelos más pesados basados en Transformer, los modelos Ultralytics YOLO mantienen bajos requisitos de memoria CUDA durante el entrenamiento. Esto permite tamaños de lote más grandes, agilizando el proceso de entrenamiento incluso en hardware de consumo.
  • Versatilidad: El framework Ultralytics se extiende más allá de la detección de objetos a tareas como la segmentación de instancias y la estimación de pose, proporcionando a los desarrolladores un kit de herramientas completo de visión por computadora.

Eficiencia del entrenamiento

El paquete Ultralytics permite pasar sin problemas de conjuntos de datos a un modelo completamente entrenado en solo minutos, aprovechando cargadores de datos altamente optimizados y pesos preentrenados.

Ejemplo de Código: Entrenamiento de YOLOv7 con Ultralytics

Integrar YOLOv7 en su pipeline de visión por computadora es increíblemente sencillo utilizando la API de Python de Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

El Nuevo Estándar: Presentamos YOLO26

Aunque YOLOv7 y DAMO-YOLO representaron avances significativos en 2022, el campo de la IA de visión avanza rápidamente. Para los equipos que inician nuevos proyectos hoy, el modelo recomendado es el vanguardista Ultralytics YOLO26, lanzado en enero de 2026.

YOLO26 representa un salto generacional en rendimiento y usabilidad, incorporando innovaciones de vanguardia:

  • Diseño de extremo a extremo sin NMS: YOLO26 es nativamente de extremo a extremo. Al eliminar el postprocesamiento de supresión no máxima (NMS), ofrece una lógica de implementación más rápida y sencilla, un cambio de paradigma inicialmente pionero en YOLOv10.
  • Optimizador MuSGD: Inspirado en innovaciones de modelos de lenguaje grandes como Kimi K2 de Moonshot AI, YOLO26 utiliza un híbrido de SGD y Muon. Este optimizador garantiza dinámicas de entrenamiento altamente estables y tasas de convergencia drásticamente más rápidas.
  • Hasta un 43% más rápido en inferencia de CPU: Con la eliminación dirigida de Distribution Focal Loss (DFL) y profundas mejoras estructurales, YOLO26 está altamente optimizado para la computación de borde de baja potencia, superando a las generaciones anteriores en hardware sin GPU.
  • ProgLoss + STAL: Incorpora nuevas funciones de pérdida avanzadas que se dirigen explícitamente y mejoran el reconocimiento de objetos pequeños, una capacidad esencial para aplicaciones en imaginería aérea, robótica y monitorización de seguridad.
  • Mejoras Específicas por Tarea: Más allá de la detección estándar, YOLO26 presenta mejoras personalizadas para diversas tareas, incluyendo prototipado multi-escala para segmentación, RLE para estimación de pose, y pérdidas de ángulo específicas para Oriented Bounding Boxes (OBB).

Más información sobre YOLO26

Casos de Uso Ideales

La elección de la arquitectura correcta depende enteramente de su entorno de despliegue objetivo y de las restricciones del proyecto.

Cuándo elegir DAMO-YOLO:

  • Trabaja en entornos edge con fuertes restricciones y recursos limitados donde el recuento de parámetros brutos debe mantenerse extremadamente bajo (por ejemplo, microcontroladores).
  • Está utilizando pipelines de aprendizaje automático automatizados específicamente integrados con los servicios de nube propietarios de Alibaba.

¿Cuándo elegir YOLOv7?

  • Dispone de pipelines de GPU heredados ya optimizados para inferencia de alta precisión basada en anclajes.
  • Opera en entornos donde la precisión en tiempo real es primordial, como vehículos autónomos de alta velocidad o robótica avanzada.

Cuándo elegir YOLO26 (Recomendado):

  • Está desarrollando una nueva aplicación de visión por computadora desde cero y necesita lo último en precisión y velocidad de inferencia en CPU/edge.
  • Requiere un despliegue rápido y sin interrupciones (como la exportación a CoreML o TensorRT) sin tener que lidiar con las restricciones del operador NMS.
  • Desea utilizar todas las capacidades de la Plataforma Ultralytics para el entrenamiento en la nube, la gestión de conjuntos de datos y el despliegue automatizado.

Al aprovechar el robusto ecosistema de modelos Ultralytics, los desarrolladores pueden reducir drásticamente el tiempo de ingeniería mientras aseguran un rendimiento predictivo de primer nivel para sus aplicaciones del mundo real.


Comentarios