DAMO-YOLO frente a YOLOv7: Evaluación de detectores de objetos en tiempo real
La rápida evolución de la visión artificial ha producido modelos de detección de objetos altamente eficientes, diseñados para equilibrar la precisión y el coste computacional. Dos modelos destacados presentados en 2022 son DAMO-YOLO y YOLOv7. Aunque ambos pretenden ampliar los límites de las tareas de visión en tiempo real, alcanzan sus resultados a través de paradigmas arquitectónicos y metodologías de entrenamiento muy diferentes.
Esta comparativa técnica exhaustiva explora los enfoques distintos de ambos modelos, examinando sus arquitecturas, potencial de despliegue y métricas de rendimiento para ayudar a los ingenieros de aprendizaje automático a elegir la herramienta adecuada para sus aplicaciones de visión artificial específicas.
Orígenes del modelo y metadatos
Antes de sumergirnos en el análisis técnico profundo, es esencial contextualizar los orígenes de estos dos modelos de visión artificial.
DAMO-YOLO
Desarrollado por investigadores de Alibaba Group, DAMO-YOLO se introdujo para optimizar tanto la velocidad como la precisión mediante la búsqueda automatizada de arquitectura y la destilación.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
- Organización: Alibaba Group
- Fecha: 23 de noviembre de 2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Más información sobre DAMO-YOLO
YOLOv7
Lanzado como el estado del arte a mediados de 2022, YOLOv7 impulsó la inferencia en tiempo real al introducir "bag-of-freebies" entrenables sin aumentar los costes de despliegue.
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Institute of Information Science, Academia Sinica, Taiwán
- Fecha: 6 de julio de 2022
- Arxiv: 2207.02696
- Documentación: Documentación de YOLOv7
YOLOv7 cuenta con soporte oficial dentro del ecosistema de Ultralytics, permitiendo un entrenamiento, validación y exportación fluidos con una API unificada.
Innovaciones arquitectónicas
DAMO-YOLO: NAS y Destilación
DAMO-YOLO incorpora varias técnicas de vanguardia orientadas a la máxima eficiencia:
- Backbones NAS: Utiliza la búsqueda de arquitectura neuronal (NAS) para diseñar automáticamente backbones óptimos (MAE-NAS) adaptados a entornos donde la latencia es crítica.
- RepGFPN eficiente: Una red de pirámide de características generalizada modificada que mejora significativamente la eficiencia de la fusión de características a través de múltiples escalas.
- ZeroHead y AlignedOTA: Incorpora un cabezal de detección ligero y una estrategia optimizada de asignación de etiquetas (AlignedOTA) para reducir la carga computacional.
- Mejora mediante destilación: Aprovecha intensamente la destilación de conocimientos durante el entrenamiento para impulsar el rendimiento de variantes de modelos más pequeñas sin inflar su número de parámetros.
YOLOv7: E-ELAN y Bag-of-Freebies
YOLOv7 adoptó un enfoque de ingeniería más estructural, centrándose en la optimización de la ruta del gradiente y estrategias de entrenamiento robustas.
- Arquitectura E-ELAN: La red de agregación de capas eficiente extendida permite al modelo aprender características más diversas controlando las rutas de gradiente más cortas y largas, asegurando una convergencia de aprendizaje efectiva.
- Escalado del modelo: Introduce un método de escalado compuesto adaptado para modelos basados en concatenación, escalando la profundidad y la anchura simultáneamente para el alineamiento estructural.
- Bag-of-Freebies entrenable: Emplea técnicas como las convoluciones re-parametrizadas (RepConv) sin conexiones de identidad y estrategias dinámicas de asignación de etiquetas, que aumentan la precisión durante el entrenamiento sin afectar a la velocidad de inferencia.
Análisis de rendimiento
Al evaluar la precisión media promedio (mAP), la velocidad y la eficiencia, ambos modelos presentan métricas impresionantes, aunque se dirigen a segmentos ligeramente diferentes. YOLOv7 se centra en gran medida en el despliegue de alta precisión en GPU, mientras que las estructuras derivadas de NAS de DAMO-YOLO apuntan a un despliegue agresivo de baja latencia en CPU y dispositivos edge.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Como se observa en las métricas, aunque DAMO-YOLO ofrece variantes extremadamente ligeras (como el modelo tiny con solo 8,5 M de parámetros), YOLOv7 logra un pico de precisión general más alto, alcanzando YOLOv7x un impresionante 53,1 mAP en el dataset COCO.
La ventaja del ecosistema de Ultralytics
Aunque la arquitectura teórica es importante, la utilidad de un modelo viene dictada por su ecosistema. Los modelos respaldados por Ultralytics, como YOLOv7, se benefician de un ecosistema bien mantenido y una facilidad de uso inigualable.
- Equilibrio de rendimiento: Los modelos de Ultralytics logran constantemente una compensación óptima entre la velocidad de inferencia y la precisión de detección, haciéndolos ideales tanto para dispositivos edge como para el despliegue de modelos en la nube.
- Requisitos de memoria: A diferencia de los modelos más pesados basados en Transformer, los modelos YOLO de Ultralytics mantienen bajos requisitos de memoria CUDA durante el entrenamiento. Esto permite mayores tamaños de lote, optimizando el proceso de entrenamiento incluso en hardware de consumo.
- Versatilidad: El framework de Ultralytics se extiende más allá de la detección de objetos a tareas como la segmentación de instancias y la estimación de pose, ofreciendo a los desarrolladores un kit de herramientas de visión artificial completo.
El paquete de Ultralytics te permite pasar sin problemas de los datasets a un modelo totalmente entrenado en solo unos minutos, aprovechando cargadores de datos altamente optimizados y pesos preentrenados.
Ejemplo de código: Entrenar YOLOv7 con Ultralytics
Integrar YOLOv7 en tu pipeline de visión artificial es increíblemente sencillo usando la API de Python de Ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)El nuevo estándar: Presentamos YOLO26
Aunque YOLOv7 y DAMO-YOLO representaron avances significativos en 2022, el campo de la IA visual se mueve rápidamente. Para los equipos que inician nuevos proyectos hoy, el modelo recomendado es el puntero Ultralytics YOLO26, lanzado en enero de 2026.
YOLO26 aporta un salto generacional en rendimiento y usabilidad, incorporando innovaciones de vanguardia:
- Diseño end-to-end sin NMS: YOLO26 es nativamente end-to-end. Al eliminar el post-procesamiento de supresión no máxima (NMS), ofrece una lógica de despliegue más rápida y sencilla; un cambio de paradigma iniciado inicialmente por YOLOv10.
- Optimizador MuSGD: Inspirado en innovaciones de modelos de lenguaje a gran escala como Kimi K2 de Moonshot AI, YOLO26 utiliza un híbrido de SGD y Muon. Este optimizador asegura dinámicas de entrenamiento altamente estables y tasas de convergencia dramáticamente más rápidas.
- Hasta un 43% más rápido en inferencia de CPU: Con la eliminación dirigida de la pérdida focal de distribución (DFL) y profundas mejoras estructurales, YOLO26 está fuertemente optimizado para la computación edge de bajo consumo, superando a las generaciones anteriores en hardware sin GPU.
- ProgLoss + STAL: Incorpora nuevas funciones de pérdida avanzadas que se dirigen explícitamente y mejoran el reconocimiento de objetos pequeños, una capacidad esencial para aplicaciones en imágenes aéreas, robótica y monitoreo de seguridad.
- Mejoras específicas para tareas: Más allá de la detección estándar, YOLO26 cuenta con mejoras personalizadas para diversas tareas, incluyendo prototipado multiescala para segmentación, RLE para estimación de pose y pérdidas de ángulo específicas para cajas delimitadoras orientadas (OBB).
Casos de uso ideales
Elegir la arquitectura correcta depende enteramente de tu entorno de despliegue objetivo y de las restricciones del proyecto.
Cuándo elegir DAMO-YOLO:
- Trabajas en entornos edge fuertemente restringidos y limitados en recursos donde el número total de parámetros debe mantenerse extremadamente bajo (por ejemplo, microcontroladores).
- Estás utilizando pipelines de aprendizaje automático automatizados integrados específicamente con los servicios en la nube de Alibaba.
Cuándo elegir YOLOv7:
- Tienes pipelines de GPU heredados ya optimizados para inferencia de alta precisión basada en anclas.
- Operas en entornos donde la precisión en tiempo real es primordial, tales como vehículos autónomos de alta velocidad o robótica avanzada.
Cuándo elegir YOLO26 (recomendado):
- Estás creando una nueva aplicación de visión artificial desde cero y necesitas lo último en precisión y velocidad de inferencia en CPU/edge.
- Necesitas un despliegue rápido y fluido (como exportar a CoreML o TensorRT) sin lidiar con las restricciones del operador NMS.
- Deseas utilizar todas las capacidades de la Plataforma Ultralytics para entrenamiento en la nube, gestión de datasets y despliegue automatizado.
Al aprovechar el robusto ecosistema de los modelos de Ultralytics, los desarrolladores pueden reducir drásticamente el tiempo de ingeniería mientras aseguran un rendimiento predictivo de primer nivel para sus aplicaciones del mundo real.