DAMO-YOLO vs. YOLO26: Una comparación técnica de detectores de objetos en tiempo real
La evolución de la detección de objetos en tiempo real ha experimentado rápidos avances, impulsada por la necesidad de modelos que equilibren velocidad, precisión y eficiencia de despliegue. Este artículo proporciona una comparación técnica exhaustiva entre DAMO-YOLO, desarrollado por Alibaba Group, y YOLO26, la última iteración de Ultralytics. Analizaremos sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudar a desarrolladores e investigadores a elegir la herramienta adecuada para sus proyectos de visión por computadora.
Descripción general de DAMO-YOLO
DAMO-YOLO es un método de detección de objetos rápido y preciso introducido a finales de 2022 por investigadores del Alibaba Group. Fue diseñado para superar los límites del rendimiento integrando varias tecnologías de vanguardia en el framework YOLO. La filosofía central detrás de DAMO-YOLO es el uso de la Búsqueda de Arquitectura Neuronal (NAS) para descubrir automáticamente backbones eficientes, combinado con un cuello de re-parametrización intensiva.
Las características arquitectónicas clave incluyen:
- Backbone MAE-NAS: Utiliza un enfoque de autoencoder enmascarado (MAE) para buscar estructuras de backbone óptimas bajo diferentes restricciones de latencia.
- RepGFPN Eficiente: Una Red de Pirámide de Características Generalizada (GFPN) fuertemente optimizada con re-parametrización para mejorar la eficiencia de la fusión de características sin sacrificar la velocidad durante la inferencia.
- ZeroHead: Un diseño de cabezal ligero que reduce la sobrecarga computacional.
- AlignedOTA: Una estrategia mejorada de asignación de etiquetas que resuelve problemas de desalineación entre las tareas de clasificación y regresión.
- Mejora por destilación: Se utiliza un robusto pipeline de destilación para aumentar la precisión de modelos más pequeños utilizando modelos "maestro" más grandes.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
Organización:Alibaba Group
Fecha: 23 de noviembre de 2022
Enlaces:Arxiv, GitHub
Más información sobre DAMO-YOLO
Resumen de YOLO26
Lanzado en enero de 2026 por Ultralytics, YOLO26 representa un avance significativo en la visión por computadora optimizada para el borde. Diseñado específicamente para dispositivos de borde y de baja potencia, se centra en optimizar el pipeline de despliegue mientras mejora la precisión en tareas desafiantes como la detección de objetos pequeños.
YOLO26 se distingue por varias innovaciones importantes:
- Diseño de extremo a extremo sin NMS: Al eliminar la necesidad del post-procesamiento de Supresión No Máxima (NMS), YOLO26 simplifica la lógica de despliegue y reduce la variabilidad de la latencia, un concepto pionero en YOLOv10.
- Eliminación de DFL: La eliminación de Distribution Focal Loss (DFL) simplifica la estructura de salida del modelo, haciendo que la exportación a formatos como ONNX y TensorRT sea más sencilla y compatible con una gama más amplia de hardware.
- Optimizador MuSGD: Un novedoso optimizador híbrido que combina SGD y Muon, inspirado en técnicas de entrenamiento de LLM de Kimi K2 de Moonshot AI. Esto conduce a dinámicas de entrenamiento más estables y una convergencia más rápida.
- ProgLoss + STAL: La combinación de Balanceo Progresivo de Pérdidas (ProgLoss) y Asignación de Etiquetas Sensible a Objetivos Pequeños (STAL) mejora significativamente el rendimiento en objetos pequeños, abordando una debilidad común en los detectores en tiempo real.
Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 14 de enero de 2026
Enlaces:Documentación de Ultralytics, GitHub
Análisis comparativo
Arquitectura y filosofía de diseño
La diferencia más notable radica en el pipeline de inferencia. DAMO-YOLO sigue un flujo de trabajo de detector tradicional que requiere NMS para filtrar las cajas delimitadoras superpuestas. Si bien es efectivo, NMS puede ser un cuello de botella en aplicaciones de alto rendimiento y complica el despliegue en ciertos aceleradores.
En contraste, YOLO26 es nativamente de extremo a extremo. El modelo predice directamente el conjunto final de cajas delimitadoras. Este diseño sin NMS no solo reduce la latencia de inferencia —específicamente en dispositivos de borde limitados por la CPU donde NMS es costoso— sino que también simplifica el código de integración necesario para ejecutar el modelo en entornos de producción.
Simplicidad de Despliegue
La arquitectura sin NMS de YOLO26 significa que no es necesario implementar lógica compleja de postprocesamiento en C++ o CUDA al desplegar en dispositivos de borde. La salida del modelo es el resultado final de detect.
Metodologías de Entrenamiento
DAMO-YOLO depende en gran medida de Destilación de Conocimiento para lograr su alto rendimiento, especialmente en sus variantes más pequeñas. Esto añade complejidad al pipeline de entrenamiento, ya que un potente modelo 'maestro' debe ser entrenado primero.
YOLO26 introduce el optimizador MuSGD, reduciendo la brecha entre la optimización de Modelos de Lenguaje Grandes (LLM) y la visión por computadora. Esto permite a YOLO26 alcanzar una convergencia de vanguardia sin depender necesariamente de configuraciones complejas de destilación, aunque los modos de entrenamiento de Ultralytics soportan diversas configuraciones avanzadas. Además, ProgLoss de YOLO26 ajusta dinámicamente los pesos de la función de pérdida durante el entrenamiento para estabilizar el proceso de aprendizaje.
Métricas de rendimiento
Al comparar el rendimiento en el conjunto de datos COCO, ambos modelos muestran resultados impresionantes, pero surgen claras compensaciones en cuanto a velocidad y eficiencia.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Análisis:
- Eficiencia de los parámetros: YOLO26 demuestra una eficiencia de parámetros significativamente mejor. Por ejemplo,
YOLO26salcanza 48.6 mAP con solo 9.5M parámetros, mientras queDAMO-YOLOsalcanza 46.0 mAP con 16.3M parámetros. Esto hace que los modelos YOLO26 sean más ligeros de almacenar y más rápidos de cargar. - Velocidad de Inferencia: YOLO26n es extremadamente rápido, registrando 1.7 ms en una GPU T4 con TensorRT, en comparación con aproximadamente 2.32 ms para la variante Tiny DAMO. La velocidad de la CPU de YOLO26 es también un punto destacado, optimizada específicamente para dispositivos como Raspberry Pi o teléfonos móviles donde las GPUs no están disponibles.
- Precisión: En escalas similares (p. ej., Mediana/Grande), YOLO26 supera consistentemente a DAMO-YOLO en mAP, probablemente debido a la avanzada estrategia de asignación STAL y a su arquitectura refinada.
Versatilidad y Soporte de Tareas
Mientras que DAMO-YOLO se centra principalmente en la detección de objetos, el ecosistema Ultralytics asegura que YOLO26 sea una potencia multitarea.
- DAMO-YOLO: Especializado en Detección de Objetos.
- YOLO26: Soporta Detección de Objetos, Segmentación de Instancias, Clasificación de Imágenes, Estimación de Pose, y detección de Oriented Bounding Box (OBB) de forma nativa.
Esta versatilidad permite a los desarrolladores utilizar una única API unificada para diversos problemas de visión por computadora, reduciendo la curva de aprendizaje y la deuda técnica.
Facilidad de uso y ecosistema
Una de las mayores ventajas de YOLO26 es el ecosistema Ultralytics que lo rodea.
DAMO-YOLO proporciona una base de código que los investigadores pueden usar para reproducir resultados, pero puede carecer de la extensa documentación, el mantenimiento y el soporte comunitario que se encuentran en bibliotecas más orientadas a productos.
YOLO26 se beneficia de:
- API Sencilla: Una API consistente en Python y interfaz CLI (
yolo predict ...) que hace que el entrenamiento y el despliegue sean accesibles tanto para principiantes como para expertos. - Documentación: Guías exhaustivas sobre todo, desde el entrenamiento en conjuntos de datos personalizados hasta la exportación de modelos para iOS y Android.
- Integraciones: Conectividad fluida con herramientas como Comet, Weights & Biases y Roboflow para MLOps.
- Mantenimiento: Actualizaciones frecuentes que corrigen errores e introducen nuevas funcionalidades, asegurando la relevancia del modelo.
Ejemplo de Código: Ejecución de YOLO26
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
Casos de uso
Cuándo elegir DAMO-YOLO
- Aplicaciones de Investigación: Si su trabajo implica el estudio de la Búsqueda de Arquitectura Neuronal (NAS) o la exploración de nuevas técnicas de reparametrización, DAMO-YOLO ofrece un terreno fértil para la investigación académica.
- Restricciones de Legado Específicas: Si una pipeline existente está estrictamente construida en torno al formato de salida específico o las estrategias de asignación de anclajes de DAMO-YOLO y la refactorización no es factible.
Cuándo elegir YOLO26
- Despliegue en el Borde: Para aplicaciones en Raspberry Pi, dispositivos móviles o sistemas embebidos donde la velocidad de inferencia de la CPU y un bajo consumo de memoria son críticos.
- Sistemas en Tiempo Real: La naturaleza sin NMS hace que YOLO26 sea ideal para requisitos de latencia ultrabaja en robótica o conducción autónoma.
- Proyectos Multitarea: Si su proyecto requiere detectar objetos, segmentar máscaras y estimar poses simultáneamente, YOLO26 cubre todas las bases con un solo framework.
- Desarrollo Comercial: La estabilidad, el soporte y la facilidad de exportación a formatos como CoreML y OpenVINO lo convierten en la opción superior para software de producción.
Conclusión
Ambos modelos representan logros significativos en la visión por computadora. DAMO-YOLO introdujo conceptos impresionantes en NAS y fusión eficiente de características. Sin embargo, YOLO26 refina el estado del arte al centrarse en la practicidad del despliegue, la estabilidad del entrenamiento y la eficiencia computacional. Con su diseño de extremo a extremo sin NMS, eficiencia de parámetros superior y el respaldo del robusto ecosistema de Ultralytics, YOLO26 se destaca como la opción recomendada para aplicaciones modernas de visión por computadora en tiempo real.
Para aquellos interesados en explorar otras opciones dentro de la familia Ultralytics, modelos como YOLO11 y YOLOv8 siguen siendo alternativas potentes para tareas de detección de propósito general.