DAMO-YOLO frente a YOLOX: una comparativa técnica completa
El panorama de la visión artificial en tiempo real está en constante evolución. Dos hitos notables en este camino son DAMO-YOLO y YOLOX, cada uno aportando innovaciones únicas al problema de la detección de objetos de alta velocidad y precisión. Aunque ambos modelos han contribuido significativamente a la comunidad de código abierto, comprender sus diferencias arquitectónicas, metodologías de entrenamiento y escenarios de despliegue ideales es crucial para los ingenieros de aprendizaje automático.
Esta guía completa explora los matices técnicos de ambos modelos y destaca por qué las alternativas modernas como la plataforma Ultralytics YOLO26 ofrecen un rendimiento superior y una mayor facilidad de uso para los entornos de producción actuales.
Resumen de modelos
Detalles de DAMO-YOLO
Desarrollado por un equipo de investigadores del Alibaba Group, DAMO-YOLO se presentó como un método de detección de objetos altamente eficiente que aprovecha el descubrimiento automático de arquitectura.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Documentación: Documentación de DAMO-YOLO
Más información sobre DAMO-YOLO
Detalles de YOLOX
Creado por investigadores de Megvii, YOLOX buscaba cerrar la brecha entre las comunidades de investigación e industriales cambiando la serie YOLO a un diseño sin anclas (anchor-free), simplificando drásticamente la arquitectura y logrando un mejor rendimiento en aquel momento.
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 18-07-2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Documentación: Documentación de YOLOX
Análisis arquitectónico
Arquitectura de DAMO-YOLO
DAMO-YOLO depende en gran medida de la búsqueda de arquitectura neuronal (NAS). Los componentes principales incluyen:
- Backbones MAE-NAS: Utiliza un algoritmo de búsqueda evolutiva multiobjetivo para descubrir backbones que proporcionan el equilibrio óptimo entre velocidad de inferencia y precisión.
- Efficient RepGFPN: Un diseño de cuello pesado adaptado para la fusión de características, lo que ayuda al modelo a mantener una alta precisión en diferentes escalas de objetos.
- ZeroHead: Una cabeza de detección simplificada y ligera que reduce la carga computacional en las capas de predicción finales.
Arquitectura de YOLOX
YOLOX adoptó un enfoque diferente, centrándose en la simplicidad estructural y un diseño sin anclas:
- Mecanismo sin anclas (Anchor-Free): Al predecir las coordenadas de la caja delimitadora directamente sin anclas predefinidas, YOLOX reduce el número de parámetros de diseño y el ajuste heurístico requerido.
- Cabeza desacoplada (Decoupled Head): Separa las tareas de clasificación y regresión en diferentes ramas de características, lo que mejora la velocidad de convergencia y la precisión general.
- Asignación de etiquetas SimOTA: Una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas a verdades fundamentales (ground truths), mejorando la eficiencia del entrenamiento.
Mientras que DAMO-YOLO utiliza búsquedas NAS impulsadas por máquinas para encontrar arquitecturas óptimas bajo restricciones estrictas, YOLOX aprovecha elegantes simplificaciones diseñadas por humanos (como las cabezas sin anclas) para agilizar el pipeline de detección de objetos.
Comparación de rendimiento
Evaluar estos modelos requiere observar la precisión media promedio (mAP), las velocidades de inferencia y los recuentos de parámetros. A continuación, se muestra una tabla comparativa detallada de variantes estándar y ligeras para ambas arquitecturas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Aunque YOLOXx alcanza el mAP absoluto más alto con 51.1, DAMO-YOLOl ofrece un mAP muy competitivo de 50.8 con menos de la mitad de los parámetros (42.1M frente a 99.1M) y una ejecución en TensorRT significativamente más rápida.
Metodologías de entrenamiento
Entrenamiento de DAMO-YOLO
DAMO-YOLO utiliza una compleja mejora por destilación durante el entrenamiento. A menudo, primero se entrena un modelo "profesor" grande y su conocimiento se destila en modelos "estudiante" más pequeños. También emplea AlignedOTA para la asignación dinámica de etiquetas. Aunque es muy eficaz, este proceso de entrenamiento multietapa aumenta drásticamente el tiempo de cálculo en GPU y la carga de memoria requerida.
Entrenamiento de YOLOX
YOLOX se basa en sólidas estrategias de aumento de datos como MixUp y Mosaic. Sin embargo, los autores descubrieron que desactivar estos aumentos fuertes durante las últimas 15 épocas permite al modelo cerrar la brecha de realidad, aumentando significativamente las métricas de precisión finales.
Casos de uso ideales
- DAMO-YOLO: Ideal para despliegues industriales de alto riesgo donde se pueden admitir pipelines de destilación del lado del servidor y donde el hardware objetivo (como GPUs NVIDIA específicas) se beneficia directamente de su arquitectura NAS de cuello pesado.
- YOLOX: Excelente para desarrolladores que buscan un enfoque puramente sin anclas. La versión extremadamente ligera
YOLOXnanola hace viable para dispositivos Android antiguos, computación en el borde (edge computing) y sensores IoT muy limitados donde el recuento de parámetros es el cuello de botella absoluto.
La ventaja de Ultralytics: Llega YOLO26
Aunque DAMO-YOLO y YOLOX representan hitos excelentes, los desarrolladores actuales demandan soluciones más completas, versátiles y fáciles de usar. Aquí es donde brillan la Plataforma Ultralytics y el recientemente lanzado Ultralytics YOLO26.
Lanzado en enero de 2026, YOLO26 es el modelo definitivo recomendado para todas las tareas de visión artificial. Introduce un conjunto de avances que superan a las arquitecturas antiguas:
- Diseño de extremo a extremo sin NMS: YOLO26 elimina de forma nativa el postprocesamiento de supresión no máxima (NMS). Esto permite un despliegue significativamente más sencillo y rápido, evitando los cuellos de botella de latencia inherentes a las cabezas de detección tradicionales.
- Inferencia en CPU hasta un 43% más rápida: Al eliminar estratégicamente la pérdida focal de distribución (DFL) y optimizar las capas, YOLO26 ofrece velocidades inigualables en CPUs y hardware de borde.
- Optimizador MuSGD: Inspirado en técnicas de entrenamiento de modelos de lenguaje grandes (LLM), YOLO26 introduce el optimizador MuSGD (un híbrido de SGD y Muon), lo que resulta en ejecuciones de entrenamiento altamente estables y una convergencia mucho más rápida en comparación con las configuraciones heredadas en YOLOX.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo que hace que YOLO26 sea muy superior para grabaciones de drones y robótica.
- Versatilidad: A diferencia de DAMO-YOLO, que es estrictamente para detección de objetos, YOLO26 gestiona sin problemas la segmentación de instancias, estimación de poses, clasificación y cajas delimitadoras orientadas (OBB) de forma nativa dentro del mismo ecosistema bien mantenido.
Facilidad de uso con Ultralytics
La API de Python de Ultralytics simplifica la experiencia del desarrollador. Entrenar un modelo YOLO26 de última generación requiere mucho menos código repetitivo y evita los complejos pipelines de destilación de DAMO-YOLO. Además, los modelos de Ultralytics cuentan con requisitos de memoria CUDA excepcionalmente bajos durante el entrenamiento en comparación con los modelos pesados basados en Transformer.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Puedes anotar, entrenar y desplegar modelos automáticamente en el borde utilizando la Plataforma Ultralytics, que gestiona por ti todo el versionado de datos y el aprovisionamiento de GPU en la nube.
Conclusión
Elegir entre DAMO-YOLO y YOLOX depende de restricciones específicas: DAMO-YOLO ofrece proporciones excepcionales de velocidad-precisión en GPUs específicas a través de NAS, mientras que YOLOX proporciona un diseño limpio y sin anclas, ideal para escenarios de borde ligeros.
Sin embargo, para los equipos que buscan una solución moderna y preparada para el futuro con una comunidad activa, la arquitectura Ultralytics YOLO26 es la elección definitiva. Su diseño sin NMS, su rápida inferencia en CPU y su API unificada para tareas de detección, segmentación y pose lo hacen inigualable para una transición fluida desde la investigación a la producción real y robusta.
Para los desarrolladores interesados en explorar otras arquitecturas modernas, también recomendamos consultar Ultralytics YOLO11 o modelos basados en Transformer como RT-DETR, disponibles en la documentación completa de Ultralytics.