Link to this sectionDAMO-YOLO frente a YOLOX#
El panorama de la visión artificial en tiempo real evoluciona constantemente. Dos hitos notables en este viaje son DAMO-YOLO y YOLOX, cada uno aportando innovaciones únicas al problema de la detección de objetos de alta velocidad y precisión. Aunque ambos modelos han contribuido significativamente a la comunidad de código abierto, entender sus diferencias arquitectónicas, metodologías de entrenamiento y escenarios de despliegue ideales es crucial para los ingenieros de aprendizaje automático.
Esta guía exhaustiva explora los matices técnicos de ambos modelos y destaca por qué las alternativas modernas como la plataforma Ultralytics YOLO26 ofrecen un rendimiento superior y facilidad de uso para los entornos de producción actuales.
Link to this sectionResumen de modelos#
Link to this sectionDetalles de DAMO-YOLO#
Desarrollado por un equipo de investigadores de Alibaba Group, DAMO-YOLO se presentó como un método de detección de objetos altamente eficiente que aprovecha el descubrimiento automático de arquitectura.
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Documentación: Documentación de DAMO-YOLO
Más información sobre DAMO-YOLO
Link to this sectionDetalles de YOLOX#
Creado por investigadores de Megvii, YOLOX tuvo como objetivo cerrar la brecha entre la investigación y las comunidades industriales cambiando la serie YOLO a un diseño sin anclas (anchor-free), simplificando drásticamente la arquitectura mientras lograba un mejor rendimiento en ese momento.
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 18-07-2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Documentación: Documentación de YOLOX
Link to this sectionAnálisis arquitectónico#
Link to this sectionArquitectura de DAMO-YOLO#
DAMO-YOLO depende en gran medida de la búsqueda de arquitectura neuronal (NAS). Los componentes principales incluyen:
- Backbones MAE-NAS: utiliza un algoritmo de búsqueda evolutiva multiobjetivo para descubrir backbones que proporcionen el equilibrio óptimo entre velocidad de inferencia y precisión.
- Efficient RepGFPN: un diseño de cuello pesado adaptado para la fusión de características, que ayuda al modelo a mantener una alta precisión en diferentes escalas de objetos.
- ZeroHead: una cabeza de detección simplificada y ligera que reduce la carga computacional en las capas de predicción finales.
Link to this sectionArquitectura de YOLOX#
YOLOX adoptó un enfoque diferente, centrándose en la simplicidad estructural y un diseño sin anclas:
- Mecanismo sin anclas (Anchor-Free): al predecir las coordenadas del cuadro delimitador directamente sin anclas predefinidas, YOLOX reduce la cantidad de parámetros de diseño y el ajuste heurístico requeridos.
- Cabeza desacoplada (Decoupled Head): separa las tareas de clasificación y regresión en diferentes ramas de características, lo que mejora la velocidad de convergencia y la precisión general.
- Asignación de etiquetas SimOTA: una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas a la verdad fundamental (ground truths), mejorando la eficiencia del entrenamiento.
Mientras que DAMO-YOLO utiliza búsquedas NAS impulsadas por máquinas para encontrar arquitecturas óptimas bajo restricciones estrictas, YOLOX aprovecha elegantes simplificaciones diseñadas por humanos (como cabezas sin anclas) para agilizar el proceso de detección de objetos.
Link to this sectionComparación de rendimiento#
Evaluar estos modelos requiere observar la precisión media promedio (mAP), las velocidades de inferencia y el recuento de parámetros. A continuación, se presenta una tabla comparativa detallada de variantes estándar y ligeras para ambas arquitecturas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Aunque YOLOXx logra la mAP absoluta más alta con 51.1, DAMO-YOLOl ofrece una mAP muy competitiva de 50.8 con menos de la mitad de los parámetros (42.1M frente a 99.1M) y una ejecución de TensorRT significativamente más rápida.
Link to this sectionMetodologías de entrenamiento#
Link to this sectionEntrenamiento de DAMO-YOLO#
DAMO-YOLO utiliza una compleja mejora de destilación durante el entrenamiento. A menudo, primero se entrena un modelo "profesor" grande y su conocimiento se destila en los modelos "estudiante" más pequeños. También emplea AlignedOTA para la asignación dinámica de etiquetas. Aunque es muy eficaz, este proceso de entrenamiento multietapa aumenta drásticamente el tiempo de cómputo de GPU y la sobrecarga de memoria requerida.
Link to this sectionEntrenamiento de YOLOX#
YOLOX se basa en sólidas estrategias de aumento de datos como MixUp y Mosaic. Sin embargo, los autores descubrieron que desactivar estas fuertes aumentaciones durante las últimas 15 épocas permite que el modelo cierre la brecha de realidad, aumentando significativamente las métricas de precisión final.
Link to this sectionCasos de uso ideales#
- DAMO-YOLO: es el más adecuado para despliegues industriales de alto riesgo donde se pueden soportar tuberías de destilación del lado del servidor, y donde el hardware de destino (como ciertas GPU de NVIDIA) se beneficia directamente de su arquitectura NAS de cuello pesado.
- YOLOX: excelente para desarrolladores que buscan un enfoque puro sin anclas. El extremadamente ligero
YOLOXnanolo hace viable para dispositivos Android antiguos, computación de borde y sensores IoT muy restringidos donde el recuento de parámetros es el cuello de botella absoluto.
Link to this sectionLa ventaja de Ultralytics: llega YOLO26#
Si bien DAMO-YOLO y YOLOX representan hitos excelentes, los desarrolladores de hoy exigen soluciones más completas, versátiles y fáciles de usar. Aquí es donde brillan la plataforma Ultralytics y el recientemente lanzado Ultralytics YOLO26.
Lanzado en enero de 2026, YOLO26 es el modelo definitivo recomendado para todas las tareas de visión artificial. Introduce un conjunto de avances que superan a las arquitecturas más antiguas:
- Diseño de extremo a extremo sin NMS: YOLO26 elimina de forma nativa el posprocesamiento de supresión de no máximos (NMS). Esto permite un despliegue significativamente más simple y rápido, evitando los cuellos de botella de latencia inherentes a las cabezas de detección tradicionales.
- Hasta un 43% más rápido en inferencia de CPU: al eliminar estratégicamente la pérdida focal de distribución (DFL) y optimizar las capas, YOLO26 ofrece velocidades inigualables en CPU y hardware de borde.
- Optimizador MuSGD: inspirado en las técnicas de entrenamiento de modelos de lenguaje grandes (LLM), YOLO26 introduce el optimizador MuSGD (un híbrido de SGD y Muon), lo que resulta en ejecuciones de entrenamiento altamente estables y una convergencia mucho más rápida en comparación con las configuraciones heredadas en YOLOX.
- ProgLoss + STAL: estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo que hace que YOLO26 sea muy superior para imágenes de drones y robótica.
- Versatilidad: a diferencia de DAMO-YOLO, que es estrictamente para la detección de objetos, YOLO26 maneja a la perfección segmentación de instancias, estimación de poses, clasificación y cajas delimitadoras orientadas (OBB) de forma nativa dentro del mismo ecosistema bien mantenido.
Link to this sectionFacilidad de uso con Ultralytics#
La API de Python de Ultralytics agiliza la experiencia del desarrollador. Entrenar un modelo YOLO26 de última generación requiere mucho menos código repetitivo y evita las complejas tuberías de destilación de DAMO-YOLO. Además, los modelos de Ultralytics presentan requisitos de memoria CUDA excepcionalmente bajos durante el entrenamiento en comparación con los modelos pesados basados en Transformer.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")Puedes anotar, entrenar y desplegar modelos automáticamente al borde utilizando la plataforma Ultralytics, que gestiona todo el control de versiones de datos y el aprovisionamiento de GPU en la nube por ti.
Link to this sectionConclusión#
Elegir entre DAMO-YOLO y YOLOX depende de restricciones específicas: DAMO-YOLO ofrece proporciones excepcionales de velocidad a precisión en GPU específicas a través de NAS, mientras que YOLOX proporciona un diseño limpio y sin anclas ideal para escenarios de borde ligeros.
Sin embargo, para los equipos que buscan una solución moderna y preparada para el futuro con una comunidad activa, la arquitectura Ultralytics YOLO26 es la elección definitiva. Su diseño sin NMS, su rápida inferencia de CPU y su API unificada para tareas de detección, segmentación y pose la hacen inigualable para una transición fluida desde la investigación hasta una producción robusta en el mundo real.
Para los desarrolladores interesados en explorar otras arquitecturas modernas, también recomendamos echar un vistazo a Ultralytics YOLO11 o a modelos basados en Transformer como RT-DETR disponibles en la completa documentación de Ultralytics.