YOLOX frente a DAMO-YOLO: Comparación de detectores de objetos basados en NAS y sin anclas

La evolución de la detección de objetos en tiempo real ha experimentado numerosos cambios de paradigma, desde arquitecturas basadas en anclas a otras sin anclas, y desde backbones diseñados manualmente hasta la búsqueda de arquitectura neuronal (NAS) automatizada. En esta exhaustiva comparativa técnica, analizaremos dos hitos significativos en este recorrido: YOLOX y DAMO-YOLO. Exploraremos sus innovaciones arquitectónicas, metodologías de entrenamiento y compromisos de rendimiento, destacando además cómo el moderno Ultralytics YOLO26 proporciona una alternativa inigualable para los desarrolladores actuales.

YOLOX: Pionero del paradigma sin anclas

Lanzado el 18 de julio de 2021 por Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun en Megvii, YOLOX marcó un punto de inflexión crítico al integrar con éxito un diseño sin anclas en la familia YOLO. Descrito en su detallado informe técnico en ArXiv, YOLOX tenía como objetivo cerrar la brecha entre la investigación académica y la implementación industrial.

Principales innovaciones arquitectónicas

YOLOX introdujo varios cambios estructurales fundamentales que mejoraron drásticamente a sus predecesores:

  • Mecanismo sin anclas: Al predecir directamente el centro de un objeto y las dimensiones de su caja delimitadora, YOLOX redujo la cantidad de heurísticas de diseño y simplificó los complejos procesos de clustering de anclas. Esto lo hace altamente adaptable a diversos escenarios de computer vision.
  • Cabezal desacoplado (Decoupled Head): Los modelos YOLO tradicionales utilizaban un único cabezal acoplado tanto para la clasificación como para la regresión. YOLOX implementó un cabezal desacoplado que procesa la clasificación y la localización por separado, lo que convergió mucho más rápido y mejoró la precisión.
  • Asignación de etiquetas SimOTA: Se utilizó una versión simplificada de la asignación de transporte óptimo (OTA) para asignar muestras positivas de forma dinámica, lo que redujo los tiempos de entrenamiento y superó las ambigüedades de las asignaciones de puntos centrales.
El legado de YOLOX

El diseño de cabezal desacoplado de YOLOX influyó notablemente en las generaciones posteriores de detectores de objetos, convirtiéndose en una característica estándar en muchos modelos modernos.

Más información sobre YOLOX

DAMO-YOLO: Búsqueda de arquitectura automatizada a escala

Desarrollado por Xianzhe Xu y un equipo de investigadores de Alibaba Group, DAMO-YOLO se presentó el 23 de noviembre de 2022. Como se detalla en su publicación en ArXiv, el modelo utilizó intensamente la búsqueda de arquitectura neuronal (NAS) para ampliar la frontera de Pareto de velocidad y precisión.

Principales innovaciones arquitectónicas

La estrategia de DAMO-YOLO se basó en la automatización del diseño de estructuras eficientes:

  • Backbones MAE-NAS: Utilizando un algoritmo evolutivo multiobjetivo, DAMO-YOLO descubrió backbones altamente eficientes personalizados para presupuestos de latencia específicos, particularmente cuando se exportan a frameworks como TensorRT.
  • RepGFPN eficiente: Un diseño de cuello pesado que mejora significativamente la fusión de características a través de diferentes resoluciones espaciales, lo cual es altamente beneficioso para el análisis de imágenes aéreas y la detección de objetos a diferentes escalas.
  • ZeroHead: Un cabezal de predicción simplificado que reduce la redundancia computacional sin sacrificar la precisión media promedio (mAP) general del modelo.
  • AlignedOTA y destilación: Incorpora asignación de etiquetas avanzada y destilación de conocimiento profesor-alumno para extraer el máximo rendimiento de los modelos estudiantes más pequeños.

Más información sobre DAMO-YOLO

Comparación de rendimiento y métricas

Al comparar estos dos modelos, debemos observar sus recuentos de parámetros, los FLOPs requeridos y los perfiles de latencia. A continuación se muestran los datos de referencia comparando YOLOX y DAMO-YOLO a múltiples escalas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Aunque ambos modelos logran resultados impresionantes, tienen sus limitaciones. YOLOX requiere un ajuste cuidadoso de su cabezal desacoplado, mientras que la fuerte dependencia de la destilación en DAMO-YOLO hace que el reentrenamiento en datasets personalizados sea altamente intensivo en recursos, exigiendo grandes cantidades de GPU memory.

Casos de uso y recomendaciones

Elegir entre YOLOX y DAMO-YOLO depende de los requisitos específicos de tu proyecto, las restricciones de implementación y las preferencias de ecosistema.

Cuándo elegir YOLOX

YOLOX es una opción sólida para:

  • Investigación de detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevos cabezales de detección o funciones de pérdida.
  • Dispositivos de borde ultraligeros: Implementación en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M parámetros) es fundamental.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Cuándo elegir DAMO-YOLO

DAMO-YOLO se recomienda para:

  • Análisis de video de alto rendimiento: Procesamiento de flujos de video de alta tasa de cuadros (FPS) en infraestructura de GPU NVIDIA fija, donde el rendimiento de procesamiento batch-1 es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de ensamblaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiar los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y los backbones reparametrizados eficientes en el rendimiento de detección.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

La ventaja de Ultralytics: Presentamos YOLO26

Aunque YOLOX y DAMO-YOLO representan hitos históricos importantes, los desarrolladores modernos necesitan una solución que combine una precisión de vanguardia con una facilidad de uso inigualable. Aquí es donde Ultralytics YOLO26 transforma el panorama. Lanzado en enero de 2026, YOLO26 se basa en el legado de los modelos sin NMS para ofrecer el equilibrio definitivo entre velocidad, precisión y experiencia de desarrollo.

¿Por qué elegir YOLO26?

El ecosistema integrado de Ultralytics supera a los repositorios académicos fragmentados ofreciendo:

  • Diseño integral sin NMS: YOLO26 elimina de forma nativa la supresión de no máximos (NMS) durante la inferencia. Esto resulta en una latencia increíblemente rápida y predecible, fundamental para implementaciones en el borde y autonomous vehicles.
  • Eliminación de DFL: Al eliminar la Distribution Focal Loss, YOLO26 simplifica los procesos de exportación a dispositivos de borde, reduciendo drásticamente los requisitos de memoria para aplicaciones ligeras.
  • Optimizador MuSGD: YOLO26 toma prestadas innovaciones en el entrenamiento de LLM con su optimizador híbrido SGD y Muon, asegurando una estabilidad de entrenamiento sólida y una convergencia ultrarrápida.
  • Inferencia en CPU hasta un 43% más rápida: Gracias a optimizaciones estructurales profundas, YOLO26 se ejecuta a una velocidad asombrosa en CPUs sin necesidad de costoso hardware de GPU.
  • Funciones de pérdida avanzadas: La integración de ProgLoss + STAL proporciona mejoras masivas en el reconocimiento de objetos pequeños, lo que lo hace ideal para tareas como inspecciones con drones y monitorización IoT.
  • Versatilidad: A diferencia de DAMO-YOLO, que es estrictamente un detector, YOLO26 admite de forma nativa tareas de Instance Segmentation, Pose Estimation, Image Classification y Oriented Bounding Box (OBB) en un único framework unificado.
Empieza a construir al instante

Con la Ultralytics Python API, no necesitas configurar manualmente complejos pipelines de destilación ni escribir cientos de líneas de código C++ para implementar tu modelo.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Más información sobre YOLO26

Otros modelos a considerar

El ecosistema de computer vision es vasto. Dependiendo de tus restricciones específicas, es posible que también quieras explorar otras arquitecturas totalmente compatibles con el ecosistema de Ultralytics:

  • YOLO11: El predecesor altamente capaz de YOLO26, conocido por su robustez en retail analytics y manufacturing quality control.
  • YOLOv8: Un modelo legendario y altamente estable sin anclas que popularizó la implementación generalizada en el borde.
  • RT-DETR: Un transformador de detección en tiempo real (Real-Time DEtection TRansformer) desarrollado por Baidu, que ofrece una excelente alternativa para tareas que se benefician enormemente de los mecanismos de atención global, aunque a costa de mayores requisitos de memoria de entrenamiento.

Conclusión

Tanto YOLOX como DAMO-YOLO aportaron conceptos vitales al progreso del aprendizaje profundo: YOLOX validando el enfoque desacoplado y sin anclas, y DAMO-YOLO demostrando el poder de la búsqueda de arquitectura automatizada. Sin embargo, para la producción en el mundo real, las complejidades de sus bases de código de investigación originales pueden ralentizar a los equipos ágiles.

Al aprovechar la integral Ultralytics Platform, los desarrolladores pueden superar estos obstáculos. Con el diseño integral de YOLO26, velocidades superiores en CPU y una extensa documentación, lograr una visión IA de vanguardia es más accesible que nunca. Tanto si construyes infraestructura de ciudad inteligente, diagnósticos sanitarios o robótica avanzada, Ultralytics proporciona el camino más eficiente desde los datos sin procesar hasta una implementación sólida y real.

Comentarios