Ir al contenido

YOLOX vs DAMO-YOLO: Comparando detectores de objetos sin anclajes y basados en NAS

La evolución de la detección de objetos en tiempo real ha visto numerosos cambios de paradigma, desde arquitecturas basadas en anclajes a arquitecturas sin anclajes, y desde backbones diseñados manualmente a la búsqueda automatizada de arquitectura neuronal (NAS). En esta exhaustiva comparación técnica, analizaremos dos hitos significativos en este camino: YOLOX y DAMO-YOLO. Exploraremos sus innovaciones arquitectónicas, metodologías de entrenamiento y compensaciones de rendimiento, al tiempo que destacaremos cómo el moderno Ultralytics YOLO26 proporciona una alternativa inigualable para los desarrolladores actuales.

YOLOX: Pionero del paradigma sin anclas

Lanzado el 18 de julio de 2021 por Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun en Megvii, YOLOX marcó un punto de inflexión crítico al integrar con éxito un diseño sin anclas en la familia YOLO. Descrito en su detallado informe técnico en ArXiv, YOLOX tenía como objetivo cerrar la brecha entre la investigación académica y el despliegue industrial.

Innovaciones arquitectónicas clave

YOLOX introdujo varios cambios estructurales clave que mejoraron drásticamente a sus predecesores:

  • Mecanismo Anchor-Free: Al predecir directamente el centro de un objeto y las dimensiones de su caja delimitadora, YOLOX redujo el número de heurísticas de diseño y simplificó los complejos procesos de agrupamiento de anclajes. Esto lo hace altamente adaptable a diversos escenarios de visión por computador.
  • Cabezal Desacoplado: Los modelos YOLO tradicionales utilizaban un único cabezal acoplado tanto para la clasificación como para la regresión. YOLOX implementó un cabezal desacoplado, procesando la clasificación y la localización por separado, lo que convergió mucho más rápido y mejoró la precisión.
  • Asignación de etiquetas SimOTA: Se utilizó una versión simplificada de Optimal Transport Assignment (OTA) para asignar muestras positivas dinámicamente, reduciendo los tiempos de entrenamiento y superando las ambigüedades de las asignaciones de puntos centrales.

El Legado de YOLOX

El diseño de cabezal desacoplado de YOLOX influyó significativamente en las generaciones posteriores de detectores de objetos, convirtiéndose en una característica estándar en muchos modelos modernos.

Más información sobre YOLOX

DAMO-YOLO: Búsqueda de Arquitectura Automatizada a Escala

Desarrollado por Xianzhe Xu y un equipo de investigadores del Grupo Alibaba, DAMO-YOLO fue introducido el 23 de noviembre de 2022. Como se detalla en su publicación de ArXiv, el modelo utilizó en gran medida la Búsqueda de Arquitectura Neuronal (NAS) para superar la frontera de Pareto de velocidad y precisión.

Innovaciones arquitectónicas clave

La estrategia de DAMO-YOLO se basó en la automatización del diseño de estructuras eficientes:

  • Backbones MAE-NAS: Utilizando un algoritmo evolutivo multiobjetivo, DAMO-YOLO descubrió backbones altamente eficientes personalizados para presupuestos de latencia específicos, particularmente cuando se exportan a frameworks como TensorRT.
  • RepGFPN eficiente: Un diseño de cuello pesado que mejora significativamente la fusión de características a través de diferentes resoluciones espaciales, lo cual es muy beneficioso para el análisis de imágenes aéreas y la detección de objetos a diferentes escalas.
  • ZeroHead: Una cabeza de predicción simplificada que elimina la redundancia computacional sin sacrificar la mAP (precisión media promedio) general del modelo.
  • AlignedOTA y Destilación: Incorpora asignación de etiquetas avanzada y destilación de conocimiento maestro-estudiante para exprimir el máximo rendimiento de modelos estudiantes más pequeños.

Más información sobre DAMO-YOLO

Comparación de rendimiento y métricas

Al comparar estos dos modelos, debemos considerar su número de parámetros, los FLOPs requeridos y sus perfiles de latencia. A continuación, se presentan los datos de referencia que comparan YOLOX y DAMO-YOLO en múltiples escalas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Aunque ambos modelos logran resultados impresionantes, vienen con advertencias. YOLOX requiere una cuidadosa sintonización de su cabezal desacoplado, mientras que la fuerte dependencia de DAMO-YOLO en la destilación hace que el reentrenamiento en conjuntos de datos personalizados sea altamente intensivo en recursos, demandando grandes cantidades de memoria GPU.

Casos de Uso y Recomendaciones

La elección entre YOLOX y DAMO-YOLO depende de los requisitos específicos de su proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Cuándo elegir YOLOX

YOLOX es una opción sólida para:

  • Investigación en detect Sin Anclajes: Investigación académica que utiliza la arquitectura limpia y sin anclajes de YOLOX como base para experimentar con nuevos cabezales de detect o funciones de pérdida.
  • Dispositivos Edge Ultraligeros: Despliegue en microcontroladores o hardware móvil heredado donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que estudian estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Cuándo elegir DAMO-YOLO

DAMO-YOLO se recomienda para:

  • Análisis de Video de Alto Rendimiento: Procesamiento de flujos de video de alto FPS en infraestructura fija de GPUs NVIDIA donde el rendimiento de lote-1 es la métrica principal.
  • Líneas de Fabricación Industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiando los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y de los backbones reparametrizados eficientes en el rendimiento de detect.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

La ventaja de Ultralytics: Presentando YOLO26

Aunque YOLOX y DAMO-YOLO representan hitos históricos importantes, los desarrolladores modernos requieren una solución que combine una precisión de vanguardia con una facilidad de uso inigualable. Aquí es donde Ultralytics YOLO26 transforma el panorama. Lanzado en enero de 2026, YOLO26 se basa en el legado de los modelos NMS-free para ofrecer el equilibrio definitivo entre velocidad, precisión y experiencia del desarrollador.

¿Por qué elegir YOLO26?

El ecosistema integrado de Ultralytics supera a los repositorios académicos fragmentados al ofrecer:

  • Diseño de extremo a extremo sin NMS: YOLO26 elimina nativamente la Supresión No Máxima (NMS) durante la inferencia. Esto resulta en una latencia increíblemente rápida y predecible, crítica para implementaciones en el borde y vehículos autónomos.
  • Eliminación de DFL: Al eliminar la Pérdida Focal de Distribución, YOLO26 simplifica los procesos de exportación a dispositivos de borde, reduciendo drásticamente los requisitos de memoria para aplicaciones ligeras.
  • Optimizador MuSGD: YOLO26 toma prestadas innovaciones de entrenamiento de LLM con su optimizador híbrido SGD y Muon, asegurando una estabilidad de entrenamiento sólida como una roca y una convergencia ultrarrápida.
  • Hasta un 43% más rápida la inferencia en CPU: Gracias a profundas optimizaciones estructurales, YOLO26 se ejecuta increíblemente rápido en CPU sin necesidad de hardware de GPU costoso.
  • Funciones de Pérdida Avanzadas: La integración de ProgLoss + STAL proporciona mejoras masivas en el reconocimiento de objetos pequeños, lo que lo hace ideal para tareas como las inspecciones con drones y la monitorización de IoT.
  • Versatilidad: A diferencia de DAMO-YOLO, que es estrictamente un detector, YOLO26 soporta de forma nativa tareas de segmentación de instancias, estimación de pose, clasificación de imágenes y cajas delimitadoras orientadas (OBB) en un único framework unificado.

Comience a construir al instante

Con la API de Python de Ultralytics, no necesita configurar manualmente complejos pipelines de destilación ni escribir cientos de líneas de código C++ para desplegar su modelo.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Más información sobre YOLO26

Otros modelos a considerar

El ecosistema de visión por computadora es vasto. Dependiendo de sus restricciones específicas, también podría considerar explorar otras arquitecturas totalmente compatibles con el ecosistema de Ultralytics:

  • YOLO11: El predecesor altamente capaz de YOLO26, conocido por su robustez en análisis minorista y control de calidad de fabricación.
  • YOLOv8: Un modelo legendario, altamente estable y sin anclajes que popularizó la implementación generalizada en el borde.
  • RT-DETR: Un Real-Time DEtection TRansformer desarrollado por Baidu, que ofrece una excelente alternativa para tareas que se benefician enormemente de los mecanismos de atención global, aunque a costa de mayores requisitos de memoria de entrenamiento.

Conclusión

Tanto YOLOX como DAMO-YOLO contribuyeron con conceptos vitales al progreso del aprendizaje profundo: YOLOX validando el enfoque desacoplado y sin anclajes, y DAMO-YOLO demostrando el poder de la búsqueda automatizada de arquitectura. Sin embargo, para la producción en el mundo real, las complejidades de sus bases de código de investigación originales pueden ralentizar a los equipos ágiles.

Al aprovechar la completa Plataforma Ultralytics, los desarrolladores pueden sortear estos obstáculos. Con el diseño de extremo a extremo de YOLO26, velocidades de CPU superiores y una extensa documentación, lograr una IA de visión de vanguardia es más accesible que nunca. Ya sea que esté construyendo infraestructura de ciudades inteligentes, diagnósticos de atención médica o robótica avanzada, Ultralytics proporciona el camino más eficiente desde los datos brutos hasta una implementación robusta en el mundo real.


Comentarios