Link to this sectionYOLOX frente a DAMO-YOLO#
La evolución de la detección de objetos en tiempo real ha experimentado numerosos cambios de paradigma, desde arquitecturas basadas en anclas a arquitecturas sin anclas, y desde backbones diseñados manualmente hasta la búsqueda de arquitectura neuronal (NAS) automatizada. En esta comparativa técnica exhaustiva, analizaremos dos hitos significativos en este recorrido: YOLOX y DAMO-YOLO. Exploraremos sus innovaciones arquitectónicas, metodologías de entrenamiento y compensaciones de rendimiento, al tiempo que destacamos cómo el moderno Ultralytics YOLO26 ofrece una alternativa inigualable para los desarrolladores actuales.
Link to this sectionYOLOX: Pionero en el paradigma sin anclas (anchor-free)#
Lanzado el 18 de julio de 2021 por Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun en Megvii, YOLOX marcó un punto de inflexión crítico al integrar con éxito un diseño sin anclas en la familia YOLO. Descrito en su detallado informe técnico en ArXiv, YOLOX tuvo como objetivo cerrar la brecha entre la investigación académica y la implementación industrial.
Link to this sectionInnovaciones arquitectónicas clave#
YOLOX introdujo varios cambios estructurales fundamentales que mejoraron drásticamente a sus predecesores:
- Mecanismo sin anclas (Anchor-Free): Al predecir el centro de un objeto y las dimensiones de su caja delimitadora directamente, YOLOX redujo el número de heurísticas de diseño y simplificó los complejos procesos de agrupación de anclas. Esto lo hace altamente adaptable a diversos escenarios de visión artificial.
- Cabezal desacoplado (Decoupled Head): Los modelos YOLO tradicionales utilizaban un único cabezal acoplado tanto para la clasificación como para la regresión. YOLOX implementó un cabezal desacoplado, procesando la clasificación y la localización por separado, lo que permitió una convergencia mucho más rápida y una mayor precisión.
- Asignación de etiquetas SimOTA: Se utilizó una versión simplificada de Asignación de Transporte Óptimo (OTA) para asignar muestras positivas de forma dinámica, reduciendo los tiempos de entrenamiento y superando las ambigüedades de las asignaciones de puntos centrales.
El diseño de cabezal desacoplado de YOLOX influyó fuertemente en las generaciones posteriores de detectores de objetos, convirtiéndose en una característica estándar en muchos modelos modernos.
Link to this sectionDAMO-YOLO: Búsqueda de arquitectura automatizada a gran escala#
Desarrollado por Xianzhe Xu y un equipo de investigadores de Alibaba Group, DAMO-YOLO se presentó el 23 de noviembre de 2022. Como se detalla en su publicación en ArXiv, el modelo utilizó intensamente la Búsqueda de Arquitectura Neuronal (NAS) para ampliar la frontera de Pareto de velocidad y precisión.
Link to this sectionInnovaciones arquitectónicas clave#
La estrategia de DAMO-YOLO se basó en automatizar el diseño de estructuras eficientes:
- Backbones MAE-NAS: Mediante un algoritmo evolutivo multiobjetivo, DAMO-YOLO descubrió backbones altamente eficientes adaptados a presupuestos de latencia específicos, particularmente cuando se exportan a frameworks como TensorRT.
- Efficient RepGFPN: Un diseño de cuello pesado que mejora significativamente la fusión de características a través de diferentes resoluciones espaciales, lo cual es altamente beneficioso para el análisis de imágenes aéreas y la detección de objetos a escalas variables.
- ZeroHead: Un cabezal de predicción simplificado que recorta la redundancia computacional sin sacrificar la precisión media promedio (mAP) general del modelo.
- AlignedOTA y destilación: Incorpora asignación de etiquetas avanzada y destilación de conocimiento profesor-alumno para extraer el máximo rendimiento de modelos alumno más pequeños.
Más información sobre DAMO-YOLO
Link to this sectionComparación de rendimiento y métricas#
Al comparar estos dos modelos, debemos observar sus recuentos de parámetros, los FLOPs requeridos y los perfiles de latencia. A continuación se presentan los datos de referencia que comparan YOLOX y DAMO-YOLO a múltiples escalas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Aunque ambos modelos logran resultados impresionantes, tienen sus inconvenientes. YOLOX requiere un ajuste cuidadoso de su cabezal desacoplado, mientras que la fuerte dependencia de DAMO-YOLO en la destilación hace que el reentrenamiento en conjuntos de datos personalizados requiera muchos recursos, demandando vastas cantidades de memoria GPU.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOX y DAMO-YOLO depende de los requisitos específicos de tu proyecto, las restricciones de implementación y tus preferencias de ecosistema.
Link to this sectionCuándo elegir YOLOX#
YOLOX es una opción sólida para:
- Investigación en detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevas cabeceras de detección o funciones de pérdida.
- Dispositivos de borde ultraligeros: Despliegue en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M de parámetros) es crítica.
- Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.
Link to this sectionCuándo elegir DAMO-YOLO#
DAMO-YOLO se recomienda para:
- Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
- Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
- Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionLa ventaja de Ultralytics: Presentamos YOLO26#
Aunque YOLOX y DAMO-YOLO representan hitos históricos importantes, los desarrolladores modernos requieren una solución que combine precisión de vanguardia con una facilidad de uso inigualable. Aquí es donde Ultralytics YOLO26 transforma el panorama. Lanzado en enero de 2026, YOLO26 aprovecha el legado de los modelos sin NMS para ofrecer el equilibrio definitivo entre velocidad, precisión y experiencia del desarrollador.
Link to this section¿Por qué elegir YOLO26?#
El ecosistema integrado de Ultralytics supera a los repositorios académicos fragmentados ofreciendo:
- Diseño integral sin NMS: YOLO26 elimina de forma nativa la Supresión de No Máximos (NMS) durante la inferencia. Esto resulta en una latencia increíblemente rápida y predecible, fundamental para despliegues en el borde y vehículos autónomos.
- Eliminación de DFL: Al eliminar la Distribución de Pérdida Focal (Distribution Focal Loss), YOLO26 simplifica los procesos de exportación a dispositivos de borde, reduciendo drásticamente los requisitos de memoria para aplicaciones ligeras.
- Optimizador MuSGD: YOLO26 toma prestadas innovaciones en entrenamiento de LLM con su optimizador híbrido SGD y Muon, asegurando una estabilidad de entrenamiento sólida como una roca y una convergencia ultrarrápida.
- Inferencia en CPU hasta un 43% más rápida: Gracias a optimizaciones estructurales profundas, YOLO26 se ejecuta a una velocidad vertiginosa en CPUs sin necesidad de costoso hardware de GPU.
- Funciones de pérdida avanzadas: La integración de ProgLoss + STAL proporciona mejoras masivas en el reconocimiento de objetos pequeños, lo que lo hace ideal para tareas como inspecciones con drones y monitorización IoT.
- Versatilidad: A diferencia de DAMO-YOLO, que es estrictamente un detector, YOLO26 admite de forma nativa tareas de Segmentación de instancias, Estimación de poses, Clasificación de imágenes y Caja delimitadora orientada (OBB) en un único framework unificado.
Con la API de Python de Ultralytics, no necesitas configurar manualmente complejos pipelines de destilación ni escribir cientos de líneas de código C++ para desplegar tu modelo.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")Link to this sectionOtros modelos a considerar#
El ecosistema de visión artificial es vasto. Dependiendo de tus restricciones específicas, es posible que también quieras explorar otras arquitecturas totalmente compatibles con el ecosistema de Ultralytics:
- YOLO11: El predecesor altamente capaz de YOLO26, conocido por su robustez en análisis minorista y control de calidad en fabricación.
- YOLOv8: Un modelo legendario y altamente estable, sin anclas, que popularizó el despliegue masivo en el borde.
- RT-DETR: Un transformador de detección en tiempo real desarrollado por Baidu, que ofrece una excelente alternativa para tareas que se benefician enormemente de los mecanismos de atención global, aunque a costa de mayores requisitos de memoria durante el entrenamiento.
Link to this sectionConclusión#
Tanto YOLOX como DAMO-YOLO contribuyeron con conceptos vitales a la progresión del aprendizaje profundo: YOLOX validando el enfoque desacoplado y sin anclas, y DAMO-YOLO demostrando el poder de la búsqueda de arquitectura automatizada. Sin embargo, para la producción en el mundo real, las complejidades de sus bases de código de investigación original pueden ralentizar a los equipos ágiles.
Al aprovechar la completa Plataforma Ultralytics, los desarrolladores pueden sortear estos obstáculos. Con el diseño integral de YOLO26, velocidades superiores en CPU y una amplia documentación, lograr una IA de visión de vanguardia es más accesible que nunca. Ya sea que estés construyendo infraestructura de ciudades inteligentes, diagnósticos de atención médica o robótica avanzada, Ultralytics proporciona el camino más eficiente desde los datos sin procesar hasta el despliegue robusto en el mundo real.