YOLOX vs. DAMO-YOLO: Un análisis profundo de la evolución de la object detection

El panorama de la detección de objetos está en constante evolución, con investigadores que continuamente superan los límites de la precisión, la velocidad de inferencia y la eficiencia arquitectónica. Dos contribuciones notables a este campo son YOLOX y DAMO-YOLO. YOLOX revitalizó la familia YOLO al introducir un mecanismo sin anclajes, mientras que DAMO-YOLO aprovechó la Búsqueda de Arquitectura Neuronal (NAS) para optimizar el rendimiento específicamente para aplicaciones industriales.

Esta guía proporciona una comparación técnica exhaustiva para ayudar a los desarrolladores e investigadores a comprender los matices de cada modelo, sus casos de uso ideales y cómo se comparan con soluciones modernas como Ultralytics YOLO11.

YOLOX: El pionero sin anclajes

Desarrollado por Megvii, YOLOX representó un cambio significativo en el linaje YOLO cuando se lanzó en 2021. Al cambiar a un diseño sin anclajes, simplificó el proceso de entrenamiento y eliminó la necesidad de cálculos complejos de cuadros de anclaje, que eran un elemento básico de iteraciones anteriores como YOLOv4 y YOLOv5.

Detalles técnicos:

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización:Megvii
Fecha: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Documentación:https://yolox.readthedocs.io/en/latest/

Más información sobre YOLOX

Características arquitectónicas clave

YOLOX integra varias técnicas avanzadas para lograr su rendimiento:

Mecanismo sin anclajes: Al predecir directamente los centros de los objetos, YOLOX reduce el número de parámetros de diseño y los pasos de ajuste heurístico asociados con los métodos basados en anclajes.
Head Desacoplado: A diferencia de los heads acoplados que gestionan la clasificación y la regresión juntas, YOLOX separa estas tareas. Este desacoplamiento mejora la velocidad de convergencia y la precisión general.
SimOTA: Una estrategia avanzada de asignación de etiquetas llamada Asignación de Transporte Óptimo Simplificado (SimOTA) asigna dinámicamente muestras positivas a ground truths, optimizando el objetivo de entrenamiento de forma más eficaz que la coincidencia estática.

¿Por qué sin anclajes?

Los detectores sin anclajes simplifican el diseño del modelo al eliminar la necesidad de ajustar manualmente los hiperparámetros de los cuadros de anclaje (como el tamaño y la relación de aspecto) para conjuntos de datos específicos. Esto a menudo conduce a una mejor generalización en diversas formas de objetos.

DAMO-YOLO: Búsqueda de arquitectura neuronal optimizada

Lanzado por Alibaba Group a finales de 2022, DAMO-YOLO se centra en cerrar la brecha entre el alto rendimiento y la baja latencia. Emplea técnicas automatizadas de aprendizaje automático para descubrir estructuras de red eficientes, lo que lo convierte en un fuerte competidor para aplicaciones industriales que requieren procesamiento en tiempo real.

Detalles técnicos:

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Documentación:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Más información sobre DAMO-YOLO

Características arquitectónicas clave

DAMO-YOLO introduce varias "nuevas tecnologías" al ecosistema YOLO:

Backbone MAE-NAS: El modelo utiliza un backbone generado a través de Búsqueda de Arquitectura Neuronal (NAS) basado en la métrica del Error Absoluto Medio (MAE). Esto asegura que el extractor de características esté perfectamente adaptado para la tarea de detección.
RepGFPN: Un diseño de cuello pesado basado en la red de pirámide de características generalizada (GFPN) que utiliza la reparametrización para maximizar la eficiencia de la fusión de características, manteniendo al mismo tiempo baja la latencia de inferencia.
ZeroHead: Un cabezal de detección simplificado que reduce la sobrecarga computacional sin sacrificar la precisión de las predicciones.
AlignedOTA: Una evolución de la asignación de etiquetas que alinea mejor las puntuaciones de clasificación con la precisión de la regresión, garantizando que se prioricen las predicciones de alta calidad.

Análisis de rendimiento

Al comparar estos dos modelos, es crucial observar las compensaciones entre la precisión (mAP) y la velocidad de inferencia (latencia). La siguiente tabla destaca que, si bien YOLOX sigue siendo competitivo, la arquitectura más nueva de DAMO-YOLO generalmente proporciona una velocidad superior en hardware de GPU para niveles de precisión similares.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Puntos de Comparación Críticos

Velocidad vs. Precisión: DAMO-YOLO-Tiny (DAMO-YOLOt) alcanza un mAP más alto (42.0) que YOLOX-Small (40.5) mientras se ejecuta más rápido (2.32ms vs 2.56ms) y utiliza menos FLOPs. Esto demuestra la eficacia del backbone optimizado por NAS.
Eficiencia de parámetros: YOLOX-Nano es extremadamente ligero (0.91M de parámetros), lo que lo convierte en una opción viable para dispositivos de borde con recursos extremadamente limitados donde cada byte cuenta, aunque DAMO-YOLO no ofrece un competidor directo a esa escala específica.
Rendimiento de gama alta: Si bien YOLOX-X lleva la precisión a 51.1 mAP, lo hace con un recuento de parámetros masivo (99.1M). DAMO-YOLO-Large alcanza un mAP comparable de 50.8 con menos de la mitad de los parámetros (42.1M), lo que destaca un diseño más moderno y eficiente.

Casos de uso y aplicaciones

La elección entre YOLOX y DAMO-YOLO a menudo depende del entorno de implementación específico.

YOLOX es adecuado para entornos de investigación y escenarios que requieren una implementación sencilla y sin anclajes. Su madurez significa que hay muchos recursos de la comunidad y tutoriales disponibles. Es un fuerte candidato para tareas de detección de objetos de propósito general donde se necesita compatibilidad con versiones anteriores.
DAMO-YOLO destaca en la automatización industrial y las aplicaciones de ciudades inteligentes donde la baja latencia en el hardware de la GPU es fundamental. Su arquitectura optimizada la hace ideal para el análisis de vídeo de alto rendimiento y la detección de defectos en tiempo real en la fabricación.

Ultralytics YOLO11: La Alternativa Superior

Si bien YOLOX y DAMO-YOLO ofrecen capacidades de detección robustas, se limitan en gran medida a esa única tarea y carecen de un ecosistema unificado y de apoyo. Para los desarrolladores que buscan una solución integral, Ultralytics YOLO11 representa el estado del arte en la IA de visión.

Más información sobre YOLO11

Los modelos de Ultralytics están diseñados no solo como arquitecturas, sino como herramientas completas para desarrolladores.

¿Por qué elegir Ultralytics YOLO11?

Versatilidad en todas las tareas: A diferencia de YOLOX y DAMO-YOLO, que se centran principalmente en la detección de cuadros delimitadores, YOLO11 admite de forma nativa una amplia gama de tareas de visión artificial. Esto incluye segmentación de instancias, estimación de pose, detección de objetos orientados (OBB) y clasificación de imágenes.
Facilidad de uso inigualable: La API de python de Ultralytics le permite entrenar, validar e implementar modelos con solo unas pocas líneas de código. No es necesario clonar repositorios complejos ni configurar manualmente las rutas del entorno.
Ecosistema bien mantenido: Ultralytics proporciona actualizaciones frecuentes, lo que garantiza la compatibilidad con las últimas versiones de PyTorch, ONNX y TensorRT. La comunidad activa y la documentación extensa significan que nunca se quedará sin soporte.
Eficiencia de Entrenamiento y Memoria: YOLO11 está diseñado para la eficiencia. Por lo general, requiere menos memoria de la GPU durante el entrenamiento en comparación con arquitecturas más antiguas o modelos pesados basados en transformadores, lo que permite iteraciones más rápidas y reduce los costos de computación en la nube.
Equilibrio de rendimiento: YOLO11 se basa en el legado de las versiones anteriores de YOLO para ofrecer un equilibrio óptimo de velocidad y precisión, lo que lo hace adecuado para su implementación en todo, desde dispositivos periféricos NVIDIA Jetson hasta servidores en la nube de nivel empresarial.

Facilidad de uso con Ultralytics

Entrenar un modelo YOLO11 es increíblemente sencillo en comparación con los frameworks tradicionales.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Conclusión

Tanto YOLOX como DAMO-YOLO se han ganado su lugar en la historia de la visión artificial. YOLOX popularizó con éxito el paradigma sin anclaje, mientras que DAMO-YOLO demostró el poder de la búsqueda de arquitectura neuronal para optimizar los detectores industriales. Sin embargo, para las aplicaciones modernas que requieren flexibilidad, soporte a largo plazo y capacidades multitarea, Ultralytics YOLO11 destaca como la opción principal. Su integración en un ecosistema robusto, combinado con un rendimiento de última generación y una huella de memoria mínima, permite a los desarrolladores crear soluciones de IA escalables y eficientes con facilidad.

Explorar Otros Modelos

Para una perspectiva más amplia sobre cómo se comparan estos modelos con otras arquitecturas de última generación, explora nuestras páginas de comparación detalladas:

YOLOX vs. DAMO-YOLO: Un análisis profundo de la evolución de la object detection

YOLOX: El pionero sin anclajes

Características arquitectónicas clave

DAMO-YOLO: Búsqueda de arquitectura neuronal optimizada

Características arquitectónicas clave

Análisis de rendimiento

Puntos de Comparación Críticos

Casos de uso y aplicaciones

Ultralytics YOLO11: La Alternativa Superior

¿Por qué elegir Ultralytics YOLO11?

Conclusión

Explorar Otros Modelos

Comentarios