YOLOX frente a YOLO11: Un análisis profundo de la detección de objetos de alto rendimiento
La evolución de la visión artificial ha estado impulsada en gran medida por la búsqueda de marcos de trabajo de detección de objetos en tiempo real que equilibren una alta precisión con la velocidad de inferencia. Entre los hitos más notables en este viaje se encuentran YOLOX y Ultralytics YOLO11. Aunque ambos modelos han hecho contribuciones significativas al campo, sus arquitecturas subyacentes, filosofías de diseño y ecosistemas de desarrollo difieren sustancialmente.
Esta comparativa técnica exhaustiva explora sus arquitecturas, métricas de rendimiento, metodologías de entrenamiento y escenarios ideales de implementación para ayudarte a tomar una decisión informada para tu próximo proyecto de inteligencia artificial.
Descripción general de YOLOX
Presentado por los investigadores Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun en Megvii el 18 de julio de 2021, YOLOX representó un cambio significativo en la serie YOLO. Consiguió cerrar la brecha entre la investigación académica y la aplicación industrial al introducir un diseño sin anclas (anchor-free).
Para obtener más antecedentes técnicos, puedes revisar el artículo original de YOLOX en Arxiv.
Características arquitectónicas clave
YOLOX se apartó de la detección tradicional basada en anclas al adoptar una cabeza desacoplada y un mecanismo sin anclas. Este diseño redujo el número de parámetros de diseño y mejoró el rendimiento del modelo en varios benchmarks. Además, introdujo estrategias avanzadas de asignación de etiquetas como SimOTA para acelerar el proceso de entrenamiento y mejorar la convergencia.
Aunque YOLOX ofrece una excelente precisión para su época, se centra principalmente en la detección de objetos con cuadros delimitadores y carece de soporte nativo para otras tareas de visión complejas directamente.
Al eliminar los cuadros delimitadores predefinidos, YOLOX redujo drásticamente el ajuste heurístico requerido para diferentes conjuntos de datos, convirtiéndose en una base sólida para la investigación de metodologías sin anclas.
Descripción general de Ultralytics YOLO11
Lanzado el 27 de septiembre de 2024 por Glenn Jocher y Jing Qiu en Ultralytics, YOLO11 es un modelo de última generación que redefine la versatilidad y la facilidad de uso en la visión artificial. Construido sobre años de investigación fundamental, proporciona una solución altamente refinada y lista para producción que destaca en una multitud de tareas.
La ventaja de Ultralytics
YOLO11 no es solo un detector de objetos; es un marco de trabajo unificado que admite segmentación de instancias, clasificación de imágenes, estimación de poses y detección de cuadros delimitadores orientados (OBB). Cuenta con una arquitectura altamente eficiente que prioriza un equilibrio fluido entre velocidad, número de parámetros y precisión.
Además, YOLO11 está totalmente integrado en la Plataforma Ultralytics, que proporciona un ecosistema optimizado para la anotación de datos, el entrenamiento de modelos y la implementación.
Comparación de rendimiento y métricas
Al comparar estos modelos, el equilibrio de rendimiento queda claro. YOLO11 logra una mayor precisión media (mAP) con significativamente menos parámetros y FLOPs en la mayoría de las categorías de tamaño en comparación con sus equivalentes de YOLOX.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Como se ha demostrado, los modelos YOLO11 superan constantemente a YOLOX en precisión manteniendo a su vez una huella de parámetros más reducida. Por ejemplo, YOLO11m logra una 51.5 mAP con solo 20.1M de parámetros, mientras que YOLOXx logra una 51.1 mAP similar, pero requiere unos masivos 99.1M de parámetros. Esta eficiencia de memoria durante el entrenamiento y la inferencia hace que YOLO11 sea altamente adecuado para la implementación en dispositivos de IA de borde, evitando los pesados requisitos de memoria CUDA típicos de modelos más antiguos o basados en Transformer como RT-DETR.
Los modelos de Ultralytics requieren significativamente menos memoria de GPU durante el entrenamiento en comparación con YOLOX y las arquitecturas basadas en Transformer, lo que permite a los investigadores entrenar modelos potentes en hardware de consumo estándar.
Ecosistema y facilidad de uso
Una de las diferencias más llamativas entre los dos marcos de trabajo es la experiencia del desarrollador.
YOLOX suele requerir clonar repositorios, configurar entornos complejos y ejecutar argumentos de línea de comandos prolijos para entrenar y exportar modelos a formatos como ONNX o TensorRT.
En marcado contraste, Ultralytics YOLO11 ofrece una API de Python y una CLI increíblemente sencillas. La biblioteca de Ultralytics gestiona automáticamente la aumentación de datos, el ajuste de hiperparámetros y la exportación.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")Este ecosistema bien mantenido está respaldado por una extensa documentación y una integración fluida con herramientas como Weights & Biases para el seguimiento de experimentos.
Casos de uso ideales
Elegir entre estos modelos suele depender de las especificaciones del entorno de implementación.
Cuándo usar YOLOX
- Sistemas heredados: Si tienes una tubería establecida construida explícitamente en torno al marco de trabajo MegEngine o paradigmas de detección de objetos de principios de 2021.
- Bases académicas: Cuando realices investigaciones que requieran una evaluación comparativa directa frente a arquitecturas fundamentales sin anclas de la era de 2021.
Cuándo usar YOLO11
- Implementaciones de producción: Para aplicaciones comerciales en comercio minorista inteligente o sistemas de alarma de seguridad, donde el código robusto y mantenido y la alta precisión no son negociables.
- Tuberías multitarea: Cuando un proyecto requiere rastrear objetos, estimar poses humanas y segmentar instancias utilizando un único marco de trabajo unificado.
- Dispositivos de borde con recursos limitados: Debido a su bajo número de parámetros y alto rendimiento, YOLO11 es ideal para la implementación en Raspberry Pi o nodos de borde móviles mediante CoreML y NCNN.
Mirando hacia el futuro: La ventaja de YOLO26
Aunque YOLO11 representa un gran salto sobre YOLOX, el campo de la visión artificial avanza rápidamente. Para los desarrolladores que comienzan nuevos proyectos hoy, Ultralytics YOLO26 es la recomendación definitiva.
Lanzado en enero de 2026, YOLO26 toma la brillantez arquitectónica de YOLO11 e introduce varias características revolucionarias:
- Diseño integral sin NMS: YOLO26 elimina el procesamiento posterior de Supresión No Máxima (NMS), transmitiendo la inferencia de forma nativa para tuberías de implementación más rápidas y sencillas (un concepto explorado por primera vez en YOLOv10).
- Hasta un 43% más rápido en inferencia de CPU: Gracias a la eliminación de la Pérdida Focal de Distribución (DFL), YOLO26 es mucho más eficiente en CPUs y dispositivos de borde de bajo consumo.
- Optimizador MuSGD: Inspirado en las innovaciones de entrenamiento de LLM de Moonshot AI, el optimizador MuSGD garantiza ejecuciones de entrenamiento altamente estables y una convergencia rápida.
- Funciones de pérdida avanzadas: Utilizando ProgLoss + STAL, YOLO26 logra mejoras notables en el reconocimiento de objetos pequeños, lo cual es fundamental para imágenes de drones y robótica autónoma.
Para la gran mayoría de las tareas modernas de visión artificial, actualizar tu tubería para aprovechar YOLO26 proporcionará el equilibrio absoluto entre velocidad, precisión y simplicidad de implementación.