Link to this sectionYOLOX frente a YOLO11#
La evolución de la visión artificial ha estado impulsada en gran medida por la búsqueda de marcos de trabajo para la detección de objetos en tiempo real que equilibren una alta precisión con la velocidad de inferencia. Entre los hitos más notables en este viaje se encuentran YOLOX y Ultralytics YOLO11. Aunque ambos modelos han hecho contribuciones significativas al campo, sus arquitecturas subyacentes, filosofías de diseño y ecosistemas de desarrollo difieren sustancialmente.
Esta comparativa técnica exhaustiva explora sus arquitecturas, métricas de rendimiento, metodologías de entrenamiento y escenarios de despliegue ideales para ayudarte a tomar una decisión informada en tu próximo proyecto de inteligencia artificial.
Link to this sectionDescripción general de YOLOX#
Presentado por los investigadores Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun en Megvii el 18 de julio de 2021, YOLOX representó un cambio significativo en la serie YOLO. Consiguió cerrar la brecha entre la investigación académica y la aplicación industrial al introducir un diseño sin anclas.
Para obtener más antecedentes técnicos, puedes revisar el artículo original de YOLOX en Arxiv.
Link to this sectionCaracterísticas arquitectónicas clave#
YOLOX se alejó de la detección tradicional basada en anclas al adoptar una cabeza desacoplada y un mecanismo sin anclas. Este diseño redujo el número de parámetros de diseño y mejoró el rendimiento del modelo en varios puntos de referencia. Además, introdujo estrategias avanzadas de asignación de etiquetas como SimOTA para acelerar el proceso de entrenamiento y mejorar la convergencia.
Aunque YOLOX ofrece una excelente precisión para su época, se centra principalmente en la detección de objetos mediante cajas delimitadoras y carece de soporte nativo para otras tareas complejas de visión de forma inmediata.
Al eliminar las cajas de anclaje predefinidas, YOLOX redujo drásticamente el ajuste heurístico necesario para diferentes conjuntos de datos, convirtiéndolo en una base sólida para la investigación de metodologías sin anclas.
Link to this sectionDescripción general de Ultralytics YOLO11#
Lanzado el 27 de septiembre de 2024 por Glenn Jocher y Jing Qiu en Ultralytics, YOLO11 es un modelo de vanguardia que redefine la versatilidad y la facilidad de uso en la visión artificial. Construido sobre años de investigación fundamental, proporciona una solución altamente refinada y lista para producción que destaca en una multitud de tareas.
Link to this sectionLa ventaja de Ultralytics#
YOLO11 no es solo un detector de objetos; es un marco de trabajo unificado que admite segmentación de instancias, clasificación de imágenes, estimación de poses y detección de cajas delimitadoras orientadas (OBB). Cuenta con una arquitectura altamente eficiente que prioriza un equilibrio perfecto entre velocidad, número de parámetros y precisión.
Además, YOLO11 está totalmente integrado en la Plataforma Ultralytics, que proporciona un ecosistema optimizado para la anotación de datos, el entrenamiento de modelos y el despliegue.
Link to this sectionComparación de rendimiento y métricas#
Al comparar estos modelos, el equilibrio del rendimiento se vuelve evidente. YOLO11 logra una mayor precisión media (mAP) con significativamente menos parámetros y FLOPs en la mayoría de las categorías de tamaño en comparación con sus homólogos YOLOX.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Como se demuestra, los modelos YOLO11 superan consistentemente a YOLOX en precisión mientras mantienen una huella de parámetros más ligera. Por ejemplo, YOLO11m alcanza un 51.5 mAP con solo 20.1M de parámetros, mientras que YOLOXx logra un 51.1 mAP similar pero requiere unos masivos 99.1M de parámetros. Esta eficiencia de memoria durante el entrenamiento y la inferencia hace que YOLO11 sea altamente adecuado para el despliegue en dispositivos de IA en el borde (edge), evitando los elevados requisitos de memoria CUDA típicos de modelos más antiguos o basados en Transformer como RT-DETR.
Los modelos de Ultralytics requieren significativamente menos memoria de GPU durante el entrenamiento en comparación con YOLOX y las arquitecturas basadas en Transformer, lo que permite a los investigadores entrenar modelos potentes en hardware de consumo estándar.
Link to this sectionEcosistema y facilidad de uso#
Una de las diferencias más llamativas entre ambos marcos de trabajo es la experiencia del desarrollador.
YOLOX a menudo requiere clonar repositorios, configurar entornos complejos y ejecutar argumentos de línea de comandos verbosos para entrenar y exportar modelos a formatos como ONNX o TensorRT.
Por el contrario, Ultralytics YOLO11 ofrece una API de Python y una CLI increíblemente sencillas. La biblioteca de Ultralytics gestiona automáticamente la aumentación de datos, el ajuste de hiperparámetros y la exportación.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")Este ecosistema bien mantenido cuenta con el respaldo de una extensa documentación y una integración fluida con herramientas como Weights & Biases para el seguimiento de experimentos.
Link to this sectionCasos de uso ideales#
Elegir entre estos modelos a menudo depende de los detalles del entorno de despliegue.
Link to this sectionCuándo usar YOLOX#
- Sistemas heredados: Si tienes un flujo de trabajo establecido construido explícitamente alrededor del marco MegEngine o paradigmas de detección de objetos de principios de 2021.
- Bases académicas: Cuando realices investigaciones que requieran una evaluación comparativa directa frente a arquitecturas fundamentales sin anclas de la era de 2021.
Link to this sectionCuándo usar YOLO11#
- Despliegues en producción: Para aplicaciones comerciales en comercio minorista inteligente o sistemas de alarma de seguridad, donde el código robusto y mantenido y la alta precisión son innegociables.
- Flujos de trabajo multitarea: Cuando un proyecto requiere rastrear objetos, estimar poses humanas y segmentar instancias utilizando un único marco de trabajo unificado.
- Dispositivos de borde con recursos limitados: Debido a su bajo recuento de parámetros y alto rendimiento, YOLO11 es ideal para el despliegue en Raspberry Pi o nodos de borde móviles a través de CoreML y NCNN.
Link to this sectionMirando hacia el futuro: La ventaja de YOLO26#
Aunque YOLO11 representa un salto masivo sobre YOLOX, el campo de la visión artificial avanza rápidamente. Para los desarrolladores que comienzan nuevos proyectos hoy, Ultralytics YOLO26 es la recomendación definitiva.
Lanzado en enero de 2026, YOLO26 toma la brillantez arquitectónica de YOLO11 e introduce varias características innovadoras:
- Diseño integral sin NMS: YOLO26 elimina el posprocesamiento de supresión no máxima (NMS), transmitiendo la inferencia de forma nativa para flujos de despliegue más rápidos y sencillos (un concepto explorado por primera vez en YOLOv10).
- Hasta un 43% más de rapidez en la inferencia por CPU: Mediante la eliminación de la pérdida focal de distribución (DFL), YOLO26 es mucho más eficiente en CPUs y dispositivos de borde de baja potencia.
- Optimizador MuSGD: Inspirado en las innovaciones de entrenamiento de LLMs de Moonshot AI, el optimizador MuSGD asegura ejecuciones de entrenamiento altamente estables y una rápida convergencia.
- Funciones de pérdida avanzadas: Utilizando ProgLoss + STAL, YOLO26 logra mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para imágenes de drones y robótica autónoma.
Para la gran mayoría de las tareas modernas de visión artificial, actualizar tu flujo de trabajo para aprovechar YOLO26 proporcionará el mejor equilibrio absoluto entre velocidad, precisión y simplicidad de despliegue.