Ir al contenido

YOLO11 YOLOX: evolución arquitectónica y análisis del rendimiento

En el panorama en rápida evolución de la visión artificial, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Dos hitos importantes en este viaje son YOLO11 y YOLOX. Mientras que YOLOX introdujo conceptos innovadores sin anclajes en 2021, YOLO11 lanzado a finales de 2024) perfecciona estas ideas con mejoras arquitectónicas modernas, una eficiencia superior y el sólido apoyo del Ultralytics .

Esta guía ofrece una comparación técnica detallada para ayudar a los desarrolladores, investigadores e ingenieros a seleccionar el modelo óptimo para sus necesidades específicas, desde la implementación en tiempo real hasta el análisis de alta precisión del lado del servidor.

Resumen Ejecutivo

YOLO11 representa la culminación de años de refinamiento iterativo por parte de Ultralytics. Destaca por su versatilidad, ya que ofrece compatibilidad nativa con la detección, la segmentación, la estimación de posturas y los rectángulos delimitadores orientados (OBB). Su arquitectura está optimizada para el hardware moderno, lo que proporciona una mayor precisión por FLOP en comparación con los modelos anteriores.

YOLOX, desarrollado por Megvii en 2021, fue un lanzamiento fundamental que popularizó el paradigma de detección sin anclajes. Simplificó el proceso de entrenamiento al eliminar los cuadros de anclaje e introdujo técnicas avanzadas de aumento como MixUp Mosaic. Aunque sigue siendo un detector capaz, carece de las capacidades multitarea y del canal de implementación sin fisuras que caracterizan a Ultralytics más recientes.

Para los desarrolladores que comienzan nuevos proyectos hoy en día, YOLO11 o el innovador YOLO26 son generalmente recomendados debido a su excelente relación rendimiento-eficiencia y facilidad de uso.

Métricas de comparación técnica

La siguiente tabla destaca las diferencias de rendimiento entre las dos arquitecturas en varios tamaños de modelo.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Análisis de rendimiento

YOLO11m alcanza un mAP más alto mAP 51,5 %) que el mayor YOLOXx (51,1 %), al tiempo que utiliza aproximadamente cinco veces menos parámetros (20,1 millones frente a 99,1 millones) y funciona casi tres veces más rápido en GPU T4. Esta espectacular ganancia en eficiencia hace que YOLO11 sea YOLO11 más barato de implementar a gran escala.

Análisis Arquitectónico en Profundidad

YOLO11: Eficiencia y Versatilidad Refinadas

Autores: Glenn Jocher, Jing Qiu (Ultralytics)
Fecha: septiembre de 2024

YOLO11 en los módulos C2f (cuello de botella CSP con 2 convoluciones) introducidos en versiones anteriores, pero los mejora para obtener un mejor flujo de gradiente y extracción de características.

  • Backbone: Backbone optimizado basado en CSP que equilibra la profundidad y la anchura para minimizar la carga computacional y maximizar los campos receptivos.
  • Cabezal: un cabezal de detección unificado que admite múltiples tareas (detección de objetos, segmentación de instancias y estimación de poses) sin necesidad de cambios arquitectónicos significativos.
  • Sin anclajes: Al igual que YOLOX, YOLO11 un enfoque sin anclajes, lo que reduce el número de parámetros de diseño (como los tamaños y las proporciones de los anclajes) y simplifica la complejidad del modelo.
  • Dinámica de entrenamiento: incorpora estrategias avanzadas de aumento de datos dentro del proceso Ultralytics , lo que garantiza la solidez frente a condiciones de iluminación y oclusión variables.

Más información sobre YOLO11

YOLOX: El pionero sin anclajes

Autores: Zheng Ge, et al. (Megvii)
Fecha: julio de 2021

YOLOX se diseñó para salvar la brecha entre la comunidad investigadora y las aplicaciones industriales.

  • Cabezal desacoplado: YOLOX introdujo una estructura de cabezal desacoplado en la que las tareas de clasificación y regresión se gestionan mediante ramas separadas. Se comprobó que esto mejoraba la velocidad de convergencia y la precisión.
  • SimOTA: Una innovación clave fue la «asignación de transporte óptimo simplificada» (SimOTA) para la asignación de etiquetas. Esta estrategia dinámica asigna objetos de referencia a las predicciones de forma más eficaz que IoU fijos IoU .
  • Mecanismo sin anclajes: al eliminar las cajas de anclaje, YOLOX eliminó la necesidad de ajustar manualmente los anclajes, un punto débil común en YOLO anteriores YOLO (v2-v5).
  • Aumento potente: El uso intensivo de MixUp Mosaic y MixUp permitió a YOLOX entrenarse eficazmente desde cero.

Más información sobre YOLOX

Ecosistema y facilidad de uso

Uno de los factores más importantes para los desarrolladores es el ecosistema de software que rodea a un modelo. Este determina la facilidad con la que se puede entrenar, validar e implementar un modelo.

La ventaja de Ultralytics

YOLO11 del Ultralytics , maduro y mantenido activamente. Esta integración ofrece varias ventajas distintivas:

  1. API unificada: cambiar entre tareas es muy sencillo. Puede pasar de detectar coches a segmentar tumores cambiando un solo parámetro en el Python o CLI Python .
  2. Flexibilidad de implementación: El marco incluye una funcionalidad de exportación integrada a formatos como ONNX, TensorRT, CoreML y OpenVINO. Esto permite a los desarrolladores implementar modelos en entornos de producción con una sola línea de código.
  3. Compatibilidad con plataformas: la Ultralytics simplifica todo el ciclo de vida, desde la anotación de conjuntos de datos hasta el entrenamiento en la nube y la gestión de modelos.
from ultralytics import YOLO

# Load a model (YOLO11n)
model = YOLO("yolo11n.pt")

# Train on a custom dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for deployment
path = model.export(format="onnx")

Ecosistema YOLOX

YOLOX se aloja principalmente como un repositorio de investigación. Aunque el código es de código abierto y de alta calidad, a menudo requiere una mayor configuración manual. Los usuarios suelen tener que gestionar sus propios cargadores de datos, escribir scripts de exportación personalizados para hardware específico y navegar por un código base que se actualiza con menos frecuencia en comparación con el Ultralytics .

Aplicaciones en el mundo real

La elección entre estos modelos suele depender de las limitaciones específicas del entorno de aplicación.

Casos de Uso Ideales para YOLO11

  • Análisis de vídeo en tiempo real: con velocidades de inferencia T4 de tan solo 1,5 ms, YOLO11n es perfecto para procesar flujos de vídeo de alta velocidad de fotogramas por segundo para la gestión del tráfico o el análisis deportivo.
  • Sistemas multitarea: si una aplicación requiere el seguimiento simultáneo de objetos y la estimación de la postura (por ejemplo, el análisis del entrenamiento en el gimnasio), la versátil arquitectura YOLO11 reduce la necesidad de utilizar múltiples modelos pesados.
  • Implementación comercial avanzada: la exportación fluida a NVIDIA o Raspberry Pi convierte a YOLO11 en YOLO11 estándar para los productos IoT comerciales.

Casos de uso ideales para YOLOX

  • Benchmarking académico: YOLOX sigue siendo una referencia sólida para los investigadores que comparan métodos de detección sin anclaje de la era 2021-2022.
  • Sistemas heredados: Los proyectos que ya han realizado una gran inversión en el código base de YOLOX y en canalizaciones de integración personalizadas pueden considerar que resulta más rentable mantenerlos que migrarlos.
  • Limitaciones específicas para dispositivos móviles: El modelo YOLOX-Nano es extremadamente ligero (0,91 millones de parámetros), lo que lo hace útil para hardware móvil muy limitado, aunque los modelos más recientes, como YOLO26n, ahora ofrecen un tamaño competitivo con una precisión muy superior.

El futuro: entra en YOLO26

Para los desarrolladores que buscan lo último en tecnología, Ultralytics ha lanzado Ultralytics YOLO26 (enero de 2026). Este modelo supone un importante avance y sustituye eficazmente a YOLO11 YOLOX en la mayoría de los casos de uso.

YOLO26 introduce varias innovaciones clave:

  • De extremo a extremo de forma nativa: elimina la supresión no máxima (NMS), un paso de posprocesamiento que a menudo ralentiza la velocidad de inferencia. Esto da como resultado salidas más rápidas y deterministas.
  • Optimizador MuSGD: inspirado en las técnicas de entrenamiento LLM, este optimizador garantiza una convergencia estable y reduce el tiempo de entrenamiento.
  • Eficiencia: YOLO26 ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en una potente herramienta paraGPU .

Si está iniciando un nuevo proyecto, le recomendamos encarecidamente que evalúe YOLO26 junto con YOLO11.

Más información sobre YOLO26

Conclusión

Tanto YOLO11 YOLOX se han ganado un lugar en la historia de la visión artificial. YOLOX fue pionero y demostró la viabilidad de la detección sin anclajes. Sin embargo, YOLO11 ofrece un paquete más atractivo para los desarrolladores actuales: es más rápido, más preciso, admite una gama más amplia de tareas y está respaldado por un ecosistema que reduce drásticamente el tiempo de desarrollo.

Otros Modelos para Explorar

  • YOLO26: El último modelo de vanguardia de Ultralytics, con detección integral NMS.
  • RT-DETR: Detector basado en transformadores que ofrece una alta precisión, ideal para situaciones en las que se dispone de mucha GPU .
  • YOLOv9: Conocido por su información de gradiente programable (PGI) y su arquitectura GELAN.
  • YOLOv8: Un clásico fiable y ampliamente adoptado de la YOLO .

Comentarios