Ir al contenido

YOLOX frente a YOLO11: una inmersión técnica en la evolución de la detección de objetos

Seleccionar la arquitectura óptima de detección de objetos es fundamental para los desarrolladores que buscan un equilibrio entre precisión, latencia y eficiencia computacional. Este exhaustivo análisis compara YOLOX, un modelo pionero sin anclaje de Megvii, y Ultralytics YOLO11la última iteración de Ultralytics. Mientras que YOLOX introdujo innovaciones significativas en 2021, YOLO11 representa la vanguardia de la visión por ordenador en 2024, ofreciendo un marco unificado para diversas tareas que van desde la detección hasta la segmentación de instancias.

YOLOX: un puente entre la investigación y la industria

Lanzado en 2021, YOLOX supuso un cambio significativo en la familia YOLO al adoptar un mecanismo sin anclajes y desacoplar la cabeza de predicción. Se diseñó para tender un puente entre la investigación académica y la aplicación industrial.

Arquitectura e Innovaciones

YOLOX divergió de iteraciones anteriores como YOLOv5 al eliminar las cajas de anclaje, lo que redujo la complejidad del diseño y el número de hiperparámetros heurísticos. Su arquitectura presenta una cabeza desacoplada, que separa las tareas de clasificación y regresión en ramas diferentes, lo que mejoró la velocidad de convergencia y la precisión. Además, introdujo SimOTA, una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas, mejorando aún más el rendimiento.

Fortalezas y Debilidades

Ventajas:

  • Diseño sin anclajes: Elimina la necesidad de agrupar manualmente las cajas de anclaje, lo que simplifica el proceso de formación.
  • Cabezal desacoplado: mejora la precisión de la localización optimizando de forma independiente la clasificación y la regresión.
  • Base de investigación: Sirve como punto de referencia sólido para estudiar los detectores sin anclaje.

Debilidades:

  • Soporte de tareas limitado: Centrada principalmente en la detección de objetos, carece de soporte nativo para la segmentación, la estimación de la pose o los cuadros delimitadores orientados (OBB).
  • Ecosistema fragmentado: Carece de un conjunto de herramientas unificado y mantenido activamente para el despliegue, el seguimiento y los MLOps en comparación con los marcos modernos.
  • Menor eficiencia: Generalmente requiere más parámetros y FLOPs para lograr una precisión comparable a modelos más nuevos como YOLO11.

Más información sobre YOLOX

Ultralytics YOLO11: el nuevo estándar para la IA de visión

Ultralytics YOLO11 perfecciona el legado de la detección de objetos en tiempo real centrándose en la eficacia, la flexibilidad y la facilidad de uso. Está diseñado para ser la solución a la que recurrir tanto para la creación rápida de prototipos como para las implantaciones de producción a gran escala.

Arquitectura y ventajas del ecosistema

YOLO11 emplea una arquitectura sin anclajes altamente optimizada que mejora la extracción de características al tiempo que minimiza la sobrecarga computacional. A diferencia de YOLOX, YOLO11 no es solo un modelo, sino parte de un ecosistema completo. Es compatible con una amplia gama de tareas de visión por ordenador, comola clasificación, la segmentación, la estimación de la pose y el seguimiento, dentro de una API única y fácil de usar.

MLOps integrados

YOLO11 se integra perfectamente con Ultralytics HUB y herramientas de terceros como Weights & Biases y Cometque permiten visualizar experimentos y gestionar conjuntos de datos sin esfuerzo.

¿Por qué elegir YOLO11?

  • Versatilidad: Un único marco para la detección de objetos, la segmentación de instancias, la estimación de poses y la clasificación de imágenes.
  • Facilidad de uso: la APIPython y la CLI simplificadas permiten a los desarrolladores entrenar e implantar modelos con unas pocas líneas de código.
  • Equilibrio de rendimiento: Consigue un mAP con mayor velocidad de inferencia tanto en CPU como en GPU en comparación con sus predecesores y competidores.
  • Eficiencia de memoria: Diseñado con menores requisitos de memoria durante el entrenamiento y la inferencia, lo que lo hace más accesible que los modelos basados en transformadores como RT-DETR.
  • Preparado para el despliegue: Soporte nativo para exportar a formatos como ONNX, TensorRTCoreML y TFLite garantiza la compatibilidad con hardware diverso, desde NVIDIA Jetson hasta dispositivos móviles.

Más información sobre YOLO11

Análisis de rendimiento

La tabla siguiente muestra las diferencias de rendimiento entre YOLOX y YOLO11. YOLO11 demuestra sistemáticamente una mayor precisiónmAP) con menos parámetros y FLOPs, lo que se traduce en velocidades de inferencia más rápidas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Puntos clave

  1. Dominio de la eficacia: Los modelos YOLO11 ofrecen una relación significativamente mejor entre velocidad y precisión. Por ejemplo, YOLO11m alcanza 51,5 mAP con sólo 20,1 millones de parámetros, superando al enorme YOLOX-x (51,1 mAP, 99,1 millones de parámetros) y siendo 5 veces más pequeño.
  2. Velocidad de inferencia: En una GPU T4 utilizando TensorRTYOLO11n tarda 1,5 ms, lo que lo convierte en una opción excepcional para aplicaciones de inferencia en tiempo real en las que la latencia es fundamental.
  3. Rendimiento deCPU CPU: Ultralytics proporciona pruebas comparativas transparentes de CPU , que demuestran la viabilidad de YOLO11 para su implantación en dispositivos sin aceleradores dedicados.
  4. Eficacia de la formación: La arquitectura de YOLO11 permite una convergencia más rápida durante el entrenamiento, lo que ahorra tiempo y recursos informáticos valiosos.

Aplicaciones en el mundo real

En qué destaca YOLO11

  • Ciudades inteligentes: Gracias a su alta velocidad y precisión, YOLO11 es ideal para los sistemas de gestión del tráfico y la supervisión de la seguridad de los peatones.
  • Fabricación: La capacidad de realizar segmentación y detección de OBB lo hace perfecto para el control de calidad y la detección de defectos en piezas orientadas en líneas de montaje.
  • Sanidad: Una alta precisión con un uso eficiente de los recursos permite el análisis de imágenes médicas en dispositivos de vanguardia en entornos clínicos.

Dónde se utiliza el YOLOX

  • Sistemas heredados: Proyectos establecidos en torno a 2021-2022 que aún no han migrado a arquitecturas más recientes.
  • Investigación académica: Estudios que investigan específicamente los efectos de cabezas desacopladas o mecanismos sin anclaje de forma aislada.

Experiencia de usuario y comparación de códigos

Ultralytics da prioridad a una experiencia de usuario optimizada. Mientras que YOLOX suele requerir complejos archivos de configuración y una configuración manual, YOLO11 puede emplearse con un código mínimo.

Utilización de Ultralytics YOLO11

Los desarrolladores pueden cargar un modelo preentrenado, ejecutar la inferencia e incluso entrenar datos personalizados con unas pocas líneas de Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Facilidad de formación

Entrenar un modelo YOLO11 en un conjunto de datos personalizado es igualmente sencillo. La biblioteca gestiona automáticamente el aumento de datos, el ajuste de hiperparámetros y el registro.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Conclusión

Aunque YOLOX desempeñó un papel fundamental en la popularización de la detección de objetos sin anclaje, Ultralytics YOLO11 representa la opción superior para el desarrollo moderno de IA.

YOLO11 supera a YOLOX en precisión, velocidad y eficiencia, al tiempo que ofrece un ecosistema sólido y bien mantenido. Su versatilidad para múltiples tareas de visión, que elimina la necesidad de hacer malabarismos con diferentes bibliotecas para la detección, segmentación y estimación de la pose, reduce significativamente la complejidad del desarrollo. Para los desarrolladores que busquen una solución de alto rendimiento preparada para el futuro y respaldada por el apoyo activo de la comunidad y una documentación exhaustiva, YOLO11 es el camino recomendado.

Descubra más modelos

Descubra cómo YOLO11 se compara con otras arquitecturas líderes para encontrar la que mejor se adapta a sus necesidades específicas:


Comentarios