Ir al contenido

YOLOX frente a YOLO: una inmersión en la evolución de la detección de objetos

El panorama de la detección de objetos está en constante evolución, y los investigadores no dejan de ampliar los límites de la precisión, la velocidad de inferencia y la eficiencia arquitectónica. Dos aportaciones notables en este campo son YOLOX y YOLO. YOLOX revitalizó la familia YOLO introduciendo un mecanismo sin anclajes, mientras que YOLO aprovechó la búsqueda de arquitectura neuronal (NAS) para optimizar el rendimiento específicamente para aplicaciones industriales.

Esta guía ofrece una comparación técnica exhaustiva para ayudar a los desarrolladores e investigadores a comprender los matices de cada modelo, sus casos de uso ideales y cómo se comparan con soluciones modernas como Ultralytics YOLO11.

YOLOX: el pionero sin anclajes

Desarrollado por Megvii, YOLOX supuso un cambio significativo en el linaje de YOLO cuando se lanzó en 2021. Al cambiar a un diseño sin anclajes, simplificó el proceso de entrenamiento y eliminó la necesidad de complejos cálculos de cajas de anclaje, que eran un elemento básico de iteraciones anteriores como YOLOv4 y YOLOv5.

Detalles técnicos:

Más información sobre YOLOX

Principales características arquitectónicas

YOLOX integra varias técnicas avanzadas para lograr su rendimiento:

  1. Mecanismo sin anclajes: Al predecir directamente los centros de los objetos, YOLOX reduce el número de parámetros de diseño y los pasos de ajuste heurístico asociados a los métodos basados en anclajes.
  2. Cabezal desacoplado: a diferencia de los cabezales acoplados que manejan la clasificación y la regresión juntas, YOLOX separa estas tareas. Este desacoplamiento mejora la velocidad de convergencia y la precisión general.
  3. SimOTA: Una estrategia avanzada de asignación de etiquetas denominada Asignación de Transporte Óptima Simplificada (SimOTA) asigna dinámicamente muestras positivas a verdades básicas, optimizando el objetivo de formación de forma más eficaz que el emparejamiento estático.

¿Por qué sin anclajes?

Los detectores sin anclaje simplifican el diseño del modelo al eliminar la necesidad de ajustar manualmente los hiperparámetros de la caja de anclaje (como el tamaño y la relación de aspecto) para conjuntos de datos específicos. Esto suele mejorar la generalización de las distintas formas de objetos.

YOLO: arquitectura neuronal de búsqueda optimizada

Lanzado por Alibaba Group a finales de 2022, YOLO se centra en salvar la distancia entre alto rendimiento y baja latencia. Emplea técnicas automatizadas de aprendizaje automático para descubrir estructuras de red eficientes, lo que lo convierte en un fuerte competidor para aplicaciones industriales que requieren procesamiento en tiempo real.

Detalles técnicos:

Más información sobre DAMO-YOLO

Principales características arquitectónicas

YOLO introduce varias "nuevas tecnologías" en el ecosistema YOLO :

  1. Red troncal MAE-NAS: El modelo utiliza una columna vertebral generada mediante la Búsqueda de Arquitectura Neuronal (NAS) basada en la métrica del Error Absoluto Medio (MAE). Esto garantiza que el extractor de características se adapte perfectamente a la tarea de detección.
  2. RepGFPN: Un diseño de cuello pesado basado en la red piramidal de características generalizadas (GFPN) que utiliza la re-parametrización para maximizar la eficiencia de la fusión de características manteniendo baja la latencia de inferencia.
  3. ZeroHead: un cabezal de detección simplificado que reduce la carga computacional sin sacrificar la precisión de las predicciones.
  4. AlignedOTA: una evolución de la asignación de etiquetas que alinea mejor las puntuaciones de clasificación con la precisión de la regresión, garantizando que se prioricen las predicciones de alta calidad.

Análisis de rendimiento

A la hora de comparar estos dos modelos, es fundamental tener en cuenta la relación entre precisiónmAP) y velocidad de inferencia (latencia). La tabla siguiente muestra que, aunque YOLOX sigue siendo competitivo, la arquitectura más reciente de YOLO suele ofrecer una velocidad superior en el hardware de GPU para niveles de precisión similares.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Puntos críticos de comparación

  • Velocidad frente a precisión: YOLO(DAMO-YOLOt) consigue un mAP más alto (42,0) que YOLOX-Small (40,5) a la vez que funciona más rápido (2,32 ms frente a 2,56 ms) y utiliza menos FLOPs. Esto demuestra la eficacia de la red troncal optimizada para NAS.
  • Eficiencia de parámetros: YOLOX-Nano es extremadamente ligero (0,91M de parámetros), lo que lo convierte en una opción viable para dispositivos de borde con recursos extremadamente limitados en los que cada byte cuenta, aunque YOLO no ofrece un competidor directo a esa escala específica.
  • Máximo rendimiento: Aunque el YOLOX-X alcanza una precisión de 51,1 mAP, lo hace con un enorme número de parámetros (99,1 millones). YOLO alcanza una precisión comparable de 50,8 mAP con menos de la mitad de parámetros (42,1 millones), lo que pone de relieve un diseño más moderno y eficiente.

Casos de uso y aplicaciones

La elección entre YOLOX y YOLO depende a menudo del entorno específico de implantación.

  • YOLOX es muy adecuado para entornos de investigación y escenarios que requieren una implementación sencilla y sin anclajes. Su madurez significa que hay muchos recursos comunitarios y tutoriales disponibles. Es un buen candidato para tareas de detección de objetos de uso general en las que se necesita compatibilidad heredada.
  • YOLO destaca en aplicaciones de automatización industrial y ciudades inteligentes en las que la baja latencia del hardware de GPU es fundamental. Su arquitectura optimizada la hace ideal para el análisis de vídeo de alto rendimiento y la detección de defectos en tiempo real en la fabricación.

Ultralytics YOLO11: la alternativa superior

Aunque YOLOX y YOLO ofrecen sólidas capacidades de detección, se limitan en gran medida a esa única tarea y carecen de un ecosistema unificado y de apoyo. Para los desarrolladores que buscan una solución integral Ultralytics YOLO11 representa lo más avanzado en IA de visión.

Más información sobre YOLO11

Los modelos de Ultralytics están diseñados no sólo como arquitecturas, sino como herramientas completas para desarrolladores.

¿Por qué elegir Ultralytics YOLO11?

  1. Versatilidad entre tareas: A diferencia de YOLOX y YOLO, que se centran principalmente en la detección de cuadros delimitadores, YOLO11 admite de forma nativa una amplia gama de tareas de visión por ordenador. Esto incluye la segmentación de instancias, la estimación de poses, la detección de objetos orientados (OBB) y la clasificación de imágenes.
  2. Facilidad de uso inigualable: La APIPython Ultralytics le permite entrenar, validar y desplegar modelos con unas pocas líneas de código. No es necesario clonar repositorios complejos ni configurar manualmente rutas de entorno.
  3. Ecosistema bien mantenido: Ultralytics proporciona actualizaciones frecuentes, asegurando la compatibilidad con las últimas versiones de PyTorch, ONNXy TensorRT. La comunidad activa y la extensa documentación significan que nunca te quedarás sin soporte.
  4. Eficacia y memoria de entrenamiento: YOLO11 está diseñado para ser eficiente. Normalmente requiere menos memoria de GPU durante el entrenamiento en comparación con arquitecturas más antiguas o modelos basados en transformadores pesados, lo que permite iteraciones más rápidas y menores costes de computación en la nube.
  5. Equilibrio de rendimiento: YOLO11 se basa en el legado de las versiones anteriores de YOLO para ofrecer un equilibrio óptimo de velocidad y precisión, por lo que es adecuado para la implementación en todo, desde dispositivos de borde NVIDIA Jetson hasta servidores de nube de nivel empresarial.

Facilidad de uso con Ultralytics

Entrenar un modelo YOLO11 es increíblemente sencillo en comparación con los marcos tradicionales.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Conclusión

Tanto YOLOX como YOLO se han ganado un lugar en la historia de la visión por ordenador. YOLOX popularizó con éxito el paradigma sin anclajes, mientras que YOLO demostró el poder de la búsqueda de arquitecturas neuronales para optimizar los detectores industriales. Sin embargo, para las aplicaciones modernas que requieren flexibilidad, soporte a largo plazo y capacidades multitarea, Ultralytics YOLO11 destaca como la primera opción. Su integración en un ecosistema robusto, combinada con un rendimiento de vanguardia y una huella de memoria mínima, permite a los desarrolladores crear soluciones de IA escalables y eficientes con facilidad.

Explorar Otros Modelos

Para obtener una perspectiva más amplia de cómo se comparan estos modelos con otras arquitecturas de última generación, explore nuestras páginas de comparación detallada:


Comentarios