YOLOv10 vs. YOLOX: Una comparación técnica

En el panorama de la visión artificial, que evoluciona rápidamente, seleccionar el modelo de detección de objetos adecuado es crucial para equilibrar el rendimiento, la eficiencia y la facilidad de implementación. Esta comparación técnica explora las diferencias entre YOLOv10, el último detector end-to-end en tiempo real de la Universidad de Tsinghua, y YOLOX, un modelo sin anclajes muy apreciado de Megvii.

Si bien YOLOX introdujo innovaciones significativas en 2021 con respecto a los mecanismos de detección sin anclaje, YOLOv10 representa la vanguardia de 2024, ofreciendo inferencia sin NMS y una integración más estrecha con el ecosistema Ultralytics.

YOLOv10: Detección de extremo a extremo en tiempo real

YOLOv10 tiene como objetivo cerrar la brecha entre la eficiencia del post-procesamiento y la arquitectura del modelo. Al introducir una estrategia de asignación dual consistente para el entrenamiento sin NMS, elimina la necesidad de Supresión No Máxima (NMS) durante la inferencia, reduciendo significativamente la latencia.

Detalles técnicos:

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización:Universidad de Tsinghua
Fecha: 2024-05-23
Arxiv:arXiv:2405.14458
GitHub:THU-MIG/yolov10

Arquitectura y puntos fuertes

YOLOv10 se basa en las fortalezas de las generaciones anteriores de YOLO, pero optimiza la arquitectura tanto para la eficiencia como para la precisión. Emplea un diseño de modelo holístico que incluye encabezados de clasificación ligeros y un submuestreo espacial-canal desacoplado.

Inferencia sin NMS: La eliminación de NMS es un cambio radical para las aplicaciones de inferencia en tiempo real, garantizando una latencia predecible y una menor sobrecarga de CPU en dispositivos edge.
Equilibrio entre eficiencia y precisión: YOLOv10 logra un rendimiento de última generación con un menor número de parámetros y FLOP en comparación con sus predecesores y competidores.
Integración de Ultralytics: Al estar totalmente soportado por el ultralytics paquete significa que los usuarios se benefician de un unificado API de Python, exportación perfecta a formatos como TensorRT y OpenVINO, y una extensa documentación.

Ventaja del ecosistema

La integración de YOLOv10 en el ecosistema Ultralytics proporciona acceso inmediato a funciones avanzadas como auto-anotación, entrenamiento en la nube y una comunidad robusta para soporte.

Debilidades

Arquitectura Más Reciente: Como un lanzamiento de 2024, el ecosistema de tutoriales de terceros está creciendo rápidamente, pero puede que aún no iguale el volumen de los modelos heredados más antiguos.

Más información sobre YOLOv10

YOLOX: El pionero sin anclajes

Lanzado en 2021, YOLOX cambió a un mecanismo libre de anclajes y desacopló los encabezados, divergiendo de los enfoques basados en anclajes de YOLOv4 y YOLOv5. Utiliza SimOTA (Simplified Optimal Transport Assignment) para la asignación de etiquetas, lo que supuso un importante paso adelante en las estrategias de asignación dinámica de etiquetas.

Detalles técnicos:

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
Organización:Megvii
Fecha: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX

Arquitectura y puntos fuertes

YOLOX sigue siendo una base sólida en la comunidad de investigación debido a su diseño limpio anchor-free.

Mecanismo sin anclajes: Al eliminar los cuadros de anclaje predefinidos, YOLOX reduce la complejidad del diseño y el número de hiperparámetros que requieren ajuste.
Head Desacoplado: La separación de las tareas de clasificación y localización mejoró la velocidad de convergencia y la precisión en relación con los diseños anteriores de head acoplado.
Base Sólida: Sirve como un benchmark fiable para la investigación académica en cabezales de detección y estrategias de asignación.

Debilidades

Velocidad de inferencia: Si bien es eficiente para su época, YOLOX generalmente se queda atrás de los modelos más nuevos como YOLOv10 y YOLO11 en términos de velocidad de inferencia bruta, especialmente cuando se tiene en cuenta el tiempo de NMS.
Flujo de trabajo fragmentado: A diferencia de los modelos de Ultralytics, YOLOX a menudo requiere su propia base de código específica y configuración de entorno, careciendo de la interfaz unificada para el entrenamiento, la validación y la implementación que se encuentra en los frameworks modernos.
Intensidad de recursos: Mayor número de FLOPs y parámetros para niveles de precisión similares en comparación con las arquitecturas eficientes modernas.

Más información sobre YOLOX

Análisis de rendimiento

La siguiente comparación destaca los importantes avances realizados en eficiencia y precisión durante los tres años que separan estos modelos. Las métricas se centran en el tamaño del modelo (parámetros), el coste computacional (FLOPs) y la precisión (mAP) en el conjunto de datos COCO.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Observaciones Críticas

Precisión vs. Tamaño: YOLOv10 ofrece constantemente un mAP más alto con menos parámetros. Por ejemplo, YOLOv10s alcanza 46.7 de mAP con solo 7.2M parámetros, mientras que YOLOXs alcanza 40.5 de mAP con 9.0M parámetros. Esto demuestra la eficiencia arquitectónica superior de YOLOv10.
Eficiencia Computacional: El conteo de FLOPs para los modelos YOLOv10 es significativamente menor. YOLOv10x opera a 160.4B FLOPs en comparación con los masivos 281.9B FLOPs de YOLOXx, mientras que aún lo supera en precisión (54.4 vs 51.1 mAP).
Velocidad de inferencia: La eliminación de NMS y la arquitectura optimizada permiten que YOLOv10 logre una latencia más baja. Los benchmarks de T4 TensorRT muestran que YOLOv10x se ejecuta a 12.2ms, significativamente más rápido que YOLOXx a 16.1ms.

Casos de Uso Ideales

YOLOv10: El estándar moderno

YOLOv10 es la opción preferida para la mayoría de los nuevos proyectos de desarrollo, particularmente aquellos que requieren:

Implementación de Edge AI: Su baja huella de memoria y su alta eficiencia lo hacen perfecto para dispositivos como Raspberry Pi o NVIDIA Jetson.
Aplicaciones en tiempo real: Los sistemas que requieren retroalimentación inmediata, como la conducción autónoma, la robótica y el análisis de vídeo, se benefician de la baja latencia sin NMS.
Desarrollo Rápido: El ecosistema de Ultralytics permite una rápida gestión de conjuntos de datos, entrenamiento e implementación a través de la ultralytics paquete.

YOLOX: Legado e investigación

YOLOX sigue siendo relevante para:

Investigación Académica: Los investigadores que estudian la evolución de los detectores sin anclaje o estrategias específicas de asignación de etiquetas como SimOTA suelen utilizar YOLOX como línea de base.
Sistemas heredados: Las canalizaciones de producción existentes ya optimizadas para YOLOX pueden seguir utilizándolo cuando los costes de actualización superen las ganancias de rendimiento.

Usando YOLOv10 con Ultralytics

Una de las ventajas más significativas de YOLOv10 es su facilidad de uso. La API de python de Ultralytics simplifica todo el flujo de trabajo, desde la carga de pesos pre-entrenados hasta el entrenamiento con datos personalizados.

A continuación, se muestra un ejemplo de cómo ejecutar predicciones y entrenar un modelo YOLOv10:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Train the model on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Eficiencia del entrenamiento

Los modelos YOLO de Ultralytics son conocidos por su eficiencia de entrenamiento, que a menudo requiere menos memoria CUDA que las arquitecturas más antiguas o los modelos basados en transformadores. Esto permite entrenar lotes más grandes en GPU de consumo estándar.

Conclusión

Si bien YOLOX desempeñó un papel fundamental en la popularización de la detección sin anclajes, YOLOv10 representa el siguiente gran avance en la tecnología de visión artificial. Con su arquitectura sin NMS, una relación precisión-computación superior y una integración perfecta en el robusto ecosistema de Ultralytics, YOLOv10 ofrece un paquete atractivo tanto para desarrolladores como para investigadores.

Para aquellos que buscan implementar la detección de objetos más avanzada, YOLOv10 proporciona la velocidad y precisión necesarias. Los desarrolladores interesados en capacidades aún más amplias, como la estimación de pose o los cuadros delimitadores orientados, también podrían considerar explorar el versátil YOLO11 o el ampliamente adoptado YOLOv8.

YOLOv10 vs. YOLOX: Una comparación técnica

YOLOv10: Detección de extremo a extremo en tiempo real

Arquitectura y puntos fuertes

Debilidades

YOLOX: El pionero sin anclajes

Arquitectura y puntos fuertes

Debilidades

Análisis de rendimiento

Observaciones Críticas

Casos de Uso Ideales

YOLOv10: El estándar moderno

YOLOX: Legado e investigación

Usando YOLOv10 con Ultralytics

Conclusión

Comentarios