Ir al contenido

Comparación técnica: YOLOX frente a YOLOv6-3.0 para la detección de objetos

Elegir el modelo de detección de objetos adecuado es crucial para los proyectos de visión por ordenador. Esta página ofrece una comparación técnica entre dos modelos populares y eficientes: YOLOX y YOLOv6-3.0. Exploraremos sus diferencias arquitectónicas, puntos de referencia de rendimiento y aplicaciones adecuadas para ayudarle a tomar una decisión informada.

Antes de entrar en detalles, visualicemos un resumen del rendimiento de ambos modelos junto a otros:

YOLOX: la excelencia sin anclajes

YOLOX, presentado por Megvii(Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun - 2021-07-18), destaca por su diseño sin anclajes, que simplifica la complejidad asociada a los modelos YOLO tradicionales. Su objetivo es salvar la brecha entre la investigación y las aplicaciones industriales con sus capacidades de detección de objetos eficientes y precisas.

Arquitectura y características principales

YOLOX adopta un enfoque racionalizado al eliminar las cajas de anclaje, lo que simplifica el proceso de entrenamiento y reduce el número de hiperparámetros. Entre las innovaciones arquitectónicas clave se incluyen:

  • Detección sin anclajes: Elimina la necesidad de anclajes predefinidos, reduciendo la complejidad del diseño y mejorando la generalización, lo que la hace adaptable a diversos tamaños y relaciones de aspecto de los objetos.
  • Cabezal desacoplado: separa las tareas de clasificación y localización en ramas distintas, lo que mejora el rendimiento, especialmente en precisión.
  • Asignación de etiquetas SimOTA: Utiliza la estrategia avanzada de asignación de etiquetas SimOTA, que asigna dinámicamente los objetivos en función de los propios resultados predichos, lo que mejora la eficacia y la precisión del entrenamiento.
  • Entrenamiento de precisión mixta: Aprovecha la precisión mixta para acelerar tanto el entrenamiento como la inferencia, optimizando la eficiencia computacional.

Métricas de rendimiento

Los modelos YOLOX alcanzan una precisión de vanguardia entre los detectores de objetos en tiempo real, al tiempo que mantienen velocidades de inferencia competitivas. Consulte la tabla comparativa que aparece a continuación para obtener métricas detalladas.

Casos prácticos

  • Aplicaciones exigentes de alta precisión: Ideal para escenarios en los que la precisión es primordial, como el análisis de imágenes médicas o el análisis de imágenes por satélite, en los que pasar por alto objetos críticos puede tener consecuencias importantes.
  • Investigación y desarrollo: Gracias a su estructura clara y simplificada, YOLOX es muy adecuado para la investigación y el desarrollo de metodologías de detección de objetos.
  • Tareas versátiles de detección de objetos: Aplicable en un amplio espectro de tareas de detección de objetos, desde la investigación académica hasta la implantación industrial, beneficiándose de su robusto diseño y alta precisión.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta precisión: Alcanza excelentes puntuaciones mAP, lo que la hace adecuada para aplicaciones que requieren una detección precisa de objetos.
  • Diseño sin anclajes: Simplifica la arquitectura, reduce los hiperparámetros y facilita la implementación.
  • Versatilidad: Adaptable a una amplia gama de tareas de detección de objetos.

Debilidades:

  • Velocidad de inferencia: puede ser ligeramente más lenta que la de modelos muy optimizados como YOLOv6-3.0, especialmente en dispositivos periféricos.
  • Tamaño del modelo: Algunas variantes más grandes pueden tener tamaños de modelo considerables, lo que podría ser un problema para los despliegues con recursos limitados.

Más información sobre YOLOX

YOLOv6-3.0: Optimizado para mayor velocidad y eficacia

YOLOv6-3.0, desarrollado por Meituan(Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu - 2023-01-13), está concebido para la inferencia de alta velocidad y la eficiencia, especialmente orientado a aplicaciones industriales y el despliegue de borde. La versión 3.0 representa una importante actualización centrada en mejorar tanto la velocidad como la precisión.

Arquitectura y características principales

YOLOv6-3.0 da prioridad a la velocidad de inferencia mediante optimizaciones arquitectónicas sin comprometer significativamente la precisión. Entre sus principales características se incluyen:

  • Red troncal de reparametrización eficiente: Emplea una columna vertebral reparametrizada para acelerar la velocidad de inferencia fusionando las capas de convolución y normalización por lotes.
  • Bloque híbrido: Utiliza un diseño de bloque de red híbrido que equilibra precisión y eficacia, optimizando el rendimiento en diversas plataformas de hardware.
  • Diseño de redes neuronales consciente del hardware: Está diseñada teniendo en cuenta la eficiencia del hardware, lo que la hace especialmente adecuada para su implantación en dispositivos con recursos limitados como Raspberry Pi y NVIDIA Jetson.
  • Estrategia de entrenamiento optimizada: Incorpora técnicas de entrenamiento perfeccionadas para mejorar la convergencia y el rendimiento general.

Métricas de rendimiento

YOLOv6-3.0 destaca en velocidad de inferencia, alcanzando notables FPS (fotogramas por segundo) a la vez que mantiene puntuaciones mAP competitivas. Consulta la tabla siguiente para obtener métricas de rendimiento detalladas.

Casos prácticos

  • Detección de objetos en tiempo real: Ideal para aplicaciones en las que la baja latencia y el procesamiento rápido son fundamentales, como los sistemas de alarma de seguridad, el comercio minorista inteligente y los vehículos autónomos.
  • Despliegue en dispositivos periféricos: Optimizado para su despliegue en dispositivos periféricos con recursos informáticos limitados gracias a su diseño eficiente y a los modelos de menor tamaño.
  • Aplicaciones industriales: Adaptado a aplicaciones industriales prácticas y reales que necesitan una detección de objetos rápida y eficaz en fabricación, vigilancia y automatización.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta velocidad de inferencia: destaca por su rapidez, lo que la hace ideal para tareas de detección de objetos en tiempo real.
  • Diseño eficiente: Los modelos de menor tamaño y la arquitectura optimizada son perfectos para dispositivos con recursos limitados.
  • Enfoque industrial: Diseñado específicamente para aplicaciones prácticas en industrias que requieren una detección de objetos rápida y eficaz.

Debilidades:

  • Contrapartida en la precisión: puede mostrar una precisión ligeramente inferior en comparación con modelos como YOLOX, especialmente en conjuntos de datos complejos en los que la precisión tiene prioridad sobre la velocidad.
  • Flexibilidad: Posiblemente menos adaptable a tareas de investigación altamente especializadas en comparación con arquitecturas más flexibles diseñadas para aplicaciones de investigación más amplias.

Más información sobre YOLOv6-3.0

Tabla comparativa de modelos

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3,0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Conclusión

Tanto YOLOX como YOLOv6-3.0 son potentes detectores de objetos de una etapa, cada uno de los cuales responde a prioridades diferentes. YOLOX destaca por su precisión y sencillez arquitectónica, lo que lo convierte en una excelente opción para la investigación y las aplicaciones que exigen una gran precisión. YOLOv6-3.0 da prioridad a la velocidad y la eficacia, por lo que es excepcionalmente adecuado para aplicaciones industriales en tiempo real y despliegues periféricos.

Para los usuarios que buscan otras opciones, Ultralytics ofrece una gama de modelos de vanguardia. Considere la posibilidad de explorar Ultralytics YOLOv8 para un equilibrio entre rendimiento y flexibilidad, YOLOv10 como la última iteración en detección en tiempo real, o incluso YOLO11 para las funciones más avanzadas. Alternativamente, para aplicaciones en tiempo real, RT-DETR presenta una arquitectura atractiva para investigar.

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios