Ir al contenido

Comparación técnica: YOLOX frente a EfficientDet para la detección de objetos

Los modelosYOLO Ultralytics son famosos por su rapidez y precisión en las tareas de detección de objetos. Esta página ofrece una comparación técnica detallada entre dos destacados modelos de detección de objetos: YOLOX y EfficientDet. Exploraremos sus diseños arquitectónicos, puntos de referencia de rendimiento, metodologías de entrenamiento y aplicaciones óptimas para ayudarle a seleccionar el modelo más adecuado para sus necesidades de visión por ordenador.

YOLOX: Detector sin anclaje de alto rendimiento

YOLOX ("You Only Look Once X") es un novedoso detector de objetos sin anclaje desarrollado por Megvii. Está diseñado para ofrecer simplicidad y alto rendimiento, tendiendo un puente entre la investigación y las aplicaciones industriales prácticas.

Arquitectura y características principales

YOLOX se distingue por su paradigma de detección sin anclaje, que simplifica la arquitectura y aumenta la eficacia. Entre los aspectos arquitectónicos más destacados figuran:

  • Diseño sin anclajes: Elimina la complejidad de las cajas de anclaje, lo que permite una implementación más sencilla y una generalización potencialmente mejor, especialmente para objetos con relaciones de aspecto variables.
  • Cabezal desacoplado: separa los cabezales de clasificación y localización, lo que mejora la optimización de cada tarea y la precisión general.
  • Estrategias de formación avanzadas: Emplea técnicas como la asignación de etiquetas SimOTA y un fuerte aumento de datos (MixUp y Mosaic) para garantizar una formación sólida y un rendimiento mejorado.

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun Organización: Megvii Fecha: 2021-07-18 Enlace Arxiv: https://arxiv.org/abs/2107.08430 Enlace GitHub: https://github.com/Megvii-BaseDetection/YOLOX Documentación Enlace: https://yolox.readthedocs.io/en/latest/

Métricas de rendimiento

Los modelos YOLOX ofrecen un equilibrio convincente entre velocidad y precisión. Como se ilustra en la tabla comparativa, YOLOX alcanza puntuaciones mAP competitivas al tiempo que mantiene velocidades de inferencia rápidas, lo que lo hace adecuado para aplicaciones en tiempo real. Para obtener información detallada sobre el rendimiento de modelos de distintos tamaños, consulte la tabla siguiente.

Casos prácticos

  • Detección de objetos en tiempo real: Ideal para aplicaciones que requieren una detección rápida, como sistemas de seguridad y análisis de vídeo en directo.
  • Dispositivos Edge: Rendimiento eficiente en dispositivos con recursos limitados como NVIDIA Jetson y plataformas móviles.
  • Sistemas autónomos: Muy adecuado para robótica y vehículos autónomos en los que es crucial una percepción rápida y precisa.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta velocidad de inferencia: La arquitectura sin anclajes y el diseño optimizado contribuyen a un procesamiento rápido.
  • Simplicidad: Su diseño simplificado facilita el entrenamiento y la implantación en comparación con los modelos basados en anclas.
  • Buen equilibrio entre precisión y velocidad: Ofrece una precisión competitiva sin sacrificar la velocidad de inferencia.

Debilidades:

  • mAP: Aunque es muy eficiente, puede ser ligeramente menos preciso que algunos modelos más grandes y complejos en determinados escenarios.

Más información sobre YOLOX

EfficientDet: Detección de objetos escalable y eficiente

EfficientDet, desarrollado por Google Research, es famoso por su escalabilidad y eficiencia en la detección de objetos. Emplea una familia de modelos que logran una precisión de vanguardia con un número significativamente menor de parámetros y FLOPs en comparación con detectores anteriores.

Arquitectura y características principales

EfficientDet introduce varias innovaciones para mejorar tanto la eficacia como la precisión:

  • BiFPN (red piramidal bidireccional de características): Permite una fusión eficiente de características multiescala, permitiendo a la red utilizar eficazmente características a diferentes resoluciones.
  • Escalado compuesto: Escala uniformemente todas las dimensiones de la red (red troncal, BiFPN y red de predicción de cajas/clases) utilizando un único coeficiente compuesto, lo que simplifica el proceso de escalado y optimiza el rendimiento.
  • Red troncal eficiente: Utiliza EfficientNet como red troncal, conocida por su eficiencia y su gran capacidad de extracción de características.

Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le Organización: Google Fecha: 2019-11-20 Enlace Arxiv: https://arxiv.org/abs/1911.09070 Enlace GitHub: https:google Enlace de documentación: https:google

Métricas de rendimiento

Los modelos EfficientDet están diseñados para ser altamente eficientes en diferentes escalas, ofreciendo una gama de modelos de d0 a d7. Alcanzan excelentes puntuaciones mAP con un número relativamente pequeño de parámetros y FLOPs, lo que los hace adecuados para su despliegue en entornos con recursos limitados. Consulte la tabla comparativa para obtener métricas detalladas.

Casos prácticos

  • Despliegue en dispositivos móviles y periféricos: El pequeño tamaño de los modelos de EfficientDet y su alta eficiencia lo hacen ideal para dispositivos móviles y escenarios de computación de borde.
  • Aplicaciones que requieren gran precisión con recursos limitados: Adecuado para aplicaciones en las que la precisión es primordial pero los recursos computacionales son limitados, como la inspección de calidad en dispositivos de borde.
  • Dispositivos alimentados por batería: El diseño energéticamente eficiente permite el despliegue en dispositivos alimentados por batería y aplicaciones IoT.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta eficiencia: Alcanza la precisión más avanzada con menos parámetros y FLOPs, lo que permite una inferencia más rápida y un menor coste computacional.
  • Escalabilidad: El método de escalado compuesto permite escalar fácilmente el modelo para satisfacer diferentes requisitos de precisión y recursos.
  • Precisión: buenos resultados en términos de mAP, sobre todo en los modelos pequeños y medianos.

Debilidades:

  • Velocidad de inferencia: Aunque eficiente, EfficientDet puede ser más lento que los modelos optimizados específicamente para la velocidad como YOLOv10 o YOLOv8especialmente para las variantes más grandes.

Más información sobre EfficientDet

Tabla comparativa de prestaciones

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
EficienteDet-d0 640 34.6 10.2 3.92 3.9 2.54
EficienteDet-d1 640 40.5 13.5 7.31 6.6 6.1
EficienteDet-d2 640 43.0 17.7 10.92 8.1 11.0
EficienteDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EficienteDet-d5 640 51.5 72.5 67.86 33.7 130.0
EficienteDet-d6 640 52.6 92.8 89.29 51.9 226.0
EficienteDet-d7 640 53.7 122.0 128.07 51.9 325.0

Explore otras interesantes comparaciones entre modelos de detección de objetos disponibles en Ultralytics Docs:

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios