Ir al contenido

Comparación de modelos: YOLOv5 vs YOLOv6-3.0 para la detección de objetos

Elegir el modelo de detección de objetos óptimo es fundamental para el éxito de las aplicaciones de visión artificial. Tanto Ultralytics YOLOv5 como Meituan YOLOv6-3.0 son opciones populares conocidas por su eficiencia y precisión. Esta página proporciona una comparación técnica para ayudarle a decidir qué modelo se adapta mejor a las necesidades de su proyecto. Profundizamos en sus matices arquitectónicos, puntos de referencia de rendimiento, enfoques de entrenamiento y aplicaciones adecuadas, destacando los puntos fuertes del ecosistema Ultralytics.

Ultralytics YOLOv5: El Estándar Industrial Establecido

Autores: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentación: https://docs.ultralytics.com/models/yolov5/

Ultralytics YOLOv5 es un modelo de detección de objetos de una sola etapa, famoso por su velocidad, facilidad de uso y adaptabilidad. Desarrollado por Ultralytics, representa un paso importante para hacer accesible la detección de objetos de alto rendimiento. Construido íntegramente en PyTorchYOLOv5 cuenta con una red troncal CSPDarknet53 y un cuello PANet para la extracción y fusión eficientes de características. Su arquitectura es altamente modular, lo que permite escalar fácilmente a través de diferentes tamaños de modelo (n, s, m, l, x) para satisfacer diversos requisitos de rendimiento.

Ventajas de YOLOv5

  • Velocidad y Eficiencia: YOLOv5 destaca en velocidad de inferencia, lo que lo hace ideal para aplicaciones en tiempo real e implementación en dispositivos edge con recursos limitados. Como se ve en la tabla de rendimiento, el modelo YOLOv5n ofrece los tiempos de inferencia de CPU y GPU más rápidos entre los modelos más pequeños.
  • Facilidad de uso: Conocido por su simplicidad, YOLOv5 ofrece una experiencia de usuario optimizada con una API sencilla, una extensa documentación y numerosos tutoriales.
  • Ecosistema bien mantenido: Se beneficia del ecosistema integrado de Ultralytics, que incluye desarrollo activo, un sólido apoyo de la comunidad a través de Discord, actualizaciones frecuentes y una integración perfecta con Ultralytics HUB para MLOps.
  • Versatilidad: Admite múltiples tareas, incluyendo detección de objetos, segmentación de instancias y clasificación de imágenes, proporcionando una solución más completa que los modelos de una sola tarea.
  • Eficiencia en el entrenamiento: Ofrece procesos de entrenamiento eficientes, pesos pre-entrenados disponibles y menores requisitos de memoria en comparación con muchas otras arquitecturas, especialmente los modelos basados en transformadores.

Debilidades de YOLOv5

  • Precisión: Si bien es muy preciso y eficiente, los modelos más nuevos como YOLOv6-3.0 o Ultralytics YOLOv8 podrían ofrecer un mAP ligeramente superior en ciertas pruebas de referencia, particularmente las variantes de modelos más grandes.
  • Detección Basada en Anclas: Se basa en cuadros de anclaje, lo que podría requerir un ajuste para un rendimiento óptimo en diversos conjuntos de datos en comparación con los detectores sin anclaje modernos.

Más información sobre YOLOv5

Meituan YOLOv6-3.0: Un contendiente industrial

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, y Xiangxiang Chu
Organización: Meituan
Fecha: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Documentación: https://docs.ultralytics.com/models/yolov6/

YOLOv6-3.0, desarrollado por Meituan, es un framework de detección de objetos diseñado principalmente para aplicaciones industriales. Lanzado a principios de 2023, su objetivo era proporcionar un equilibrio entre velocidad y precisión adecuado para escenarios de implementación en el mundo real. YOLOv6 introdujo modificaciones arquitectónicas como un diseño eficiente de backbone y cuello. La versión 3.0 refinó aún más estos elementos e incorporó técnicas como la auto-destilación durante el entrenamiento para mejorar el rendimiento. También ofrece modelos específicos optimizados para la implementación móvil (YOLOv6Lite).

Fortalezas de YOLOv6-3.0

  • Buen compromiso entre velocidad y precisión: Ofrece un rendimiento competitivo, especialmente para tareas industriales de detección de objetos donde el objetivo es maximizar el mAP en una GPU.
  • Soporte de cuantización: Proporciona herramientas y tutoriales para la cuantización de modelos, lo cual es beneficioso para la implementación en hardware con recursos limitados.
  • Optimización móvil: Incluye variantes YOLOv6Lite diseñadas específicamente para la inferencia móvil o basada en CPU.

Debilidades de YOLOv6-3.0

  • Versatilidad de tareas limitada: Se centra principalmente en la detección de objetos, careciendo del soporte nativo para la segmentación, la clasificación o la estimación de pose que se encuentra en los modelos Ultralytics como YOLOv5 y YOLOv8.
  • Ecosistema y mantenimiento: Aunque es de código abierto, el ecosistema no es tan completo ni se mantiene tan activamente como la plataforma de Ultralytics, lo que podría conducir a actualizaciones más lentas y menos soporte de la comunidad.
  • Mayor uso de recursos: Los modelos YOLOv6 más grandes pueden tener significativamente más parámetros y FLOPs en comparación con los equivalentes de YOLOv5 para una mAP similar, lo que podría requerir más recursos computacionales.

Más información sobre YOLOv6

Cara a cara de rendimiento

La siguiente tabla proporciona una comparación directa de las métricas de rendimiento entre los modelos YOLOv5 y YOLOv6-3.0 en el conjunto de datos COCO. Ultralytics YOLOv5 demuestra una velocidad superior tanto en la CPU como en la GPU para los modelos más pequeños, lo que la convierte en una excelente opción para aplicaciones edge en tiempo real. Si bien los modelos YOLOv6-3.0 más grandes pueden alcanzar una mAP máxima más alta, YOLOv5 proporciona un rendimiento más equilibrado y eficiente en todos los ámbitos, especialmente si se tiene en cuenta su menor número de parámetros y FLOP.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

Metodología de Entrenamiento

Ambos modelos aprovechan las técnicas estándar de aprendizaje profundo para el entrenamiento en grandes conjuntos de datos como COCO. Sin embargo, Ultralytics YOLOv5 se beneficia significativamente del ecosistema de Ultralytics, ofreciendo flujos de trabajo de entrenamiento optimizados, extensas guías, optimización AutoAnchor e integración con herramientas como Weights & Biases y ClearML para el seguimiento de experimentos. Este enfoque integrado simplifica el ciclo de desarrollo y acelera el tiempo de implementación. El entrenamiento de YOLOv6-3.0 sigue los procedimientos descritos en su repositorio oficial.

Casos de Uso Ideales

  • Ultralytics YOLOv5: Muy recomendado para aplicaciones que exigen rendimiento en tiempo real y facilidad de implementación, especialmente en CPU o dispositivos periféricos. Su versatilidad, su amplio soporte y su eficiente uso de los recursos lo hacen ideal para la creación rápida de prototipos, aplicaciones móviles, videovigilancia (visión artificial para la prevención de robos) y proyectos que se benefician de un ecosistema maduro y bien documentado.
  • Meituan YOLOv6-3.0: Un firme competidor cuando el objetivo principal es maximizar la precisión en GPU, sin dejar de exigir una inferencia rápida. Es adecuado para aplicaciones industriales en las que las ligeras mejoras de mAP con respecto a YOLOv5 justifican una complejidad potencialmente mayor o un menor soporte del ecosistema.

Conclusión

Ultralytics YOLOv5 sigue siendo una opción destacada, particularmente valorada por su excepcional velocidad, facilidad de uso y ecosistema robusto. Proporciona un excelente equilibrio entre rendimiento y eficiencia, respaldado por una extensa documentación y el apoyo de la comunidad, lo que lo hace muy accesible para desarrolladores e investigadores.

YOLOv6-3.0 ofrece un rendimiento competitivo, particularmente en términos de mAP máximo para modelos más grandes en GPU. Sirve como una alternativa viable para los usuarios que priorizan la mayor precisión posible dentro de un framework YOLO para tareas industriales especializadas.

Para aquellos que buscan los últimos avances, consideren explorar los modelos más nuevos de Ultralytics como YOLOv8, YOLOv9, YOLOv10 y YOLO11, que ofrecen mejoras adicionales en rendimiento, versatilidad y eficiencia. Los modelos especializados como RT-DETR también proporcionan ventajas únicas para casos de uso específicos.

Explore la gama completa de opciones en la Documentación de modelos de Ultralytics.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios