Ir al contenido

YOLOv6-3.0 vs YOLOv7: Una comparación técnica detallada

Elegir el modelo de detección de objetos óptimo es una decisión crítica en los proyectos de visión artificial, que requiere un equilibrio entre precisión, velocidad y uso de recursos. Esta página proporciona una comparación técnica detallada entre YOLOv6-3.0 y YOLOv7, dos modelos destacados conocidos por sus capacidades de detección de objetos. Profundizaremos en sus arquitecturas, puntos de referencia de rendimiento y aplicaciones adecuadas para guiar su proceso de selección de modelos.

YOLOv6-3.0: Diseñado para la velocidad industrial

YOLOv6-3.0, desarrollado por Meituan, está diseñado para aplicaciones industriales que exigen la detección de objetos de alto rendimiento con un enfoque en la velocidad y la eficiencia. La versión 3.0 mejora significativamente a sus predecesores, ofreciendo una precisión mejorada y tiempos de inferencia más rápidos, lo que la convierte en un fuerte competidor para los sistemas en tiempo real.

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
Organización: Meituan
Fecha: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Documentación: https://docs.ultralytics.com/models/yolov6/

Arquitectura y Características Clave

YOLOv6-3.0 introduce un diseño de red neuronal consciente del hardware que aprovecha una backbone de reparametrización eficiente. Esta elección de diseño es fundamental para su capacidad de acelerar las velocidades de inferencia, un factor crítico para la implementación industrial. La arquitectura también incorpora una estructura de bloque híbrido, que está meticulosamente diseñada para lograr un equilibrio óptimo entre precisión y eficiencia computacional. Este enfoque en la compatibilidad con el hardware garantiza que el modelo funcione bien en una variedad de plataformas de implementación, desde servidores hasta dispositivos edge.

Fortalezas

  • Alta velocidad de inferencia: Optimizado para una inferencia rápida, lo que lo hace muy adecuado para aplicaciones con estrictos requisitos de latencia.
  • Enfoque industrial: Diseñado teniendo en cuenta los escenarios industriales prácticos, lo que garantiza la solidez y la eficiencia en entornos como la IA en la fabricación.
  • Diseño consciente del hardware: La arquitectura está adaptada para un rendimiento eficiente en varias plataformas de hardware, incluidas las CPU y las GPU.

Debilidades

  • Compromiso en la precisión: Si bien es muy eficiente, puede mostrar una precisión ligeramente inferior en conjuntos de datos complejos en comparación con modelos como YOLOv7, que priorizan la máxima precisión.
  • Versatilidad limitada: El framework original se centra principalmente en la detección de objetos, con implementaciones separadas para otras tareas, a diferencia de los modelos más integrados.

Casos de uso

YOLOv6-3.0 destaca en aplicaciones donde la velocidad y la eficiencia son primordiales:

  • Automatización industrial: Ideal para el control de calidad, la supervisión de procesos y otras aplicaciones industriales que requieren una detección rápida.
  • Sistemas en tiempo real: Adecuado para su implementación en vigilancia en tiempo real, robótica y aplicaciones con estrictas limitaciones de latencia.
  • Edge Computing: Su diseño eficiente lo convierte en una excelente opción para la implementación en dispositivos con recursos limitados. Consulta nuestra guía sobre cómo implementarlo en dispositivos como la NVIDIA Jetson.

Más información sobre YOLOv6-3.0

YOLOv7: Superando los límites de la precisión

YOLOv7, desarrollado por investigadores del Instituto de Ciencias de la Información, Academia Sinica, Taiwán, representa un avance significativo en la detección de objetos en tiempo real, centrándose en lograr una alta precisión manteniendo la eficiencia.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Características Clave

YOLOv7 introduce varias innovaciones arquitectónicas y estrategias de entrenamiento destinadas a impulsar el rendimiento sin aumentar significativamente los costos de inferencia. Las características clave incluyen:

  • E-ELAN (Extended-Efficient Layer Aggregation Networks): Este novedoso diseño de red mejora la capacidad del modelo para aprender características de manera efectiva, optimizando tanto la eficiencia de los parámetros como la computación. Encontrará más detalles en el artículo original.
  • Escalado Compuesto del Modelo: Implementa métodos de escalado compuesto para la profundidad y el ancho del modelo, optimizando el rendimiento en diferentes tamaños de modelo.
  • Mejoras de "Bag-of-Freebies": YOLOv7 incorpora técnicas de entrenamiento avanzadas, como el aumento de datos refinado y estrategias de asignación de etiquetas, que mejoran la precisión sin costo adicional de inferencia. Explore técnicas similares en nuestra guía de aumento de datos.
  • Entrenamiento con cabezales auxiliares: Utiliza cabezales auxiliares durante la fase de entrenamiento para fortalecer el aprendizaje de características. Estos cabezales se eliminan durante la inferencia para mantener una alta velocidad.

Fortalezas

  • Alta precisión: Alcanza una precisión de última generación en pruebas comparativas estándar como el conjunto de datos COCO.
  • Rendimiento Eficiente: Equilibra la alta precisión con velocidades de inferencia competitivas, lo que lo hace adecuado para muchas aplicaciones en tiempo real.
  • Versatilidad: El repositorio oficial muestra el soporte impulsado por la comunidad para tareas más allá de la detección, incluyendo la estimación de pose y la segmentación de instancias.

Debilidades

  • Complejidad: Las características arquitectónicas avanzadas y las técnicas de entrenamiento pueden hacer que el modelo sea más complejo de entender y ajustar en comparación con arquitecturas más simples.
  • Entrenamiento con uso intensivo de recursos: Las variantes más grandes de YOLOv7 (por ejemplo, YOLOv7-E6E) requieren recursos computacionales sustanciales para el entrenamiento.

Casos de uso

YOLOv7 es una excelente opción para aplicaciones donde el objetivo principal es la alta precisión:

  • Vigilancia Avanzada: Detección de objetos sutiles o pequeños en escenas concurridas para una mayor seguridad.
  • Sistemas autónomos: Proporcionando una detección de objetos precisa para una navegación segura en coches autónomos o drones.
  • Investigación Científica: Análisis de datos visuales complejos donde la alta precisión es crucial para obtener resultados exactos.

Más información sobre YOLOv7

Comparación de rendimiento: YOLOv6-3.0 vs. YOLOv7

La siguiente tabla resume las métricas de rendimiento para variantes comparables de YOLOv6-3.0 y YOLOv7 en el conjunto de datos COCO.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Nota: Los puntos de referencia de velocidad pueden variar según el hardware, el software (TensorRT, ONNX, OpenVINO), el tamaño del lote y las configuraciones específicas. Los valores de mAP se informan normalmente en el conjunto de datos COCO val.

Según la tabla, YOLOv7x logra el mAP más alto, lo que indica una precisión superior. Sin embargo, los modelos YOLOv6-3.0, particularmente las variantes más pequeñas como YOLOv6-3.0n, ofrecen velocidades de inferencia significativamente más rápidas, especialmente en GPU con optimización TensorRT. También tienen menos parámetros y FLOP, lo que los hace altamente eficientes. La elección depende de si la prioridad es la máxima precisión (YOLOv7) o la velocidad y eficiencia óptimas (YOLOv6-3.0).

La ventaja de Ultralytics: ¿Por qué elegir YOLOv8 y YOLO11?

Si bien YOLOv6 e YOLOv7 son modelos potentes, los desarrolladores e investigadores que buscan una solución de última generación dentro de un ecosistema completo y fácil de usar deberían considerar los últimos modelos Ultralytics YOLO. Modelos como Ultralytics YOLOv8 y el más nuevo YOLO11 ofrecen varias ventajas clave:

  • Facilidad de uso: Los modelos de Ultralytics están diseñados pensando en la experiencia del desarrollador, con una API de Python optimizada, una extensa documentación y sencillos comandos de la CLI que simplifican el entrenamiento, la validación y la implementación.
  • Ecosistema bien mantenido: Benefíciese del desarrollo activo, una sólida comunidad de código abierto, actualizaciones frecuentes y una integración perfecta con herramientas como Ultralytics HUB para MLOps de extremo a extremo.
  • Versatilidad: Modelos como YOLOv8 y YOLO11 son verdaderos multi-tarea, que admiten detección de objetos, segmentación, clasificación, estimación de pose y detección de objetos orientados (OBB) dentro de un único marco unificado.
  • Equilibrio de rendimiento: Los modelos de Ultralytics logran una excelente relación entre velocidad y precisión, lo que los hace adecuados para una amplia gama de escenarios del mundo real, desde dispositivos en el borde hasta servidores en la nube.
  • Eficiencia en el entrenamiento: Aproveche los procesos de entrenamiento eficientes, los pesos pre-entrenados disponibles y los tiempos de convergencia más rápidos, ahorrando tiempo valioso y recursos computacionales.

Conclusión

Tanto YOLOv6-3.0 como YOLOv7 son modelos de detección de objetos potentes que han superado los límites de lo posible en la visión artificial. YOLOv6-3.0 destaca en escenarios que priorizan la velocidad y la eficiencia de la inferencia, lo que lo hace ideal para aplicaciones industriales y despliegue en el borde. Por el contrario, YOLOv7 ofrece una mayor precisión máxima, lo que lo convierte en una opción sólida para las tareas en las que la precisión es la principal preocupación, aunque a un coste computacional potencialmente mayor.

Para los usuarios interesados en explorar otras opciones de última generación, Ultralytics ofrece modelos como YOLOv8 y YOLO11, que proporcionan un equilibrio superior de rendimiento, versatilidad y facilidad de uso. También puede encontrar útiles nuestras comparaciones con otros modelos como YOLOX y RT-DETR para una mayor exploración.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios