YOLOv7 vs YOLOv6-3.0: Comparación Detallada de Modelos para la Detección de Objetos
Elegir el modelo de detección de objetos óptimo es una decisión crítica en los proyectos de visión artificial, que requiere un equilibrio entre precisión, velocidad y uso de recursos. Esta página proporciona una comparación técnica detallada entre YOLOv7 y YOLOv6-3.0, dos modelos destacados conocidos por sus capacidades de detección de objetos. Profundizaremos en sus arquitecturas, puntos de referencia de rendimiento y aplicaciones adecuadas para guiar su proceso de selección de modelos.
YOLOv7: Precisión y Técnicas Avanzadas
YOLOv7, desarrollado por investigadores del Instituto de Ciencias de la Información, Academia Sinica, Taiwán, representa un paso significativo en la detección de objetos en tiempo real, centrándose en lograr una alta precisión manteniendo la eficiencia.
Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/
Arquitectura y Características Clave
YOLOv7 introduce varias innovaciones arquitectónicas y estrategias de entrenamiento destinadas a impulsar el rendimiento sin aumentar significativamente los costos de inferencia. Las características clave incluyen:
- E-ELAN (Extended-Efficient Layer Aggregation Networks): Este componente central en la red troncal del modelo mejora la capacidad de la red para aprender características de manera efectiva, optimizando la eficiencia de los parámetros y la computación. Encontrará más detalles en el artículo original.
- Escalado de modelos: Implementa métodos de escalado compuesto para la profundidad y el ancho del modelo, optimizando el rendimiento en diferentes tamaños de modelo basados en principios de modelo basados en concatenación.
- Entrenamiento con cabezales auxiliares: Utiliza cabezales auxiliares durante la fase de entrenamiento para fortalecer el aprendizaje de características, que luego se eliminan durante la inferencia para mantener la velocidad. Este concepto está relacionado con las técnicas de supervisión profunda utilizadas en otras redes neuronales.
- Mejoras de "Bag-of-Freebies": Incorpora técnicas de entrenamiento avanzadas como el aumento de datos y el perfeccionamiento de la asignación de etiquetas que mejoran la precisión sin coste adicional de inferencia.
Fortalezas
- Alta precisión: Alcanza una precisión de última generación en pruebas comparativas como el conjunto de datos COCO.
- Eficiencia: Equilibra una alta precisión con velocidades de inferencia competitivas, adecuado para la inferencia en tiempo real.
- Versatilidad: El repositorio oficial muestra soporte para tareas más allá de la detección, incluyendo la estimación de pose y la segmentación de instancias.
Debilidades
- Complejidad: Las características arquitectónicas avanzadas y las técnicas de entrenamiento pueden hacer que el modelo sea más complejo de entender y ajustar en comparación con arquitecturas más simples como YOLOv5.
- Entrenamiento con uso intensivo de recursos: Las variantes más grandes de YOLOv7 (por ejemplo, YOLOv7-E6E) requieren recursos computacionales sustanciales para el entrenamiento.
YOLOv6-3.0: Eficiencia y velocidad industrial
YOLOv6-3.0, desarrollado por Meituan, está diseñado para aplicaciones industriales que exigen la detección de objetos de alto rendimiento con un enfoque en la velocidad y la eficiencia. La versión 3.0 mejora significativamente a sus predecesores, ofreciendo una precisión mejorada y tiempos de inferencia más rápidos.
Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
Organización: Meituan
Fecha: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Documentación: https://docs.ultralytics.com/models/yolov6/
Arquitectura y Características Clave
YOLOv6-3.0 está diseñado teniendo en cuenta la implementación, y presenta varias opciones arquitectónicas clave que priorizan la velocidad de inferencia.
- Diseño consciente del hardware: La arquitectura está adaptada para un rendimiento eficiente en varias plataformas de hardware, particularmente en las GPU, mediante el uso de bloques reparametrizables al estilo de RepVGG.
- Backbone EfficientRep y cuello Rep-PAN: Estas estructuras están diseñadas para reducir los cuellos de botella computacionales y los costos de acceso a la memoria, lo que se traduce directamente en una inferencia más rápida.
- Decoupled Head: Separa los heads de clasificación y localización, lo que ha demostrado mejorar la convergencia y la precisión final del modelo, una técnica también vista en modelos como YOLOX.
Fortalezas
- Alta velocidad de inferencia: Optimizado para una inferencia rápida, lo que lo hace muy adecuado para aplicaciones en tiempo real donde la latencia es un factor crítico.
- Enfoque industrial: Diseñado teniendo en cuenta los escenarios de implementación industrial, lo que garantiza la solidez y la eficiencia en entornos prácticos como la fabricación.
- Diseño Eficiente: Las variantes más pequeñas de YOLOv6-3.0 tienen un conteo de parámetros y FLOP muy bajo, lo que las hace ideales para entornos con recursos limitados.
Debilidades
- Compromiso en la precisión: Si bien es muy eficiente, puede mostrar una precisión ligeramente inferior en conjuntos de datos complejos en comparación con modelos como YOLOv7 que priorizan la máxima precisión sobre la velocidad.
- Ecosistema y versatilidad: El ecosistema en torno a YOLOv6 es menos completo que el de los modelos de Ultralytics, y se centra principalmente en la detección de objetos.
Casos de uso
YOLOv6-3.0 destaca en aplicaciones donde la velocidad y la eficiencia son primordiales:
- Automatización industrial: Control de calidad y supervisión de procesos en la fabricación.
- Sistemas en tiempo real: Aplicaciones con estrictos requisitos de latencia, como la robótica y la vigilancia.
- Edge Computing: Implementación en dispositivos con recursos limitados debido a su diseño eficiente. Consulta las guías sobre cómo implementarlo en dispositivos como NVIDIA Jetson.
Más información sobre YOLOv6-3.0
Comparación de rendimiento: YOLOv7 vs YOLOv6-3.0
La siguiente tabla resume las métricas de rendimiento para variantes comparables de YOLOv7 y YOLOv6-3.0 en el conjunto de datos COCO.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Nota: Los puntos de referencia de velocidad pueden variar según el hardware, el software (TensorRT, ONNX, OpenVINO), el tamaño del lote y las configuraciones específicas. Los valores de mAP se informan normalmente en el conjunto de datos COCO val.
Según la tabla, YOLOv7x logra el mAP más alto, lo que indica una precisión superior. Sin embargo, los modelos YOLOv6-3.0, particularmente las variantes más pequeñas como YOLOv6-3.0n, ofrecen velocidades de inferencia significativamente más rápidas, especialmente en GPU con optimización TensorRT, y tienen menos parámetros y FLOP, lo que los hace altamente eficientes. La elección depende de si la prioridad es la máxima precisión (YOLOv7) o la velocidad/eficiencia óptima (YOLOv6-3.0).
¿Por qué elegir los modelos YOLO de Ultralytics?
Para los usuarios que buscan modelos de última generación dentro de un ecosistema completo y fácil de usar, Ultralytics ofrece YOLOv8 y el último Ultralytics YOLO11. Estos modelos ofrecen ventajas significativas sobre YOLOv7 y YOLOv6.
- Facilidad de uso: Los modelos de Ultralytics incluyen una API de Python optimizada, una extensa documentación y sencillos comandos de la CLI, lo que simplifica el entrenamiento, la validación y la implementación.
- Ecosistema bien mantenido: Benefíciese del desarrollo activo, una sólida comunidad de código abierto, actualizaciones frecuentes e integración con herramientas como Ultralytics HUB para una MLOps perfecta.
- Equilibrio de rendimiento: Los modelos de Ultralytics logran una excelente relación entre velocidad y precisión, lo que los hace adecuados para diversos escenarios del mundo real, desde dispositivos en el borde hasta servidores en la nube.
- Versatilidad: Modelos como YOLOv8 y YOLO11 admiten múltiples tareas más allá de la detección de objetos, incluyendo segmentación, clasificación, estimación de pose y detección de objetos orientados (OBB), ofreciendo una solución unificada.
- Eficiencia del entrenamiento: Benefíciese de procesos de entrenamiento eficientes, pesos pre-entrenados disponibles en conjuntos de datos como COCO y tiempos de convergencia más rápidos.
Para una exploración más exhaustiva, también podría encontrar útiles las comparaciones con otros modelos como RT-DETR.