Ir al contenido

YOLOv6 frente a YOLOv6.0: Una comparación técnica exhaustiva

En el panorama en rápida evolución de la visión por ordenador, seleccionar el modelo de detección de objetos adecuado es crucial para el éxito del proyecto. Dos marcos importantes que han dado forma a este campo son YOLOv7 y YOLOv6.0. Aunque ambos comparten el linaje YOLO (You Only Look Once), difieren significativamente en sus filosofías arquitectónicas y objetivos de optimización.

Esta guía ofrece un análisis técnico en profundidad de estos dos modelos, comparando sus arquitecturas, métricas de rendimiento y escenarios de implantación ideales. También exploramos cómo alternativas modernas como Ultralytics YOLO11 integran las mejores características de estos predecesores en un ecosistema unificado y fácil de usar.

YOLOv7: La arquitectura de la precisión

YOLOv7lanzado en julio de 2022, supuso un cambio importante en la familia YOLO , dando prioridad a las innovaciones arquitectónicas para maximizar la precisión sin sacrificar las capacidades de inferencia en tiempo real. Se diseñó para superar los límites del conjunto de datos de referencia COCO .

Autores: Chien-Yao Wang, Alexey Bochkovskiy, y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Principales características arquitectónicas

YOLOv7 introdujo el "bag-of-freebies entrenable", un conjunto de métodos de optimización que aumentan la precisión sin incrementar el coste de inferencia.

  • E-ELAN (Extended-Efficient Layer Aggregation Networks): Esta arquitectura mejora la capacidad de aprendizaje de la red controlando las rutas de gradiente más corta y más larga. Permite al modelo aprender características más diversas ampliando la cardinalidad de los bloques computacionales.
  • Escalado de modelos: YOLOv7 emplea técnicas de escalado compuesto que modifican la profundidad y la anchura simultáneamente, lo que garantiza un rendimiento óptimo en distintos tamaños de modelo (desde Tiny hasta E6E).
  • Entrenamiento de la cabeza auxiliar: El modelo utiliza una cabeza auxiliar durante el entrenamiento para proporcionar supervisión profunda, que luego se elimina durante la inferencia. Esto mejora la convergencia del modelo de aprendizaje profundo.

Fortalezas y Debilidades

YOLOv7 es famoso por su elevada precisión media (mAP), especialmente en objetos pequeños y ocluidos. Es una opción excelente para la investigación y los escenarios en los que la precisión es primordial. Sin embargo, su compleja arquitectura, que depende en gran medida de capas basadas en la concatenación, puede dar lugar a un mayor consumo de memoria durante el entrenamiento en comparación con los modelos industriales simplificados.

Más información sobre YOLOv7

YOLOv6.0: Diseñado para la velocidad industrial

YOLOv6.0, desarrollado por el departamento de informática visual de Meituan, se centra principalmente en aplicaciones industriales prácticas. Lanzado a principios de 2023, prioriza la velocidad de inferencia y la eficiencia del hardware, lo que lo convierte en un firme candidato para la computación de borde.

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
Organización: Meituan
Fecha: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

Principales características arquitectónicas

YOLOv6.0 se distingue por su diseño adaptado al hardware, que optimiza específicamente el rendimiento de GPU y la CPU .

  • Columna vertebral RepVGG: El modelo utiliza bloques de re-parametrización (RepVGG). Durante el entrenamiento, el modelo tiene una topología de múltiples ramas para un mejor aprendizaje, que se fusiona matemáticamente en una estructura de una sola rama para la inferencia. El resultado es una ejecución más rápida en hardware como el NVIDIA Jetson.
  • Cabezal desacoplado: a diferencia de las versiones anteriores YOLO , que compartían funciones de clasificación y localización, YOLOv6 utiliza un cabezal desacoplado. Esta separación mejora la velocidad de convergencia y la precisión de la detección.
  • Cuantificación sencilla: la arquitectura está diseñada para facilitar la cuantificación de modelos (por ejemplo, INT8), esencial para su implantación en dispositivos con recursos limitados.

Fortalezas y Debilidades

YOLOv6.0 destaca en rendimiento bruto. Para las líneas de automatización industrial o robótica, donde los milisegundos cuentan, su gráfico de inferencia optimizado es una ventaja significativa. Sin embargo, se centra principalmente en la detección y carece de la versatilidad multitarea nativa de iteraciones posteriores como YOLO11.

Más información sobre YOLOv6.0

Comparación de rendimiento

La siguiente tabla ilustra las diferencias entre los dos modelos. YOLOv7 .0 ofrece en general una velocidad superior para niveles de precisión similares, mientras que YOLOv7 empuja el techo de la precisión de detección.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6,0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7

Análisis de los resultados

  • Velocidad frente a precisión: YOLOv6.0n destaca por su extrema velocidad, ya que alcanza 1,17 ms de inferencia en las GPU T4, lo que lo hace ideal para el análisis de vídeo de alta velocidad.
  • Precisión máxima: YOLOv7x alcanza una mayor mAP (53,1%) en comparación con el de YOLOv6.0l (52,8%), lo que demuestra su capacidad para detectar ejemplos difíciles.
  • Eficiencia de cálculo: YOLOv6 utiliza menos FLOPs para niveles de rendimiento comparables, validando su filosofía de diseño "EfficientRep".

Consideraciones sobre la implantación

Aunque los puntos de referencia proporcionan una línea de base, el rendimiento en el mundo real depende en gran medida del hardware de despliegue. La reparametrización de YOLOv6 brilla en las GPU, mientras que la arquitectura basada en la concatenación de YOLOv7 es robusta pero puede consumir mucho ancho de banda de memoria.

La ventaja Ultralytics : Más allá de la comparación

Aunque YOLOv7 y YOLOv6.0 representan logros significativos en la historia de la visión por ordenador, este campo se mueve con rapidez. Para los desarrolladores que buscan una solución sostenible y preparada para el futuro, Ultralytics YOLO11 ofrece un ecosistema completo que supera las limitaciones de las arquitecturas de modelos individuales.

¿Por qué elegir Ultralytics YOLO11?

  1. Facilidad de uso inigualable: A diferencia de muchos modelos de código abierto que requieren una compleja clonación de repositorios y configuración del entorno, los modelos de Ultralytics son accesibles mediante una sencilla instalación pip. El diseño de la APIPython es intuitivo, lo que permite la formación y la inferencia en tan sólo unas pocas líneas de código.
  2. Equilibrio de rendimiento: YOLO11 se basa en las lecciones arquitectónicas de YOLOv6 y YOLOv7. Emplea una arquitectura refinada que logra una precisión de vanguardia al tiempo que mantiene las velocidades de inferencia necesarias para las aplicaciones en tiempo real.
  3. Versatilidad: Una de las mayores ventajas del ecosistema Ultralytics es la compatibilidad con múltiples tareas. Mientras que YOLOv6 y YOLOv7 se centran principalmente en la detección, YOLO11 admite de forma nativa la segmentación de instancias, la estimación de poses, la clasificación y la detección de objetos orientados (OBB).
  4. Eficiencia del entrenamiento: Los modelos Ultralytics están optimizados para una convergencia más rápida y un menor uso de la memoria durante el entrenamiento. Esta gestión eficiente de los recursos permite realizar el entrenamiento en GPU de consumo sin la enorme sobrecarga de memoria CUDA que a menudo se asocia a las antiguas arquitecturas de transformadores o concatenación.
  5. Ecosistema bien mantenido: Con actualizaciones frecuentes, amplia documentación y una comunidad vibrante, Ultralytics garantiza que sus proyectos sigan siendo compatibles con las últimas versiones de PyTorch y formatos de exportación como ONNXTensorRT y CoreML.

Ejemplo de aplicación

Implantar un modelo de vanguardia con Ultralytics es muy sencillo. A continuación le mostramos la facilidad con la que puede implementar la detección de objetos:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    result.save(filename="output.jpg")  # save to disk

Conclusión

Tanto YOLOv7 como YOLOv6.0 sirven para nichos específicos: YOLOv7 para tareas de investigación de alta precisión y YOLOv6.0 para la optimización de la velocidad industrial. Sin embargo, para la mayoría de los desarrolladores e investigadores, el programa Ultralytics YOLO11 ofrece la solución más equilibrada, versátil y fácil de mantener. Al combinar un alto rendimiento con una experiencia de usuario excepcional y un amplio soporte de tareas, Ultralytics permite a los usuarios centrarse en resolver problemas del mundo real en lugar de pelearse con arquitecturas de modelos.

Explorar Otros Modelos

Si está interesado en explorar más opciones dentro del panorama de la visión por ordenador, tenga en cuenta estas comparaciones:

  • YOLOv7 frente a RT-DETR: comparación de detectores basados en CNN con arquitecturas basadas en transformadores.
  • YOLOv8 frente a YOLOv8: comparación de la generación anterior de modelos Ultralytics con los estándares industriales.
  • YOLOv7 frente a YOLOX: análisis de las estrategias de detección sin anclas frente a las basadas en anclas.

Comentarios