Ir al contenido

Comparación de modelos: YOLOv8 vs. YOLOv7 para la detección de objetos

Seleccionar el modelo de detección de objetos adecuado es crucial para lograr un rendimiento óptimo en las tareas de visión artificial. Esta página ofrece una comparación técnica entre Ultralytics YOLOv8 y YOLOv7, dos modelos significativos en el campo. Analizaremos sus matices arquitectónicos, puntos de referencia de rendimiento y aplicaciones ideales para guiar su proceso de selección de modelos, destacando las ventajas que ofrece el ecosistema de Ultralytics. Si bien ambos modelos han avanzado el estado de la técnica, YOLOv8 emerge como la opción superior para las aplicaciones modernas debido a su rendimiento mejorado, versatilidad y excepcional facilidad de uso.

YOLOv8: Eficiencia y Adaptabilidad de Vanguardia

Ultralytics YOLOv8, lanzado en 2023, es el último modelo insignia de Ultralytics. Se basa en los éxitos de sus predecesores, introduciendo un nuevo nivel de rendimiento, flexibilidad y eficiencia. Como modelo de última generación, YOLOv8 está diseñado para destacar en un amplio espectro de tareas de visión artificial.

Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización: Ultralytics
Fecha: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolov8/

Arquitectura y Diseño

YOLOv8 presenta una arquitectura refinada que es a la vez potente y fácil de usar. Las mejoras arquitectónicas clave incluyen un nuevo encabezado de detección sin anclajes y una backbone más eficiente. El diseño sin anclajes reduce el número de predicciones de cajas, lo que simplifica los pasos de post-procesamiento como la Supresión No Máxima (NMS) y acelera la velocidad de inferencia. Esto hace que YOLOv8 sea más adaptable a varias formas y tamaños de objetos sin necesidad de ajustar manualmente los anclajes.

Fortalezas

  • Rendimiento de última generación: YOLOv8 ofrece un equilibrio excepcional entre precisión y velocidad, superando a los modelos anteriores en todas las escalas. Sus modelos más pequeños son más rápidos y precisos que las variantes comparables de YOLOv7, mientras que sus modelos más grandes establecen nuevos estándares de precisión.
  • Versatilidad incomparable: A diferencia de YOLOv7, que es principalmente un detector de objetos, YOLOv8 es un framework unificado que admite múltiples tareas de forma predeterminada: detección de objetos, segmentación de instancias, estimación de poses, clasificación de imágenes y detección de objetos orientados (OBB).
  • Facilidad de uso: Ultralytics prioriza una experiencia de desarrollo optimizada. YOLOv8 incluye una API de Python y una CLI sencillas, una documentación completa y una integración perfecta con herramientas como Ultralytics HUB para el entrenamiento y la implementación sin código.
  • Ecosistema bien mantenido: Como modelo oficial de Ultralytics, YOLOv8 se beneficia de un desarrollo activo, actualizaciones frecuentes y una sólida comunidad de código abierto. Esto garantiza la fiabilidad, el acceso a las últimas funciones y un amplio soporte.
  • Eficiencia de entrenamiento y memoria: Los modelos YOLOv8 están diseñados para un entrenamiento eficiente, que a menudo requiere menos memoria CUDA que otras arquitecturas como los transformers. Los pesos pre-entrenados disponibles en conjuntos de datos como COCO permiten una convergencia más rápida en datos personalizados.

Debilidades

  • Como modelo altamente avanzado, las variantes más grandes de YOLOv8 requieren recursos computacionales sustanciales para el entrenamiento, aunque siguen siendo muy eficientes para su nivel de rendimiento.

Casos de Uso Ideales

El rendimiento superior y la versatilidad de YOLOv8 la convierten en la opción ideal para una amplia gama de aplicaciones, desde dispositivos edge hasta servidores en la nube.

Más información sobre YOLOv8

YOLOv7: Un punto de referencia en la detección en tiempo real

YOLOv7 se introdujo en 2022 como un avance significativo en la detección de objetos en tiempo real, estableciendo un nuevo estado del arte en el momento de su lanzamiento. Se centró en la optimización de los procesos de entrenamiento para mejorar la precisión sin aumentar los costes de inferencia.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Arquitectura y Diseño

YOLOv7 introdujo varias innovaciones arquitectónicas, incluyendo la Red de Agregación de Capas Eficiente Extendida (E-ELAN) en su backbone para mejorar la eficiencia del aprendizaje. Su contribución más notable fue el concepto de "bolsa de trucos entrenable", que son estrategias de entrenamiento que mejoran la precisión del modelo sin aumentar la sobrecarga de la inferencia. Estas incluyen técnicas como cabezales auxiliares y asignación de etiquetas de lo grueso a lo fino.

Fortalezas

  • Alto rendimiento en el momento del lanzamiento: YOLOv7 ofrecía una excelente combinación de velocidad y precisión, superando a otros detectores disponibles en ese momento.
  • Entrenamiento eficiente: El concepto de "bag-of-freebies" le permitió lograr una alta precisión con rutinas de entrenamiento optimizadas.
  • Benchmark establecido: Es un modelo muy apreciado que se ha probado exhaustivamente en conjuntos de datos estándar como MS COCO.

Debilidades

  • Versatilidad limitada: YOLOv7 es principalmente un detector de objetos. Extenderlo a otras tareas como la segmentación o la estimación de pose requiere implementaciones separadas, a menudo impulsadas por la comunidad, a diferencia del enfoque integrado de YOLOv8.
  • Complejidad arquitectónica: Las técnicas de entrenamiento y los componentes arquitectónicos pueden ser más complejos de entender y modificar en comparación con el diseño optimizado de YOLOv8.
  • Superado por modelos más recientes: Si bien es potente, YOLOv7 ha sido superado tanto en velocidad como en precisión por YOLOv8. El ecosistema de Ultralytics también proporciona una experiencia más completa y fácil de usar.

Casos de Uso Ideales

YOLOv7 sigue siendo un modelo adecuado para las aplicaciones en las que se integró antes del lanzamiento de alternativas más recientes.

  • Sistemas de seguridad en tiempo real: Adecuado para aplicaciones como la prevención de robos, donde la detección rápida y precisa es clave.
  • Proyectos heredados: Una opción viable para mantener o ampliar los sistemas existentes construidos sobre la arquitectura YOLOv7.

Más información sobre YOLOv7

Rendimiento y benchmarks: YOLOv8 vs. YOLOv7

La comparación de rendimiento ilustra claramente los avances realizados con YOLOv8. En general, los modelos YOLOv8 ofrecen una mejor compensación entre precisión y velocidad.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv8n 640 37.3 80.4 1.47 3.2 8.7
YOLOv8s 640 44.9 128.4 2.66 11.2 28.6
YOLOv8m 640 50.2 234.7 5.86 25.9 78.9
YOLOv8l 640 52.9 375.2 9.06 43.7 165.2
YOLOv8x 640 53.9 479.1 14.37 68.2 257.8
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

De los datos, emergen varias ideas clave:

  • Precisión Superior: El modelo más grande, YOLOv8x, alcanza un 53.9 mAP, superando el 53.1 mAP del modelo YOLOv7x.
  • Velocidad Inigualable: Los modelos YOLOv8 son significativamente más rápidos, especialmente en CPU. El modelo YOLOv8n cuenta con un tiempo de inferencia de tan solo 80,4 ms en CPU con ONNX, una métrica no disponible para YOLOv7 pero demostrablemente más rápida en la práctica. En GPU, YOLOv8n alcanza unos increíbles 1,47 ms con TensorRT, superando con creces la eficiencia de YOLOv7.
  • Mayor eficiencia: Los modelos YOLOv8 tienen menos parámetros y FLOP para un rendimiento comparable o mejor. Por ejemplo, YOLOv8l alcanza casi el mismo mAP que YOLOv7x (52.9 vs. 53.1) pero con significativamente menos parámetros (43.7M vs. 71.3M) y FLOP (165.2B vs. 189.9B).

Conclusión: ¿Por qué YOLOv8 es la opción preferida?

Si bien YOLOv7 era un modelo formidable, YOLOv8 es el claro ganador para nuevos proyectos y desarrollo. Su arquitectura superior, su rendimiento de última generación y su increíble versatilidad lo convierten en la herramienta más potente y fácil de usar disponible para la detección de objetos y otras tareas de visión artificial.

El ecosistema integrado de Ultralytics proporciona una ventaja significativa, ofreciendo una experiencia perfecta desde el entrenamiento hasta la implementación. Para los desarrolladores e investigadores que buscan un modelo robusto, bien soportado y de alto rendimiento, YOLOv8 es la opción definitiva.

Explorar Otros Modelos

Para aquellos interesados en explorar más a fondo, Ultralytics ofrece una gama de modelos y comparaciones. Considere la posibilidad de consultar:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios