YOLOv8 vs YOLOv5: Un Análisis Detallado
La comparación entre Ultralytics YOLOv8 y Ultralytics YOLOv5 para la detección de objetos revela tanto la evolución constante de la arquitectura YOLO como los puntos fuertes distintos de cada modelo. Ambos modelos, desarrollados por Ultralytics, son reconocidos por su excepcional equilibrio entre velocidad y precisión. Sin embargo, se adaptan a diferentes prioridades en el campo de la visión artificial. Esta página proporciona una comparación técnica detallada para ayudar a desarrolladores e investigadores a tomar una decisión informada basada en los requisitos de su proyecto, destacando las ventajas del ecosistema Ultralytics.
YOLOv8: La solución de vanguardia
Autores: Glenn Jocher, Ayush Chaurasia, y Jing Qiu
Organización: Ultralytics
Fecha: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolov8/
Ultralytics YOLOv8 es la última versión principal de la serie YOLO, diseñada como un marco unificado para admitir una gama completa de tareas de visión artificial. Estas incluyen la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los cuadros delimitadores orientados (OBB). YOLOv8 introduce importantes innovaciones arquitectónicas, como un detector sin anclaje y un cuello C2f refinado, que mejoran su rendimiento y flexibilidad.
Fortalezas
- Precisión y Rendimiento Superiores: YOLOv8 ofrece consistentemente una mayor precisión (mAP) que YOLOv5 en todos los tamaños de modelo, manteniendo al mismo tiempo velocidades de inferencia competitivas. Esto proporciona un excelente equilibrio de rendimiento para aplicaciones exigentes.
- Versatilidad mejorada: Diseñado como un marco de trabajo integral, YOLOv8 admite de forma nativa múltiples tareas de visión. Esta versatilidad permite a los desarrolladores utilizar una única arquitectura de modelo coherente para proyectos complejos y multifacéticos, lo que agiliza el desarrollo y la implementación.
- Arquitectura moderna: El diseño sin anclaje de YOLOv8 reduce la complejidad del proceso de entrenamiento y el número de hiperparámetros que se deben ajustar, lo que a menudo conduce a una mejor generalización en diversos conjuntos de datos. El módulo C2f actualizado proporciona una fusión de características más eficiente en comparación con el módulo C3 de YOLOv5.
- Experiencia de usuario optimizada: Como con todos los modelos de Ultralytics, YOLOv8 se beneficia de una API de Python y una CLI sencillas, una amplia documentación y un ecosistema bien mantenido. Esto incluye la integración con Ultralytics HUB para la formación sin código y la gestión de MLOps.
- Eficiencia de memoria: Los modelos YOLO de Ultralytics están optimizados para un bajo uso de memoria tanto durante el entrenamiento como durante la inferencia, lo que los hace más accesibles que muchas arquitecturas que consumen muchos recursos, como los transformadores.
Debilidades
- Requisitos computacionales: Si bien son eficientes, los modelos YOLOv8 más grandes (L/X) requieren una potencia computacional sustancial, lo que podría ser una limitación para la implementación en dispositivos perimetrales con recursos severamente limitados.
Casos de Uso Ideales
YOLOv8 es la opción recomendada para nuevos proyectos que requieren un rendimiento y una flexibilidad de última generación.
- Robótica Avanzada: Para la comprensión compleja de escenas y la interacción con objetos donde la alta precisión es crítica.
- Análisis de imágenes de alta resolución: Destaca en aplicaciones como el análisis de imágenes médicas donde la detección de detalles precisos es crucial.
- Sistemas de Visión Multi-Tarea: Ideales para sistemas que necesitan realizar detección, segmentación y estimación de pose simultáneamente, como en la analítica de retail inteligente.
YOLOv5: El estándar establecido y versátil
Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentación: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5 se convirtió en un estándar de la industria poco después de su lanzamiento, celebrado por su excepcional equilibrio entre velocidad, precisión y notable facilidad de uso. Construido sobre PyTorch, cuenta con un backbone CSPDarknet53 y un cuello de botella PANet. Su encabezado de detección basado en anclajes es altamente eficiente, y el modelo se escala a través de varios tamaños (n, s, m, l, x) para adaptarse a diferentes presupuestos computacionales.
Fortalezas
- Velocidad de Inferencia Excepcional: YOLOv5 está altamente optimizado para una inferencia rápida, lo que lo convierte en una opción ideal para sistemas en tiempo real, especialmente en CPU y dispositivos edge.
- Ecosistema Maduro y Estable: Habiendo estado en el campo durante varios años, YOLOv5 tiene una amplia base de usuarios, un extenso soporte de la comunidad y una gran cantidad de tutoriales e integraciones de terceros. Su estabilidad lo convierte en una opción confiable para entornos de producción.
- Facilidad de uso: YOLOv5 es famoso por su API sencilla y su canalización de entrenamiento directa, lo que lo hizo increíblemente popular tanto para principiantes como para expertos. El ecosistema de Ultralytics garantiza una experiencia de usuario fluida desde el entrenamiento hasta la implementación.
- Eficiencia del entrenamiento: El modelo ofrece un proceso de entrenamiento eficiente con pesos pre-entrenados disponibles, lo que permite una rápida creación de prototipos y desarrollo.
Debilidades
- Menor Precisión: En comparación con YOLOv8, los modelos YOLOv5 generalmente tienen puntuaciones mAP más bajas para un tamaño dado. La diferencia de rendimiento se hace más notoria con los modelos más grandes.
- Detección Basada en Anclas: Su dependencia de cuadros de anclaje predefinidos a veces puede requerir un ajuste manual para un rendimiento óptimo en conjuntos de datos con objetos de forma o escala inusuales.
Casos de Uso Ideales
YOLOv5 sigue siendo un modelo potente y relevante, especialmente para aplicaciones donde la velocidad y la estabilidad son primordiales.
- Edge Computing: Sus variantes más pequeñas (n/s) son perfectas para la implementación en dispositivos con recursos limitados como Raspberry Pi y NVIDIA Jetson.
- Vigilancia en tiempo real: Ideal para sistemas de seguridad y monitorización de vídeo en directo donde una baja latencia es esencial.
- Aplicaciones móviles: Adecuado para tareas de detección de objetos en el dispositivo donde los recursos computacionales son limitados.
Enfrentamiento de rendimiento: YOLOv8 vs. YOLOv5
Los benchmarks de rendimiento en el conjunto de datos COCO ilustran claramente los avances realizados con YOLOv8. En general, los modelos YOLOv8 ofrecen una precisión superior con características de rendimiento comparables o mejoradas.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
De la tabla, es evidente que los modelos YOLOv8 ofrecen un aumento significativo en el mAP. Por ejemplo, YOLOv8s alcanza 44.9 mAP, superando con creces el 37.4 mAP de YOLOv5s con solo un aumento marginal en los parámetros y la latencia. De forma similar, YOLOv8x alcanza 53.9 mAP, superando el 50.7 mAP de YOLOv5x y, al mismo tiempo, es más eficiente desde el punto de vista computacional.
Conclusión: ¿Qué modelo debería elegir?
Tanto YOLOv5 como YOLOv8 son modelos excelentes, pero satisfacen diferentes necesidades.
-
YOLOv5 es una opción fantástica para aplicaciones en las que la máxima velocidad de inferencia y una plataforma madura y estable son las máximas prioridades. Sigue siendo un firme candidato para la implementación en dispositivos con recursos limitados y para proyectos que se benefician de su amplio ecosistema.
-
YOLOv8 representa la próxima generación de la tecnología YOLO. Es la opción recomendada para nuevos proyectos que buscan la máxima precisión y versatilidad en múltiples tareas de visión. Su arquitectura moderna, sin anclajes, y su marco unificado lo convierten en una solución más potente y flexible para una amplia gama de aplicaciones, desde la investigación hasta la producción.
Para la mayoría de los casos de uso, el rendimiento y la flexibilidad superiores de YOLOv8 la convierten en la opción preferida.
Explorar Otros Modelos
Ultralytics continúa innovando en el campo de la visión artificial. Para los usuarios que exploran otras opciones de última generación, también ofrecemos modelos como YOLOv9, YOLOv10 y el último YOLO11, cada uno proporcionando ventajas únicas. Puede encontrar análisis más detallados en nuestra página de comparación de modelos.