Ir al contenido

Comparación de modelos: YOLOv8 vs YOLOv9 para la detección de objetos

Elegir el modelo de detección de objetos adecuado es crucial para equilibrar la precisión, la velocidad y los recursos computacionales. Esta página ofrece una comparación técnica detallada entre Ultralytics YOLOv8 y YOLOv9, ambos modelos de vanguardia en la serie YOLO. Analizaremos sus arquitecturas, rendimiento y casos de uso para ayudarle a determinar la mejor opción para sus necesidades, destacando por qué la versatilidad y el ecosistema maduro de YOLOv8 lo convierten en la opción preferida para la mayoría de las aplicaciones.

Ultralytics YOLOv8: Optimizado y versátil

Ultralytics YOLOv8 es un modelo de gran éxito desarrollado por Glenn Jocher, Ayush Chaurasia y Jing Qiu en Ultralytics y lanzado el 10 de enero de 2023. Es famoso por su excelente equilibrio entre velocidad y precisión, diseñado para ser fácil de usar y excepcionalmente versátil. Una ventaja clave de YOLOv8 es su soporte para una amplia gama de tareas de visión más allá de la detección de objetos, incluyendo la segmentación de instancias, la estimación de pose, la clasificación de imágenes y los cuadros delimitadores orientados (OBB), todo dentro de un único framework unificado.

Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización: Ultralytics
Fecha: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolov8/

Más información sobre YOLOv8

Arquitectura y Características Clave

YOLOv8 se basa en versiones anteriores de YOLO con importantes mejoras arquitectónicas, como un encabezado de detección sin anclajes y una backbone CSPDarknet modificada que incluye el módulo C2f. Esta elección de diseño mejora la flexibilidad y la eficiencia. Sin embargo, sus mayores fortalezas residen en su usabilidad y en el robusto ecosistema en el que habita.

  • Facilidad de uso: YOLOv8 ofrece una experiencia de usuario optimizada a través de una sencilla API de Python y una CLI, respaldada por una extensa documentación. Esto lo hace accesible tanto para principiantes como para expertos.
  • Ecosistema bien mantenido: Se beneficia del desarrollo continuo, una sólida comunidad de código abierto, actualizaciones frecuentes y una profunda integración con Ultralytics HUB para el entrenamiento sin código y los flujos de trabajo de MLOps.
  • Equilibrio de rendimiento: La familia de modelos logra una sólida relación entre velocidad y precisión, lo que la hace adecuada para diversos escenarios de implementación en el mundo real, desde dispositivos en el borde hasta servidores en la nube.
  • Eficiencia de memoria: Generalmente requiere menos memoria CUDA para el entrenamiento y la inferencia en comparación con arquitecturas más grandes como los transformadores, lo que permite el desarrollo en una gama más amplia de hardware.
  • Versatilidad: Esta es una característica destacada. YOLOv8 sobresale en el manejo de múltiples tareas de visión (detección, segmentación, clasificación, pose, OBB) dentro de un único framework, una capacidad que a menudo falta en modelos más especializados como YOLOv9.
  • Eficiencia en el entrenamiento: Cuenta con procesos de entrenamiento eficientes y ponderaciones preentrenadas disponibles en conjuntos de datos como COCO, lo que acelera los ciclos de desarrollo.

Fortalezas y Debilidades

Ventajas:

  • Soporte Versátil de Tareas: Una única arquitectura de modelo puede ser entrenada para la detección, segmentación, pose y más, simplificando los requisitos de proyectos complejos.
  • Fácil de usar: Una documentación completa y una API sencilla facilitan la entrada al desarrollo de soluciones avanzadas de visión artificial.
  • Sólida Comunidad y Ecosistema: Se mantiene activamente con amplios recursos e integraciones como TensorRT y OpenVINO para una implementación optimizada.

Debilidades:

  • Precisión máxima: Si bien son muy precisos, los modelos YOLOv9 más grandes pueden alcanzar puntuaciones mAP ligeramente superiores en los benchmarks de COCO para la detección de objetos pura.
  • Uso intensivo de recursos (modelos grandes): Los modelos YOLOv8 más grandes (L, X) requieren importantes recursos computacionales, aunque siguen siendo eficientes para su clase de rendimiento.

YOLOv9: Avance en precisión con técnicas novedosas

YOLOv9 fue presentado el 21 de febrero de 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información, Academia Sinica, Taiwán. Introduce importantes innovaciones arquitectónicas destinadas a superar los límites de la precisión en la detección de objetos en tiempo real al abordar la pérdida de información en las redes neuronales profundas.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Documentación: https://docs.ultralytics.com/models/yolov9/

Más información sobre YOLOv9

Arquitectura e Innovaciones Clave

Las contribuciones principales de YOLOv9 son la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN).

  • Información de Gradiente Programable (PGI): Este concepto está diseñado para mitigar el problema del cuello de botella de la información, donde se pierden datos importantes a medida que se propagan a través de las capas de la red profunda. PGI ayuda a generar gradientes fiables para mantener la información clave para actualizaciones precisas del modelo.
  • Red Generalizada de Agregación de Capas Eficiente (GELAN): GELAN es una arquitectura novedosa que optimiza la utilización de parámetros y la eficiencia computacional. Permite que YOLOv9 logre una mayor precisión con menos parámetros en comparación con algunos modelos anteriores.

Fortalezas y Debilidades

Ventajas:

  • Precisión Mejorada: Establece nuevos resultados de última generación en el conjunto de datos COCO para detectores de objetos en tiempo real, superando a muchos otros modelos en mAP.
  • Eficiencia mejorada: La arquitectura GELAN proporciona una sólida relación rendimiento por parámetro.

Debilidades:

  • Versatilidad limitada: YOLOv9 se centra principalmente en la detección de objetos. Carece del soporte multitarea integrado para segmentación, estimación de pose y clasificación que hace de YOLOv8 una solución más flexible y práctica para proyectos integrales de IA.
  • Recursos de entrenamiento: Como se indica en su documentación, el entrenamiento de los modelos YOLOv9 puede requerir más recursos y tiempo en comparación con los modelos Ultralytics.
  • Arquitectura más reciente: Al ser un modelo más reciente de un grupo de investigación diferente, su ecosistema, el soporte de la comunidad y las integraciones de terceros son menos maduros que los de Ultralytics YOLOv8, que está bien establecido. Esto puede conducir a una curva de aprendizaje más pronunciada y a menos soluciones de implementación listas para usar.

Rendimiento y benchmarks: YOLOv8 vs. YOLOv9

Al comparar el rendimiento, es evidente que ambos modelos son altamente capaces. YOLOv9 supera los límites en la precisión de detección pura, con su variante más grande, YOLOv9e, logrando el mAP más alto. Sin embargo, Ultralytics YOLOv8 ofrece un paquete general más convincente. Sus modelos proporcionan un excelente equilibrio entre velocidad y precisión, con velocidades de inferencia bien documentadas tanto en CPU como en GPU, lo cual es fundamental para las decisiones de implementación en el mundo real.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv8n 640 37.3 80.4 1.47 3.2 8.7
YOLOv8s 640 44.9 128.4 2.66 11.2 28.6
YOLOv8m 640 50.2 234.7 5.86 25.9 78.9
YOLOv8l 640 52.9 375.2 9.06 43.7 165.2
YOLOv8x 640 53.9 479.1 14.37 68.2 257.8
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

La tabla muestra que, si bien los modelos YOLOv9 son eficientes en cuanto a los parámetros, YOLOv8 proporciona una imagen de rendimiento más completa, incluidos los puntos de referencia cruciales de la CPU que demuestran su preparación para diversos entornos de hardware.

Casos de Uso Ideales

La elección entre YOLOv8 y YOLOv9 depende en gran medida de las prioridades del proyecto.

YOLOv8 es la opción ideal para:

  • Aplicaciones multi-tarea: Proyectos que requieren una combinación de detección, segmentación y estimación de la pose, como en robótica, atención médica o sistemas de seguridad avanzados.
  • Desarrollo e implementación rápidos: Los desarrolladores que necesitan pasar rápidamente del prototipo a la producción se beneficiarán enormemente de la facilidad de uso, la extensa documentación y el ecosistema integrado de YOLOv8.
  • Balanced Performance Needs: Aplicaciones donde un fuerte equilibrio entre velocidad y precisión es más importante que lograr la puntuación mAP más alta, como en el análisis de vídeo en tiempo real para retail o manufacturing.

YOLOv9 es más adecuado para:

  • Investigación y detección especializada de alta precisión: Escenarios en los que el objetivo principal es maximizar la precisión de la detección de objetos en pruebas de referencia como COCO.
  • Inspección industrial de alta precisión: Aplicaciones donde la detección de los defectos más pequeños con la mayor precisión posible es la principal preocupación.
  • Analítica de Video Avanzada: Uso en infraestructura de ciudad inteligente donde se requiere una detección de primer nivel y el sistema puede adaptarse a sus dependencias específicas.

Conclusión: ¿Qué modelo debería elegir?

Para la gran mayoría de desarrolladores y aplicaciones, Ultralytics YOLOv8 es la opción superior. Su versatilidad sin igual, facilidad de uso y ecosistema maduro y bien mantenido proporcionan una ventaja significativa sobre YOLOv9. La capacidad de gestionar múltiples tareas dentro de un único marco no solo simplifica el desarrollo, sino que también reduce la complejidad y el coste en producción. Si bien YOLOv9 ofrece impresionantes ganancias de precisión en la detección de objetos, su enfoque limitado y su ecosistema menos desarrollado la convierten en una herramienta más especializada.

YOLOv8 representa una solución holística que permite a los desarrolladores construir sistemas de IA robustos y multifacéticos de manera eficiente. Para aquellos que buscan un modelo confiable, de alto rendimiento y flexible, YOLOv8 es el claro ganador. Si está buscando un modelo aún más establecido, considere YOLOv5, o para la última tecnología de vanguardia de Ultralytics, consulte YOLO11.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios