Comparación de modelos: YOLOv9 vs. YOLOv8 para la detección de objetos
Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la precisión, la velocidad y los recursos computacionales. Esta página ofrece una comparación técnica detallada entre Ultralytics YOLOv8, un modelo versátil y fácil de usar, y YOLOv9, un modelo conocido por sus novedosos avances arquitectónicos. Analizaremos sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a determinar la mejor opción para sus proyectos de visión artificial.
YOLOv9: Avance en precisión con una arquitectura novedosa
YOLOv9 se introdujo como un avance significativo en la detección de objetos, centrándose principalmente en superar la pérdida de información en las redes neuronales profundas para aumentar la precisión.
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Documentación: https://docs.ultralytics.com/models/yolov9/
Arquitectura e Innovaciones Clave
YOLOv9 introduce dos innovaciones principales: Información de Gradiente Programable (PGI) y la Red Generalizada de Agregación Eficiente de Capas (GELAN). PGI está diseñado para proporcionar información de entrada completa para el cálculo de la función de pérdida, lo que ayuda a mitigar el problema del cuello de botella de información y garantiza que se generen gradientes más fiables para las actualizaciones de la red. GELAN es una arquitectura de red novedosa y altamente eficiente que optimiza la utilización de parámetros y la eficiencia computacional. Juntas, estas características permiten que YOLOv9 alcance una alta precisión, a menudo estableciendo nuevos puntos de referencia de última generación en conjuntos de datos como COCO.
Fortalezas
- Precisión de última generación: Los modelos YOLOv9, particularmente las variantes más grandes, alcanzan puntuaciones de mAP de primer nivel, superando los límites de la precisión de la detección de objetos en tiempo real.
- Alta eficiencia: La arquitectura GELAN permite a YOLOv9 ofrecer un alto rendimiento con menos parámetros y requisitos computacionales (FLOPs) en comparación con otros modelos con una precisión similar.
- Preservación de la Información: PGI aborda eficazmente el problema de la pérdida de información en redes profundas, lo cual es crucial para entrenar modelos muy profundos y precisos.
Debilidades
- Ecosistema y usabilidad: Como modelo de un repositorio de investigación, YOLOv9 carece del ecosistema pulido y listo para producción que proporciona Ultralytics. El proceso de entrenamiento puede ser más complejo, y el soporte de la comunidad y las integraciones de terceros son menos maduros.
- Versatilidad de tareas: La implementación original de YOLOv9 se centra principalmente en la detección de objetos. No ofrece el soporte integrado y unificado para otras tareas de visión como la segmentación, la estimación de poses o la clasificación que es estándar en los modelos de Ultralytics.
- Recursos de entrenamiento: El entrenamiento de YOLOv9 puede requerir más recursos y tiempo en comparación con los procesos optimizados que ofrece Ultralytics YOLOv8.
Ultralytics YOLOv8: Versatilidad y facilidad de uso
Ultralytics YOLOv8 es un modelo de última generación desarrollado por Ultralytics, conocido por su excepcional equilibrio entre velocidad, precisión y, lo que es más importante, su facilidad de uso y versatilidad. Está diseñado como un marco completo para entrenar, validar e implementar modelos para una amplia gama de tareas de visión artificial.
- Autores: Glenn Jocher, Ayush Chaurasia, Jing Qiu
- Organización: Ultralytics
- Fecha: 2023-01-10
- GitHub: https://github.com/ultralytics/ultralytics
- Documentación: https://docs.ultralytics.com/models/yolov8/
Arquitectura y Características Clave
YOLOv8 se basa en los éxitos de las versiones anteriores de YOLO con importantes mejoras arquitectónicas, incluyendo un nuevo encabezado de detección sin anclajes y una backbone C2f (CSP con 2 convoluciones) modificada. Este diseño no solo mejora el rendimiento, sino que también simplifica el modelo y sus pasos de post-procesamiento. Sin embargo, la verdadera fortaleza de YOLOv8 reside en su ecosistema holístico.
Fortalezas
- Balance Excepcional de Rendimiento: YOLOv8 ofrece un equilibrio fantástico entre velocidad y precisión, lo que lo hace muy adecuado para una amplia variedad de aplicaciones del mundo real, desde dispositivos edge con recursos limitados hasta servidores en la nube de alto rendimiento.
- Versatilidad incomparable: YOLOv8 es un verdadero framework multi-tarea. Soporta detección de objetos, segmentación de instancias, clasificación de imágenes, estimación de poses y cuadros delimitadores orientados (OBB) dentro de un único framework unificado. Esta versatilidad es una gran ventaja sobre modelos más especializados como YOLOv9.
- Facilidad de uso: Ultralytics ha priorizado una experiencia de usuario optimizada. Con una sencilla API de Python y una CLI, una amplia documentación y una gran cantidad de tutoriales, los desarrolladores pueden empezar en cuestión de minutos.
- Ecosistema bien mantenido: YOLOv8 cuenta con el respaldo del desarrollo activo de Ultralytics, una sólida comunidad de código abierto, actualizaciones frecuentes y una integración perfecta con Ultralytics HUB para flujos de trabajo de formación sin código y MLOps.
- Eficiencia en el entrenamiento: El proceso de entrenamiento es altamente eficiente, con pesos pre-entrenados disponibles y menores requisitos de memoria en comparación con muchas otras arquitecturas, especialmente los modelos basados en transformers.
- Deployment Ready: YOLOv8 está diseñado para una fácil implementación con soporte de exportación incorporado para varios formatos como ONNX, TensorRT y OpenVINO, lo que simplifica el camino hacia la producción.
Debilidades
- Precisión máxima: Si bien son extremadamente precisos, los modelos YOLOv9 más grandes pueden alcanzar un mAP ligeramente superior en el benchmark COCO en una tarea de detección de objetos pura. Sin embargo, esto a menudo se produce a costa de la versatilidad y la facilidad de uso.
Cara a cara de rendimiento: Precisión y velocidad
Al comparar el rendimiento, es esencial observar la imagen completa, incluyendo la precisión (mAP), la velocidad de inferencia, el tamaño del modelo (parámetros) y el costo computacional (FLOPs).
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
De la tabla, podemos ver que YOLOv9-E alcanza el mAP más alto. Sin embargo, los modelos YOLOv8 demuestran velocidades de inferencia superiores, especialmente las variantes más pequeñas como YOLOv8n, lo cual es crucial para las aplicaciones en tiempo real. YOLOv8 proporciona un perfil de rendimiento más completo y práctico en diferentes hardware, con puntos de referencia de velocidad bien documentados que son esenciales para la planificación de la producción.
Conclusión: ¿Qué modelo debería elegir?
La elección entre YOLOv9 y YOLOv8 depende en gran medida de las prioridades de tu proyecto.
Elegir YOLOv9 si:
- Tu objetivo principal y único es lograr la máxima precisión absoluta en la detección de objetos en benchmarks como COCO.
- Está trabajando en un contexto de investigación donde el objetivo principal es explorar arquitecturas novedosas como PGI y GELAN.
- Dispones de importantes recursos computacionales y experiencia para gestionar un flujo de trabajo de entrenamiento e implementación más complejo.
Elegir Ultralytics YOLOv8 si:
- Necesitas un modelo robusto, fiable y fácil de usar para una amplia gama de aplicaciones.
- Tu proyecto requiere algo más que la detección de objetos, como la segmentación de instancias, la estimación de poses o la clasificación. La versatilidad de YOLOv8 ahorra una inmensa cantidad de tiempo de desarrollo.
- Priorizas un flujo de trabajo rápido y eficiente, desde el entrenamiento hasta la implementación. El ecosistema de Ultralytics está diseñado para llevarte a producción más rápido.
- Necesitas un modelo que ofrezca un excelente equilibrio entre velocidad y precisión, adecuado tanto para la implementación en el borde como en la nube.
- Valoras un sólido apoyo de la comunidad, actualizaciones continuas y documentación completa.
Para la gran mayoría de desarrolladores, investigadores y empresas, Ultralytics YOLOv8 es la opción recomendada. Su combinación de un sólido rendimiento, una versatilidad increíble y un ecosistema fácil de usar y bien soportado la convierten en una herramienta más práctica y potente para la construcción de soluciones de visión artificial del mundo real.
Si está explorando otros modelos, también podría interesarle Ultralytics YOLOv5, conocido por su estabilidad y adopción generalizada, o RT-DETR, una arquitectura alternativa basada en transformadores. Puede encontrar más comparaciones en nuestra página de comparación de modelos.