YOLOv9 vs YOLOv10: Comparación técnica detallada
Ultralytics se ha comprometido a ampliar los límites de la visión por ordenador, y una parte crucial de esto es el desarrollo y perfeccionamiento de nuestros modelos YOLO . Esta página ofrece una comparación técnica detallada entre YOLOv9 y YOLOv10, dos modelos de detección de objetos de última generación. Profundizaremos en sus matices arquitectónicos, sus puntos de referencia de rendimiento y sus aplicaciones adecuadas para ayudarle a seleccionar el modelo óptimo para sus tareas específicas de visión por ordenador.
YOLOv9: Información de gradiente programable
YOLOv9, presentado en febrero de 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao, del Instituto de Ciencias de la Información de la Academia Sinica de Taiwán, representa un avance significativo en la detección eficaz de objetos. La principal innovación de YOLOv9 reside en su información de gradiente programable (PGI), diseñada para hacer frente a la pérdida de información durante el proceso de aprendizaje profundo. Esto se consigue mediante técnicas como las Redes de Agregación de Capas Generalizadas Eficientes (GELAN), que garantizan que el modelo aprenda exactamente lo que se pretende que aprenda.
Arquitectura y características principales: YOLOv9 aprovecha GELAN para mejorar la extracción de características y mantener la integridad de la información en toda la red. Este enfoque da lugar a un modelo que no sólo es preciso, sino también eficiente en cuanto a parámetros, lo que lo hace adecuado para despliegues en los que los recursos computacionales son limitados. YOLOv9 se implementa a partir del artículo"YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information".
Métricas de rendimiento: YOLOv9 demuestra un rendimiento impresionante en el conjunto de datos COCO. Por ejemplo, YOLOv9c alcanza un mAPval50-95 del 53,0% con 25,3 millones de parámetros y 102,1 millones de FLOPs. La arquitectura del modelo está diseñada para ser eficiente, lo que le permite alcanzar una gran precisión con menos parámetros y cálculos en comparación con modelos anteriores.
Puntos fuertes:
- Alta precisión: Alcanza la máxima precisión en la detección de objetos.
- Eficacia de los parámetros: Utiliza parámetros y cálculos de forma eficaz gracias a GELAN y PGI.
- Enfoque novedoso: Introduce Información de Gradiente Programable para un mejor aprendizaje.
Debilidades:
- Relativamente nuevo: al ser un modelo más reciente, puede tener una comunidad más reducida y menos ejemplos de implantación en comparación con modelos más consolidados.
Casos prácticos: YOLOv9 es idóneo para aplicaciones que requieren gran precisión y eficacia, como:
- Robótica avanzada: Detección de objetos en sistemas robóticos complejos.
- Análisis de imágenes de alta resolución: Escenarios que exigen un análisis detallado de imágenes de gran tamaño.
- Entornos con recursos limitados: Dispositivos periféricos y aplicaciones móviles en los que la potencia de cálculo es limitada.
Autores y recursos:
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2024-02-21
- Arxiv: arXiv:2402.13616
- GitHub: github.com/WongKinYiu/yolov9
- Docs: docsultralytics.com/models/yolov9/
YOLOv10: diseño holístico basado en la eficiencia y la precisión
YOLOv10, publicado en mayo de 2024 por Ao Wang, Hui Chen, Lihao Liu, et al. de la Universidad de Tsinghua, está diseñado para la detección de objetos en tiempo real de extremo a extremo, haciendo hincapié en la máxima eficiencia y velocidad. YOLOv10 introduce varias mejoras metodológicas clave para mejorar tanto la precisión como la eficiencia, incluidas las asignaciones duales coherentes para un entrenamiento sin NMS y un diseño de modelo holístico impulsado por la eficiencia y la precisión.
Arquitectura y características principales: La arquitectura de YOLOv10 está meticulosamente diseñada para minimizar la redundancia computacional y maximizar el rendimiento. Entre las principales mejoras de eficiencia se incluyen un cabezal de clasificación ligero, un muestreo descendente desacoplado por canales espaciales y un diseño de bloques guiado por rangos. La precisión aumenta gracias a las convoluciones de núcleo grande y a la autoatención parcial (PSA). Estas innovaciones permiten a YOLOv10 alcanzar la máxima velocidad y eficacia sin sacrificar la precisión. YOLOv10 se detalla en el artículo"YOLOv10: Detección de objetos en tiempo real de extremo a extremo".
Métricas de rendimiento: YOLOv10 establece nuevas referencias en la detección de objetos en tiempo real. Por ejemplo, YOLOv10-S es 1,8 veces más rápido que RT-DETR con un AP comparable en el conjunto de datos COCO. YOLOv10-B presenta un 46% menos de latencia y un 25% menos de parámetros que YOLOv9-C, manteniendo niveles de rendimiento similares. YOLOv10-N alcanza una impresionante latencia de sólo 1,84 ms en una GPU T4.
Puntos fuertes:
- Eficiencia extrema: Optimizado para una latencia y un coste computacional mínimos.
- Formación sin NMS: Las asignaciones duales coherentes permiten un despliegue de extremo a extremo sin supresión no máxima, lo que reduce el tiempo de inferencia.
- Alta velocidad: Alcanza velocidades de inferencia significativamente más rápidas en comparación con las versiones anteriores de YOLO y otros modelos.
- Buena precisión: Mantiene una precisión competitiva al tiempo que prioriza la eficiencia.
Debilidades:
- Modelo muy reciente: Al ser un modelo muy nuevo, aún está en desarrollo activo y el apoyo de la comunidad es cada vez mayor.
Casos de uso: YOLOv10 es ideal para aplicaciones en las que el rendimiento y la eficiencia en tiempo real son primordiales:
- Edge Computing: Despliegue en dispositivos periféricos con recursos limitados.
- Análisis de vídeo en tiempo real: Aplicaciones que requieren la detección inmediata de objetos en secuencias de vídeo.
- Sistemas móviles y embebidos: Integración en aplicaciones móviles y sistemas embebidos donde la velocidad y el consumo de energía son críticos.
Autores y recursos:
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 2024-05-23
- Arxiv: arXiv:2405.14458
- GitHub: github.com/THU-MIG/yolov10
- Docs: docsultralytics.com/models/yolov10/
Cuadro comparativo
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Conclusión
Tanto YOLOv9 como YOLOv10 representan avances de vanguardia en la detección de objetos, cada uno con puntos fuertes únicos. YOLOv9 destaca en precisión y eficiencia de parámetros gracias a su información de gradiente programable, lo que lo hace adecuado para análisis complejos y detallados. YOLOv10, por su parte, prioriza la velocidad y el rendimiento en tiempo real gracias a su diseño holístico orientado a la eficiencia y la precisión y a la formación sin NMS, por lo que resulta ideal para aplicaciones de bordes y en tiempo real.
Para usuarios que buscan un equilibrio entre madurez y versatilidad, Ultralytics YOLOv8 sigue siendo una opción sólida. Para los interesados en los últimos avances y la máxima precisión, Ultralytics YOLO11 también es una opción atractiva, basada en los puntos fuertes de las iteraciones anteriores de YOLO . En última instancia, el mejor modelo depende de los requisitos específicos de su proyecto y del equilibrio entre precisión, velocidad y limitación de recursos.