YOLOv10 vs. YOLOv9: Una comparación técnica
Elegir el modelo de detección de objetos adecuado es crucial para cualquier proyecto de visión artificial, ya que influye directamente en su rendimiento, velocidad y viabilidad de implementación. A medida que el campo evoluciona rápidamente, mantenerse informado sobre las últimas arquitecturas es clave. Esta página proporciona una comparación técnica detallada entre dos modelos de última generación: YOLOv10 y YOLOv9. Analizaremos sus innovaciones arquitectónicas, métricas de rendimiento y casos de uso ideales para ayudarle a tomar una decisión informada en función de factores como la precisión, la velocidad y los requisitos de recursos.
YOLOv10: Eficiencia de Extremo a Extremo en Tiempo Real
YOLOv10 es un modelo de vanguardia de investigadores de la Universidad de Tsinghua, lanzado en mayo de 2024. Está diseñado para ofrecer un rendimiento excepcional en tiempo real mediante la creación de un pipeline de detección de objetos verdaderamente de extremo a extremo. La innovación más destacada es la eliminación de la Supresión No Máxima (NMS), un paso de post-procesamiento que tradicionalmente añade latencia de inferencia. Esto convierte a YOLOv10 en una opción muy eficiente para aplicaciones donde la velocidad es crítica.
Detalles técnicos:
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Documentación: https://docs.ultralytics.com/models/yolov10/
Arquitectura y Características Clave
YOLOv10 introduce varios avances arquitectónicos para superar los límites de la compensación entre velocidad y precisión.
- Entrenamiento sin NMS: La innovación principal es el uso de Asignaciones Duales Consistentes durante el entrenamiento. Esta estrategia proporciona una supervisión enriquecida para el modelo, al tiempo que le permite operar sin NMS durante la inferencia. Al eliminar este cuello de botella de post-procesamiento, YOLOv10 logra una menor latencia y simplifica el proceso de implementación.
- Diseño holístico impulsado por la eficiencia y la precisión: Los autores llevaron a cabo una optimización integral de los componentes del modelo. Esto incluye un encabezado de clasificación ligero para reducir la carga computacional, un submuestreo desacoplado espacial-canal para preservar la información de manera más efectiva y un diseño de bloques guiado por rango para eliminar la redundancia computacional. Para aumentar la precisión con una sobrecarga mínima, la arquitectura incorpora convoluciones de kernel grande y autoatención parcial (PSA).
Fortalezas y Debilidades
Ventajas:
- Eficiencia extrema: YOLOv10 está optimizado para una latencia y un coste computacional mínimos, lo que lo convierte en uno de los detectores de objetos más rápidos disponibles.
- Implementación End-to-End: El diseño sin NMS elimina los pasos de post-procesamiento, simplificando la implementación y reduciendo el tiempo de inferencia.
- Excelente Equilibrio de Rendimiento: Logra un equilibrio de última generación entre velocidad y precisión, a menudo superando a otros modelos a escalas similares.
- Integración de Ultralytics: YOLOv10 está perfectamente integrado en el ecosistema de Ultralytics. Esto proporciona a los usuarios una experiencia optimizada, incluyendo una API de Python sencilla, una amplia documentación y el soporte de un framework bien mantenido.
Debilidades:
- Novedad: Al ser un modelo muy nuevo, la comunidad y los recursos de terceros aún están creciendo en comparación con modelos más establecidos como Ultralytics YOLOv8.
Casos de Uso Ideales
YOLOv10 es la opción ideal para aplicaciones donde el rendimiento y la eficiencia en tiempo real son las máximas prioridades.
- Edge AI: Su baja latencia y tamaño reducido la hacen perfecta para la implementación en dispositivos con recursos limitados como NVIDIA Jetson y plataformas móviles.
- Analítica de vídeo de alta velocidad: Escenarios que requieren detección inmediata en flujos de vídeo, como la gestión del tráfico o la monitorización de seguridad en vivo.
- Sistemas autónomos: Aplicaciones en robótica y drones donde la toma rápida de decisiones es esencial.
YOLOv9: Información de Gradiente Programable
Presentado en febrero de 2024, YOLOv9 es un avance significativo de los investigadores del Instituto de Ciencias de la Información de Taiwán, Academia Sinica. Aborda un problema fundamental en las redes neuronales profundas: la pérdida de información a medida que los datos fluyen a través de capas sucesivas. YOLOv9 introduce la Información de Gradiente Programable (PGI) para garantizar que haya información de gradiente confiable disponible para las actualizaciones de la red, lo que lleva a un aprendizaje más efectivo y una mayor precisión.
Detalles técnicos:
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Documentación: https://docs.ultralytics.com/models/yolov9/
Arquitectura y Características Clave
La arquitectura de YOLOv9 está diseñada para maximizar la retención de información y la eficiencia del aprendizaje.
- Información de Gradiente Programable (PGI): Este novedoso concepto ayuda a generar gradientes fiables para actualizar los pesos de la red, abordando eficazmente el problema del cuello de botella de la información y evitando que se pierdan detalles en arquitecturas profundas.
- Red Generalizada de Agregación de Capas Eficiente (GELAN): YOLOv9 introduce GELAN, una nueva arquitectura de red que optimiza la utilización de parámetros y la eficiencia computacional. Al combinar las fortalezas de arquitecturas anteriores, GELAN permite que YOLOv9 logre un alto rendimiento sin ser computacionalmente prohibitivo.
Fortalezas y Debilidades
Ventajas:
- Alta precisión: YOLOv9 alcanza una precisión de última generación, y su variante más grande (YOLOv9-E) establece un nuevo punto de referencia para mAP en el conjunto de datos COCO.
- Arquitectura Eficiente: La combinación de PGI y GELAN resulta en un rendimiento excelente con menos parámetros en comparación con otros modelos que buscan niveles de precisión similares.
- Preservación de la Información: Su diseño central mitiga eficazmente la pérdida de información, lo que lleva a una mejor representación de las características y la detección de objetos difíciles de detectar.
- Ecosistema Ultralytics: Al igual que YOLOv10, YOLOv9 se beneficia de la integración en el framework de Ultralytics, ofreciendo facilidad de uso, documentación completa y acceso a un sólido conjunto de herramientas para el entrenamiento y el despliegue.
Debilidades:
- Mayor latencia que YOLOv10: Si bien es eficiente para su clase de precisión, generalmente tiene una latencia de inferencia más alta en comparación con YOLOv10, como se ve en la tabla de rendimiento.
- Complejidad: Los conceptos de PGI y las ramas reversibles auxiliares añaden una capa de complejidad a la arquitectura en comparación con los diseños más sencillos.
Casos de Uso Ideales
YOLOv9 es adecuado para aplicaciones donde lograr la mayor precisión posible es el objetivo principal y los recursos computacionales están menos limitados.
- Análisis de alta resolución: Escenarios que exigen un análisis detallado de imágenes grandes, como en imágenes médicas o análisis de imágenes de satélite.
- Sistemas de Seguridad Avanzados: Entornos de vigilancia complejos donde la identificación precisa de una amplia gama de objetos es fundamental para la seguridad.
- Control de calidad: Aplicaciones industriales donde la detección de defectos diminutos con alta precisión es necesaria para el control de calidad de la fabricación.
Rendimiento y benchmarks: YOLOv10 vs. YOLOv9
La siguiente tabla proporciona una comparación detallada del rendimiento entre varias escalas de modelos YOLOv10 y YOLOv9 en el conjunto de datos COCO. Las métricas ilustran claramente las compensaciones de diseño entre las dos familias.
YOLOv10 demuestra consistentemente una menor latencia y una mayor eficiencia de parámetros en todos los tamaños de modelo comparables. Por ejemplo, YOLOv10-B alcanza un mAP similar a YOLOv9-C, pero con un 46% menos de latencia y un 25% menos de parámetros. Esto destaca la fortaleza de YOLOv10 en aplicaciones en tiempo real.
Por otro lado, YOLOv9-E alcanza el mAP más alto con un 55.6%, lo que lo convierte en la mejor opción para escenarios donde la precisión no es negociable, incluso a costa de una mayor latencia y más parámetros.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Conclusión: ¿Qué modelo debería elegir?
La elección entre YOLOv10 y YOLOv9 depende enteramente de las necesidades específicas de tu proyecto.
-
Elija YOLOv10 si sus principales limitaciones son la velocidad, la latencia y la eficiencia computacional. Su diseño NMS-free, de extremo a extremo, la convierte en la opción superior para el procesamiento de vídeo en tiempo real, la implementación en dispositivos de borde y cualquier aplicación donde la inferencia rápida y eficiente sea crítica.
-
Elija YOLOv9 si su objetivo principal es lograr la máxima precisión de detección posible. Su innovadora arquitectura destaca en la preservación de la información, lo que la hace ideal para escenas complejas y aplicaciones de alto riesgo donde la precisión supera la necesidad de la latencia absoluta más baja.
Ambos modelos son arquitecturas potentes y de última generación que se benefician enormemente de su integración en el ecosistema de Ultralytics, lo que simplifica su uso e implementación.
Explorar Otros Modelos
Si bien YOLOv10 e YOLOv9 representan la vanguardia, el ecosistema de Ultralytics admite una amplia gama de modelos. Para los desarrolladores que buscan un modelo maduro, versátil y bien equilibrado, Ultralytics YOLOv8 sigue siendo una excelente opción, ya que ofrece soporte para múltiples tareas de visión más allá de la detección. Para aquellos que buscan los últimos avances de Ultralytics, consulte YOLO11. Puede explorar más comparaciones en nuestra página de comparación de modelos.