Ir al contenido

YOLOv10 vs YOLO11: Una comparación técnica para la detección de objetos

Seleccionar el modelo de detección de objetos óptimo es una decisión crítica que equilibra la precisión, la velocidad y las limitaciones de implementación. Esta página proporciona una comparación técnica exhaustiva entre YOLOv10, un modelo centrado en la eficiencia de extremo a extremo, y Ultralytics YOLO11, el modelo de última generación de Ultralytics, reconocido por su versatilidad, rendimiento y facilidad de uso. Profundizaremos en sus diferencias arquitectónicas, puntos de referencia de rendimiento y aplicaciones ideales para ayudarle a tomar una decisión informada.

YOLOv10: Superando los Límites de la Eficiencia

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización: Universidad de Tsinghua
Fecha: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Documentación: https://docs.ultralytics.com/models/yolov10/

YOLOv10, presentada en mayo de 2024, es un modelo de detección de objetos que prioriza el rendimiento en tiempo real y de extremo a extremo. Su principal innovación es la eliminación de la Supresión No Máxima (NMS) durante el post-procesamiento, que tradicionalmente se suma a la latencia de inferencia. Esto se logra a través de una nueva estrategia de entrenamiento llamada asignaciones duales consistentes.

Arquitectura y Características Clave

El diseño de YOLOv10 se basa en un enfoque holístico de la eficiencia y la precisión. Introduce varias optimizaciones arquitectónicas para reducir la redundancia computacional y mejorar la capacidad del modelo. Las características clave incluyen un encabezado de clasificación ligero y una estrategia de submuestreo espacial-canal desacoplada para preservar la información de manera más eficaz. Al eliminar el paso NMS, YOLOv10 pretende simplificar el proceso de despliegue y reducir la latencia, convirtiéndose en un verdadero detector de extremo a extremo.

Fortalezas

  • Eficiencia mejorada: Muestra un rendimiento impresionante en las compensaciones de latencia-precisión y tamaño-precisión, particularmente en entornos con recursos limitados.
  • Diseño sin NMS: Eliminar el paso de post-procesamiento NMS simplifica la implementación y reduce el tiempo de inferencia de extremo a extremo.
  • Investigación de vanguardia: Representa una contribución académica significativa a la detección de objetos en tiempo real al abordar los cuellos de botella del post-procesamiento.

Debilidades

  • Modelo más reciente: Al ser una versión reciente de un equipo de investigación universitario, tiene una comunidad más pequeña y menos integraciones de terceros en comparación con el ecosistema Ultralytics, que está bien establecido.
  • Especialización en tareas: YOLOv10 se centra principalmente en la detección de objetos. Carece de la versatilidad incorporada para otras tareas de visión como la segmentación, la clasificación y la estimación de pose que son nativas de YOLO11.
  • Integración en el ecosistema: Aunque está construido sobre el framework de Ultralytics, puede requerir un esfuerzo adicional para integrarse en flujos de trabajo integrales de MLOps en comparación con los modelos desarrollados y mantenidos directamente por Ultralytics.

Casos de Uso Ideales

YOLOv10 es particularmente adecuado para aplicaciones donde la baja latencia y la eficiencia computacional son las máximas prioridades:

  • Edge AI: Ideal para la implementación en dispositivos con potencia computacional limitada, como teléfonos móviles y sistemas integrados en NVIDIA Jetson o Raspberry Pi.
  • Procesamiento de alta velocidad: Adecuado para aplicaciones que requieren una inferencia muy rápida, como drones autónomos y robótica.
  • Análisis en Tiempo Real: Perfecto para entornos de ritmo rápido que necesitan detección de objetos inmediata, como la gestión del tráfico.

Más información sobre YOLOv10

Ultralytics YOLO11: La vanguardia de la versatilidad y el rendimiento

Autores: Glenn Jocher, Jing Qiu
Organización: Ultralytics
Fecha: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 es la última evolución en la serie YOLO de Ultralytics, basada en el éxito de modelos muy populares como YOLOv8. Está diseñado para ofrecer una precisión de última generación y un equilibrio de rendimiento superior, a la vez que es increíblemente fácil de usar e integrar. YOLO11 no es solo un detector de objetos, sino un marco integral de IA de visión.

Arquitectura y Características Clave

YOLO11 presenta una arquitectura altamente optimizada con extracción de características avanzada y un diseño de red optimizado. Esto se traduce en una mayor precisión, a menudo con un recuento de parámetros reducido en comparación con sus predecesores. Una ventaja clave de YOLO11 es su versatilidad. Admite de forma nativa una amplia gama de tareas, incluyendo la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los cuadros delimitadores orientados (OBB).

Esta versatilidad está respaldada por un ecosistema bien mantenido. Ultralytics proporciona una experiencia de usuario optimizada con una API de python y una CLI sencillas, una amplia documentación y una integración perfecta con herramientas como Ultralytics HUB para el entrenamiento y la implementación sin código. El modelo se beneficia de procesos de entrenamiento eficientes, pesos pre-entrenados disponibles, desarrollo activo y un sólido apoyo de la comunidad. Además, los modelos YOLO11 están diseñados para la eficiencia, requiriendo menos memoria durante el entrenamiento y la inferencia en comparación con muchas otras arquitecturas, especialmente los modelos basados en transformadores.

Fortalezas

  • Rendimiento de última generación: Alcanza puntuaciones mAP de primer nivel con un excelente equilibrio entre velocidad y precisión.
  • Versátil y Multitarea: Un único framework de modelo puede gestionar la detección, la segmentación, la clasificación, la pose y el OBB, proporcionando una flexibilidad inigualable para proyectos complejos.
  • Facilidad de uso: Una API sencilla e intuitiva y una documentación completa lo hacen accesible tanto para principiantes como para expertos.
  • Ecosistema Sólido: Se beneficia de un desarrollo activo, actualizaciones frecuentes, un sólido apoyo de la comunidad y una integración perfecta con herramientas de MLOps como Ultralytics HUB.
  • Eficiencia en el entrenamiento y la implementación: Ofrece flujos de trabajo de entrenamiento eficientes, menores requisitos de memoria y está optimizado para una amplia gama de hardware, desde dispositivos periféricos hasta servidores en la nube.

Debilidades

  • Como detector de una sola etapa, puede enfrentar desafíos con objetos extremadamente pequeños en comparación con algunos detectores especializados de dos etapas.
  • Los modelos más grandes, aunque muy precisos, requieren recursos computacionales significativos para el entrenamiento y la implementación.

Casos de Uso Ideales

La combinación de alto rendimiento, versatilidad y facilidad de uso de YOLO11 lo convierte en la opción ideal para un amplio espectro de aplicaciones del mundo real:

  • Automatización industrial: Para el control de calidad de alta precisión y la supervisión de procesos en la fabricación.
  • Atención Sanitaria: En el análisis de imágenes médicas para tareas como la detección de tumores o la segmentación celular.
  • Seguridad y Vigilancia: Impulsa sistemas de seguridad avanzados con detección y seguimiento de amenazas en tiempo real.
  • Análisis minorista: Mejora de la gestión de inventario y análisis del comportamiento del cliente.
  • Proyectos Multi-Tarea: Perfecto para aplicaciones que requieren detección de objetos, segmentación y estimación de pose simultáneamente, como los sistemas avanzados de asistencia al conductor.

Más información sobre YOLO11

Comparación directa de rendimiento: YOLOv10 vs. YOLO11

Al comparar los modelos directamente, observamos distintas compensaciones. Los modelos YOLOv10, particularmente las variantes más pequeñas, están diseñados para una eficiencia extrema, a menudo con menos parámetros y FLOPs. Esto los convierte en fuertes contendientes para tareas críticas de latencia.

Sin embargo, YOLO11 demuestra un perfil de rendimiento más robusto y equilibrado. Alcanza un mAP ligeramente superior en la mayoría de los tamaños de modelo y muestra velocidades de inferencia significativamente más rápidas tanto en CPU como en GPU (T4 TensorRT). Este equilibrio superior entre velocidad y precisión, combinado con sus capacidades multitarea y su ecosistema maduro, convierte a YOLO11 en una opción más práctica y potente para la mayoría de los escenarios de desarrollo e implementación.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Conclusión: ¿Qué modelo debería elegir?

Tanto YOLOv10 como YOLO11 son modelos potentes que superan los límites de la detección de objetos.

YOLOv10 es una excelente opción para investigadores y desarrolladores centrados en aplicaciones especializadas y de latencia crítica, donde la arquitectura sin NMS proporciona una ventaja clara. Su diseño ligero la hace ideal para su implementación en dispositivos de borde con grandes limitaciones.

Sin embargo, para la gran mayoría de los desarrolladores, investigadores y aplicaciones comerciales, Ultralytics YOLO11 es la opción recomendada. Su ligera ventaja en precisión y su velocidad de inferencia superior proporcionan un mejor equilibrio de rendimiento general. Lo que es más importante, la versatilidad sin igual de YOLO11 en múltiples tareas de visión, combinada con su facilidad de uso y el ecosistema Ultralytics robusto y bien mantenido, acelera significativamente el desarrollo y simplifica la implementación. La comunidad activa, la amplia documentación y la perfecta integración con herramientas como Ultralytics HUB hacen de YOLO11 no solo un modelo, sino una solución completa para construir aplicaciones avanzadas de IA de visión.

Si está explorando otros modelos, considere consultar las comparaciones entre YOLOv9 vs YOLO11 o YOLOv8 vs YOLO11 para comprender la evolución y encontrar la opción perfecta para su proyecto.



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios