YOLOv10 vs YOLO11: Navegando por la frontera de la detección de objetos en tiempo real

Elegir el modelo de visión artificial adecuado es fundamental para el éxito de cualquier proyecto de IA, equilibrando las ventajas y desventajas entre velocidad, precisión y facilidad de implementación. Esta guía proporciona una comparación técnica detallada entre YOLOv10, una versión académica que se centra en el entrenamiento sin NMS, y Ultralytics YOLO11, la última evolución de la reconocida serie YOLO diseñada para un rendimiento y una versatilidad de nivel empresarial.

Si bien YOLOv10 introduce conceptos arquitectónicos interesantes para reducir la latencia, YOLO11 refina el estado del arte con una precisión superior, un soporte de tareas más amplio y un ecosistema robusto que simplifica el flujo de trabajo desde la anotación de datos hasta la implementación del modelo.

YOLOv10: El especialista sin NMS

YOLOv10 surgió de la investigación académica con un objetivo específico: optimizar el pipeline de inferencia eliminando la necesidad de la Supresión No Máxima (NMS). Este enfoque apunta a una menor latencia en escenarios edge específicos.

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización:Universidad de Tsinghua
Fecha: 2024-05-23
Arxiv:2405.14458
GitHub:THU-MIG/yolov10
Documentación:Documentación de YOLOv10

Arquitectura e innovación

La característica que define a YOLOv10 es su estrategia de asignación dual coherente para un entrenamiento NMS. Los modelos YOLO tradicionales suelen predecir varios recuadros delimitadores para un mismo objeto, lo que requiere un postprocesamiento NMS para filtrar los duplicados. YOLOv10 modifica la pérdida de entrenamiento para animar al modelo a producir directamente un único recuadro óptimo por objeto. Además, emplea un diseño de modelo holístico basado en la eficiencia y la precisión, utilizando cabezales de clasificación ligeros para reducir los FLOP y el número de parámetros.

Fortalezas y Debilidades

Ventajas:

Inferencia sin NMS: Al eliminar el paso de NMS, el modelo reduce la latencia del post-procesamiento, lo que puede ser beneficioso en hardware con potencia de CPU limitada para operaciones no matriciales.
Eficiencia de parámetros: La arquitectura está diseñada para ser ligera, logrando una buena precisión con relativamente pocos parámetros.

Debilidades:

Versatilidad limitada: YOLOv10 se centra casi exclusivamente en la detección de objetos. Carece de soporte nativo para tareas complejas como la segmentación de instancias o la estimación de la pose, lo que limita su utilidad en aplicaciones de IA multifacéticas.
Soporte centrado en la investigación: Como proyecto académico, puede que no ofrezca el mismo nivel de mantenimiento a largo plazo, frecuencia de actualización o integración con herramientas de implementación que los modelos con soporte empresarial.

Caso de uso ideal

YOLOv10 es más adecuado para aplicaciones altamente especializadas de una sola tarea donde la eliminación del paso NMS es fundamental para cumplir con los estrictos presupuestos de latencia en hardware integrado específico.

Más información sobre YOLOv10

Ultralytics YOLO11: El Pináculo de la Versatilidad y el Rendimiento

Ultralytics YOLO11 representa la vanguardia de la IA de visión, basándose en el legado de YOLOv8 y YOLOv5. Está diseñado no solo como un modelo, sino como una solución integral para los desafíos de la IA en el mundo real.

Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHub:ultralytics/ultralytics
Documentación:Documentación de YOLO11

Arquitectura y ecosistema

YOLO11 refina el mecanismo de detección sin anclajes con una arquitectura de backbone y cuello mejorada, incorporando módulos C3k2 y C2PSA que mejoran la eficiencia de la extracción de características. A diferencia de sus competidores, YOLO11 es una potencia multitarea. Un único marco de trabajo admite la detección, la segmentación, la clasificación, la estimación de la pose y las cajas delimitadoras orientadas (OBB), lo que permite a los desarrolladores consolidar su pila de IA.

Fundamentalmente, YOLO11 está respaldado por el Ecosistema Ultralytics. Esto garantiza una integración perfecta con herramientas para la gestión de datos, una fácil exportación de modelos a formatos como ONNX y TensorRT, y un sólido soporte de la comunidad.

Ventajas clave

Equilibrio de rendimiento superior: YOLO11 logra consistentemente puntuaciones mAP más altas al tiempo que mantiene velocidades de inferencia excepcionales, a menudo superando las alternativas sin NMS en el rendimiento del mundo real en las GPU.
Versatilidad inigualable: Ya sea que necesite track jugadores en deportes, segment imágenes médicas o detect objetos rotados en vistas aéreas, YOLO11 lo gestiona todo dentro de una API de python.
Facilidad de uso: La interfaz de Ultralytics es famosa por su sencillez. Entrenar un modelo de última generación requiere solo unas pocas líneas de código, democratizando el acceso a la IA avanzada.
Eficiencia del Entrenamiento: Las rutinas de entrenamiento optimizadas y los pesos pre-entrenados de alta calidad permiten una convergencia más rápida, lo que ahorra tiempo y recursos informáticos.
Menores requisitos de memoria: En comparación con arquitecturas basadas en transformadores como RT-DETR, YOLO11 es significativamente más eficiente en memoria durante el entrenamiento, lo que lo hace accesible en una gama más amplia de hardware.

Beneficio del ecosistema

El uso de YOLO11 otorga acceso a un conjunto de integraciones, incluyendo MLFlow para el seguimiento de experimentos y OpenVINO para la inferencia optimizada en hardware de Intel, lo que garantiza que su proyecto se escale sin problemas desde el prototipo hasta la producción.

Más información sobre YOLO11

Comparación del rendimiento: Velocidad, precisión y eficiencia

Al comparar YOLOv10 y YOLO11, es esencial mirar más allá del conteo de parámetros y examinar las métricas de rendimiento del mundo real. Si bien YOLOv10 reduce la complejidad teórica al eliminar NMS, YOLO11 demuestra velocidades de inferencia superiores en configuraciones de hardware estándar como la GPU T4 con TensorRT.

Los datos revelan que YOLO11 ofrece una mejor compensación para la mayoría de las aplicaciones. Por ejemplo, YOLO11n alcanza la misma precisión (39.5 mAP) que YOLOv10n, pero con una arquitectura más robusta compatible con la API de Ultralytics. A medida que aumenta el tamaño del modelo, las ventajas de YOLO11 en precisión se vuelven más pronunciadas, con YOLO11x alcanzando 54.7 mAP, estableciendo un listón alto para la precisión de la detección.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Análisis

Velocidad: YOLO11 proporciona una inferencia más rápida en GPU (TensorRT) en casi todos los tamaños de modelo. Por ejemplo, YOLO11l se ejecuta a 6.2 ms en comparación con los 8.33 ms de YOLOv10l, lo que representa una ventaja significativa de rendimiento para el análisis de video en tiempo real.
Precisión: YOLO11 supera consistentemente a YOLOv10 en mAP, asegurando menos falsos negativos y una mejor localización, lo cual es crítico para tareas de seguridad crítica como la navegación autónoma o la detección de defectos.
Cálculo: Si bien YOLO11 minimiza los parámetros, YOLO11 optimiza el grafo computacional real para ofrecer tiempos de ejecución más rápidos, lo que demuestra que el recuento de parámetros por sí solo no determina la velocidad.

Aplicación en el Mundo Real y Ejemplo de Código

La verdadera prueba de un modelo es la facilidad con la que se integra en un flujo de trabajo de producción. YOLO11 destaca en este aspecto gracias a su sencilla interfaz de Python. A continuación, se muestra un ejemplo de cómo cargar un modelo YOLO11 pre-entrenado y ejecutar la inferencia en una imagen.

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Este sencillo fragmento de código otorga acceso a un rendimiento de última generación. La misma API le permite pasar sin esfuerzo al entrenamiento en conjuntos de datos personalizados, a la validación del rendimiento del modelo o al seguimiento de objetos en transmisiones de vídeo.

Conclusión: El veredicto

Si bien YOLOv10 ofrece una visión innovadora de las arquitecturas sin NMS y es una opción respetable para la investigación académica o escenarios periféricos muy limitados, Ultralytics YOLO11 destaca como la opción superior para la gran mayoría de los desarrolladores y empresas.

La combinación de mayor precisión, mayor velocidad de inferencia en el mundo real y una versatilidad sin igual de YOLO11 la convierte en la solución definitiva para la visión artificial moderna. Con el respaldo del ecosistema de Ultralytics, que se mantiene activamente, los desarrolladores obtienen no solo un modelo, sino un socio a largo plazo en su trayectoria de IA, lo que garantiza que sus aplicaciones sigan siendo sólidas, escalables y de vanguardia.

Para aquellos que deseen explorar más a fondo, las comparaciones con otros modelos como YOLOv9 o RT-DETR pueden proporcionar contexto adicional sobre el panorama en evolución de la detección de objetos.