YOLOv10 vs. YOLOv5: Análisis profundo de la arquitectura y el rendimiento

En el panorama de la visión artificial, que evoluciona rápidamente, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta comparación explora las diferencias técnicas entre YOLOv10, una versión académica reciente que se centra en el entrenamiento sin NMS, y YOLOv5, el legendario modelo de Ultralytics conocido por su solidez y adopción en toda la industria. Si bien ambos modelos provienen del linaje You Only Look Once, se adaptan a diferentes prioridades de ingeniería y entornos de implementación.

Descripciones generales del modelo

YOLOv10: El especialista en eficiencia

Lanzado en mayo de 2024 por investigadores de la Universidad de Tsinghua, YOLOv10 introduce mecanismos arquitectónicos diseñados para eliminar la necesidad de Supresión No Máxima (NMS) durante la inferencia. Mediante la utilización de asignaciones duales consistentes durante el entrenamiento, YOLOv10 pretende reducir la latencia de extremo a extremo, lo que lo convierte en un firme candidato para aplicaciones de borde donde cada milisegundo de latencia de inferencia importa.

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización: Universidad de Tsinghua
Fecha: 2024-05-23
Arxiv:YOLOv10: Detección de objetos de extremo a extremo en tiempo real
GitHub:THU-MIG/yolov10

Más información sobre YOLOv10

Ultralytics YOLOv5: El estándar de la industria

Desde su lanzamiento en 2020 por Ultralytics, YOLOv5 ha definido la facilidad de uso en la comunidad de la IA. Prioriza un equilibrio entre velocidad, precisión y utilidad de ingeniería. Más allá de las métricas brutas, YOLOv5 ofrece un ecosistema maduro, integrándose a la perfección con herramientas de implementación móvil, plataformas de seguimiento de experimentos y flujos de trabajo de gestión de conjuntos de datos. Su versatilidad se extiende más allá de la detection para incluir la clasificación de imágenes y la segmentación de instancias.

Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub:ultralytics/yolov5

Más información sobre YOLOv5

Diferencias Arquitectónicas

La principal divergencia radica en cómo se procesan las predicciones. YOLOv5 utiliza una arquitectura basada en anclajes altamente optimizada que se basa en NMS para filtrar los cuadros delimitadores superpuestos. Este método está probado en batalla y es robusto en diversos conjuntos de datos.

Por el contrario, YOLOv10 emplea una estrategia de asignación dual consistente. Esto permite que el modelo prediga un único cuadro óptimo para cada objeto durante la inferencia, eliminando teóricamente el paso de NMS por completo. Esta reducción en la sobrecarga de post-procesamiento es la principal ventaja de YOLOv10, que ofrece una menor latencia en dispositivos edge como NVIDIA Jetson Orin Nano. Además, YOLOv10 incorpora diseños de eficiencia holística en su backbone y head para minimizar los parámetros (params) y las operaciones de punto flotante (FLOPs).

Eficiencia de Memoria

Una característica distintiva de los modelos de Ultralytics como YOLOv5 (y el nuevo YOLO11) es su huella de memoria optimizada. A diferencia de algunos detectores basados en transformadores que consumen grandes cantidades de memoria CUDA, los modelos de Ultralytics están diseñados para entrenarse de manera eficiente en hardware de consumo, democratizando el acceso a la IA de última generación.

Métricas de rendimiento

La siguiente tabla destaca las ventajas y desventajas de rendimiento. YOLOv10 generalmente alcanza una Precisión Media Promedio (mAP) más alta con menos parámetros en comparación con la arquitectura YOLOv5 anterior. Sin embargo, YOLOv5 sigue siendo competitivo en velocidad de inferencia bruta en ciertas configuraciones de hardware, particularmente cuando se utilizan formatos de exportación optimizados como TensorRT u ONNX.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Fortalezas y Debilidades

Análisis de YOLOv10

Ventajas:

Sin NMS: Eliminar el paso de supresión no máxima simplifica el pipeline de implementación y estabiliza la latencia de inferencia.
Eficiencia de parámetros: Logra una alta precisión con pesos de modelo más pequeños, lo cual es beneficioso para dispositivos con restricciones de almacenamiento.
Precisión de última generación: Supera a las versiones anteriores de YOLO en métricas puras de mAP en el benchmark COCO.

Debilidades:

Versatilidad limitada: Se centra principalmente en la detección de objetos, careciendo de soporte nativo para tareas complejas como la estimación de la pose o la detección de cajas delimitadoras orientadas (OBB) que se encuentran en los modelos Ultralytics más nuevos.
Ecosistema en desarrollo: Como modelo centrado en la investigación, puede carecer de los extensos plugins de la comunidad, las integraciones probadas y el soporte empresarial disponibles para los modelos nativos de Ultralytics.

Análisis de YOLOv5

Ventajas:

Versatilidad inigualable: Admite la detección, la segmentación y la clasificación de fábrica.
Ecosistema Robusto: Respaldado por Ultralytics, se integra sin esfuerzo con herramientas como Ultralytics HUB, Roboflow y Comet ML.
Listo para la implementación: Existe una extensa documentación para la exportación a CoreML, TFLite, TensorRT y OpenVINO, lo que garantiza implementaciones de producción sin problemas.
Eficiencia del Entrenamiento: Conocido por su dinámica de entrenamiento estable y su bajo uso de memoria, lo que lo hace accesible a los desarrolladores con configuraciones de una sola GPU.

Debilidades:

Arquitectura Envejecida: Aunque sigue siendo potente, su relación pura mAP/FLOPs ha sido superada por iteraciones más recientes como YOLOv8 y YOLO11.
Dependencia de anclajes: Se basa en cajas de anclaje que pueden requerir un ajuste manual para conjuntos de datos con relaciones de aspecto de objeto extremas.

Casos de Uso Ideales

La elección entre estos dos a menudo se reduce a las limitaciones específicas de su entorno de implementación.

Elige YOLOv10 si: Estás construyendo un sistema de detección de objetos dedicado para un dispositivo integrado donde eliminar la sobrecarga computacional de NMS proporciona una ventaja de velocidad crítica, o si requieres el mAP absoluto más alto de un modelo de tamaño reducido.
Elige YOLOv5 si: Necesitas un modelo fiable y multi-tarea para una pipeline de producción. Su capacidad para manejar la segmentation de instancias y la classification lo convierte en una "navaja suiza" para la visión artificial. Además, si tu equipo confía en flujos de trabajo MLOps estándar, la perfecta integración de YOLOv5 en el ecosistema Ultralytics reduce significativamente el tiempo de desarrollo.

Experiencia del usuario y ecosistema

Una de las características definitorias de los modelos de Ultralytics es la atención que se presta a la experiencia del desarrollador. YOLOv5 estableció el estándar de "simplemente funciona", y esta filosofía continúa. Los usuarios pueden entrenar un modelo YOLOv5 en datos personalizados con tan solo unas pocas líneas de código, aprovechando los pesos pre-entrenados para acelerar la convergencia.

Por el contrario, si bien YOLOv10 proporciona excelentes resultados académicos, su integración en pipelines de producción complejos podría requerir una ingeniería más personalizada. Ultralytics mantiene una vibrante comunidad de código abierto, lo que garantiza que los errores se corrijan rápidamente y que las funciones se añadan en función de los comentarios de los usuarios en el mundo real.

Comparación de código

Ejecutar estos modelos es sencillo. A continuación, se muestran ejemplos de cómo cargar y predecir con cada uno usando Python.

Usando YOLOv10:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform inference on an image
results = model("path/to/image.jpg")
results[0].show()

Usando YOLOv5 (a través de PyTorch Hub):

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference
results = model("path/to/image.jpg")
results.show()

Conclusión

Ambos modelos representan logros significativos en la visión artificial. YOLOv10 supera los límites de la optimización de la latencia con su diseño sin NMS, lo que la convierte en una opción interesante para tareas de detección especializadas y de alta velocidad.

Sin embargo, para la mayoría de los desarrolladores y empresas, el ecosistema de Ultralytics, representado aquí por la duradera fiabilidad de YOLOv5 y el rendimiento de vanguardia de YOLO11, ofrece una solución más completa. La combinación de facilidad de uso, documentación exhaustiva y capacidades multitarea garantiza que dedique menos tiempo a la depuración y más tiempo a la implementación de valor.

Para aquellos que buscan actualizar desde YOLOv5 manteniendo los beneficios del ecosistema, recomendamos encarecidamente explorar YOLO11, que ofrece un rendimiento de última generación, detección sin anclaje y soporte para todo el espectro de tareas de visión, incluyendo OBB y la estimación de pose.