Ir al contenido

YOLOv5 YOLOv10: comparación técnica de detectores de objetos en tiempo real

La evolución de la arquitectura You Only Look Once (YOLO) ha sido una narrativa determinante en la historia de la visión artificial. Dos hitos destacados en esta línea temporal son YOLOv5, el estándar del sector en cuanto a fiabilidad y facilidad de uso, y YOLOv10, un avance académico centrado en eliminar los cuellos de botella del posprocesamiento. Esta guía ofrece una comparación técnica detallada para ayudar a los desarrolladores a elegir la herramienta adecuada para sus aplicaciones, al tiempo que explora cómo la última versión, YOLO26, unifica las fortalezas de ambas.

Orígenes y especificaciones del modelo

Antes de profundizar en las métricas de rendimiento, es esencial comprender los antecedentes de cada modelo.

YOLOv5
Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 26/06/2020
GitHub: yolov5
Documentación: YOLOv5

YOLOv10
Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización: Universidad de Tsinghua
Fecha: 23/05/2024
Arxiv: arXiv:2405.14458
GitHub: THU-MIG/yolov10
Documentación: YOLOv10

Más información sobre YOLOv5

Análisis de rendimiento

La siguiente tabla compara los modelos en el COCO , un punto de referencia estándar para la detección de objetos.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLOv10 alcanzar una precisión media (mAP) más alta con menos parámetros, lo que destaca la mayor eficiencia de su nueva arquitectura. Sin embargo, YOLOv5 competitivo en cuanto a velocidades GPU , especialmente en hardware antiguo, gracias a sus CUDA altamente optimizadas.

Más información sobre YOLOv10

Arquitectura y Diseño

YOLOv5: el estándar fiable

YOLOv5 basa en una estructura CSPNet modificada y un cuello PANet. Utiliza cabezales de detección estándar basados en anclajes, que requieren supresión no máxima (NMS) durante el posprocesamiento para filtrar los cuadros delimitadores duplicados.

  • Puntos fuertes: código base extremadamente maduro, ampliamente compatible con herramientas de terceros y despliegue estable en dispositivos periféricos como Raspberry Pi.
  • Debilidades: Depende de NMS, lo que puede introducir variabilidad en la latencia dependiendo del número de objetos en la escena.

YOLOv10: El pionero NMS

YOLOv10 un cambio de paradigma al emplear asignaciones duales consistentes para el entrenamiento NMS. Esto permite al modelo predecir exactamente un recuadro por objeto, eliminando la necesidad de pasos NMS .

  • Puntos fuertes: menor latencia de inferencia en escenas de alta densidad gracias a NMS ; el diseño eficiente de bloques guiado por rango reduce la redundancia computacional.
  • Debilidades: La arquitectura más reciente puede requerir ajustes de exportación específicos para algunos compiladores; menos apoyo histórico de la comunidad en comparación con la versión 5.

NMS del NMS

La supresión no máxima (NMS) es un paso de posprocesamiento que filtra los cuadros delimitadores superpuestos. Aunque es eficaz, es secuencial y requiere un gran esfuerzo computacional por parte de las CPU. Eliminarla, como se hace en YOLOv10 YOLO26, es fundamental para las aplicaciones en tiempo real en hardware periférico.

Ecosistema y facilidad de uso

Uno de los factores más importantes para los desarrolladores es el ecosistema que rodea a un modelo. Aquí es donde se hace evidente la diferencia entre un repositorio de investigación y una plataforma de producción.

La ventaja de Ultralytics

Ambos modelos pueden ejecutarse a través del ultralytics Python , que les da acceso a un conjunto robusto de herramientas.

Ejemplo de código

Cambiar entre modelos es tan sencillo como cambiar la cadena del nombre del modelo.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model_v5 = YOLO("yolov5s.pt")
model_v5.train(data="coco8.yaml", epochs=100)

# Load a pre-trained YOLOv10 model
model_v10 = YOLO("yolov10n.pt")
model_v10.predict("path/to/image.jpg")

Casos de Uso Ideales

Cuándo elegir YOLOv5

  • Sistemas heredados: si tienes una canalización existente basada en los formatos YOLOv5 .
  • Compatibilidad más amplia: para su implementación en sistemas integrados más antiguos en los que es posible que aún no se admitan los operadores más recientes.
  • Recursos comunitarios: cuando necesites acceder a miles de tutoriales e integraciones de terceros creados durante los últimos cinco años.

Cuándo elegir YOLOv10

  • Detección de alta densidad: Escenarios como el recuento de multitudes o el análisis del tráfico, en los que NMS el procesamiento.
  • Restricciones estrictas de latencia: robótica en tiempo real o conducción autónoma, donde cada milisegundo de latencia de inferencia cuenta.
  • Investigación: Experimentación con los últimos avances en estrategias de asignación y poda arquitectónica.

La recomendación definitiva: YOLO26

Mientras que YOLOv5 estabilidad y YOLOv10 inferencia NMS, el recién lanzado Ultralytics combina estas ventajas en un único marco superior.

¿Por qué actualizar a YOLO26? YOLO26 es nativamente integral, adopta el diseñoNMS pionero de YOLOv10 lo mejora con el robusto proceso Ultralytics .

  1. Optimizador MuSGD: inspirado en el entrenamiento LLM (concretamente en Kimi K2 de Moonshot AI), este optimizador garantiza una convergencia estable y un entrenamiento más rápido.
  2. Rendimiento: optimizado para la computación periférica, ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores.
  3. Precisión: incluye ProgLoss y STAL (Semantic-Token Alignment Loss), lo que mejora significativamente la detección de objetos pequeños, que suele ser un punto débil en los modelos anteriores.
  4. Versatilidad total: a diferencia de YOLOv10 se centra en la detección, YOLO26 ofrece modelos de última generación para segmentación, pose, clasificación y OBB.

Para cualquier proyecto nuevo que comience en 2026, YOLO26 es la opción recomendada, ya que ofrece la ruta más sencilla desde la anotación del conjunto de datos hasta la exportación del modelo.

Más información sobre YOLO26

Conclusión

Tanto YOLOv5 YOLOv10 momentos cruciales en la visión artificial. YOLOv5 democratizó la IA al hacerla accesible y fiable, mientras que YOLOv10 amplió los límites técnicos del procesamiento integral. Sin embargo, este campo evoluciona rápidamente. Con el lanzamiento de YOLO26, los desarrolladores ya no tienen que elegir entre la fiabilidad del Ultralytics y la velocidad de las arquitecturas NMS: YOLO26 ofrece ambas cosas.

Para otras alternativas modernas, también puede considerar explorar YOLO11 para tareas de visión de uso general o Real-Time DETR (RT-DETR) para la detección basada en transformadores.


Comentarios