Ir al contenido

YOLOv10 frente a YOLO: comparación técnica detallada para la detección de objetos

Elegir el modelo óptimo de detección de objetos es crucial para las aplicaciones de visión por ordenador, ya que los modelos difieren significativamente en precisión, velocidad y eficacia. Esta página ofrece una comparación técnica detallada entre YOLOv10 y YOLO, dos modelos avanzados en el panorama de la detección de objetos. Exploraremos sus arquitecturas, puntos de referencia de rendimiento y aplicaciones adecuadas para guiar su proceso de selección de modelos.

YOLOv10

YOLOv10 es la última evolución de la serie YOLO , famosa por su capacidad de detección de objetos en tiempo real. Desarrollado por investigadores de la Universidad de Tsinghua, y presentado el 2024-05-23(arXiv preprint arXiv:2405.14458), YOLOv10 está diseñado para ofrecer una eficiencia integral y un rendimiento mejorado. La implementación oficial PyTorch está disponible en GitHub.

Arquitectura y características principales

YOLOv10 introduce varias innovaciones centradas en racionalizar la arquitectura y mejorar el equilibrio entre velocidad y precisión, avanzando hacia un entrenamiento sin NMS y un diseño de modelos eficiente. Los aspectos arquitectónicos más destacados son:

  • Entrenamiento sin NMS: Utiliza asignaciones duales coherentes para la formación sin supresión no máxima (NMS), lo que reduce la sobrecarga de postprocesamiento y la latencia de inferencia.
  • Diseño holístico basado en la eficiencia y la precisión: Optimización integral de varios componentes del modelo para minimizar la redundancia computacional y mejorar las capacidades de detección.
  • Estructura troncal y de red: Capas de extracción de características refinadas y una estructura de red racionalizada para mejorar la eficiencia de los parámetros y acelerar el procesamiento.

Métricas de rendimiento

YOLOv10 ofrece un rendimiento de vanguardia a través de varias escalas de modelos, proporcionando una gama de opciones para adaptarse a diferentes necesidades computacionales. Las métricas de rendimiento en el conjunto de datos COCO incluyen:

  • mAP: Alcanza una precisión media competitiva (mAP) en el conjunto de datos de validación COCO. Por ejemplo, YOLOv10-S alcanza un 46,7% de mAPval50-95.
  • Velocidad de inferencia: Ofrece velocidades de inferencia impresionantes, con YOLOv10-N alcanzando un tiempo de inferencia de 1,56 ms en T4 TensorRT10.
  • Tamaño del modelo: Disponible en múltiples tallas (N, S, M, B, L, X) con parámetros de tamaño de modelo que van desde 2,3M para YOLOv10-N hasta 56,9M para YOLOv10-X.

Puntos fuertes y débiles

Puntos fuertes:

  • Rendimiento en tiempo real: Optimizado para la velocidad y la eficiencia, por lo que es ideal para aplicaciones en tiempo real.
  • Alta precisión: Alcanza una precisión de vanguardia, especialmente con las variantes de modelos más grandes como YOLOv10-X.
  • Eficiencia de extremo a extremo: El diseño sin NMS reduce la latencia y simplifica la implantación.
  • Versatilidad: Adecuada para diversas tareas de detección de objetos y adaptable a diferentes plataformas de hardware, incluidos dispositivos edge como Raspberry Pi y NVIDIA Jetson.
  • Facilidad de uso: la integración conel paquetePython Ultralytics simplifica los flujos de trabajo de formación, validación e implantación.

Debilidades:

  • Modelo emergente: Al ser un modelo reciente, el apoyo de la comunidad y los pesos preentrenados en ecosistemas más amplios podrían estar aún en desarrollo en comparación con modelos más establecidos.
  • Contrapartida: los modelos más pequeños dan prioridad a la velocidad, potencialmente a costa de cierta precisión en comparación con las variantes más grandes o los modelos más complejos.

Casos prácticos

YOLOv10 es idóneo para aplicaciones que requieren una detección de objetos precisa y de alta velocidad, como:

Más información sobre YOLOv10

DAMO-YOLO

YOLO, desarrollado por el Grupo Alibaba, es un modelo de detección de objetos de alto rendimiento presentado en 2022(arXiv preprint arXiv:2211.15444v2). Está diseñado para ser rápido y preciso, e incorpora varias técnicas avanzadas para la detección eficaz de objetos. La implementación oficial y la documentación están disponibles en GitHub.

Arquitectura y características principales

YOLO integra varios componentes innovadores para lograr un equilibrio entre velocidad y precisión:

  • Red troncal NAS: Utiliza la búsqueda de arquitectura neuronal (NAS) para diseñar redes troncales eficientes optimizadas para tareas de detección de objetos.
  • RepGFPN eficiente: Emplea una red piramidal de características de gradiente reparametrizado (RepGFPN) para la fusión eficiente de características y la representación de características multiescala.
  • ZeroHead: un cabezal de detección ligero diseñado para minimizar la carga computacional y mantener la precisión de la detección.
  • AlignedOTA: utiliza la asignación de transporte óptima alineada (AlignedOTA) para mejorar la asignación de etiquetas durante el entrenamiento, lo que mejora el rendimiento de la detección.
  • Mejora de la destilación: Incorpora técnicas de destilación de conocimientos para mejorar aún más el rendimiento del modelo.

Métricas de rendimiento

Los modelos YOLO vienen en varios tamaños (Tiny, Small, Medium, Large) para satisfacer las diferentes necesidades de rendimiento. Entre los indicadores clave de rendimiento se incluyen:

  • mAP: Alcanza un elevado mAP en conjuntos de datos de referencia como COCO. YOLO, por ejemplo, alcanza el 50,8% de mAPval50-95.
  • Velocidad de inferencia: Ofrece velocidades de inferencia rápidas, por lo que es adecuado para aplicaciones en tiempo real, con YOLO logrando un tiempo de inferencia de 2,32 ms en T4 TensorRT10.
  • Tamaño del modelo: Los tamaños de los modelos varían, proporcionando flexibilidad para diferentes escenarios de despliegue, que van desde parámetros de 8,5M para YOLO a 42,1M para YOLO.

Puntos fuertes y débiles

Puntos fuertes:

  • Alta precisión: Consigue una excelente precisión de detección gracias a innovaciones arquitectónicas y técnicas de entrenamiento avanzadas.
  • Inferencia rápida: Diseñado para la velocidad, proporciona un rendimiento de inferencia eficiente adecuado para sistemas en tiempo real.
  • Diseño eficiente: Incorpora backbones NAS y cabezales ligeros para optimizar la eficiencia computacional.
  • Completo conjunto de funciones: Integra múltiples técnicas avanzadas como RepGFPN y AlignedOTA para un rendimiento robusto.

Debilidades:

  • Complejidad: La integración de NAS y múltiples componentes avanzados podría introducir complejidad en la personalización y modificación.
  • Recursos necesarios: Los modelos YOLO de mayor tamaño pueden requerir importantes recursos computacionales en comparación con las alternativas extremadamente ligeras.

Casos prácticos

YOLO es idóneo para aplicaciones que exigen gran precisión y rapidez en la detección de objetos, como:

  • Sistemas avanzados de asistencia al conductor (ADAS): Detección de objetos en escenarios de conducción autónoma.
  • Análisis de imágenes de alta resolución: Aplicaciones que requieren un análisis detallado de imágenes de alta resolución, como el análisis de imágenes de satélite.
  • Robótica y automatización: Detección precisa de objetos para navegación y manipulación robótica en automatización industrial.
  • Sistemas de vigilancia: Detección de alta precisión para romper el statu quo de la vigilancia con IA de visión.

Más información sobre YOLO

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Los usuarios también podrían estar interesados en comparar YOLOv10 y YOLO con otros modelos de la familiaYOLO Ultralytics y más allá:

Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios